谷歌Gemma 4来了:手机能跑的AI,性能却让人吃惊

4月2日,谷歌DeepMind一口气发了四个AI模型。
不是闭源的Gemini那种"你只能调API"的模型,而是开源的——下载到自己电脑、手机、甚至树莓派上就能跑的那种。
名字叫 Gemma 4。这个系列从第一代开始就主打"小而精",这次第四代终于把性能拉到了一个让人侧目的高度。
说实话,开源模型每个月都有新的,大家已经有点麻了。但这次Gemma 4有两件事值得注意:一是性能确实强,二是许可证变了。
第二件事可能比第一件更重要。
先别着急翻白眼说"又是开源模型刷benchmark"。这次确实不太一样。听我说完。
四个版本,从手机到服务器全覆盖
先看阵容:
| 模型 | 参数量 | 定位 | 能跑在哪 |
|---|---|---|---|
| Gemma 4 E2B | 20亿 | 极轻量 | 手机、树莓派、嵌入式设备 |
| Gemma 4 E4B | 40亿 | 轻量 | 笔记本、普通电脑 |
| Gemma 4 26B MoE | 260亿(激活38亿) | 高性价比 | 需要速度的生产环境 |
| Gemma 4 31B Dense | 310亿 | 最强 | 追求最高质量的场景 |
其中26B MoE版本值得多说一句。260亿参数听着很大,但推理的时候只激活38亿参数——这叫混合专家架构(MoE),简单说就是"不是所有人都上班,按需调岗"。
结果就是:它跑起来接近一个40亿参数小模型的速度,但输出质量接近一个大得多的模型。部署成本大幅下降,效果不怎么打折。这对想在自己服务器上跑AI的企业来说,吸引力很大。
而最小的E2B,只有20亿参数,竟然还支持看图(视觉输入)。两年前,能看图的模型最少也得几十亿参数。现在2B就能做到,直接塞进手机里跑。
这意味着什么?意味着你拿手机拍一张菜单、一份合同、一个产品说明书,本地AI就能帮你分析——不用上传到任何服务器,不用联网,不用付钱。你的数据从头到尾都在你自己手里。
四个版本放在一起看,谷歌的意图很明显:从手机到服务器,全场景覆盖。不管你是个人用户还是企业,总有一个适合你的尺寸。而且全部免费。

性能到底怎么样
数据说话:
| 测试 | Gemma 4 31B得分 | 什么水平 |
|---|---|---|
| AIME 2026(数学) | 89.2% | 接近人类数学竞赛选手 |
| GPQA Diamond(科学知识) | 84.3% | 研究生水平 |
| LiveCodeBench v6(编程) | 80.0% | 强 |
| Codeforces ELO | 2,150 | 接近人类专业竞技编程水平 |
89.2%的AIME得分是什么概念?AIME是美国数学邀请赛,这个分数意味着——一个可以免费下载、在自己电脑上跑的开源模型,数学能力已经接近人类竞赛选手了。
一年前这个水平只有闭源的顶级模型能做到,一次API调用几毛钱,用多了账单吓人。现在开源免费就能用了。下载到自己电脑上,想跑多少跑多少,不花一分钱。
Gemma 4还支持超过140种语言,包括中文。这在开源模型里也是覆盖面最广的之一。
还有一个数据:大模型版本的上下文窗口达到了100万token。什么意思呢?大约相当于一次性塞进去七八本书的内容,让AI帮你分析。以前这种超长上下文只有Claude和Gemini Pro这种闭源模型才有,现在开源也有了。
不过要注意——跑100万token上下文对内存要求极高,普通电脑吃不消,可能需要几百GB内存才能完整加载。实际使用中,大多数人用到12.8万token(E2B/E4B的上下文长度)就完全足够了。

比性能更重要的事:Apache 2.0
之前Gemma系列用的是谷歌自定义许可证,虽然也能用,但商业使用有一些限制条件,用起来心里不踏实。
这次Gemma 4全部换成了Apache 2.0许可证。
这个许可证在开源世界里非常宽松:
- ✅ 完全免费商用
- ✅ 可以修改、微调、分发
- ✅ 可以集成到你的产品里卖钱
- ✅ 不需要回馈代码给谷歌
VentureBeat在报道这件事的时候,标题直接写的是"Apache 2.0的意义大于性能提升"。这话不夸张。
为什么呢?因为许可证决定了生态。之前很多企业想用Gemma但不敢用——法务过不了关。现在Apache 2.0,法务没理由拦了。可以预见会有大量基于Gemma 4的商业应用涌现。
这也是谷歌在跟Meta的Llama系列抢开源生态。Llama虽然也开源,但许可证条款一直有争议(比如月活用户超过7亿的公司需要额外授权,中国公司用起来也有些别扭的限制)。Gemma 4这次直接给了最宽松的Apache 2.0——在许可证这条赛道上,谷歌赢了。
对中国的开发者和创业公司来说,这个变化尤其重要。Apache 2.0意味着你可以放心大胆地基于Gemma 4做产品——不用担心哪天许可证条款变了被釜底抽薪。在当前的国际环境下,这种确定性本身就是价值。
但中国模型真的落后了吗?
德国科技媒体Trending Topics的标题是:「Gemma 4 Lags Behind Chinese Competitors」——Gemma 4落后于中国竞争对手。
Reddit上也有人质疑:谷歌的benchmark表格里没有跟Qwen3.5、DeepSeek V4做对比,是不是在"挑数据"?
客观说——在某些任务上,中国的开源模型确实更强。特别是Qwen3.5的编程能力和DeepSeek的推理能力,在社区口碑里一直很好。
但"谁更强"这个问题本身可能问错了方向。
对普通用户来说,重要的不是"哪个模型跑分最高",而是"哪个模型我能用上"。Gemma 4的Apache 2.0许可证、从2B到31B的完整覆盖、对手机和边缘设备的支持——这些才是真正影响你能不能用、怎么用的因素。
跑分第一但你用不上,不如跑分第三但你手机就能跑。
而且现在开源模型之间的竞争,对用户来说是纯利好。谷歌、Meta、阿里、DeepSeek互相卷,模型越来越强,许可证越来越宽松,下载门槛越来越低。受益的是我们这些用的人。

普通人怎么用
如果你有Mac或者Windows电脑,用Ollama就能跑Gemma 4。(前几天刚写过Ollama的教程,没看过的可以翻翻。)
如果你是开发者,想在产品里集成AI能力——Gemma 4是目前许可证最友好的选择之一,直接Apache 2.0,不用担心后续被改条款。
如果你只是想体验一下——HuggingFace上可以直接在线试用,不需要下载任何东西。打开浏览器就能跟Gemma 4对话,感受一下开源模型到底有多强。
最值得关注的是E4B这个版本。40亿参数,普通笔记本就能跑,支持看图,12.8万token上下文。作为一个免费的、离线的、私密的本地AI助手,它可能是目前最平衡的选择。
举几个具体场景吧:
- 处理敏感文档:公司财报、客户合同、医疗记录——这些东西你不想传到任何云端。本地模型帮你分析,数据不出电脑。
- 给小孩做作业辅导:不需要订阅,不需要绑卡,不需要担心AI说出什么奇怪的东西——你可以完全控制本地模型的行为。
- 旅行离线助手:在飞机上、在信号差的地方,本地模型照样能帮你翻译、总结、回答问题。
- 开发者原型测试:在本地快速验证想法,不需要每次都花API费用。等确认方向了再上云端模型。
这些场景有一个共同点:你需要的不是最聪明的模型,而是最可控的模型。Gemma 4 E4B刚好卡在这个甜蜜点上——够聪明、够小、够自由。

一年前,顶级AI模型是少数公司的专利。现在,你手机里就能装一个。这个速度,比大多数人预期的都快。
(想试试的话,去 ollama.com 下载,然后跑 ollama run gemma4。)
感谢观看。