谷歌Gemma 4来了：手机能跑的AI，性能却让人吃惊

六月 1, 2026· 1min read

cover

4月2日，谷歌DeepMind一口气发了四个AI模型。

不是闭源的Gemini那种"你只能调API"的模型，而是开源的——下载到自己电脑、手机、甚至树莓派上就能跑的那种。

名字叫 Gemma 4。这个系列从第一代开始就主打"小而精"，这次第四代终于把性能拉到了一个让人侧目的高度。

说实话，开源模型每个月都有新的，大家已经有点麻了。但这次Gemma 4有两件事值得注意：一是性能确实强，二是许可证变了。

第二件事可能比第一件更重要。

先别着急翻白眼说"又是开源模型刷benchmark"。这次确实不太一样。听我说完。

四个版本，从手机到服务器全覆盖

先看阵容：

模型	参数量	定位	能跑在哪
Gemma 4 E2B	20亿	极轻量	手机、树莓派、嵌入式设备
Gemma 4 E4B	40亿	轻量	笔记本、普通电脑
Gemma 4 26B MoE	260亿（激活38亿）	高性价比	需要速度的生产环境
Gemma 4 31B Dense	310亿	最强	追求最高质量的场景

其中26B MoE版本值得多说一句。260亿参数听着很大，但推理的时候只激活38亿参数——这叫混合专家架构（MoE），简单说就是"不是所有人都上班，按需调岗"。

结果就是：它跑起来接近一个40亿参数小模型的速度，但输出质量接近一个大得多的模型。部署成本大幅下降，效果不怎么打折。这对想在自己服务器上跑AI的企业来说，吸引力很大。

而最小的E2B，只有20亿参数，竟然还支持看图（视觉输入）。两年前，能看图的模型最少也得几十亿参数。现在2B就能做到，直接塞进手机里跑。

这意味着什么？意味着你拿手机拍一张菜单、一份合同、一个产品说明书，本地AI就能帮你分析——不用上传到任何服务器，不用联网，不用付钱。你的数据从头到尾都在你自己手里。

四个版本放在一起看，谷歌的意图很明显：从手机到服务器，全场景覆盖。不管你是个人用户还是企业，总有一个适合你的尺寸。而且全部免费。

illustration-1

性能到底怎么样

数据说话：

测试	Gemma 4 31B得分	什么水平
AIME 2026（数学）	89.2%	接近人类数学竞赛选手
GPQA Diamond（科学知识）	84.3%	研究生水平
LiveCodeBench v6（编程）	80.0%	强
Codeforces ELO	2,150	接近人类专业竞技编程水平

89.2%的AIME得分是什么概念？AIME是美国数学邀请赛，这个分数意味着——一个可以免费下载、在自己电脑上跑的开源模型，数学能力已经接近人类竞赛选手了。

一年前这个水平只有闭源的顶级模型能做到，一次API调用几毛钱，用多了账单吓人。现在开源免费就能用了。下载到自己电脑上，想跑多少跑多少，不花一分钱。

Gemma 4还支持超过140种语言，包括中文。这在开源模型里也是覆盖面最广的之一。

还有一个数据：大模型版本的上下文窗口达到了100万token。什么意思呢？大约相当于一次性塞进去七八本书的内容，让AI帮你分析。以前这种超长上下文只有Claude和Gemini Pro这种闭源模型才有，现在开源也有了。

不过要注意——跑100万token上下文对内存要求极高，普通电脑吃不消，可能需要几百GB内存才能完整加载。实际使用中，大多数人用到12.8万token（E2B/E4B的上下文长度）就完全足够了。

illustration-2

比性能更重要的事：Apache 2.0

之前Gemma系列用的是谷歌自定义许可证，虽然也能用，但商业使用有一些限制条件，用起来心里不踏实。

这次Gemma 4全部换成了Apache 2.0许可证。

这个许可证在开源世界里非常宽松：

✅ 完全免费商用
✅ 可以修改、微调、分发
✅ 可以集成到你的产品里卖钱
✅ 不需要回馈代码给谷歌

VentureBeat在报道这件事的时候，标题直接写的是"Apache 2.0的意义大于性能提升"。这话不夸张。

为什么呢？因为许可证决定了生态。之前很多企业想用Gemma但不敢用——法务过不了关。现在Apache 2.0，法务没理由拦了。可以预见会有大量基于Gemma 4的商业应用涌现。

这也是谷歌在跟Meta的Llama系列抢开源生态。Llama虽然也开源，但许可证条款一直有争议（比如月活用户超过7亿的公司需要额外授权，中国公司用起来也有些别扭的限制）。Gemma 4这次直接给了最宽松的Apache 2.0——在许可证这条赛道上，谷歌赢了。

对中国的开发者和创业公司来说，这个变化尤其重要。Apache 2.0意味着你可以放心大胆地基于Gemma 4做产品——不用担心哪天许可证条款变了被釜底抽薪。在当前的国际环境下，这种确定性本身就是价值。

但中国模型真的落后了吗？

德国科技媒体Trending Topics的标题是：「Gemma 4 Lags Behind Chinese Competitors」——Gemma 4落后于中国竞争对手。

Reddit上也有人质疑：谷歌的benchmark表格里没有跟Qwen3.5、DeepSeek V4做对比，是不是在"挑数据"？

客观说——在某些任务上，中国的开源模型确实更强。特别是Qwen3.5的编程能力和DeepSeek的推理能力，在社区口碑里一直很好。

但"谁更强"这个问题本身可能问错了方向。

对普通用户来说，重要的不是"哪个模型跑分最高"，而是"哪个模型我能用上"。Gemma 4的Apache 2.0许可证、从2B到31B的完整覆盖、对手机和边缘设备的支持——这些才是真正影响你能不能用、怎么用的因素。

跑分第一但你用不上，不如跑分第三但你手机就能跑。

而且现在开源模型之间的竞争，对用户来说是纯利好。谷歌、Meta、阿里、DeepSeek互相卷，模型越来越强，许可证越来越宽松，下载门槛越来越低。受益的是我们这些用的人。

illustration-3

普通人怎么用

如果你有Mac或者Windows电脑，用Ollama就能跑Gemma 4。（前几天刚写过Ollama的教程，没看过的可以翻翻。）

如果你是开发者，想在产品里集成AI能力——Gemma 4是目前许可证最友好的选择之一，直接Apache 2.0，不用担心后续被改条款。

如果你只是想体验一下——HuggingFace上可以直接在线试用，不需要下载任何东西。打开浏览器就能跟Gemma 4对话，感受一下开源模型到底有多强。

最值得关注的是E4B这个版本。40亿参数，普通笔记本就能跑，支持看图，12.8万token上下文。作为一个免费的、离线的、私密的本地AI助手，它可能是目前最平衡的选择。

举几个具体场景吧：

处理敏感文档：公司财报、客户合同、医疗记录——这些东西你不想传到任何云端。本地模型帮你分析，数据不出电脑。
给小孩做作业辅导：不需要订阅，不需要绑卡，不需要担心AI说出什么奇怪的东西——你可以完全控制本地模型的行为。
旅行离线助手：在飞机上、在信号差的地方，本地模型照样能帮你翻译、总结、回答问题。
开发者原型测试：在本地快速验证想法，不需要每次都花API费用。等确认方向了再上云端模型。

这些场景有一个共同点：你需要的不是最聪明的模型，而是最可控的模型。Gemma 4 E4B刚好卡在这个甜蜜点上——够聪明、够小、够自由。

illustration-4

一年前，顶级AI模型是少数公司的专利。现在，你手机里就能装一个。这个速度，比大多数人预期的都快。

（想试试的话，去 ollama.com 下载，然后跑 ollama run gemma4。）

感谢观看。