夏洛特的AI实验室

谷歌Gemma 4来了:手机能跑的AI,性能却让人吃惊

· 1min read

cover

4月2日,谷歌DeepMind一口气发了四个AI模型。

不是闭源的Gemini那种"你只能调API"的模型,而是开源的——下载到自己电脑、手机、甚至树莓派上就能跑的那种。

名字叫 Gemma 4。这个系列从第一代开始就主打"小而精",这次第四代终于把性能拉到了一个让人侧目的高度。

说实话,开源模型每个月都有新的,大家已经有点麻了。但这次Gemma 4有两件事值得注意:一是性能确实强,二是许可证变了。

第二件事可能比第一件更重要。

先别着急翻白眼说"又是开源模型刷benchmark"。这次确实不太一样。听我说完。

四个版本,从手机到服务器全覆盖

先看阵容:

模型参数量定位能跑在哪
Gemma 4 E2B20亿极轻量手机、树莓派、嵌入式设备
Gemma 4 E4B40亿轻量笔记本、普通电脑
Gemma 4 26B MoE260亿(激活38亿)高性价比需要速度的生产环境
Gemma 4 31B Dense310亿最强追求最高质量的场景

其中26B MoE版本值得多说一句。260亿参数听着很大,但推理的时候只激活38亿参数——这叫混合专家架构(MoE),简单说就是"不是所有人都上班,按需调岗"。

结果就是:它跑起来接近一个40亿参数小模型的速度,但输出质量接近一个大得多的模型。部署成本大幅下降,效果不怎么打折。这对想在自己服务器上跑AI的企业来说,吸引力很大。

而最小的E2B,只有20亿参数,竟然还支持看图(视觉输入)。两年前,能看图的模型最少也得几十亿参数。现在2B就能做到,直接塞进手机里跑。

这意味着什么?意味着你拿手机拍一张菜单、一份合同、一个产品说明书,本地AI就能帮你分析——不用上传到任何服务器,不用联网,不用付钱。你的数据从头到尾都在你自己手里。

四个版本放在一起看,谷歌的意图很明显:从手机到服务器,全场景覆盖。不管你是个人用户还是企业,总有一个适合你的尺寸。而且全部免费。

illustration-1

性能到底怎么样

数据说话:

测试Gemma 4 31B得分什么水平
AIME 2026(数学)89.2%接近人类数学竞赛选手
GPQA Diamond(科学知识)84.3%研究生水平
LiveCodeBench v6(编程)80.0%
Codeforces ELO2,150接近人类专业竞技编程水平

89.2%的AIME得分是什么概念?AIME是美国数学邀请赛,这个分数意味着——一个可以免费下载、在自己电脑上跑的开源模型,数学能力已经接近人类竞赛选手了。

一年前这个水平只有闭源的顶级模型能做到,一次API调用几毛钱,用多了账单吓人。现在开源免费就能用了。下载到自己电脑上,想跑多少跑多少,不花一分钱。

Gemma 4还支持超过140种语言,包括中文。这在开源模型里也是覆盖面最广的之一。

还有一个数据:大模型版本的上下文窗口达到了100万token。什么意思呢?大约相当于一次性塞进去七八本书的内容,让AI帮你分析。以前这种超长上下文只有Claude和Gemini Pro这种闭源模型才有,现在开源也有了。

不过要注意——跑100万token上下文对内存要求极高,普通电脑吃不消,可能需要几百GB内存才能完整加载。实际使用中,大多数人用到12.8万token(E2B/E4B的上下文长度)就完全足够了。

illustration-2

比性能更重要的事:Apache 2.0

之前Gemma系列用的是谷歌自定义许可证,虽然也能用,但商业使用有一些限制条件,用起来心里不踏实。

这次Gemma 4全部换成了Apache 2.0许可证

这个许可证在开源世界里非常宽松:

  • ✅ 完全免费商用
  • ✅ 可以修改、微调、分发
  • ✅ 可以集成到你的产品里卖钱
  • ✅ 不需要回馈代码给谷歌

VentureBeat在报道这件事的时候,标题直接写的是"Apache 2.0的意义大于性能提升"。这话不夸张。

为什么呢?因为许可证决定了生态。之前很多企业想用Gemma但不敢用——法务过不了关。现在Apache 2.0,法务没理由拦了。可以预见会有大量基于Gemma 4的商业应用涌现。

这也是谷歌在跟Meta的Llama系列抢开源生态。Llama虽然也开源,但许可证条款一直有争议(比如月活用户超过7亿的公司需要额外授权,中国公司用起来也有些别扭的限制)。Gemma 4这次直接给了最宽松的Apache 2.0——在许可证这条赛道上,谷歌赢了。

对中国的开发者和创业公司来说,这个变化尤其重要。Apache 2.0意味着你可以放心大胆地基于Gemma 4做产品——不用担心哪天许可证条款变了被釜底抽薪。在当前的国际环境下,这种确定性本身就是价值。

但中国模型真的落后了吗?

德国科技媒体Trending Topics的标题是:「Gemma 4 Lags Behind Chinese Competitors」——Gemma 4落后于中国竞争对手。

Reddit上也有人质疑:谷歌的benchmark表格里没有跟Qwen3.5、DeepSeek V4做对比,是不是在"挑数据"?

客观说——在某些任务上,中国的开源模型确实更强。特别是Qwen3.5的编程能力和DeepSeek的推理能力,在社区口碑里一直很好。

但"谁更强"这个问题本身可能问错了方向。

对普通用户来说,重要的不是"哪个模型跑分最高",而是"哪个模型我能用上"。Gemma 4的Apache 2.0许可证、从2B到31B的完整覆盖、对手机和边缘设备的支持——这些才是真正影响你能不能用、怎么用的因素。

跑分第一但你用不上,不如跑分第三但你手机就能跑。

而且现在开源模型之间的竞争,对用户来说是纯利好。谷歌、Meta、阿里、DeepSeek互相卷,模型越来越强,许可证越来越宽松,下载门槛越来越低。受益的是我们这些用的人。

illustration-3

普通人怎么用

如果你有Mac或者Windows电脑,用Ollama就能跑Gemma 4。(前几天刚写过Ollama的教程,没看过的可以翻翻。)

如果你是开发者,想在产品里集成AI能力——Gemma 4是目前许可证最友好的选择之一,直接Apache 2.0,不用担心后续被改条款。

如果你只是想体验一下——HuggingFace上可以直接在线试用,不需要下载任何东西。打开浏览器就能跟Gemma 4对话,感受一下开源模型到底有多强。

最值得关注的是E4B这个版本。40亿参数,普通笔记本就能跑,支持看图,12.8万token上下文。作为一个免费的、离线的、私密的本地AI助手,它可能是目前最平衡的选择。

举几个具体场景吧:

  • 处理敏感文档:公司财报、客户合同、医疗记录——这些东西你不想传到任何云端。本地模型帮你分析,数据不出电脑。
  • 给小孩做作业辅导:不需要订阅,不需要绑卡,不需要担心AI说出什么奇怪的东西——你可以完全控制本地模型的行为。
  • 旅行离线助手:在飞机上、在信号差的地方,本地模型照样能帮你翻译、总结、回答问题。
  • 开发者原型测试:在本地快速验证想法,不需要每次都花API费用。等确认方向了再上云端模型。

这些场景有一个共同点:你需要的不是最聪明的模型,而是最可控的模型。Gemma 4 E4B刚好卡在这个甜蜜点上——够聪明、够小、够自由。

illustration-4


一年前,顶级AI模型是少数公司的专利。现在,你手机里就能装一个。这个速度,比大多数人预期的都快。

(想试试的话,去 ollama.com 下载,然后跑 ollama run gemma4。)

感谢观看。