夏洛特的AI实验室

100万token上下文+手机能看图:Gemma 4技术深挖,开发者最该关注什么

· 1min read

cover

前面写了一篇Gemma 4的发布概览——四个版本、Apache 2.0许可证、跟中国模型的对比。那是"是什么"和"为什么重要"。

这篇是"怎么用"和"技术上到底强在哪"。如果你只看一个数字就关掉——那记住这个:2B参数的模型就能看图了。

知名独立开发者Simon Willison在博客上写了一篇详细解读,他是业内最受信任的AI模型评测声音之一。不是那种"所有东西都夸"的人,他会直说哪里好、哪里不行。他对Gemma 4的评价值得拆解。

2B参数就能看图,这意味着什么

Gemma 4最让人意外的是:最小的E2B版本(20亿参数)就支持视觉输入。

两年前,视觉理解需要几十亿甚至上百亿参数的模型才能做到。一年前,最小的多模态模型也得4B-7B参数。现在?2B就够了。

这不只是一个跑分数字的变化。它意味着——视觉AI可以跑在手机和边缘设备上了。

具体能做什么?

  • 手机拍一份菜单,AI本地翻译,不联网
  • 拍一张药品说明书,AI帮你解读剂量和禁忌
  • 工地上拍设备铭牌,AI识别型号和参数
  • 拍一页合同,AI帮你找关键条款

这些场景的共同特点:需要"看懂图"的能力,但不需要最聪明的大脑。2B参数的小模型完全胜任,而且跑在手机上,数据不出设备,速度快,完全免费。

以前这些事情要么用OCR(只能识别文字,不能理解内容),要么上传到云端大模型(联网、花钱、隐私风险)。Gemma 4 E2B把第三条路打通了:本地小模型,既能看也能懂。

这对无障碍领域也有巨大潜力——帮助视障人士"看"周围环境、识别物品、阅读文字。以前这需要联网调用云端API,速度慢而且依赖网络。现在可以完全在手机本地实现,实时响应。

Simon Willison说这是"2B参数级别模型里最令人惊喜的能力"。我同意。因为它打开的不是一个"更好的模型",而是一整个新的应用品类

illustration-1

100万token上下文:够用但有门槛

Gemma 4的大模型版本(26B MoE和31B Dense)支持100万token的上下文窗口

100万token大约是什么概念?

  • 约750万个英文单词,或约250万个中文字
  • 相当于七八本完整的书
  • 或者一个中型软件项目的全部代码

你可以把一整本技术文档丢给它,然后问具体的问题;可以把一个项目的所有代码一次性喂进去,让它理解整个架构。

但——有个大但是

跑100万token上下文需要的内存是天文数字。普通电脑根本吃不消。即使是128GB内存的高配Mac,也只能撑一部分。

Simon Willison的建议是:关注128K上下文的E2B/E4B版本,这才是大多数人实际能用的。

128K token大约是20万字左右的内容。这个长度对绝大多数日常场景——分析文档、读论文、review代码——已经完全够用了。

100万token更像是企业级场景的能力:大规模知识库检索、完整项目代码理解、法律文档全文分析。这些场景通常在高配服务器上跑,不是你笔记本上的事。但它的存在本身说明了一件事:开源模型在能力边界上已经不输闭源了。差距在缩小,而且缩小的速度越来越快。

illustration-2

MoE架构:用4B的成本跑出26B的效果

26B MoE(混合专家)版本是Gemma 4最有意思的模型。

它的总参数量是260亿,但推理时只激活38亿参数。怎么做到的?

简单说:模型内部有很多"专家"模块,每次推理时只调用跟当前任务最相关的几个专家,其他的不动。就像一个公司有100个员工,但每个项目只需要5个人上场——不需要全员加班。

实际效果:

  • 速度:接近一个4B小模型——快
  • 质量:接近一个大得多的模型——好
  • 内存:只需要加载26B的权重,但推理计算量只有4B级别
  • 部署成本:大幅下降

Simon Willison对这个架构评价很高。他认为MoE是目前"性价比天花板"的架构选择——你用最少的计算资源,得到最好的输出质量。

对开发者来说,这意味着你可以在一台普通服务器上(甚至一台好一点的笔记本上)部署一个质量不输大模型的AI服务。以前这需要几块昂贵的GPU。

换个角度想:如果你是一个创业团队,以前要跑一个高质量AI服务需要每月几万块的GPU账单。现在用Gemma 4 26B MoE,一台几千块的服务器就够了。创业的门槛又降了一个量级。

这就是为什么开源社区对MoE架构这么兴奋——它不是一个"跑分更高"的技术改进,而是一个"成本更低"的商业改进。而成本改进往往比性能改进更能改变世界。

140种语言:被低估的优势

Gemma 4支持超过140种语言。

这个数字听起来像是"凑数"——谁需要140种语言?但如果你做的是跨境业务、多语言客服、或者面向全球用户的产品,这就是硬需求。

更重要的是,很多开源模型在中文、日语、韩语等非英语语言上的表现都很差——训练数据不够、优化不到位。Gemma 4在多语言上的表现,据社区反馈,比同级别的模型好不少。

特别是E2B和E4B这两个小模型,在多语言任务上的表现"令人意外地强"(Simon原话)。一个2B的模型,能在140种语言上都有不错的表现——这在以前是不可想象的。

illustration-3

Apache 2.0对开发者意味着什么

上一篇已经聊了Apache 2.0许可证的宏观意义。这里从开发者的具体角度补充几点:

1. 可以微调后商用 你可以拿Gemma 4的基础模型,用自己的数据微调出一个专用模型(比如医疗问答、法律咨询、客服机器人),然后直接用在商业产品里。不需要给谷歌付版权费,不需要额外授权。

2. 可以嵌入到硬件产品里 E2B只有2B参数,完全可以嵌入到智能硬件、IoT设备、车载系统里。Apache 2.0允许你把模型跟硬件一起出售。

3. 不用担心许可证变更 Apache 2.0是一个被广泛验证的开源许可证,几乎不可能被单方面修改。你今天基于Gemma 4开发的产品,以后也不会因为许可证变化而出问题。

社区预测Gemma 4会成为新的"默认基础模型"——就像以前做Web开发默认用React,以后做AI应用可能默认用Gemma。

这个预测是不是太乐观?可能。毕竟Meta的Llama系列也在抢这个位置,中国的Qwen3.5在社区口碑也很好。但Apache 2.0 + 完整的尺寸覆盖(从2B到31B)+ 视觉能力 + 超长上下文——这个组合确实是目前最全面的。

开发者最终会用脚投票。而Gemma 4至少给了大家一个很好的起点。

illustration-4

怎么选:四个版本的使用场景

你的需求选哪个
手机/嵌入式设备E2B(2B)
个人笔记本本地助手E4B(4B)
追求速度的生产环境26B MoE
追求最高质量31B Dense

大多数个人用户:E4B就够了。它在质量和资源消耗之间取得了最好的平衡。

想做产品的开发者:优先考虑26B MoE。速度快、质量好、部署成本低。

研究和实验:31B Dense。质量最高,但资源消耗也最大。


开源AI的进化速度,比大多数人的认知更新速度更快。Gemma 4不是终点——但它可能是"普通人也能用上前沿AI"的一个重要起点。

(想动手试试的话,上一篇文章有安装教程。)

感谢观看。