100万token上下文+手机能看图：Gemma 4技术深挖，开发者最该关注什么

六月 1, 2026· 1min read

cover

前面写了一篇Gemma 4的发布概览——四个版本、Apache 2.0许可证、跟中国模型的对比。那是"是什么"和"为什么重要"。

这篇是"怎么用"和"技术上到底强在哪"。如果你只看一个数字就关掉——那记住这个：2B参数的模型就能看图了。

知名独立开发者Simon Willison在博客上写了一篇详细解读，他是业内最受信任的AI模型评测声音之一。不是那种"所有东西都夸"的人，他会直说哪里好、哪里不行。他对Gemma 4的评价值得拆解。

2B参数就能看图，这意味着什么

Gemma 4最让人意外的是：最小的E2B版本（20亿参数）就支持视觉输入。

两年前，视觉理解需要几十亿甚至上百亿参数的模型才能做到。一年前，最小的多模态模型也得4B-7B参数。现在？2B就够了。

这不只是一个跑分数字的变化。它意味着——视觉AI可以跑在手机和边缘设备上了。

具体能做什么？

手机拍一份菜单，AI本地翻译，不联网
拍一张药品说明书，AI帮你解读剂量和禁忌
工地上拍设备铭牌，AI识别型号和参数
拍一页合同，AI帮你找关键条款

这些场景的共同特点：需要"看懂图"的能力，但不需要最聪明的大脑。2B参数的小模型完全胜任，而且跑在手机上，数据不出设备，速度快，完全免费。

以前这些事情要么用OCR（只能识别文字，不能理解内容），要么上传到云端大模型（联网、花钱、隐私风险）。Gemma 4 E2B把第三条路打通了：本地小模型，既能看也能懂。

这对无障碍领域也有巨大潜力——帮助视障人士"看"周围环境、识别物品、阅读文字。以前这需要联网调用云端API，速度慢而且依赖网络。现在可以完全在手机本地实现，实时响应。

Simon Willison说这是"2B参数级别模型里最令人惊喜的能力"。我同意。因为它打开的不是一个"更好的模型"，而是一整个新的应用品类。

illustration-1

100万token上下文：够用但有门槛

Gemma 4的大模型版本（26B MoE和31B Dense）支持100万token的上下文窗口。

100万token大约是什么概念？

约750万个英文单词，或约250万个中文字
相当于七八本完整的书
或者一个中型软件项目的全部代码

你可以把一整本技术文档丢给它，然后问具体的问题；可以把一个项目的所有代码一次性喂进去，让它理解整个架构。

但——有个大但是。

跑100万token上下文需要的内存是天文数字。普通电脑根本吃不消。即使是128GB内存的高配Mac，也只能撑一部分。

Simon Willison的建议是：关注128K上下文的E2B/E4B版本，这才是大多数人实际能用的。

128K token大约是20万字左右的内容。这个长度对绝大多数日常场景——分析文档、读论文、review代码——已经完全够用了。

100万token更像是企业级场景的能力：大规模知识库检索、完整项目代码理解、法律文档全文分析。这些场景通常在高配服务器上跑，不是你笔记本上的事。但它的存在本身说明了一件事：开源模型在能力边界上已经不输闭源了。差距在缩小，而且缩小的速度越来越快。

illustration-2

MoE架构：用4B的成本跑出26B的效果

26B MoE（混合专家）版本是Gemma 4最有意思的模型。

它的总参数量是260亿，但推理时只激活38亿参数。怎么做到的？

简单说：模型内部有很多"专家"模块，每次推理时只调用跟当前任务最相关的几个专家，其他的不动。就像一个公司有100个员工，但每个项目只需要5个人上场——不需要全员加班。

实际效果：

速度：接近一个4B小模型——快
质量：接近一个大得多的模型——好
内存：只需要加载26B的权重，但推理计算量只有4B级别
部署成本：大幅下降

Simon Willison对这个架构评价很高。他认为MoE是目前"性价比天花板"的架构选择——你用最少的计算资源，得到最好的输出质量。

对开发者来说，这意味着你可以在一台普通服务器上（甚至一台好一点的笔记本上）部署一个质量不输大模型的AI服务。以前这需要几块昂贵的GPU。

换个角度想：如果你是一个创业团队，以前要跑一个高质量AI服务需要每月几万块的GPU账单。现在用Gemma 4 26B MoE，一台几千块的服务器就够了。创业的门槛又降了一个量级。

这就是为什么开源社区对MoE架构这么兴奋——它不是一个"跑分更高"的技术改进，而是一个"成本更低"的商业改进。而成本改进往往比性能改进更能改变世界。

140种语言：被低估的优势

Gemma 4支持超过140种语言。

这个数字听起来像是"凑数"——谁需要140种语言？但如果你做的是跨境业务、多语言客服、或者面向全球用户的产品，这就是硬需求。

更重要的是，很多开源模型在中文、日语、韩语等非英语语言上的表现都很差——训练数据不够、优化不到位。Gemma 4在多语言上的表现，据社区反馈，比同级别的模型好不少。

特别是E2B和E4B这两个小模型，在多语言任务上的表现"令人意外地强"（Simon原话）。一个2B的模型，能在140种语言上都有不错的表现——这在以前是不可想象的。

illustration-3

Apache 2.0对开发者意味着什么

上一篇已经聊了Apache 2.0许可证的宏观意义。这里从开发者的具体角度补充几点：

1. 可以微调后商用 你可以拿Gemma 4的基础模型，用自己的数据微调出一个专用模型（比如医疗问答、法律咨询、客服机器人），然后直接用在商业产品里。不需要给谷歌付版权费，不需要额外授权。

2. 可以嵌入到硬件产品里 E2B只有2B参数，完全可以嵌入到智能硬件、IoT设备、车载系统里。Apache 2.0允许你把模型跟硬件一起出售。

3. 不用担心许可证变更 Apache 2.0是一个被广泛验证的开源许可证，几乎不可能被单方面修改。你今天基于Gemma 4开发的产品，以后也不会因为许可证变化而出问题。

社区预测Gemma 4会成为新的"默认基础模型"——就像以前做Web开发默认用React，以后做AI应用可能默认用Gemma。

这个预测是不是太乐观？可能。毕竟Meta的Llama系列也在抢这个位置，中国的Qwen3.5在社区口碑也很好。但Apache 2.0 + 完整的尺寸覆盖（从2B到31B）+ 视觉能力 + 超长上下文——这个组合确实是目前最全面的。

开发者最终会用脚投票。而Gemma 4至少给了大家一个很好的起点。

illustration-4

怎么选：四个版本的使用场景

你的需求	选哪个
手机/嵌入式设备	E2B（2B）
个人笔记本本地助手	E4B（4B）
追求速度的生产环境	26B MoE
追求最高质量	31B Dense

大多数个人用户：E4B就够了。它在质量和资源消耗之间取得了最好的平衡。

想做产品的开发者：优先考虑26B MoE。速度快、质量好、部署成本低。

研究和实验：31B Dense。质量最高，但资源消耗也最大。

开源AI的进化速度，比大多数人的认知更新速度更快。Gemma 4不是终点——但它可能是"普通人也能用上前沿AI"的一个重要起点。

（想动手试试的话，上一篇文章有安装教程。）

感谢观看。