夏洛特的AI实验室

不花一分钱API费,你的MacBook就能跑AI大模型

· 1min read

cover

先说一个很多人不知道的事:你的MacBook,可能是目前最被低估的AI设备。

不是因为苹果做了什么AI功能——说实话Siri到现在还挺拉的。而是因为Apple Silicon芯片有一个独特的硬件设计:统一内存架构。CPU和GPU共享同一块内存,不用来回搬数据。

这个设计在日常使用中你感知不强。但对跑AI大模型来说,它是巨大的优势——数据不用在CPU和GPU之间来回搬运,速度自然快。

而就在3月31日,一个叫Ollama的工具发布了0.19版本,把这个优势彻底释放了。

消息一出,HackerNews上炸了锅,Mac用户圈子里转疯了。因为这意味着——你手上那台MacBook,可能一夜之间变成了一个免费的AI工作站。

Ollama是什么,MLX又是什么

先用人话解释。

Ollama,是一个让你在自己电脑上跑AI大模型的工具。不需要GPU服务器,不需要买API,下载安装就能用。开源免费。

以前Ollama在Mac上用的底层引擎叫llama.cpp——这是一个通用框架,Windows、Linux、Mac都能跑,但没有针对苹果芯片做专门优化。

MLX,是苹果自己2023年开源的机器学习框架,专门为Apple Silicon设计。它能直接利用统一内存架构,不需要在CPU和GPU之间复制数据。

Ollama 0.19做的事情很简单:把底层引擎从llama.cpp换成了MLX。

就这一个改动,速度直接起飞。

illustration-1

快了多少?直接看数据

Ollama官方用Qwen3.5-35B模型做了测试,对比0.18和0.19两个版本:

指标Ollama 0.18Ollama 0.19(MLX)提升
Prefill(提示处理速度)1,154 token/s1,810 token/s1.6倍
Decode(生成速度)58 token/s112 token/s近2倍

用int4量化的话,还能再快一截——prefill达到1851 token/s,decode达到134 token/s。

翻译成人话:你问它一个问题,它"思考"的速度快了1.6倍,“打字"的速度快了将近2倍。

134 token/s是什么概念?大约是每秒输出100个中文字。你还没反应过来,它已经写了一整段。

如果你用过ChatGPT或者Claude的网页版,应该感受过AI"打字"的过程——一个字一个字地蹦出来,有时候还挺慢的。而本地跑Ollama 0.19,这个速度是碾压级的。因为云端模型的瓶颈是网络延迟,本地模型的瓶颈只有你的硬件。

而这一切,跑在你自己的电脑上。不用联网。不花一分钱API费用。

什么Mac能跑

硬件要求:

  • Apple Silicon芯片(M1/M2/M3/M4/M5系列都可以)
  • 统一内存 ≥ 32GB(这是门槛,16GB不够)

M5系列提升最大,因为新增了GPU神经加速器,Ollama 0.19能直接调用。但M1、M2同样受益——只要内存够,都能跑。

32GB是硬门槛。内存不够的话,模型加载不进去,或者跑起来巨慢。如果你的Mac只有16GB内存,可以跑一些小模型(7B参数级别),但35B这种大模型就别想了。

坦白说,这也是目前本地AI最大的门槛——不是软件问题,是硬件。32GB以上的Mac,价格都不便宜。

illustration-2

安装只需要三步

第一步:下载Ollama

去 ollama.com/download 下载Mac版,安装。

第二步:打开终端,跑一条命令

ollama run qwen3.5:35b-a3b-coding-nvfp4

等模型下载完(第一次需要下载几个GB的模型文件),就可以直接对话了。

第三步:没有第三步。

额……就这样。真的就这样。

你可以在终端里直接跟它聊天、让它写代码、让它帮你分析文档。全程离线,数据不出你的电脑。

如果你用过AI编程工具,Ollama 0.19还支持直接启动编程助手模式,接入本地模型。不需要再为API额度发愁了。

不夸张地说,从下载到跑起来的整个过程,比注册一个ChatGPT账号还简单。不需要科学上网,不需要绑信用卡,不需要填手机号验证码。下载、安装、输入一行命令。完事。

本地AI到底有什么用

可能你会问:我已经在用ChatGPT/Claude了,为什么还要折腾本地跑模型?

三个理由:

1. 隐私 你的对话内容、代码、文件,全部留在本地。不上传任何服务器。对于处理公司内部文档、个人敏感数据的场景,这不是可选项,是刚需。

2. 零成本 不需要每月付订阅费,不需要按token计费。跑多少都行。对于需要大量调用AI的工作(比如批量处理、自动化流程),成本优势非常明显。

3. 不断网也能用 出差、飞机上、网络不好的环境——本地模型不受影响。打开电脑就能用。

当然,本地模型的能力目前还比不上最顶级的云端模型。35B参数的Qwen3.5很强,但跟Claude Opus或者GPT-4o比,还是有差距。

但对于日常编程辅助、文档问答、翻译、总结这类任务,本地模型已经完全够用了。而且速度快、免费、不泄露数据。

还有一个很多人没想到的场景:给家里老人用。下载好模型,桌面上放个快捷方式,打开就能聊天。不用教他们注册账号,不用担心他们不小心订阅了什么付费服务,也不用担心隐私泄露。模型就在本地,断网也能用。

illustration-3

这次更新背后的大趋势

Ollama接入MLX这件事,表面上是一个软件更新,但它指向的趋势很重要——AI正在从云端往本地迁移

以前跑AI必须有GPU服务器,动辄几千上万块钱。现在一台Mac就够了。

以前调用AI必须联网、必须付费。现在离线免费。

以前只有程序员能折腾本地模型。现在Ollama把安装门槛降到了"下载→双击→输入一行命令”。

苹果在这个趋势里的角色也很有意思。它没有像Google、微软那样自己做大模型,而是把芯片架构做好、把MLX框架开源——让别人在苹果的硬件上跑得更好。

说白了,苹果不卖AI模型。苹果卖Mac。Mac上的AI跑得越好,Mac就越值钱。

这个商业逻辑,很苹果。

而对我们普通用户来说,这是好事。苹果把硬件做好、框架开源、让第三方开发者(比如Ollama)来做软件体验。竞争越激烈,用户越受益。

一年前,想在本地跑一个像样的AI模型,你得买一块几千块的NVIDIA显卡,装Linux,配CUDA环境,折腾一整天。现在呢?打开Mac,下载一个App,输入一行命令。

技术民主化就是这么一步步发生的。不是某天突然"革命"了,而是门槛一点点降下来,直到有一天你发现——“诶,我好像也能用了。”

一些踩坑提醒

1. 这是预览版 0.19目前是preview版本,可能有bug。重要工作还是建议保留云端AI做备份。

2. 模型支持有限 目前MLX引擎只支持Qwen3.5系列模型,更多模型后续才会陆续支持。不过Qwen3.5本身就是目前开源模型里的第一梯队。

3. 第一次下载很慢 模型文件几个GB,第一次下载需要耐心。下完之后就是纯本地运行了。

4. 内存是瓶颈 32GB跑35B模型已经是极限了。如果你想同时开其他大型应用(Xcode、Final Cut Pro之类的),可能会卡。64GB以上才比较从容。

5. 不要用它做关键决策 本地模型虽然快,但能力上限比云端顶级模型还是有差距。写代码辅助、整理文档没问题,但涉及重要的分析判断,还是建议交叉验证。

illustration-4

到底值不值得折腾

如果你有一台32GB以上内存的Mac,又经常用AI——值得。

安装只要5分钟,不花钱,跑起来速度很快,数据全在本地。即使你平时主力用的是ChatGPT或者Claude,多一个离线免费的备选方案,没有任何坏处。

如果你的Mac内存不到32GB——可以先等等。等更多小模型被MLX优化后,16GB也能用上。


你的Mac一直有这个能力,只是以前没人帮它释放出来。现在有了。

(打开终端,输入 ollama run,试试看。)

感谢观看。