不花一分钱API费，你的MacBook就能跑AI大模型

六月 1, 2026· 1min read

cover

先说一个很多人不知道的事：你的MacBook，可能是目前最被低估的AI设备。

不是因为苹果做了什么AI功能——说实话Siri到现在还挺拉的。而是因为Apple Silicon芯片有一个独特的硬件设计：统一内存架构。CPU和GPU共享同一块内存，不用来回搬数据。

这个设计在日常使用中你感知不强。但对跑AI大模型来说，它是巨大的优势——数据不用在CPU和GPU之间来回搬运，速度自然快。

而就在3月31日，一个叫Ollama的工具发布了0.19版本，把这个优势彻底释放了。

消息一出，HackerNews上炸了锅，Mac用户圈子里转疯了。因为这意味着——你手上那台MacBook，可能一夜之间变成了一个免费的AI工作站。

Ollama是什么，MLX又是什么

先用人话解释。

Ollama，是一个让你在自己电脑上跑AI大模型的工具。不需要GPU服务器，不需要买API，下载安装就能用。开源免费。

以前Ollama在Mac上用的底层引擎叫llama.cpp——这是一个通用框架，Windows、Linux、Mac都能跑，但没有针对苹果芯片做专门优化。

MLX，是苹果自己2023年开源的机器学习框架，专门为Apple Silicon设计。它能直接利用统一内存架构，不需要在CPU和GPU之间复制数据。

Ollama 0.19做的事情很简单：把底层引擎从llama.cpp换成了MLX。

就这一个改动，速度直接起飞。

illustration-1

快了多少？直接看数据

Ollama官方用Qwen3.5-35B模型做了测试，对比0.18和0.19两个版本：

指标	Ollama 0.18	Ollama 0.19（MLX）	提升
Prefill（提示处理速度）	1,154 token/s	1,810 token/s	1.6倍
Decode（生成速度）	58 token/s	112 token/s	近2倍

用int4量化的话，还能再快一截——prefill达到1851 token/s，decode达到134 token/s。

翻译成人话：你问它一个问题，它"思考"的速度快了1.6倍，“打字"的速度快了将近2倍。

134 token/s是什么概念？大约是每秒输出100个中文字。你还没反应过来，它已经写了一整段。

如果你用过ChatGPT或者Claude的网页版，应该感受过AI"打字"的过程——一个字一个字地蹦出来，有时候还挺慢的。而本地跑Ollama 0.19，这个速度是碾压级的。因为云端模型的瓶颈是网络延迟，本地模型的瓶颈只有你的硬件。

而这一切，跑在你自己的电脑上。不用联网。不花一分钱API费用。

什么Mac能跑

硬件要求：

Apple Silicon芯片（M1/M2/M3/M4/M5系列都可以）
统一内存 ≥ 32GB（这是门槛，16GB不够）

M5系列提升最大，因为新增了GPU神经加速器，Ollama 0.19能直接调用。但M1、M2同样受益——只要内存够，都能跑。

32GB是硬门槛。内存不够的话，模型加载不进去，或者跑起来巨慢。如果你的Mac只有16GB内存，可以跑一些小模型（7B参数级别），但35B这种大模型就别想了。

坦白说，这也是目前本地AI最大的门槛——不是软件问题，是硬件。32GB以上的Mac，价格都不便宜。

illustration-2

安装只需要三步

第一步：下载Ollama

去 ollama.com/download 下载Mac版，安装。

第二步：打开终端，跑一条命令

ollama run qwen3.5:35b-a3b-coding-nvfp4

等模型下载完（第一次需要下载几个GB的模型文件），就可以直接对话了。

第三步：没有第三步。

额……就这样。真的就这样。

你可以在终端里直接跟它聊天、让它写代码、让它帮你分析文档。全程离线，数据不出你的电脑。

如果你用过AI编程工具，Ollama 0.19还支持直接启动编程助手模式，接入本地模型。不需要再为API额度发愁了。

不夸张地说，从下载到跑起来的整个过程，比注册一个ChatGPT账号还简单。不需要科学上网，不需要绑信用卡，不需要填手机号验证码。下载、安装、输入一行命令。完事。

本地AI到底有什么用

可能你会问：我已经在用ChatGPT/Claude了，为什么还要折腾本地跑模型？

三个理由：

1. 隐私 你的对话内容、代码、文件，全部留在本地。不上传任何服务器。对于处理公司内部文档、个人敏感数据的场景，这不是可选项，是刚需。

2. 零成本 不需要每月付订阅费，不需要按token计费。跑多少都行。对于需要大量调用AI的工作（比如批量处理、自动化流程），成本优势非常明显。

3. 不断网也能用 出差、飞机上、网络不好的环境——本地模型不受影响。打开电脑就能用。

当然，本地模型的能力目前还比不上最顶级的云端模型。35B参数的Qwen3.5很强，但跟Claude Opus或者GPT-4o比，还是有差距。

但对于日常编程辅助、文档问答、翻译、总结这类任务，本地模型已经完全够用了。而且速度快、免费、不泄露数据。

还有一个很多人没想到的场景：给家里老人用。下载好模型，桌面上放个快捷方式，打开就能聊天。不用教他们注册账号，不用担心他们不小心订阅了什么付费服务，也不用担心隐私泄露。模型就在本地，断网也能用。

illustration-3

这次更新背后的大趋势

Ollama接入MLX这件事，表面上是一个软件更新，但它指向的趋势很重要——AI正在从云端往本地迁移。

以前跑AI必须有GPU服务器，动辄几千上万块钱。现在一台Mac就够了。

以前调用AI必须联网、必须付费。现在离线免费。

以前只有程序员能折腾本地模型。现在Ollama把安装门槛降到了"下载→双击→输入一行命令”。

苹果在这个趋势里的角色也很有意思。它没有像Google、微软那样自己做大模型，而是把芯片架构做好、把MLX框架开源——让别人在苹果的硬件上跑得更好。

说白了，苹果不卖AI模型。苹果卖Mac。Mac上的AI跑得越好，Mac就越值钱。

这个商业逻辑，很苹果。

而对我们普通用户来说，这是好事。苹果把硬件做好、框架开源、让第三方开发者（比如Ollama）来做软件体验。竞争越激烈，用户越受益。

一年前，想在本地跑一个像样的AI模型，你得买一块几千块的NVIDIA显卡，装Linux，配CUDA环境，折腾一整天。现在呢？打开Mac，下载一个App，输入一行命令。

技术民主化就是这么一步步发生的。不是某天突然"革命"了，而是门槛一点点降下来，直到有一天你发现——“诶，我好像也能用了。”

一些踩坑提醒

1. 这是预览版 0.19目前是preview版本，可能有bug。重要工作还是建议保留云端AI做备份。

2. 模型支持有限 目前MLX引擎只支持Qwen3.5系列模型，更多模型后续才会陆续支持。不过Qwen3.5本身就是目前开源模型里的第一梯队。

3. 第一次下载很慢 模型文件几个GB，第一次下载需要耐心。下完之后就是纯本地运行了。

4. 内存是瓶颈 32GB跑35B模型已经是极限了。如果你想同时开其他大型应用（Xcode、Final Cut Pro之类的），可能会卡。64GB以上才比较从容。

5. 不要用它做关键决策 本地模型虽然快，但能力上限比云端顶级模型还是有差距。写代码辅助、整理文档没问题，但涉及重要的分析判断，还是建议交叉验证。

illustration-4

到底值不值得折腾

如果你有一台32GB以上内存的Mac，又经常用AI——值得。

安装只要5分钟，不花钱，跑起来速度很快，数据全在本地。即使你平时主力用的是ChatGPT或者Claude，多一个离线免费的备选方案，没有任何坏处。

如果你的Mac内存不到32GB——可以先等等。等更多小模型被MLX优化后，16GB也能用上。

你的Mac一直有这个能力，只是以前没人帮它释放出来。现在有了。

（打开终端，输入 ollama run，试试看。）

感谢观看。