不是只有Mac能跑本地AI：AMD用户终于等到了自己的工具

六月 1, 2026· 1min read

cover

前几天写了一篇关于Ollama在Mac上跑本地AI的文章，后台收到好几条留言：“我用的是Windows啊！““我没有Mac怎么办？““AMD的电脑行不行？”

行。而且AMD刚好出了一个专门针对自家芯片优化的工具——Lemonade。

如果说Ollama是Mac用户的本地AI利器，那Lemonade就是AMD用户的对应方案。而且在某些方面，它做得更激进。

本地AI为什么重要？因为它解决了三个很现实的问题：不花钱、不泄密、不断线。你不需要每个月给OpenAI交钱，不需要把公司文档传到别人的服务器上，不需要在没有网的时候干瞪眼。

而这三个需求，恰恰是越来越多普通用户——尤其是在意数据安全的职场人士——真正在乎的。

Lemonade是什么

一句话概括：一个在你AMD电脑上跑AI大模型的开源服务器。

免费，开源，数据不出你的电脑。

它最大的特点是：能同时调用AMD芯片里的NPU（神经处理单元）和GPU做双加速。

NPU是什么呢？简单说，它是AMD最新的Ryzen AI系列处理器里内置的一块专门跑AI计算的小芯片。以前这块芯片基本是"买了但没有用上"的状态——软件生态跟不上，有硬件但没软件调用它。

Lemonade解决的就是这个问题：让NPU真正干活。

配合集成显卡一起跑，推理速度比纯CPU模式快很多。社区有人实测过，Ryzen AI 300用NPU+GPU混合推理跑Qwen3.5-7B，速度相当流畅，日常对话基本感觉不到延迟。你买Ryzen AI处理器时多花的那部分钱，终于不白花了。

说到这里，你可能发现了——这跟苹果的策略很像。苹果在M系列芯片里搞了统一内存架构，让MLX框架能直接利用。AMD在Ryzen AI里搞了NPU，让Lemonade能调用。都是"硬件先行，然后等软件生态补上"的路线。

illustration-1

支持什么硬件

配置	加速方式	体验
AMD Ryzen AI 300系列 + Windows 11	NPU + iGPU双加速	最佳
其他AMD显卡的Windows电脑	GPU加速	不错
任意Windows电脑	CPU模式	能跑但慢

最佳体验需要Ryzen AI 300系列——这是AMD 2025年推出的处理器，内置了专门的AI加速单元。如果你最近一两年买的AMD笔记本（比如华硕、联想的很多新款），很可能就是这个芯片。

没有Ryzen AI也能用，只是跑得慢一些。CPU模式下跑7B参数以下的小模型也还行——聊聊天、翻译翻译、总结总结文档，体验不会太差。

怎么看自己的电脑是不是Ryzen AI？最简单的方法：搜一下你电脑的型号，看处理器是不是Ryzen 7/9 X3D或者Ryzen AI 300系列。或者在Windows设置→系统→关于里查处理器信息，有"AI"字样的基本就是了。

能跑什么

Lemonade不只是个聊天工具。它支持三类AI能力：

文本对话（LLM）——跟AI聊天、写东西、分析文档
语音识别（Whisper）——把录音转成文字
图像生成（Stable Diffusion）——文字生成图片

模型格式支持GGUF、ONNX和AMD自己的FLM格式。GGUF是目前本地AI最主流的格式——HuggingFace上几千个开源模型都提供这个格式的下载，意味着你的选择面非常广。从聊天助手到代码生成，从翻译模型到写作辅助，想用什么都能找到。

最关键的是：Lemonade提供OpenAI兼容的API接口。这意味着什么？任何支持OpenAI API的工具——比如各种AI编程助手、聊天客户端、自动化工具——都可以无缝接入Lemonade。不需要改代码，把API地址从OpenAI的服务器换成你自己电脑的地址就行。

你的电脑就变成了一台私有的AI服务器。

这一点非常实用。比如你正在用某个AI笔记工具，它支持自定义API——以前你只能填OpenAI的接口，每个月花几十上百块。现在你填自己电脑的地址，免费、离线、数据不出本机。工具还是那个工具，但成本从每月几十块变成了零。

illustration-2

安装有多简单

比你想象的简单：

lemonade pull 模型名 # 下载模型 lemonade serve # 启动服务器

两条命令。

如果你不喜欢用命令行，Lemonade还有一个图形界面的Model Manager——点点鼠标就能下载模型、启动服务。

下载完模型之后，完全离线运行。断网也能用。

额……如果你连这两步都觉得复杂，那AMD可能不太适合你。但说实话，这已经比两年前装个本地AI要简单十倍了。两年前你需要配环境、装驱动、编译代码、调参数——现在两条命令搞定。技术民主化就是这样，一步步把门槛踩平。

跟Ollama比怎么样

这是大家最关心的问题。直接说结论：

如果你用Mac → Ollama更好（MLX引擎针对苹果芯片深度优化）

如果你用AMD电脑 → Lemonade更好（专门调用AMD NPU和GPU）

如果你用Intel或者N卡 → Ollama更通用

Ollama是"通用选手”，什么平台都能跑，但在AMD上没有做专门优化。Lemonade是"AMD特化选手”，在AMD硬件上能压榨出更多性能，但不支持Mac。

选工具跟选鞋一样——不是哪双最贵，而是哪双最合脚。

还有一个细节：Lemonade是完全开源的（GitHub上可以搜到），社区可以贡献代码、修bug、加功能。这意味着它的发展不完全依赖AMD一家公司的资源分配。社区驱动的项目，迭代往往更快、更接地气。

当然，风险也是有的——开源项目的维护稳定性不如商业产品。如果AMD哪天不投资源了，项目可能会停滞。但至少目前来看，它是活跃且持续更新的。

illustration-3

本地AI vs 云端AI：到底差在哪

对比	云端AI（ChatGPT等）	本地AI（Lemonade）
费用	按月/按量付费	免费
隐私	数据上传服务器	数据不离本机
网络	必须联网	完全离线
速度	取决于网络和排队	本地推理，低延迟
能力上限	顶级模型更聪明	受限于你的硬件

云端模型在"聪明程度"上确实还有优势。但本地模型在隐私、成本、可用性上完胜。

而且这个差距在快速缩小。一年前本地能跑的模型只有7B参数级别，勉强能用。现在Gemma 4、Qwen3.5这种几十亿参数的模型，本地跑起来已经相当流畅了。

再过一两年？可能你很难分辨出"这个回答是本地模型给的还是云端模型给的”。

我个人的判断是：未来不是"云端AI替代本地AI"或者反过来，而是两者共存。重要的、需要最强智力的任务丢给云端大模型；日常的、频繁的、涉及隐私的任务交给本地小模型。就像你有时候去餐厅吃，有时候在家做——不矛盾。

AMD的NPU终于有用了

说句实在话——AMD的NPU从2024年就开始往处理器里塞了，但一直处于"鸡肋"状态。硬件有了，软件不跟。买Ryzen AI的用户付了溢价，但NPU基本在吃灰。

Lemonade是目前为止最像样的NPU利用方案。它让这块芯片真正开始干活了。

当然了，现在只是开始。但是NPU的生态远不如GPU成熟，支持的模型和优化程度都还有限。但方向是对的——专用AI芯片+专门优化的软件，这条路走通了，本地AI的体验只会越来越好。

从更大的视角看，这也是AMD在跟苹果、英伟达争夺"本地AI平台"的话语权。苹果有MLX+Apple Silicon，英伟达有CUDA+RTX显卡，AMD现在有Lemonade+Ryzen AI NPU。三条技术路线，三种硬件生态，互相竞争。

对我们消费者来说——竞争越激烈越好。谁做得好用谁的，用脚投票就行。

illustration-4

不是只有买Mac才能跑本地AI。你的AMD电脑，可能一直藏着一块没被唤醒的AI芯片。现在是时候叫醒它了。

（搜索 lemonade-server.ai ，下载试试看。）

感谢观看。