不是只有Mac能跑本地AI:AMD用户终于等到了自己的工具

前几天写了一篇关于Ollama在Mac上跑本地AI的文章,后台收到好几条留言:“我用的是Windows啊!““我没有Mac怎么办?““AMD的电脑行不行?”
行。而且AMD刚好出了一个专门针对自家芯片优化的工具——Lemonade。
如果说Ollama是Mac用户的本地AI利器,那Lemonade就是AMD用户的对应方案。而且在某些方面,它做得更激进。
本地AI为什么重要?因为它解决了三个很现实的问题:不花钱、不泄密、不断线。你不需要每个月给OpenAI交钱,不需要把公司文档传到别人的服务器上,不需要在没有网的时候干瞪眼。
而这三个需求,恰恰是越来越多普通用户——尤其是在意数据安全的职场人士——真正在乎的。
Lemonade是什么
一句话概括:一个在你AMD电脑上跑AI大模型的开源服务器。
免费,开源,数据不出你的电脑。
它最大的特点是:能同时调用AMD芯片里的NPU(神经处理单元)和GPU做双加速。
NPU是什么呢?简单说,它是AMD最新的Ryzen AI系列处理器里内置的一块专门跑AI计算的小芯片。以前这块芯片基本是"买了但没有用上"的状态——软件生态跟不上,有硬件但没软件调用它。
Lemonade解决的就是这个问题:让NPU真正干活。
配合集成显卡一起跑,推理速度比纯CPU模式快很多。社区有人实测过,Ryzen AI 300用NPU+GPU混合推理跑Qwen3.5-7B,速度相当流畅,日常对话基本感觉不到延迟。你买Ryzen AI处理器时多花的那部分钱,终于不白花了。
说到这里,你可能发现了——这跟苹果的策略很像。苹果在M系列芯片里搞了统一内存架构,让MLX框架能直接利用。AMD在Ryzen AI里搞了NPU,让Lemonade能调用。都是"硬件先行,然后等软件生态补上"的路线。

支持什么硬件
| 配置 | 加速方式 | 体验 |
|---|---|---|
| AMD Ryzen AI 300系列 + Windows 11 | NPU + iGPU双加速 | 最佳 |
| 其他AMD显卡的Windows电脑 | GPU加速 | 不错 |
| 任意Windows电脑 | CPU模式 | 能跑但慢 |
最佳体验需要Ryzen AI 300系列——这是AMD 2025年推出的处理器,内置了专门的AI加速单元。如果你最近一两年买的AMD笔记本(比如华硕、联想的很多新款),很可能就是这个芯片。
没有Ryzen AI也能用,只是跑得慢一些。CPU模式下跑7B参数以下的小模型也还行——聊聊天、翻译翻译、总结总结文档,体验不会太差。
怎么看自己的电脑是不是Ryzen AI?最简单的方法:搜一下你电脑的型号,看处理器是不是Ryzen 7/9 X3D或者Ryzen AI 300系列。或者在Windows设置→系统→关于里查处理器信息,有"AI"字样的基本就是了。
能跑什么
Lemonade不只是个聊天工具。它支持三类AI能力:
- 文本对话(LLM)——跟AI聊天、写东西、分析文档
- 语音识别(Whisper)——把录音转成文字
- 图像生成(Stable Diffusion)——文字生成图片
模型格式支持GGUF、ONNX和AMD自己的FLM格式。GGUF是目前本地AI最主流的格式——HuggingFace上几千个开源模型都提供这个格式的下载,意味着你的选择面非常广。从聊天助手到代码生成,从翻译模型到写作辅助,想用什么都能找到。
最关键的是:Lemonade提供OpenAI兼容的API接口。这意味着什么?任何支持OpenAI API的工具——比如各种AI编程助手、聊天客户端、自动化工具——都可以无缝接入Lemonade。不需要改代码,把API地址从OpenAI的服务器换成你自己电脑的地址就行。
你的电脑就变成了一台私有的AI服务器。
这一点非常实用。比如你正在用某个AI笔记工具,它支持自定义API——以前你只能填OpenAI的接口,每个月花几十上百块。现在你填自己电脑的地址,免费、离线、数据不出本机。工具还是那个工具,但成本从每月几十块变成了零。

安装有多简单
比你想象的简单:
lemonade pull 模型名 # 下载模型 lemonade serve # 启动服务器
两条命令。
如果你不喜欢用命令行,Lemonade还有一个图形界面的Model Manager——点点鼠标就能下载模型、启动服务。
下载完模型之后,完全离线运行。断网也能用。
额……如果你连这两步都觉得复杂,那AMD可能不太适合你。但说实话,这已经比两年前装个本地AI要简单十倍了。两年前你需要配环境、装驱动、编译代码、调参数——现在两条命令搞定。技术民主化就是这样,一步步把门槛踩平。
跟Ollama比怎么样
这是大家最关心的问题。直接说结论:
如果你用Mac → Ollama更好(MLX引擎针对苹果芯片深度优化)
如果你用AMD电脑 → Lemonade更好(专门调用AMD NPU和GPU)
如果你用Intel或者N卡 → Ollama更通用
Ollama是"通用选手”,什么平台都能跑,但在AMD上没有做专门优化。Lemonade是"AMD特化选手”,在AMD硬件上能压榨出更多性能,但不支持Mac。
选工具跟选鞋一样——不是哪双最贵,而是哪双最合脚。
还有一个细节:Lemonade是完全开源的(GitHub上可以搜到),社区可以贡献代码、修bug、加功能。这意味着它的发展不完全依赖AMD一家公司的资源分配。社区驱动的项目,迭代往往更快、更接地气。
当然,风险也是有的——开源项目的维护稳定性不如商业产品。如果AMD哪天不投资源了,项目可能会停滞。但至少目前来看,它是活跃且持续更新的。

本地AI vs 云端AI:到底差在哪
| 对比 | 云端AI(ChatGPT等) | 本地AI(Lemonade) |
|---|---|---|
| 费用 | 按月/按量付费 | 免费 |
| 隐私 | 数据上传服务器 | 数据不离本机 |
| 网络 | 必须联网 | 完全离线 |
| 速度 | 取决于网络和排队 | 本地推理,低延迟 |
| 能力上限 | 顶级模型更聪明 | 受限于你的硬件 |
云端模型在"聪明程度"上确实还有优势。但本地模型在隐私、成本、可用性上完胜。
而且这个差距在快速缩小。一年前本地能跑的模型只有7B参数级别,勉强能用。现在Gemma 4、Qwen3.5这种几十亿参数的模型,本地跑起来已经相当流畅了。
再过一两年?可能你很难分辨出"这个回答是本地模型给的还是云端模型给的”。
我个人的判断是:未来不是"云端AI替代本地AI"或者反过来,而是两者共存。重要的、需要最强智力的任务丢给云端大模型;日常的、频繁的、涉及隐私的任务交给本地小模型。就像你有时候去餐厅吃,有时候在家做——不矛盾。
AMD的NPU终于有用了
说句实在话——AMD的NPU从2024年就开始往处理器里塞了,但一直处于"鸡肋"状态。硬件有了,软件不跟。买Ryzen AI的用户付了溢价,但NPU基本在吃灰。
Lemonade是目前为止最像样的NPU利用方案。它让这块芯片真正开始干活了。
当然了,现在只是开始。但是NPU的生态远不如GPU成熟,支持的模型和优化程度都还有限。但方向是对的——专用AI芯片+专门优化的软件,这条路走通了,本地AI的体验只会越来越好。
从更大的视角看,这也是AMD在跟苹果、英伟达争夺"本地AI平台"的话语权。苹果有MLX+Apple Silicon,英伟达有CUDA+RTX显卡,AMD现在有Lemonade+Ryzen AI NPU。三条技术路线,三种硬件生态,互相竞争。
对我们消费者来说——竞争越激烈越好。谁做得好用谁的,用脚投票就行。

不是只有买Mac才能跑本地AI。你的AMD电脑,可能一直藏着一块没被唤醒的AI芯片。现在是时候叫醒它了。
(搜索 lemonade-server.ai ,下载试试看。)
感谢观看。