夏洛特的AI实验室

不是只有Mac能跑本地AI:AMD用户终于等到了自己的工具

· 1min read

cover

前几天写了一篇关于Ollama在Mac上跑本地AI的文章,后台收到好几条留言:“我用的是Windows啊!““我没有Mac怎么办?““AMD的电脑行不行?”

行。而且AMD刚好出了一个专门针对自家芯片优化的工具——Lemonade

如果说Ollama是Mac用户的本地AI利器,那Lemonade就是AMD用户的对应方案。而且在某些方面,它做得更激进。

本地AI为什么重要?因为它解决了三个很现实的问题:不花钱、不泄密、不断线。你不需要每个月给OpenAI交钱,不需要把公司文档传到别人的服务器上,不需要在没有网的时候干瞪眼。

而这三个需求,恰恰是越来越多普通用户——尤其是在意数据安全的职场人士——真正在乎的。

Lemonade是什么

一句话概括:一个在你AMD电脑上跑AI大模型的开源服务器。

免费,开源,数据不出你的电脑。

它最大的特点是:能同时调用AMD芯片里的NPU(神经处理单元)和GPU做双加速。

NPU是什么呢?简单说,它是AMD最新的Ryzen AI系列处理器里内置的一块专门跑AI计算的小芯片。以前这块芯片基本是"买了但没有用上"的状态——软件生态跟不上,有硬件但没软件调用它。

Lemonade解决的就是这个问题:让NPU真正干活。

配合集成显卡一起跑,推理速度比纯CPU模式快很多。社区有人实测过,Ryzen AI 300用NPU+GPU混合推理跑Qwen3.5-7B,速度相当流畅,日常对话基本感觉不到延迟。你买Ryzen AI处理器时多花的那部分钱,终于不白花了。

说到这里,你可能发现了——这跟苹果的策略很像。苹果在M系列芯片里搞了统一内存架构,让MLX框架能直接利用。AMD在Ryzen AI里搞了NPU,让Lemonade能调用。都是"硬件先行,然后等软件生态补上"的路线。

illustration-1

支持什么硬件

配置加速方式体验
AMD Ryzen AI 300系列 + Windows 11NPU + iGPU双加速最佳
其他AMD显卡的Windows电脑GPU加速不错
任意Windows电脑CPU模式能跑但慢

最佳体验需要Ryzen AI 300系列——这是AMD 2025年推出的处理器,内置了专门的AI加速单元。如果你最近一两年买的AMD笔记本(比如华硕、联想的很多新款),很可能就是这个芯片。

没有Ryzen AI也能用,只是跑得慢一些。CPU模式下跑7B参数以下的小模型也还行——聊聊天、翻译翻译、总结总结文档,体验不会太差。

怎么看自己的电脑是不是Ryzen AI?最简单的方法:搜一下你电脑的型号,看处理器是不是Ryzen 7/9 X3D或者Ryzen AI 300系列。或者在Windows设置→系统→关于里查处理器信息,有"AI"字样的基本就是了。

能跑什么

Lemonade不只是个聊天工具。它支持三类AI能力:

  • 文本对话(LLM)——跟AI聊天、写东西、分析文档
  • 语音识别(Whisper)——把录音转成文字
  • 图像生成(Stable Diffusion)——文字生成图片

模型格式支持GGUF、ONNX和AMD自己的FLM格式。GGUF是目前本地AI最主流的格式——HuggingFace上几千个开源模型都提供这个格式的下载,意味着你的选择面非常广。从聊天助手到代码生成,从翻译模型到写作辅助,想用什么都能找到。

最关键的是:Lemonade提供OpenAI兼容的API接口。这意味着什么?任何支持OpenAI API的工具——比如各种AI编程助手、聊天客户端、自动化工具——都可以无缝接入Lemonade。不需要改代码,把API地址从OpenAI的服务器换成你自己电脑的地址就行。

你的电脑就变成了一台私有的AI服务器。

这一点非常实用。比如你正在用某个AI笔记工具,它支持自定义API——以前你只能填OpenAI的接口,每个月花几十上百块。现在你填自己电脑的地址,免费、离线、数据不出本机。工具还是那个工具,但成本从每月几十块变成了零。

illustration-2

安装有多简单

比你想象的简单:

lemonade pull 模型名 # 下载模型 lemonade serve # 启动服务器

两条命令。

如果你不喜欢用命令行,Lemonade还有一个图形界面的Model Manager——点点鼠标就能下载模型、启动服务。

下载完模型之后,完全离线运行。断网也能用。

额……如果你连这两步都觉得复杂,那AMD可能不太适合你。但说实话,这已经比两年前装个本地AI要简单十倍了。两年前你需要配环境、装驱动、编译代码、调参数——现在两条命令搞定。技术民主化就是这样,一步步把门槛踩平。

跟Ollama比怎么样

这是大家最关心的问题。直接说结论:

如果你用Mac → Ollama更好(MLX引擎针对苹果芯片深度优化)

如果你用AMD电脑 → Lemonade更好(专门调用AMD NPU和GPU)

如果你用Intel或者N卡 → Ollama更通用

Ollama是"通用选手”,什么平台都能跑,但在AMD上没有做专门优化。Lemonade是"AMD特化选手”,在AMD硬件上能压榨出更多性能,但不支持Mac。

选工具跟选鞋一样——不是哪双最贵,而是哪双最合脚。

还有一个细节:Lemonade是完全开源的(GitHub上可以搜到),社区可以贡献代码、修bug、加功能。这意味着它的发展不完全依赖AMD一家公司的资源分配。社区驱动的项目,迭代往往更快、更接地气。

当然,风险也是有的——开源项目的维护稳定性不如商业产品。如果AMD哪天不投资源了,项目可能会停滞。但至少目前来看,它是活跃且持续更新的。

illustration-3

本地AI vs 云端AI:到底差在哪

对比云端AI(ChatGPT等)本地AI(Lemonade)
费用按月/按量付费免费
隐私数据上传服务器数据不离本机
网络必须联网完全离线
速度取决于网络和排队本地推理,低延迟
能力上限顶级模型更聪明受限于你的硬件

云端模型在"聪明程度"上确实还有优势。但本地模型在隐私、成本、可用性上完胜。

而且这个差距在快速缩小。一年前本地能跑的模型只有7B参数级别,勉强能用。现在Gemma 4、Qwen3.5这种几十亿参数的模型,本地跑起来已经相当流畅了。

再过一两年?可能你很难分辨出"这个回答是本地模型给的还是云端模型给的”。

我个人的判断是:未来不是"云端AI替代本地AI"或者反过来,而是两者共存。重要的、需要最强智力的任务丢给云端大模型;日常的、频繁的、涉及隐私的任务交给本地小模型。就像你有时候去餐厅吃,有时候在家做——不矛盾。

AMD的NPU终于有用了

说句实在话——AMD的NPU从2024年就开始往处理器里塞了,但一直处于"鸡肋"状态。硬件有了,软件不跟。买Ryzen AI的用户付了溢价,但NPU基本在吃灰。

Lemonade是目前为止最像样的NPU利用方案。它让这块芯片真正开始干活了。

当然了,现在只是开始。但是NPU的生态远不如GPU成熟,支持的模型和优化程度都还有限。但方向是对的——专用AI芯片+专门优化的软件,这条路走通了,本地AI的体验只会越来越好。

从更大的视角看,这也是AMD在跟苹果、英伟达争夺"本地AI平台"的话语权。苹果有MLX+Apple Silicon,英伟达有CUDA+RTX显卡,AMD现在有Lemonade+Ryzen AI NPU。三条技术路线,三种硬件生态,互相竞争。

对我们消费者来说——竞争越激烈越好。谁做得好用谁的,用脚投票就行。

illustration-4


不是只有买Mac才能跑本地AI。你的AMD电脑,可能一直藏着一块没被唤醒的AI芯片。现在是时候叫醒它了。

(搜索 lemonade-server.ai ,下载试试看。)

感谢观看。