Karpathy开源了一个AI研究员，睡一觉跑100个实验

三月 7, 2026· 2min read

上周五晚上，Karpathy 发了一条推文。

末尾留了一句话加一个 GitHub 地址：

翻译过来就是：一半代码，一半科幻，再加一点点精神失常。

然后这条推文就炸了。110 万浏览，1万+ 收藏。

他开源了一个叫 autoresearch 的项目。

简单来说就是——你写一个提示词，AI 替你做实验。一晚上跑 100 个。

这东西到底是干嘛的

先说背景。Karpathy 是谁不用多介绍了吧——前特斯拉 AI 总监，OpenAI 创始成员，深度学习教育界的天花板。他写的东西，整个硅谷都会停下来看一眼。

autoresearch 的核心逻辑其实很简单，三个文件：

prepare.py：准备数据，训练分词器。跑一次就行，之后不用动。
train.py：模型训练脚本。这是 AI Agent 唯一会修改的文件。架构、优化器、超参数，全部随便改。
program.md：你写给 AI 的「研究指南」。告诉它怎么思考、怎么实验、什么方向值得探索。

工作流程是这样的：

你写好 program.md（相当于给 AI 下达研究方向）
AI Agent 读完之后，自己修改 train.py
跑一次训练，固定 5 分钟
看验证集 loss 是不是降了
降了？保留代码，git commit。没降？丢掉，重来
循环。一直循环。一晚上循环 100 次。

你睡觉，它做实验。你醒了，打开 git log，看看它昨晚都干了啥。

5 分钟定时器：安静的天才设计

整个项目里最精妙的设计不是什么花哨的 AI 架构，是那个 5 分钟的固定时间预算。

因为 AI Agent 改代码的时候，什么都可能改。模型变大了，batch size 变小了，优化器换了一个，甚至整个架构推倒重来。

如果你按「跑完为止」来计时，一个大模型跑 20 分钟，一个小模型跑 2 分钟——你根本没法比较。

但 5 分钟就是 5 分钟。不管你改了啥，在同样的时间里，谁的 loss 更低，谁就赢。

这就把开放式的「AI 研究」变成了一个有明确评分标准的游戏。就像高考：大家同样 150 分钟，谁分高谁厉害。时间一到就得停笔，不接受加时。

Lior Alexander 解读说：

每一个点都是一次完整的训练。Agent 在 git 分支上自主循环，找到更好的设置就提交代码，找不到就丢掉。一小时 12 个实验，一晚上 100 个。

一小时 12 个实验。

你手动做，一天能做几个？两三个顶天了吧。

这就是人和 Agent 的差距——不是智力差距，是时间差距。AI 不吃饭、不睡觉、不刷手机、不纠结「这个方向值不值得试」。它就是试。暴力地、无情地、机械地试。

不再写代码了，写的是「指挥手册」

这里还有一个很微妙的身份转变。

传统的 AI 研究是什么样的？研究员自己写代码，自己调参数，自己跑实验，自己分析结果。一个实验做完，改两行代码，再跑一次。日复一日。

autoresearch 把这个流程翻了个个儿：

你不碰 Python 文件了。你写的是 Markdown。

program.md 就是你的「研究组织架构」。你在里面定义：

当前的研究方向是什么
应该优先探索哪些维度
什么样的改动是鼓励的
什么样的改动应该避免

额，没错。你从一个「做实验的人」变成了一个「设计实验策略的人」。

Karpathy 自己也说了：

你可以想象，比较不同 prompt、不同 Agent 的研究进度。

也就是说，未来的竞争不是「谁的代码写得好」，而是 「谁的 prompt 写得好」。谁能更好地指挥 AI，谁的实验进度就更快。

这让我想起一句话——未来最好的实验室，不是拥有最多算力的，而是拥有最好的 Agent 指令的。

普通人能用吗？

说实话，有门槛。

跑 autoresearch 需要一块 NVIDIA GPU（Karpathy 用的是 H100）。咱们的笔记本大概率不行。

但这不意味着和我们就没关系。

第一种方式：租 GPU 体验一下。

Lambda、Vast.ai、RunPod，H100 大概十几块一小时。花40来块钱跑一晚上，第二天早上看看 AI 做了什么实验，改了什么代码。光是这个过程就够你发一篇小红书了。

第二种方式：理解它的思想，迁移到你的工作里。

autoresearch 的核心理念不局限于 LLM 训练：

固定时间预算 + 自动评估 + 循环迭代 —— 这套方法论可以用在任何有明确指标的任务上
写 prompt 比写代码更重要 —— 这在 Vibe Coding 时代早就是共识了
Agent 做重复劳动，人做战略决策 —— 这就是我一直在说的「人负责思考，AI 负责执行」

Quick Start（给想动手的人）

如果你真的有 GPU，四步搞定：

# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装依赖
uv sync

# 准备数据（只跑一次）
uv run prepare.py

# 手动跑一次训练验证环境没问题
uv run train.py

环境没问题之后，打开你的 Claude 或者 Codex，指向这个项目目录，对它说：

Hi have a look at program.md and let’s kick off a new experiment!

然后关灯睡觉。

第二天早上 git log 看看它干了啥。

意义在哪？

说真的，这个项目乍一看跟我们很多人没关系。我们自己又不做研究。

而且这技术也不是说有多牛——5 分钟训练 + 自动评估，这个循环本身并不复杂。

但是因为 Karpathy 亲自把这件事做成了一个极简的、任何人都能理解的 demo。630 行代码，3 个文件，一个周末就能跑起来。

他在 README 开头写了一段「科幻引言」：

曾经，前沿 AI 研究是由肉脑在吃饭、睡觉、娱乐的间隙完成的，偶尔通过「小组会议」这种声波互联仪式同步一下。那个时代早已过去。

这段话是调侃，但也不完全是。

两年前，我还在熬夜调参数。现在我让OpenClaw帮我跑日报、做选题分析、管理知识库。

autoresearch 只是把这件事推到了下一步：AI 不只是帮你执行，它开始帮你做研究了。

Karpathy 管这叫「post-AGI 的感觉」。我觉得他只说对了一半。

这不是 AGI。这是人和 AI 的新分工方式刚刚开始成型。

📎 项目地址：github.com/karpathy/autoresearch 📎 Karpathy 原推：x.com/karpathy/status/2030371219518931079

工具放大的是你原本就有的优势。而你最大的优势，是知道什么问题值得问。

感谢观看。