Karpathy开源了一个AI研究员,睡一觉跑100个实验

上周五晚上,Karpathy 发了一条推文。
末尾留了一句话加一个 GitHub 地址:

翻译过来就是:一半代码,一半科幻,再加一点点精神失常。
然后这条推文就炸了。110 万浏览,1万+ 收藏。
他开源了一个叫 autoresearch 的项目。
简单来说就是——你写一个提示词,AI 替你做实验。一晚上跑 100 个。
这东西到底是干嘛的
先说背景。Karpathy 是谁不用多介绍了吧——前特斯拉 AI 总监,OpenAI 创始成员,深度学习教育界的天花板。他写的东西,整个硅谷都会停下来看一眼。
autoresearch 的核心逻辑其实很简单,三个文件:
prepare.py:准备数据,训练分词器。跑一次就行,之后不用动。train.py:模型训练脚本。这是 AI Agent 唯一会修改的文件。架构、优化器、超参数,全部随便改。program.md:你写给 AI 的「研究指南」。告诉它怎么思考、怎么实验、什么方向值得探索。
工作流程是这样的:
- 你写好 program.md(相当于给 AI 下达研究方向)
- AI Agent 读完之后,自己修改 train.py
- 跑一次训练,固定 5 分钟
- 看验证集 loss 是不是降了
- 降了?保留代码,git commit。没降?丢掉,重来
- 循环。一直循环。一晚上循环 100 次。
你睡觉,它做实验。你醒了,打开 git log,看看它昨晚都干了啥。
5 分钟定时器:安静的天才设计
整个项目里最精妙的设计不是什么花哨的 AI 架构,是那个 5 分钟的固定时间预算。
因为 AI Agent 改代码的时候,什么都可能改。模型变大了,batch size 变小了,优化器换了一个,甚至整个架构推倒重来。
如果你按「跑完为止」来计时,一个大模型跑 20 分钟,一个小模型跑 2 分钟——你根本没法比较。
但 5 分钟就是 5 分钟。不管你改了啥,在同样的时间里,谁的 loss 更低,谁就赢。
这就把开放式的「AI 研究」变成了一个有明确评分标准的游戏。就像高考:大家同样 150 分钟,谁分高谁厉害。时间一到就得停笔,不接受加时。
Lior Alexander 解读说:
每一个点都是一次完整的训练。Agent 在 git 分支上自主循环,找到更好的设置就提交代码,找不到就丢掉。一小时 12 个实验,一晚上 100 个。
一小时 12 个实验。
你手动做,一天能做几个?两三个顶天了吧。
这就是人和 Agent 的差距——不是智力差距,是时间差距。AI 不吃饭、不睡觉、不刷手机、不纠结「这个方向值不值得试」。它就是试。暴力地、无情地、机械地试。
不再写代码了,写的是「指挥手册」
这里还有一个很微妙的身份转变。
传统的 AI 研究是什么样的?研究员自己写代码,自己调参数,自己跑实验,自己分析结果。一个实验做完,改两行代码,再跑一次。日复一日。
autoresearch 把这个流程翻了个个儿:
你不碰 Python 文件了。你写的是 Markdown。
program.md 就是你的「研究组织架构」。你在里面定义:
- 当前的研究方向是什么
- 应该优先探索哪些维度
- 什么样的改动是鼓励的
- 什么样的改动应该避免
额,没错。你从一个「做实验的人」变成了一个「设计实验策略的人」。
Karpathy 自己也说了:
你可以想象,比较不同 prompt、不同 Agent 的研究进度。
也就是说,未来的竞争不是「谁的代码写得好」,而是 「谁的 prompt 写得好」。谁能更好地指挥 AI,谁的实验进度就更快。
这让我想起一句话——未来最好的实验室,不是拥有最多算力的,而是拥有最好的 Agent 指令的。
普通人能用吗?
说实话,有门槛。
跑 autoresearch 需要一块 NVIDIA GPU(Karpathy 用的是 H100)。咱们的笔记本大概率不行。
但这不意味着和我们就没关系。
第一种方式:租 GPU 体验一下。
Lambda、Vast.ai、RunPod,H100 大概十几块一小时。花40来块钱跑一晚上,第二天早上看看 AI 做了什么实验,改了什么代码。光是这个过程就够你发一篇小红书了。
第二种方式:理解它的思想,迁移到你的工作里。
autoresearch 的核心理念不局限于 LLM 训练:
- 固定时间预算 + 自动评估 + 循环迭代 —— 这套方法论可以用在任何有明确指标的任务上
- 写 prompt 比写代码更重要 —— 这在 Vibe Coding 时代早就是共识了
- Agent 做重复劳动,人做战略决策 —— 这就是我一直在说的「人负责思考,AI 负责执行」
Quick Start(给想动手的人)
如果你真的有 GPU,四步搞定:
# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装依赖
uv sync
# 准备数据(只跑一次)
uv run prepare.py
# 手动跑一次训练验证环境没问题
uv run train.py
环境没问题之后,打开你的 Claude 或者 Codex,指向这个项目目录,对它说:
Hi have a look at program.md and let’s kick off a new experiment!
然后关灯睡觉。
第二天早上 git log 看看它干了啥。
意义在哪?
说真的,这个项目乍一看跟我们很多人没关系。我们自己又不做研究。
而且这技术也不是说有多牛——5 分钟训练 + 自动评估,这个循环本身并不复杂。
但是因为 Karpathy 亲自把这件事做成了一个极简的、任何人都能理解的 demo。630 行代码,3 个文件,一个周末就能跑起来。
他在 README 开头写了一段「科幻引言」:
曾经,前沿 AI 研究是由肉脑在吃饭、睡觉、娱乐的间隙完成的,偶尔通过「小组会议」这种声波互联仪式同步一下。那个时代早已过去。
这段话是调侃,但也不完全是。
两年前,我还在熬夜调参数。现在我让OpenClaw帮我跑日报、做选题分析、管理知识库。
autoresearch 只是把这件事推到了下一步:AI 不只是帮你执行,它开始帮你做研究了。
Karpathy 管这叫「post-AGI 的感觉」。我觉得他只说对了一半。
这不是 AGI。这是人和 AI 的新分工方式刚刚开始成型。
📎 项目地址:github.com/karpathy/autoresearch 📎 Karpathy 原推:x.com/karpathy/status/2030371219518931079
工具放大的是你原本就有的优势。而你最大的优势,是知道什么问题值得问。
感谢观看。