夏洛特的AI实验室

Karpathy开源了一个AI研究员,睡一觉跑100个实验

· 2min read
Karpathy开源了一个AI研究员,睡一觉跑100个实验

上周五晚上,Karpathy 发了一条推文。

末尾留了一句话加一个 GitHub 地址:

翻译过来就是:一半代码,一半科幻,再加一点点精神失常。

然后这条推文就炸了。110 万浏览,1万+ 收藏。

他开源了一个叫 autoresearch 的项目。

简单来说就是——你写一个提示词,AI 替你做实验。一晚上跑 100 个。

这东西到底是干嘛的

先说背景。Karpathy 是谁不用多介绍了吧——前特斯拉 AI 总监,OpenAI 创始成员,深度学习教育界的天花板。他写的东西,整个硅谷都会停下来看一眼。

autoresearch 的核心逻辑其实很简单,三个文件:

  • prepare.py:准备数据,训练分词器。跑一次就行,之后不用动。
  • train.py:模型训练脚本。这是 AI Agent 唯一会修改的文件。架构、优化器、超参数,全部随便改。
  • program.md:你写给 AI 的「研究指南」。告诉它怎么思考、怎么实验、什么方向值得探索。

工作流程是这样的:

  1. 你写好 program.md(相当于给 AI 下达研究方向)
  2. AI Agent 读完之后,自己修改 train.py
  3. 跑一次训练,固定 5 分钟
  4. 看验证集 loss 是不是降了
  5. 降了?保留代码,git commit。没降?丢掉,重来
  6. 循环。一直循环。一晚上循环 100 次。

你睡觉,它做实验。你醒了,打开 git log,看看它昨晚都干了啥。

5 分钟定时器:安静的天才设计

整个项目里最精妙的设计不是什么花哨的 AI 架构,是那个 5 分钟的固定时间预算

因为 AI Agent 改代码的时候,什么都可能改。模型变大了,batch size 变小了,优化器换了一个,甚至整个架构推倒重来。

如果你按「跑完为止」来计时,一个大模型跑 20 分钟,一个小模型跑 2 分钟——你根本没法比较。

但 5 分钟就是 5 分钟。不管你改了啥,在同样的时间里,谁的 loss 更低,谁就赢

这就把开放式的「AI 研究」变成了一个有明确评分标准的游戏。就像高考:大家同样 150 分钟,谁分高谁厉害。时间一到就得停笔,不接受加时。

Lior Alexander 解读说:

每一个点都是一次完整的训练。Agent 在 git 分支上自主循环,找到更好的设置就提交代码,找不到就丢掉。一小时 12 个实验,一晚上 100 个。

一小时 12 个实验。

你手动做,一天能做几个?两三个顶天了吧。

这就是人和 Agent 的差距——不是智力差距,是时间差距。AI 不吃饭、不睡觉、不刷手机、不纠结「这个方向值不值得试」。它就是试。暴力地、无情地、机械地试。

不再写代码了,写的是「指挥手册」

这里还有一个很微妙的身份转变。

传统的 AI 研究是什么样的?研究员自己写代码,自己调参数,自己跑实验,自己分析结果。一个实验做完,改两行代码,再跑一次。日复一日。

autoresearch 把这个流程翻了个个儿:

你不碰 Python 文件了。你写的是 Markdown。

program.md 就是你的「研究组织架构」。你在里面定义:

  • 当前的研究方向是什么
  • 应该优先探索哪些维度
  • 什么样的改动是鼓励的
  • 什么样的改动应该避免

额,没错。你从一个「做实验的人」变成了一个「设计实验策略的人」。

Karpathy 自己也说了:

你可以想象,比较不同 prompt、不同 Agent 的研究进度。

也就是说,未来的竞争不是「谁的代码写得好」,而是 「谁的 prompt 写得好」。谁能更好地指挥 AI,谁的实验进度就更快。

这让我想起一句话——未来最好的实验室,不是拥有最多算力的,而是拥有最好的 Agent 指令的。

普通人能用吗?

说实话,有门槛。

跑 autoresearch 需要一块 NVIDIA GPU(Karpathy 用的是 H100)。咱们的笔记本大概率不行。

但这不意味着和我们就没关系。

第一种方式:租 GPU 体验一下。

Lambda、Vast.ai、RunPod,H100 大概十几块一小时。花40来块钱跑一晚上,第二天早上看看 AI 做了什么实验,改了什么代码。光是这个过程就够你发一篇小红书了。

第二种方式:理解它的思想,迁移到你的工作里。

autoresearch 的核心理念不局限于 LLM 训练:

  • 固定时间预算 + 自动评估 + 循环迭代 —— 这套方法论可以用在任何有明确指标的任务上
  • 写 prompt 比写代码更重要 —— 这在 Vibe Coding 时代早就是共识了
  • Agent 做重复劳动,人做战略决策 —— 这就是我一直在说的「人负责思考,AI 负责执行」

Quick Start(给想动手的人)

如果你真的有 GPU,四步搞定:

# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装依赖
uv sync

# 准备数据(只跑一次)
uv run prepare.py

# 手动跑一次训练验证环境没问题
uv run train.py

环境没问题之后,打开你的 Claude 或者 Codex,指向这个项目目录,对它说:

Hi have a look at program.md and let’s kick off a new experiment!

然后关灯睡觉。

第二天早上 git log 看看它干了啥。

意义在哪?

说真的,这个项目乍一看跟我们很多人没关系。我们自己又不做研究。

而且这技术也不是说有多牛——5 分钟训练 + 自动评估,这个循环本身并不复杂。

但是因为 Karpathy 亲自把这件事做成了一个极简的、任何人都能理解的 demo。630 行代码,3 个文件,一个周末就能跑起来。

他在 README 开头写了一段「科幻引言」:

曾经,前沿 AI 研究是由肉脑在吃饭、睡觉、娱乐的间隙完成的,偶尔通过「小组会议」这种声波互联仪式同步一下。那个时代早已过去。

这段话是调侃,但也不完全是。

两年前,我还在熬夜调参数。现在我让OpenClaw帮我跑日报、做选题分析、管理知识库。

autoresearch 只是把这件事推到了下一步:AI 不只是帮你执行,它开始帮你做研究了。

Karpathy 管这叫「post-AGI 的感觉」。我觉得他只说对了一半。

这不是 AGI。这是人和 AI 的新分工方式刚刚开始成型。


📎 项目地址github.com/karpathy/autoresearch 📎 Karpathy 原推x.com/karpathy/status/2030371219518931079


工具放大的是你原本就有的优势。而你最大的优势,是知道什么问题值得问。

感谢观看。