OpenAI内部掀起VibeEngineering革命,区别于盲目依赖AI生成代码的VibeCoding斗牛交流群,Codex采用率超92%,助力工程师PR产出提升70%。12小时从零重写项目、7小时200轮迭代验证500行有效代码,AI让代码变廉价,而信任与人类判断力成为核心价值。

OpenAI办了一场内部分享,主题是VibeEngineering,这里区别于「VibeCoding」,具体为啥,容我细细道来
DeveloperExperience负责人RomainHuet和工程师AaronFriel讲了一个数据:
OpenAI内部技术人员的Codex采用率超过92%,所有内部PR都由Codex审核,使用Codex的工程师产出的合并PR比不用的多70%

发生在OpenAI内部的革命
Friel也讲的另一个故事:
让Codex跑了7小时,迭代了200多轮测试,最终产出的diff只有大约500行
代码行数越来越便宜了,但证明代码有效这件事,变贵了

代码越来越便宜,信任越来越贵
12小时,从空目录到完整项目
分享会上,Friel做了个现场演示把一个叫BazelDiff的Kotlin项目用Rust从零重写,要求100%兼容原项目

12小时,从空目录到完整项目
起点是一个空目录,里面只有一个prompt文件Friel把prompt贴进CodexCLI,然后就….等着
Codex做的第一件事不是写代码,是创建一个「watchdog」子代理——专门用来提醒主代理「你的目标是什么、用户的要求是什么」,防止跑偏
然后它启动了一堆子代理并行工作,有的用GPT5.1,有的用CodexMini,分别去研究上游项目的代码、调研Bazel8和Bazel9的差异、设计项目架构
所有进度都记录在一个叫「execplan」的文件里——不只是给模型看的,也是给人看的
Friel说他之前晚上跑过一次完整的,大概12小时跑完这个任务如果让工程师手写,大概需要几周
7小时500行的故事
这是Friel在DevDay讲过的故事,服装创业交流群现在有了更多细节当时他在沙发上边看电视边干活,顺手把电脑设成不休眠,让Codex跑一个任务第二天早上醒来发现Codex还在跑
7小时,200多轮迭代,最终产出一个大约500行的diff

7小时,200轮迭代,500行代码
Friel说很多工程师听到这个数字的第一反应是:「完了,写了10万行垃圾代码吧?」
但事实相反——这是一个非常复杂的改动,Codex把大部分时间花在了跑测试、改测试、再跑测试上
最终这个改动被merge了
Romain说这才是新的进度单位:更少的错误、更好的review、更高的置信度——即使最终的patch很小
Codex的自我构建
一个细节:OpenAI用Codex来开发Codex

系统开始自我优化
Romain说这就是为什么Codex几乎每隔几天就能发一个新版本
recursiveself-improvement,从Codex开始
非工程师也在用
OpenAI内部,有一个Codex的Slack集成,非技术团队可以直接问Codex关于代码库的问题
比如产品经理想知道某个功能是怎么实现的,销售想了解某个API的细节,不用再去找工程师约会议了

技术,流向每一个人
Friel说:Codex回答这些问题有时候比他自己回答得还好
设计师也在用,比如通过MCP连接Figma,直接把Figma组件拉成代码
Romain的说法是:不是每个人都要变成工程师,但每个人都在变得更技术
所有工程师都升职了
Friel开玩笑说:现在所有工程师都变成Manager了
因为你不再是自己写代码,而是给Codex分配任务、审核它的产出
而且Codex还会自己创建子代理、给子代理分配任务
所以准确说,大家都变成Director了

所有人都升职了
BestofN
Codex有一个功能叫「BestofN」你给它一个任务,它可以并行尝试4种不同的方案,然后把4个结果的截图都给你看

并行探索
Friel说他经常用这个功能——先看4个方案,挑一个最顺眼的,然后继续迭代
Romain的说法是:这就是创意流动的方式,让AI想4个方案供你挑选
什么变重要了
关于这些工具带来的能力瓶颈转移,Romain讲得很直接:
设计和品味(taste)
判断力(discernment)
清晰的沟通
还有一个:产出让人类愿意读的东西

「重要」的迁移
Friel说他有一个测试标准如果Codex的产出是你自己不想读的东西,那它对AI代理也不会有用
他们在推动工程师多写文档、多写测试的理由也是这个:这些东西,不只是给人看的,也是给下一个接手这个代码库的AI代理看的
话说回来
SimonWillison提出「VibeEngineering」这个词是为了跟「VibeCoding」区分开
VibeCoding是让模型随便写代码然后祈祷测试能过VibeEngineering是高级工程师对每一行代码负责,但在规划、架构、调试、文档各个环节都用上代理
要用AI构建斗牛交流群,也要保持人类的责任
