顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

4.8
0热度

Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。如今,他的谷歌引用数已有5千多,h指数为32。深度RL:转行契机2017年秋天,他开始在加州大学伯克利分校电气工程与计算机科学系读博。他的学术背景是MEMS(微机电系统)、高能物理/

Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。


尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。


如今,他的谷歌引用数已有5千多,h指数为32。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好



深度RL:转行契机


2017年秋天,他开始在加州大学伯克利分校电气工程与计算机科学系读博。


他的学术背景是MEMS(微机电系统)、高能物理/激光。


此外,他还在特斯拉做过电池工程实习。



顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好



但听完迎新会、看教授介绍,他立刻就被AI吸引了。


像Sergey Levine(下图左)和Pieter Abbeel(下图右)这类教授,当时炙手可热,风头正劲。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


那正是深度强化学习的高光时刻,相当于今天RL热潮的「前浪」。


他曾主动联系Levine和Abbeel,希望加入他们的研究组,但都被婉拒。


虽然未能如愿,但他并未气馁,反而坚持不懈,一直在主动争取机会。


之后一整年,他几乎没什么真正接触AI研究的机会


上课、读论文,基本是独自暗中摸索。


他没采纳那种「研究生上课不重要」的建议,反而学到了不少扎实的基础知识。


但他没能真正融入伯克利AI实验室,也没有AI方向的朋友,身边全是EECS电气工程那边的同学。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

世界顶尖学术AI研究实验室



事后回顾,Nathan Lambert认为入学前,他已有一些些基本特质:


  • 很会专注,能独自钻研技术难题。
  • 相信只要肯努力多年,多数人都能做成很难的事。不是不够努力,是没坚持够久。
  • 对读不读完博士,无所谓。大不了拿个名校硕士。
  • 有很多冲劲,但没方向。


基础不是障碍,反而是势能的起点。


最难的是第一步,而愿意埋头学基础的人,最终会在别人止步之处继续前进。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好





第一篇论文


转机在他挖出了导师Kris Pister的一封旧邮件。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

Roberto Calandra现任德累斯顿工业大学正教授(W3教授级别),并领导该校「学习、自适应系统与机器人」实验室(LASR)



这才算搭上AI的边:


邮件摘录:

Roberto对将机器学习应用于飘升机(ionocraft)感兴趣。


我们可以尝试:

优化腿部几何形状的学习算法;

为机器人生成「复杂地形」进行测试;

用仿真优化新设计,再用硅材料制造出来测试;

用惯性传感器数据优化步态、避障,甚至控制真实飞行器。


这次合作从2018年春天开始。


秋天错过了一次会议投稿,而且很多实验都失败了。


到了2019年冬天,论文成为他的「头等大事」,虽然最后论文完成了,但成文有点粗糙、略显拼凑。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


论文链接:https://arxiv.org/abs/1901.03737


每次和Roberto开会,他都「压力山大」,生怕漏掉AI博士生「习以为常」的东西。


当时,他做了扎实的工作。


尽管当时总觉得自己格格不入,但那份全身心投入的执着对真正的研究弥足珍贵。


如今AI研究如此热门,太多人只求在简历上勾选这段经历,而非深究细节——


而那时的他,却低估了自己的价值。


转机往往藏在别人不经意的一句引荐里。


不是每次实验都要成功,但每次投入都能积蓄下一次的突破。


从FAIR实习起步


真正的转机出现在2019年,Roberto问他要不要跟他去FAIR(Facebook人工智能研究院)实习。


正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。


FAIR的经历让他真正学会了如何做实验、写代码。


之后,他坚持做研究,同时不断教学来维持学业。


他写了很多申请,但直到毕业才拿到一些拨款,也算是前人栽树,后人乘凉。


FAIR实习+大量面试,帮他拿到第二个机会——DeepMind的实习


尽管实习体验不尽如人意,但他由此积累了宝贵的技术经验与人脉资源。



顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


这条路很清楚:一旦你突破了第一道门槛,后面就会顺一点——


前提是你一直踩着油门往前冲。


研究生生涯后期,他在心理健康资源页面上专门列了份「研究现实清单」,记录所有不如意的事情。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


最后,他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。


他不是从小泡在实验室的「圈内人」,而是靠韧性和创造力硬闯出来的。


这条路,正好也反映了他的AI界朋友圈:一群「AI界的流浪玩具」。


这些「边缘人社群」各有短长,最后大家都找到自己的落点。


突破圈层的关键,不是资源而是契机+准备。


积累势能,打响名声


尽管前面经历了不少波折,Nathan Lambert心里一直有一个明确的目标——


拿下一份工业界研究岗,这对他来说才算真正「在AI领域站稳了」。


最终他加入HuggingFace,那是唯一一份符合他要求的工作。



顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


当时是HuggingFace的研究负责人Douwe Kiela,把他招进去,领导人类反馈强化学习(RLHF)团队。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


让人没想到的是,这类岗位会在他毕业一年后几乎「消失殆尽」。


加入HuggingFace,对Nathan Lambert来说也算幸运,避开了一些听起来更诱人、但后来大裁员或转型的公司。


在HuggingFace,他收获了许多。


其中最宝贵一课,是如何积累势能(momentum)和心智占有率(mind-share)


这两个概念紧密关联却存在微妙差异——


• 个体持续积累动能换取行业影响力;

• 作为组织,HuggingFace虽坐拥心智占有率,近期却面临动能不足。


动能可转化为心智占有率,而后者一旦建立,仅需维持引力便能持续发挥影响。


2022年5月加入HuggingFace后,在ChatGPT问世前的七个月里,他认为并未做出显赫成果。


但坚守HuggingFace的文化,坚持日拱一卒:


每日必须推进技术进展——或是重大功能,或是代码优化。


但日积月累,锻炼了好习惯。


博士生导师曾对他说过:「每天专注4小时,你也能改变世界。」


关键是要把「砖」一块块往上堆——


大多数人放弃得太早了。


在ChatGPT之前的那段时间,他在HuggingFace项目之间辗转,基本是哪里有事、哪里需要人手就去哪儿。


他们尝试了用于强化学习的合成环境项目Simulate,但其实他们人手根本不足。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


目前,该项目已不再积极维护和开发。


Diffusers库,他做了一些边缘性的贡献,还做了不少关于负责任AI的研究。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


Diffusers提供最先进的预训练扩散模型,支持图像、音频甚至分子3D结构生成


尽管这些工作在都还不错,但坦白说,没有哪个项目足以「构建职业基础」


那段时间最有价值的,其实是:


  • 练出了稳定的工作习惯
  • 真正理解了开源AI社区是怎么运作的


这些为之后遇到契合项目时,他能快速接住、真正发力打下了基础。


RLHF技术博客「出圈」


他真正「出圈」的起点,是为HuggingFace写的第一篇重量级博客——关于RLHF(基于人类反馈的强化学习)


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


其实那时他没实现过RLHF算法,也没完整读过论文,只是为了搞懂新概念就动笔了。


这和他现在很多写作动机一样:写作是最好的学习方式


虽然他一直把自己当「强化学习传人」,但也没想太多,写完就发了。


结果它成了RLHF关键词下的长期搜索热文(虽然现在内容已经有点旧了)。


回头看,那是他第一次意识到自己的特长:


把显而易见但没人做的事,及时简单地做好。


这是他后来变得非常重要的能力。


很多人会高估别人的执行力,低估简单方案的价值,然后被自己复杂的想法拖住(沉没成本效应)。


但其实,即使是「显而易见」的事,也很少有人认真去做


比如在做RewardBench的时候,他整整三个月每天都担心被别人「抢先发布」。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


论文链接:https://arxiv.org/abs/2403.13787


结果发了后,又过了三个月才有人发竞品


所以,RewardBench是RLHF奖励模型的第一个评估工具。


势能来自每天一块砖,而不是坐等奇迹。当别人还在等待大项目,他已经靠「基础活」攒下了存在感和专业度。


突破点:公开科研沟通>技术产出


在HuggingFace从事RLHF期间,他为开源社区做了很多基础性工作:


  • 把TRL库现代化;
  • 探索人类数据合同;
  • 复刻数据集;
  • 做了第一个LLM排行榜;
  • 还训练了一些有趣的小模型。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


这很充实、也很有趣。


但后来,时差、文化差异等问题接踵而至。


他慢慢觉得不再快乐了。


HuggingFace如果当时能扩张团队,并配上合适的技术领导,可能能将影响力扩大好几倍。


但这也伴随着风险。训练AI模型是个异常细致的过程,任务繁琐、对小细节的执行有极高要求。


团队只要稍微长大一点,可能就能带来「疯狂级别」的增益。


不管如何,与此同时,他找到了属于自己的定位:做开放科研的沟通者


这个策略其实很简单:


在AI实验室趋于封闭、外界关注度飙升的当下,只要持续做与AI相关的事,在公众眼里的成长就会指数级上升。


他另辟蹊径,选择了竞争没那么激烈的方向。


这让他更容易脱颖而出。


尽管注意力总量虽然在增长,但真正被关注的人反而在减少——


所以只要成为其中之一,收获会非常可观。


如果他当初去了那些「前沿AI实验室},可能早就被埋没在其中,职业成长空间也被压缩了。


而那时候,他开始坚持每周写作,就是这一战略最有力的验证。


而一旦有了清晰的个人品牌,故事就自然会往你这儿聚拢。


比如HuggingFace最具影响力的模型之一——Zephyr Beta,就是基于他帮助搭建的基础设施完成的。


之后,他加入了Allen人工智能研究所(Allen Institute for AI,简称AI2)。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


在他刚加入时,Ai2正好在训练Tülu 2 70B


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好



美国艺术与科学院与美国国家工程院(NAE)双院士、斯坦福大学教授、NLP大牛Chris Manning,如获至宝,甚至说Nathan Lambert的这两项工作「救活了DPO」。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好



尽管在技术上,Nathan Lambert表示这些项目与DPO没有直接关系。


现在,Chris Manning首次提出直接偏好优化DPO的论文,被引用了3000多次。


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好


论文链接:https://arxiv.org/abs/2305.18290


这不是谦虚,而是想说明:


科研不是单一角色的战场,推动科学进展的,是一个个看似不起眼、但密不可分的角色组合。


渐至佳境


在AI2的这段时间,是他职业生涯中最容易被看清楚的一段


他希望AI能真正朝好的方向发展,而且坚信更开放的生态是实现这一目标的最好方式


这份工作对他来说,几乎是最理想的状态:


他的公开写作对AI2有明确价值,而他也能持续锻炼表达力、扩大影响力。 这样的工作极其稀有,大多数公司并不会真的帮你个人成长。


刚加入AI2时,他也经历了一段适应期。


通过RewardBench这类重要的学术项目,他表示自己建立了信心:


我能独立提出点子,并带头推进高影响力的研究项目。


角色转变


许多时候,参与太多合作会让人忽略一个问题:你是否能一个人把事做成?


(即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队,而是看清自己的能力边界。)


现在,他已转变了工作方式,已经完全可以「因人随事」而定。


周围的同事,年轻、优秀、富有驱动力


他们更熟悉细节,也更擅长把新点子实现出来。


所以他更多的贡献是:


  • 指引方向
  • 提前清除潜在障碍
  • 创造顺畅推进的环境


他不再是那个亲自下场刷代码的人,而是负责让项目走得更远、更稳的人


这是一种完全不同的角色定位。


他形成了一个非常明确的观点:


短期研究要产生影响,最有效方式就是把它接入模型训练流程;


长期研究,就得真正做「长期」准备。


偶尔,他也会做些学术指导,但非常保护自己的时间


基本不做线上社交(线下少量),大多数合作都会婉拒。


因为在这个阶段,高质量的输出才是短期目标,而「被关注」是一个复杂得多的长期变量。


技术最终服务于人,好的科研不是一个人的冲刺,而是一群人的合力。


当你愿意从舞台中心走下来,才能搭起更大的舞台。


职场中的「飞轮效应」


他表示他越来越喜欢用「飞轮」(flywheel)这个比喻来看待项目、职业、乃至整个机构的发展。


就像创业公司在找到产品市场匹配(PMF)前,要不断试错迭代,职业生涯也需要不断点火


  • 一开始就是不停「试水」、发布、调整;
  • 早期的「爆款」通常都不会真的火,只是逐步积累影响力;
  • 真正让飞轮转起来的,是多次的积累之后,势能终于爆发。


但一旦飞轮动起来,「发布频率」反而可能成为负担


  • 在AI领域,太频繁发模型,会让我们来不及掌握、完善下一个模型;
  • 观众多了,维护公共输出的成本也飙升。


早期在HuggingFace和刚进AI2时,他一直推崇「多发模型」,但久而久之,这变成了团队的负担。


所以他现在转向更「少而精」的策略。当飞轮已经转起来时,更少、更大的动作会更有价值。


飞轮一旦足够大,有时候什么都不做反而更有效:


  • 项目自然流入;
  • 推荐自然发生;
  • 你会被当成「AI开放科学的头部人物」之一,而不必不断自我证明。


真正的成长不是「更努力」,而是「更聪明地努力」。


当飞轮启动,维持节奏比盲目奔跑更重要。


现在,他花很多时间思考:


如何更有策略地使用积累的影响力?


他不想总是站在最前线亲自带队,而是希望通过营造环境、鼓励他人,让更多重要项目得以发生。


这是一套全新的能力,他还在学习。


而这,正是他始终心系的愿景:AI的未来不属于孤勇者,而是属于一群协力前行、彼此赋能的人。


参考资料:


https://www.interconnects.ai/p/my-path-into-ai

https://www.linkedin.com/in/natolambert/


文章来自公众号“新智元


顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

首页 发现
看过 我的