顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

美羊羊3周前教育资讯9

Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。

尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。

小萝莉貌美爆红刷屏__圈宠与王一夜

博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。

如今,他的谷歌引用数已有5千多,h指数为32。

圈宠与王一夜__小萝莉貌美爆红刷屏

深度RL:转行契机

2017年秋天,他开始在加州大学伯克利分校电气工程与计算机科学系读博。

他的学术背景是MEMS(微机电系统)、高能物理/激光。

此外,他还在特斯拉做过电池工程实习。

小萝莉貌美爆红刷屏_圈宠与王一夜_

但听完迎新会、看教授介绍,他立刻就被AI吸引了。

像Sergey Levine(下图左)和Pieter Abbeel(下图右)这类教授,当时炙手可热,风头正劲。

圈宠与王一夜__小萝莉貌美爆红刷屏

那正是深度强化学习的高光时刻,相当于今天RL热潮的「前浪」。

他曾主动联系Levine和Abbeel,希望加入他们的研究组,但都被婉拒。

虽然未能如愿,但他并未气馁,反而坚持不懈,一直在主动争取机会。

之后一整年,他几乎没什么真正接触AI研究的机会。

上课、读论文,基本是独自暗中摸索。

他没采纳那种「研究生上课不重要」的建议,反而学到了不少扎实的基础知识。

但他没能真正融入伯克利AI实验室,也没有AI方向的朋友,身边全是EECS电气工程那边的同学。

小萝莉貌美爆红刷屏_圈宠与王一夜_

世界顶尖学术AI研究实验室

事后回顾,Nathan Lambert认为入学前,他已有一些些基本特质:

基础不是障碍,反而是势能的起点。

最难的是第一步,而愿意埋头学基础的人,最终会在别人止步之处继续前进。

小萝莉貌美爆红刷屏_圈宠与王一夜_

第一篇论文

转机在他挖出了导师Kris Pister的一封旧邮件。

_小萝莉貌美爆红刷屏_圈宠与王一夜

导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。

_圈宠与王一夜_小萝莉貌美爆红刷屏

Roberto Calandra现任德累斯顿工业大学正教授(W3教授级别),并领导该校「学习、自适应系统与机器人」实验室(LASR)

这才算搭上AI的边:

邮件摘录:

Roberto对将机器学习应用于飘升机(ionocraft)感兴趣。

我们可以尝试:

优化腿部几何形状的学习算法;

为机器人生成「复杂地形」进行测试;

用仿真优化新设计,再用硅材料制造出来测试;

用惯性传感器数据优化步态、避障,甚至控制真实飞行器。

这次合作从2018年春天开始。

秋天错过了一次会议投稿,而且很多实验都失败了。

到了2019年冬天,论文成为他的「头等大事」,虽然最后论文完成了,但成文有点粗糙、略显拼凑。

圈宠与王一夜__小萝莉貌美爆红刷屏

论文链接:https://arxiv.org/abs/1901.03737

每次和Roberto开会,他都「压力山大」,生怕漏掉AI博士生「习以为常」的东西。

当时,他做了扎实的工作。

尽管当时总觉得自己格格不入,但那份全身心投入的执着对真正的研究弥足珍贵。

如今AI研究如此热门,太多人只求在简历上勾选这段经历,而非深究细节——

而那时的他,却低估了自己的价值。

转机往往藏在别人不经意的一句引荐里。

不是每次实验都要成功,但每次投入都能积蓄下一次的突破。

从FAIR实习起步

真正的转机出现在2019年,Roberto问他要不要跟他去FAIR(Facebook人工智能研究院)实习。

正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。

FAIR的经历让他真正学会了如何做实验、写代码。

之后,他坚持做研究,同时不断教学来维持学业。

他写了很多申请,但直到毕业才拿到一些拨款,也算是前人栽树,后人乘凉。

FAIR实习+大量面试,帮他拿到第二个机会——DeepMind的实习。

尽管实习体验不尽如人意,但他由此积累了宝贵的技术经验与人脉资源。

小萝莉貌美爆红刷屏_圈宠与王一夜_

这条路很清楚:一旦你突破了第一道门槛,后面就会顺一点——

前提是你一直踩着油门往前冲。

研究生生涯后期,他在心理健康资源页面上专门列了份「研究现实清单」,记录所有不如意的事情。

圈宠与王一夜__小萝莉貌美爆红刷屏

最后,他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。

他不是从小泡在实验室的「圈内人」,而是靠韧性和创造力硬闯出来的。

这条路,正好也反映了他的AI界朋友圈:一群「AI界的流浪玩具」。

这些「边缘人社群」各有短长,最后大家都找到自己的落点。

突破圈层的关键,不是资源而是契机+准备。

积累势能,打响名声

尽管前面经历了不少波折,Nathan Lambert心里一直有一个明确的目标——

拿下一份工业界研究岗,这对他来说才算真正「在AI领域站稳了」。

最终他加入HuggingFace,那是唯一一份符合他要求的工作。

小萝莉貌美爆红刷屏_圈宠与王一夜_

当时是HuggingFace的研究负责人Douwe Kiela,把他招进去,领导人类反馈强化学习(RLHF)团队。

小萝莉貌美爆红刷屏_圈宠与王一夜_

让人没想到的是,这类岗位会在他毕业一年后几乎「消失殆尽」。

加入HuggingFace,对Nathan Lambert来说也算幸运,避开了一些听起来更诱人、但后来大裁员或转型的公司。

在HuggingFace,他收获了许多。

其中最宝贵一课,是如何积累势能(momentum)和心智占有率(mind-share)。

这两个概念紧密关联却存在微妙差异——

• 个体持续积累动能换取行业影响力;

• 作为组织,HuggingFace虽坐拥心智占有率,近期却面临动能不足。

动能可转化为心智占有率,而后者一旦建立,仅需维持引力便能持续发挥影响。

2022年5月加入HuggingFace后,在ChatGPT问世前的七个月里,他认为并未做出显赫成果。

但坚守HuggingFace的文化,坚持日拱一卒:

每日必须推进技术进展——或是重大功能,或是代码优化。

但日积月累,锻炼了好习惯。

博士生导师曾对他说过:「每天专注4小时,你也能改变世界。」

关键是要把「砖」一块块往上堆——

大多数人放弃得太早了。

在ChatGPT之前的那段时间,他在HuggingFace项目之间辗转,基本是哪里有事、哪里需要人手就去哪儿。

他们尝试了用于强化学习的合成环境项目Simulate,但其实他们人手根本不足。

小萝莉貌美爆红刷屏_圈宠与王一夜_

目前,该项目已不再积极维护和开发。

在Diffusers库,他做了一些边缘性的贡献,还做了不少关于负责任AI的研究。

_小萝莉貌美爆红刷屏_圈宠与王一夜

Diffusers提供最先进的预训练扩散模型,支持图像、音频甚至分子3D结构生成

尽管这些工作在都还不错,但坦白说,没有哪个项目足以「构建职业基础」。

那段时间最有价值的,其实是:

这些为之后遇到契合项目时,他能快速接住、真正发力打下了基础。

RLHF技术博客「出圈」

他真正「出圈」的起点,是为HuggingFace写的第一篇重量级博客——关于RLHF(基于人类反馈的强化学习)。

_圈宠与王一夜_小萝莉貌美爆红刷屏

其实那时他没实现过RLHF算法,也没完整读过论文,只是为了搞懂新概念就动笔了。

这和他现在很多写作动机一样:写作是最好的学习方式。

虽然他一直把自己当「强化学习传人」,但也没想太多,写完就发了。

结果它成了RLHF关键词下的长期搜索热文(虽然现在内容已经有点旧了)。

回头看,那是他第一次意识到自己的特长:

把显而易见但没人做的事,及时简单地做好。

这是他后来变得非常重要的能力。

很多人会高估别人的执行力,低估简单方案的价值,然后被自己复杂的想法拖住(沉没成本效应)。

但其实,即使是「显而易见」的事,也很少有人认真去做。

比如在做RewardBench的时候,他整整三个月每天都担心被别人「抢先发布」。

小萝莉貌美爆红刷屏__圈宠与王一夜

论文链接:https://arxiv.org/abs/2403.13787

结果发了后,又过了三个月才有人发竞品。

所以,RewardBench是RLHF奖励模型的第一个评估工具。

势能来自每天一块砖,而不是坐等奇迹。当别人还在等待大项目,他已经靠「基础活」攒下了存在感和专业度。

突破点:公开科研沟通>技术产出

在HuggingFace从事RLHF期间,他为开源社区做了很多基础性工作:

圈宠与王一夜_小萝莉貌美爆红刷屏_

小萝莉貌美爆红刷屏__圈宠与王一夜

圈宠与王一夜__小萝莉貌美爆红刷屏

_圈宠与王一夜_小萝莉貌美爆红刷屏

这很充实、也很有趣。

但后来,时差、文化差异等问题接踵而至。

他慢慢觉得不再快乐了。

HuggingFace如果当时能扩张团队,并配上合适的技术领导,可能能将影响力扩大好几倍。

但这也伴随着风险。训练AI模型是个异常细致的过程,任务繁琐、对小细节的执行有极高要求。

团队只要稍微长大一点,可能就能带来「疯狂级别」的增益。

不管如何,与此同时,他找到了属于自己的定位:做开放科研的沟通者。

这个策略其实很简单:

在AI实验室趋于封闭、外界关注度飙升的当下,只要持续做与AI相关的事,在公众眼里的成长就会指数级上升。

他另辟蹊径,选择了竞争没那么激烈的方向。

这让他更容易脱颖而出。

尽管注意力总量虽然在增长,但真正被关注的人反而在减少——

所以只要成为其中之一,收获会非常可观。

如果他当初去了那些「前沿AI实验室},可能早就被埋没在其中,职业成长空间也被压缩了。

而那时候,他开始坚持每周写作,就是这一战略最有力的验证。

而一旦有了清晰的个人品牌,故事就自然会往你这儿聚拢。

比如HuggingFace最具影响力的模型之一——Zephyr Beta,就是基于他帮助搭建的基础设施完成的。

之后,他加入了Allen人工智能研究所(Allen Institute forAI,简称AI2)。

小萝莉貌美爆红刷屏__圈宠与王一夜

在他刚加入时,Ai2正好在训练Tülu 2 70B。

_圈宠与王一夜_小萝莉貌美爆红刷屏

美国艺术与科学院与美国国家工程院(NAE)双院士、斯坦福大学教授、NLP大牛Chris Manning,如获至宝,甚至说Nathan Lambert的这两项工作「救活了DPO」。

_小萝莉貌美爆红刷屏_圈宠与王一夜

尽管在技术上,Nathan Lambert表示这些项目与DPO没有直接关系。

现在,Chris Manning首次提出直接偏好优化DPO的论文,被引用了3000多次。

小萝莉貌美爆红刷屏__圈宠与王一夜

论文链接:https://arxiv.org/abs/2305.18290

这不是谦虚,而是想说明:

科研不是单一角色的战场,推动科学进展的,是一个个看似不起眼、但密不可分的角色组合。

渐至佳境

在AI2的这段时间,是他职业生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向发展,而且坚信更开放的生态是实现这一目标的最好方式。

这份工作对他来说,几乎是最理想的状态:

他的公开写作对AI2有明确价值,而他也能持续锻炼表达力、扩大影响力。 这样的工作极其稀有,大多数公司并不会真的帮你个人成长。

刚加入AI2时,他也经历了一段适应期。

通过RewardBench这类重要的学术项目,他表示自己建立了信心:

我能独立提出点子,并带头推进高影响力的研究项目。

角色转变

许多时候,参与太多合作会让人忽略一个问题:你是否能一个人把事做成?

(即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队,而是看清自己的能力边界。)

现在,他已转变了工作方式,已经完全可以「因人随事」而定。

周围的同事,年轻、优秀、富有驱动力。

他们更熟悉细节,也更擅长把新点子实现出来。

相关文章

AI世界的年轻人|“热潮下要有定力”,她的目标是让机器人真正步入家庭

AI世界的年轻人|“热潮下要有定力”,她的目标是让机器人真正步入家庭

【编者按】 “青年之于社会,犹新鲜活泼细胞之在人身。”百余年前,《新青年》以纸笔为新世界呐喊。今时今日,新青年以算法为笔,算力为墨,在划时代的人工智能新世界作答未来。 4月29日,习近平总书记在上海考...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信