顶会0篇，一夜RLHF爆文刷屏！他靠写作逆袭AI圈，院士都说好

美羊羊2个月前 (06-10)教育资讯22

Ai2的高级研究科学家Nathan Lambert，最近分享了他如何走上AI之路。

尽管起步艰难、几经波折，他依旧在AI领域站稳脚跟、有所成就。

小萝莉貌美爆红刷屏__圈宠与王一夜

博士毕业时，他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。

如今，他的谷歌引用数已有5千多，h指数为32。

圈宠与王一夜__小萝莉貌美爆红刷屏

深度RL：转行契机

2017年秋天，他开始在加州大学伯克利分校电气工程与计算机科学系读博。

他的学术背景是MEMS（微机电系统）、高能物理/激光。

此外，他还在特斯拉做过电池工程实习。

小萝莉貌美爆红刷屏_圈宠与王一夜_

但听完迎新会、看教授介绍，他立刻就被AI吸引了。

像Sergey Levine（下图左）和Pieter Abbeel（下图右）这类教授，当时炙手可热，风头正劲。

圈宠与王一夜__小萝莉貌美爆红刷屏

那正是深度强化学习的高光时刻，相当于今天RL热潮的「前浪」。

他曾主动联系Levine和Abbeel，希望加入他们的研究组，但都被婉拒。

虽然未能如愿，但他并未气馁，反而坚持不懈，一直在主动争取机会。

之后一整年，他几乎没什么真正接触AI研究的机会。

上课、读论文，基本是独自暗中摸索。

他没采纳那种「研究生上课不重要」的建议，反而学到了不少扎实的基础知识。

但他没能真正融入伯克利AI实验室，也没有AI方向的朋友，身边全是EECS电气工程那边的同学。

小萝莉貌美爆红刷屏_圈宠与王一夜_

世界顶尖学术AI研究实验室

事后回顾，Nathan Lambert认为入学前，他已有一些些基本特质：

基础不是障碍，反而是势能的起点。

最难的是第一步，而愿意埋头学基础的人，最终会在别人止步之处继续前进。

小萝莉貌美爆红刷屏_圈宠与王一夜_

第一篇论文

转机在他挖出了导师Kris Pister的一封旧邮件。

_小萝莉貌美爆红刷屏_圈宠与王一夜

导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。

_圈宠与王一夜_小萝莉貌美爆红刷屏

Roberto Calandra现任德累斯顿工业大学正教授（W3教授级别），并领导该校「学习、自适应系统与机器人」实验室（LASR）

这才算搭上AI的边：

邮件摘录：

Roberto对将机器学习应用于飘升机（ionocraft）感兴趣。

我们可以尝试：

优化腿部几何形状的学习算法；

为机器人生成「复杂地形」进行测试；

用仿真优化新设计，再用硅材料制造出来测试；

用惯性传感器数据优化步态、避障，甚至控制真实飞行器。

这次合作从2018年春天开始。

秋天错过了一次会议投稿，而且很多实验都失败了。

到了2019年冬天，论文成为他的「头等大事」，虽然最后论文完成了，但成文有点粗糙、略显拼凑。

圈宠与王一夜__小萝莉貌美爆红刷屏

论文链接：https://arxiv.org/abs/1901.03737

每次和Roberto开会，他都「压力山大」，生怕漏掉AI博士生「习以为常」的东西。

当时，他做了扎实的工作。

尽管当时总觉得自己格格不入，但那份全身心投入的执着对真正的研究弥足珍贵。

如今AI研究如此热门，太多人只求在简历上勾选这段经历，而非深究细节——

而那时的他，却低估了自己的价值。

转机往往藏在别人不经意的一句引荐里。

不是每次实验都要成功，但每次投入都能积蓄下一次的突破。

从FAIR实习起步

真正的转机出现在2019年，Roberto问他要不要跟他去FAIR（Facebook人工智能研究院）实习。

正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。

FAIR的经历让他真正学会了如何做实验、写代码。

之后，他坚持做研究，同时不断教学来维持学业。

他写了很多申请，但直到毕业才拿到一些拨款，也算是前人栽树，后人乘凉。

FAIR实习+大量面试，帮他拿到第二个机会——DeepMind的实习。

尽管实习体验不尽如人意，但他由此积累了宝贵的技术经验与人脉资源。

小萝莉貌美爆红刷屏_圈宠与王一夜_

这条路很清楚：一旦你突破了第一道门槛，后面就会顺一点——

前提是你一直踩着油门往前冲。

研究生生涯后期，他在心理健康资源页面上专门列了份「研究现实清单」，记录所有不如意的事情。

圈宠与王一夜__小萝莉貌美爆红刷屏

最后，他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。

他不是从小泡在实验室的「圈内人」，而是靠韧性和创造力硬闯出来的。

这条路，正好也反映了他的AI界朋友圈：一群「AI界的流浪玩具」。

这些「边缘人社群」各有短长，最后大家都找到自己的落点。

突破圈层的关键，不是资源而是契机+准备。

积累势能，打响名声

尽管前面经历了不少波折，Nathan Lambert心里一直有一个明确的目标——

拿下一份工业界研究岗，这对他来说才算真正「在AI领域站稳了」。

最终他加入HuggingFace，那是唯一一份符合他要求的工作。

小萝莉貌美爆红刷屏_圈宠与王一夜_

当时是HuggingFace的研究负责人Douwe Kiela，把他招进去，领导人类反馈强化学习（RLHF）团队。

小萝莉貌美爆红刷屏_圈宠与王一夜_

让人没想到的是，这类岗位会在他毕业一年后几乎「消失殆尽」。

加入HuggingFace，对Nathan Lambert来说也算幸运，避开了一些听起来更诱人、但后来大裁员或转型的公司。

在HuggingFace，他收获了许多。

其中最宝贵一课，是如何积累势能（momentum）和心智占有率（mind-share）。

这两个概念紧密关联却存在微妙差异——

• 个体持续积累动能换取行业影响力；

• 作为组织，HuggingFace虽坐拥心智占有率，近期却面临动能不足。

动能可转化为心智占有率，而后者一旦建立，仅需维持引力便能持续发挥影响。

2022年5月加入HuggingFace后，在ChatGPT问世前的七个月里，他认为并未做出显赫成果。

但坚守HuggingFace的文化，坚持日拱一卒：

每日必须推进技术进展——或是重大功能，或是代码优化。

但日积月累，锻炼了好习惯。

博士生导师曾对他说过：「每天专注4小时，你也能改变世界。」

关键是要把「砖」一块块往上堆——

大多数人放弃得太早了。

在ChatGPT之前的那段时间，他在HuggingFace项目之间辗转，基本是哪里有事、哪里需要人手就去哪儿。

他们尝试了用于强化学习的合成环境项目Simulate，但其实他们人手根本不足。

小萝莉貌美爆红刷屏_圈宠与王一夜_

目前，该项目已不再积极维护和开发。

在Diffusers库，他做了一些边缘性的贡献，还做了不少关于负责任AI的研究。

_小萝莉貌美爆红刷屏_圈宠与王一夜

Diffusers提供最先进的预训练扩散模型，支持图像、音频甚至分子3D结构生成

尽管这些工作在都还不错，但坦白说，没有哪个项目足以「构建职业基础」。

那段时间最有价值的，其实是：

这些为之后遇到契合项目时，他能快速接住、真正发力打下了基础。

RLHF技术博客「出圈」

他真正「出圈」的起点，是为HuggingFace写的第一篇重量级博客——关于RLHF（基于人类反馈的强化学习）。

_圈宠与王一夜_小萝莉貌美爆红刷屏

其实那时他没实现过RLHF算法，也没完整读过论文，只是为了搞懂新概念就动笔了。

这和他现在很多写作动机一样：写作是最好的学习方式。

虽然他一直把自己当「强化学习传人」，但也没想太多，写完就发了。

结果它成了RLHF关键词下的长期搜索热文（虽然现在内容已经有点旧了）。

回头看，那是他第一次意识到自己的特长：

把显而易见但没人做的事，及时简单地做好。

这是他后来变得非常重要的能力。

很多人会高估别人的执行力，低估简单方案的价值，然后被自己复杂的想法拖住（沉没成本效应）。

但其实，即使是「显而易见」的事，也很少有人认真去做。

比如在做RewardBench的时候，他整整三个月每天都担心被别人「抢先发布」。

小萝莉貌美爆红刷屏__圈宠与王一夜

论文链接：https://arxiv.org/abs/2403.13787

结果发了后，又过了三个月才有人发竞品。

所以，RewardBench是RLHF奖励模型的第一个评估工具。

势能来自每天一块砖，而不是坐等奇迹。当别人还在等待大项目，他已经靠「基础活」攒下了存在感和专业度。

突破点：公开科研沟通>技术产出

在HuggingFace从事RLHF期间，他为开源社区做了很多基础性工作：

圈宠与王一夜_小萝莉貌美爆红刷屏_

小萝莉貌美爆红刷屏__圈宠与王一夜

圈宠与王一夜__小萝莉貌美爆红刷屏

_圈宠与王一夜_小萝莉貌美爆红刷屏

这很充实、也很有趣。

但后来，时差、文化差异等问题接踵而至。

他慢慢觉得不再快乐了。

HuggingFace如果当时能扩张团队，并配上合适的技术领导，可能能将影响力扩大好几倍。

但这也伴随着风险。训练AI模型是个异常细致的过程，任务繁琐、对小细节的执行有极高要求。

团队只要稍微长大一点，可能就能带来「疯狂级别」的增益。

不管如何，与此同时，他找到了属于自己的定位：做开放科研的沟通者。

这个策略其实很简单：

在AI实验室趋于封闭、外界关注度飙升的当下，只要持续做与AI相关的事，在公众眼里的成长就会指数级上升。

他另辟蹊径，选择了竞争没那么激烈的方向。

这让他更容易脱颖而出。

尽管注意力总量虽然在增长，但真正被关注的人反而在减少——

所以只要成为其中之一，收获会非常可观。

如果他当初去了那些「前沿AI实验室}，可能早就被埋没在其中，职业成长空间也被压缩了。

而那时候，他开始坚持每周写作，就是这一战略最有力的验证。

而一旦有了清晰的个人品牌，故事就自然会往你这儿聚拢。

比如HuggingFace最具影响力的模型之一——Zephyr Beta，就是基于他帮助搭建的基础设施完成的。

之后，他加入了Allen人工智能研究所（Allen Institute forAI，简称AI2）。

小萝莉貌美爆红刷屏__圈宠与王一夜

在他刚加入时，Ai2正好在训练Tülu 2 70B。

_圈宠与王一夜_小萝莉貌美爆红刷屏

美国艺术与科学院与美国国家工程院（NAE）双院士、斯坦福大学教授、NLP大牛Chris Manning，如获至宝，甚至说Nathan Lambert的这两项工作「救活了DPO」。

_小萝莉貌美爆红刷屏_圈宠与王一夜

尽管在技术上，Nathan Lambert表示这些项目与DPO没有直接关系。

现在，Chris Manning首次提出直接偏好优化DPO的论文，被引用了3000多次。

小萝莉貌美爆红刷屏__圈宠与王一夜

论文链接：https://arxiv.org/abs/2305.18290

这不是谦虚，而是想说明：

科研不是单一角色的战场，推动科学进展的，是一个个看似不起眼、但密不可分的角色组合。

渐至佳境

在AI2的这段时间，是他职业生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向发展，而且坚信更开放的生态是实现这一目标的最好方式。

这份工作对他来说，几乎是最理想的状态：

他的公开写作对AI2有明确价值，而他也能持续锻炼表达力、扩大影响力。这样的工作极其稀有，大多数公司并不会真的帮你个人成长。

刚加入AI2时，他也经历了一段适应期。

通过RewardBench这类重要的学术项目，他表示自己建立了信心：

我能独立提出点子，并带头推进高影响力的研究项目。

角色转变

许多时候，参与太多合作会让人忽略一个问题：你是否能一个人把事做成？

（即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队，而是看清自己的能力边界。）

现在，他已转变了工作方式，已经完全可以「因人随事」而定。

周围的同事，年轻、优秀、富有驱动力。

他们更熟悉细节，也更擅长把新点子实现出来。

标签: AI研究 RLHF NathanLambert HuggingFace AI2

返回列表

上一篇：强化学习之父Richard Sutton智源大会最新演讲：欢迎来到经验时代！

下一篇：入住久了才发现：生活的尽头是收纳，不是胡说，是过来人的经验！

沉浸式踩坑各种网红装修，网友：谢谢避雷了！

当代年轻人装修翻车实录。刷小红书时：这个设计绝了！装完后：绝了，我的钱包和智商都被绝了…… 社交平台上各大博主的家仿佛永远岁月静好，但撕开滤镜，多少人花重金复刻的“网红设计”，最后成了积灰、变...

漱玉平民，元老减持急

斑马消费沈庹作为漱玉平民核心人物，秦光霞日前抛出减持计划，在中小投资者们心头，刮过一股凛冽的风。在漱玉平民内部，秦光霞位高权重，不仅是董事长李文杰的黄金搭档，也是公司第二大股东。同时，还身兼总裁...

iQOO13第一，一加13第三，REDMIK80Pro呢？

现在在国内手机领域大家除了讨论常规的六大主流品牌之外，子系品牌也是讨论的话题之一。当然了目前讨论子系品牌主要就是指REDMI、iQOO、一加、realme这四家，因为其它家也没有子系品牌。今天给大...

米尔纳：之前的伤病险些让我直接退役，但我现在感觉能踢到40岁

雷速体育5月28日讯根据《太阳报》的报道，布莱顿老将米尔纳在接受采访时坦言，此前的受伤甚至令他几近直接退役，但现在感觉自己状态能够踢到40岁。米尔纳在去年八月接受膝盖手术后，因神经受损导致无法抬...

楼观察 | 上海8个新盘过会，上海壹号院均价最高；长实香港半山豪宅1.48亿港元成交

上海8个新盘过会上海壹号院均价18.9万元/平方米最高 6月8日，上海网上房地产官网宣布了即将入市的新房名单，覆盖浦东、黄浦、徐汇、静安、杨浦、宝山、嘉定等区域，共计8个新盘项目，涉及789套房源...

杨靖宇牺牲后笔记本被日伪军警掳走，尘封85年的档案首次公布

7月3日上午，尘封八十五载的杨靖宇笔记本档案在吉林省通化市档案馆首次公布。这份编号“通省警特秘第一五三七号”的机密文件，是1940年3月16日伪通化省警务厅长岸谷隆一郎发给柳河县警务科长的杨靖宇笔...

发表评论

客服微信：hnyanshan点击复制并跳转微信

录取吧