无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

美羊羊4天前教育资讯5

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

无需任何配对数据,就能实现文本嵌入的模型空间转换?!

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

曾因llya离职OpenAI,在互联网上掀起讨论飓风的柏拉图表示假说提出:

所有足够大规模的图像模型都具有相同的潜在表示。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

那么是否存在针对文本模型的通用潜在结构呢?

康奈尔大学现在给出了Plus版答案——vec2vec,首个无监督文本嵌入的跨向量空间转换方法。

利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归__无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

vec2vec在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

具体内容,接下来我们一一拆解。

增强版柏拉图表示假说

文本嵌入作为NLP的核心技术,存在许多基于不同数据集、数据洗牌方式和初始化的嵌入模型。

但不同模型之间由于训练数据、架构不同,生成的嵌入向量空间完全不兼容,无法直接进行对齐。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

于是团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH):

vec2vec就是在此基础上构建,核心思想就是学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编码器。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

vec2vec采用模块化架构,其中嵌入向量通过特定空间的适配器模块进行编码和解码,并经过共享主干网络完成传递。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归__无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

与图像不同,由于嵌入向量不具有空间偏向性,因此采用带有残差连接、层归一化和SiLU非线性激活函数的多层感知机(MLP)替代CNN。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

为了确保转换后的向量保留嵌入语义和几何结构,还引入了以下损失函数进行优化:

实验结果

团队使用三个指标衡量转换质量:

平均余弦相似度:衡量转换结果与目标的平均接近程度。Top-1准确率:转换结果的目标是最近邻的比例。平均排名:目标相对于转换结果的平均排名。

如图所示,在自然问题(NQ)数据集上,vec2vec在相同主干模型配对(如GTE与E5)中达到接近1.0的Top-1准确率,显著优于基线。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

vec2vec在分布外数据(如推文和医疗记录)上也表现稳健。例如,在TweetTopic上,GTE到Stella的余弦相似度达0.92,Top-1准确率100%。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

下表也验证了vec2vec在单模态与多模态嵌入(如CLIP)中的转换潜力。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

同时实验也证明,vec2vec不仅可以保留嵌入的几何结构,还保留足够的语义以实现属性推断。

在某些模型配对中,80%的文档可通过零样本反演恢复内容,尽管结果还并不完美,但也再次证明嵌入几乎与其输入一样体现高保真的语义信息。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

以上有关vec2vec的实验结果,为强柏拉图表示假说提供了有力证据,针对CLIP的结果也初步表明可以适用于其他模态。

诚然,这将有助于跨系统访问信息,具有巨大的知识共享潜力,但随之而来的安全风险也必须考虑其中。

仅通过嵌入向量就可实现语义信息转换的能力,将会让底层文本的敏感信息更容易受到恶意提取和攻击,威胁向量数据库安全。

这对数据安全来说既是突破也是挑战,那么你对此有什么看法呢?欢迎在评论区留言讨论~

论文链接:https://arxiv.org/abs/2505.12540

参考链接:

[1]https://x.com/rishi_d_jha/status/1925212069168910340

[2]https://x.com/jxmnop/status/1925224612872233081

[3]https://www.youtube.com/watch?v=eJpfoDENSBc

相关文章

15-20万SUV攻略,这两款车,谁才是你的出行拍档?

15-20万SUV攻略,这两款车,谁才是你的出行拍档?

在15-20万的价格区间内,SUV市场的选择可谓琳琅满目,无论是国产品牌还是合资车企,都在这个价位上推出了不少颇具吸引力的车型。对于消费者来说,这个价位既是购车预算的“甜蜜点”,也是选车时最让人纠结的...

上半场各种碰瓷被喷!下半场20+5引一波流:全场高呼亚历山大MVP

上半场各种碰瓷被喷!下半场20+5引一波流:全场高呼亚历山大MVP

北京时间5月21日,雷霆以114-88逆转森林狼拿下西决G1的胜利。这场比赛SGA上下半场的表现判若两人,上半场他是各种想要碰瓷遭到美媒口诛笔伐,下半场他放下执念后各种攻框、中投帮助雷霆打出攻防浪潮...

众星悼念朱媛媛!姚晨深受冲击不敢相信,马伊琍悲痛,姚晨怀念

众星悼念朱媛媛!姚晨深受冲击不敢相信,马伊琍悲痛,姚晨怀念

5月21日,演员朱媛媛因病去世的消息曝光,丈夫辛柏青发布讣告,揭露她生前默默抗癌五年,带病依然坚持拍戏工作,年仅51岁就离世,令外界震惊又唏嘘,娱乐圈明星也纷纷发文悼念。 演员冯远征转发辛柏青的讣告...

外卖这场仗,京东输不起

外卖这场仗,京东输不起

作者| 高凌朗 编辑| 侯旭 今年五一假期,淘宝与饿了么终于按捺不住,高调宣布升级"淘宝闪购"服务并推出"饿补超百亿"计划,将京东与美团的硬刚转变为三方混战。 在我们看来,这场竞争已经远超简单的外卖...

赶在618的前夕,淘宝跟小红书“联姻”了

赶在618的前夕,淘宝跟小红书“联姻”了

不知不觉,马上又要 618 。 本以为电商平台们面对这个老购物节,再无花活,结果这几天,淘宝天猫放了一个大招:宣布跟小红书战略合作,推出红猫计划,联手打通从种草到购买的全链路。 什么意思呢? 以前,...

山海相约!山东日照来渝邀山城市民夏日看海

山海相约!山东日照来渝邀山城市民夏日看海

“山海相约 渝见日照”2025日照文旅推介会现场 和夏日骄阳最配的自然是碧蓝海水和光洁的沙滩;想要到海滨来一趟惬意之旅,山东日照就是不错的选择。5月26日下午,“山海相约 渝见日照”2025日照文旅...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信