无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

美羊羊3个月前教育资讯26

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

无需任何配对数据,就能实现文本嵌入的模型空间转换?!

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

曾因llya离职OpenAI,在互联网上掀起讨论飓风的柏拉图表示假说提出:

所有足够大规模的图像模型都具有相同的潜在表示。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

那么是否存在针对文本模型的通用潜在结构呢?

康奈尔大学现在给出了Plus版答案——vec2vec,首个无监督文本嵌入的跨向量空间转换方法。

利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归__无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

vec2vec在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

具体内容,接下来我们一一拆解。

增强版柏拉图表示假说

文本嵌入作为NLP的核心技术,存在许多基于不同数据集、数据洗牌方式和初始化的嵌入模型。

但不同模型之间由于训练数据、架构不同,生成的嵌入向量空间完全不兼容,无法直接进行对齐。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

于是团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH):

vec2vec就是在此基础上构建,核心思想就是学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编码器。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

vec2vec采用模块化架构,其中嵌入向量通过特定空间的适配器模块进行编码和解码,并经过共享主干网络完成传递。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归__无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

与图像不同,由于嵌入向量不具有空间偏向性,因此采用带有残差连接、层归一化和SiLU非线性激活函数的多层感知机(MLP)替代CNN。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

为了确保转换后的向量保留嵌入语义和几何结构,还引入了以下损失函数进行优化:

实验结果

团队使用三个指标衡量转换质量:

平均余弦相似度:衡量转换结果与目标的平均接近程度。Top-1准确率:转换结果的目标是最近邻的比例。平均排名:目标相对于转换结果的平均排名。

如图所示,在自然问题(NQ)数据集上,vec2vec在相同主干模型配对(如GTE与E5)中达到接近1.0的Top-1准确率,显著优于基线。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

vec2vec在分布外数据(如推文和医疗记录)上也表现稳健。例如,在TweetTopic上,GTE到Stella的余弦相似度达0.92,Top-1准确率100%。

无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_

下表也验证了vec2vec在单模态与多模态嵌入(如CLIP)中的转换潜力。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

同时实验也证明,vec2vec不仅可以保留嵌入的几何结构,还保留足够的语义以实现属性推断。

在某些模型配对中,80%的文档可通过零样本反演恢复内容,尽管结果还并不完美,但也再次证明嵌入几乎与其输入一样体现高保真的语义信息。

_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归_无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

以上有关vec2vec的实验结果,为强柏拉图表示假说提供了有力证据,针对CLIP的结果也初步表明可以适用于其他模态。

诚然,这将有助于跨系统访问信息,具有巨大的知识共享潜力,但随之而来的安全风险也必须考虑其中。

仅通过嵌入向量就可实现语义信息转换的能力,将会让底层文本的敏感信息更容易受到恶意提取和攻击,威胁向量数据库安全。

这对数据安全来说既是突破也是挑战,那么你对此有什么看法呢?欢迎在评论区留言讨论~

论文链接:https://arxiv.org/abs/2505.12540

参考链接:

[1]https://x.com/rishi_d_jha/status/1925212069168910340

[2]https://x.com/jxmnop/status/1925224612872233081

[3]https://www.youtube.com/watch?v=eJpfoDENSBc

相关文章

不会亏着开新店,贾鸣镝帮新进经销商算好了投资账

不会亏着开新店,贾鸣镝帮新进经销商算好了投资账

网易汽车6月17日报道    车市大变局时代,豪华汽车品牌也会“过日子”了。 “星火燎原”计划下,中国少花钱办大事,为经销商渠道轻量化“瘦身”“换血”。 “市场这么难,经销商成本那么高,也不赚钱,未来...

73岁北京人艺依然龙马风神 骆驼坦步

73岁北京人艺依然龙马风神 骆驼坦步

6月12日晚7点半,北京人艺四座剧场的钟声同时敲响——东方美学的历史大戏《张居正》在首都剧场、“最话剧的话剧”《洋麻将》在曹禺剧场、充满青春奇想的《哈姆雷特》在实验剧场、首次引入AI话题的《一日顶流》...

韩大选冲刺,四位前总统“出手”!3人支持金文洙,尹锡悦被指“帮倒忙”

韩大选冲刺,四位前总统“出手”!3人支持金文洙,尹锡悦被指“帮倒忙”

新华社:韩国大选目前选情如何?谁有望成为新总统? 韩国第21届总统选举定于6月3日举行,主要候选人2日仍在抓紧最后机会展开竞选活动,争取更多选票。哪几位候选人参加本届大选?目前选情如何?选举结果何时揭...

4.0T V8动力升级/3.4秒破百 宾利添越Speed官图发布

4.0T V8动力升级/3.4秒破百 宾利添越Speed官图发布

网易汽车6月3日报道日前,宾利官方正式发布(丨)Speed车型官图。作为宾利SUV系列的全新性能旗舰车型,新车最大亮点在于动力系统的重大调整:搭载4.0T V8双涡轮增压发动机,最大功率提升至641马...

涉嫌赌球被调查!大合同谈判被迫暂停!比斯利自毁前程

涉嫌赌球被调查!大合同谈判被迫暂停!比斯利自毁前程

众所周知,NBA向来都不允许现役球员参与任何赌球,这可以说是联盟一道不可逾越的红线。一旦有谁参与赌球被坐实,那么等待他的就将是被整个NBA彻底封杀!想必大家都还记得联盟上一个因参与赌球而被NBA终生禁...

【2025青海文化旅游节特刊】传承与焕新:老街再出发

【2025青海文化旅游节特刊】传承与焕新:老街再出发

“寻味西宁 市井新生”活动现场。李延平 摄 青海新闻网·江源新闻客户端讯 5月16日,走进西宁市城西区交通巷特色文旅街区,传统美食与潮流新味在此交织,墙面上,一幅幅印有青海人记忆的老照片静静诉说着过...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信