基于非英伟达卡训练,实测美团开源模型与DeepSeek、阿里 Qwen 3谁更强?

美羊羊3天前教育资讯3

这个夏天最爽的事情,莫过于热热闹闹的外卖大战!

实在是太省钱啦!

当大家还在推测这场补贴大战还要持续多久之时,美团忽然把方向盘一打。

宣布:我要发布个开源大模型啦!

阿里云模型训练_阿里开发能力模型_

就在昨天,美团发布了其首款开源大模型LongCat-Flash,这是一款拥有5600亿个总参数的MoE(混合专家)模型。

阿里云模型训练_阿里开发能力模型_

为什么会推出这款来源大模型?

美团CEO王兴在不久前的年报电话会上,曾给出清晰的战略框架。

王兴将美团的AI战略阐述为三个层次:第一层是工作中的AI ,用以提升内部员工的生产力;第二层是产品中的AI ,用AI升级现有服务并推出全新的AI原生产品;最后是自研大语言模型 。

LongCat-Flash正是第三层战略的直接体现。

在这个战略蓝图下,美团核心本地商业CEO王莆中曾公开确认称,正打造的“ 专属生活小秘书 ”,就是那个最核心的AI原生产品。

而且,尤其值得关注的是,LongCat-Flash的训练,并非基于英伟达GPU完成。

在其官方报告中,美团使用了“数万个加速卡”的模糊表述。

由于一些原因,该硬件厂商的具体名字不方便透露。

意义重大。

产品方面,据介绍,LongCat-Flash采用 Shortcut-connected MoE 架构和 “零计算专家” 双重机制,使总参数 5600 亿的模型在推理时仅仅激活 18.6B–31.3B 参数。

能实现每秒 100 tokens 以上的单卡推理速度, 比DeepSeek-V3 还快 50%。

别看美团是外卖公司,但其开源的LongCat-Flash模型纸面实力一点都不弱。

_阿里云模型训练_阿里开发能力模型

它在Agent工具调用、指令遵循的表现超过国内数一数二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。

不过LongCat-Flash在通用领域、编程等场景的能力和、Kimi-K2、Qwen3 -2507还有一定差距。

价格上,LongCat-Flash属于物美价廉,据美团龙猫团队介绍,输出成本低至 5 元/百万 Token。

那效果到底如何,我们来测试一番,作为初来乍到的模型,当然得把之前模型踩过的坑都再踩一遍,看它能不能hold得住。

首先,是一道曾难倒无数模型的比大小问题——9.11和9.8谁大?

阿里开发能力模型__阿里云模型训练

遗憾,开局不利,LongCat-Flash回答错误,比大小失败。

接下来,是另一个经典的坑——数字母。

我们让它数“Strawberry”这个词中有几个字母“r”,为了防止数据被提前训练,我们特意在原词基础上多加了一个“r”。

阿里云模型训练__阿里开发能力模型

在加了一个字母“r”的情况下,LongCat-Flash依旧回答正确,扳回一局!

为了验证它是否是真的会数字母,换一个词”assessments“,让它数里面有几个字母“s"。

阿里开发能力模型__阿里云模型训练

这次就没有回答正确,”assessments"有5个字母“s”,而它给出的回答是4次。

再来看看下一道题,一根8米的绳子,可以通过宽2米,长2米的门吗?

_阿里开发能力模型_阿里云模型训练

还是翻车,依旧回答错误,LongCat-Flash给出的回答是“一根8米的棍子无法直接通过宽2米,长2米的门”。

很遗憾,在这些曾用于刁难其他模型的经典测试题中,LongCat-Flash的表现并没有想象中的那么好

不过,这并不能代表该模型的全部实力,直接进入下一趴,和其他模型来场PK。

此次派出的选手分别是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厉害。

为了防止它们这三兄弟“开挂”,测试过程中不开搜索。

测试题一:高三摸底试卷题

这道题是一道多选题,正确答案是:A、B、D,看看哪位选手能做对,为了测试的准确性,将题目转换成了LaTeX格式。

LongCat-Flash:

_阿里云模型训练_阿里开发能力模型

Deepseek R1:

阿里云模型训练__阿里开发能力模型

Qwen3 -2507:

阿里开发能力模型__阿里云模型训练

Qwen3 -2507和Deepseek R1都回答准确,出个了正确答案:ABD,反观LongCat-Flash回答错误,露了一个A。

测试题二:天气卡片

提示词:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

经典老题,测试模型的美感,看谁生成的更加好看。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

从上面的视频不难看出,LongCat-Flash生成的效果真不赖,不过如果要说谁生成的效果更好看,那自然是Qwen3 -2507。

测试题三:3D山脉

提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。

这道题主要是测试模型的编程能力,因为测试了很多模型,发现有很多模型面对这道题,生成的效果都不咋样,看看它们是否能交出一个满意的答卷。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

这次测试不知道为什么,连续生成了3次,DeepSeek R1都没有生成完整的山脉,而LongCat-Flash和Qwen3 -2507则是生成出来了,但LongCat-Flash生成的效果更好。

测试题四:逻辑推理题

提示词:给甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。甲对乙和丙说:我知道你们两人的数字一定不相等。乙想了想,对甲说:我们两人的数字之差一定比丙大。丙听完甲和乙的话后,依旧沉默不语。若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)那么,丙的数字是多少?

先说答案:4。

LongCat-Flash:

_阿里云模型训练_阿里开发能力模型

Deepseek R1:

阿里云模型训练_阿里开发能力模型_

Qwen3 -2507:

_阿里云模型训练_阿里开发能力模型

全部回答准确。

虽然此次测试没有基准测试那么全面,但也可以看出各个模型的优缺点。

目前美团的LongCat-Flash模型已经上线Hugging Face、GitHub等开源平台,技术报告同步发布。

同时,美团也提供了LongCat-Flash模型的网页版体验链接。

传送门:longcat.ai/

感兴趣的小伙伴可以去试一试。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

相关文章

第3次进温网32强!世界第一萨巴伦卡2-0布兹科娃 静候前美网冠军

第3次进温网32强!世界第一萨巴伦卡2-0布兹科娃 静候前美网冠军

北京时间7月2日,2025年温网女单第二轮,世界第一、头号种子萨巴伦卡对阵布兹科娃。萨巴伦卡以7-6(4)和6-4连赢两盘比赛,最终萨巴伦卡总分2-0战胜布兹科娃晋级温网32强,生涯第3次晋级温网32...

广东茂名:邀您“闻香识电白”

广东茂名:邀您“闻香识电白”

“卿宅去沉香远近?”对曰:“宅左右即出香树,然其生者无香,唯朽者始香矣。”——出自唐朝《国史异篡》,记录了唐太宗李世民和冼太夫人之孙冯盎关于沉香的对话趣事。如今,广东茂名市电白区正以“百县千镇万村...

你是否也刷到这样的谣言:智能锁正退出中国家庭?听开锁师傅说完,我连夜换回铁将军!

你是否也刷到这样的谣言:智能锁正退出中国家庭?听开锁师傅说完,我连夜换回铁将军!

近日,多篇篇标题为《智能锁正退出中国家庭?听开锁师傅说完,我连夜换回铁将军!》的文章在网络上广泛传播,引发了不少消费者对智能锁安全性和实用性的担忧。然而,仔细剖析这篇文章,其中充斥着大量未经证实的谣言...

OpenAI也要IPO

OpenAI也要IPO

当地时间8月20日,OpenAI首席财务官萨拉·弗里尔(Sarah Friar)在接受采访时表示,公司未来有可能进行首次公开募股(IPO),这是OpenAI高管首次公开表达上市的可能性。7月,Open...

上海动物园“顶流网红”被投喂干燥剂?园方最新回应:将整改,并征询公众建议

上海动物园“顶流网红”被投喂干燥剂?园方最新回应:将整改,并征询公众建议

近日有网友发视频称: 上海动物园熊山展区游客投喂现象严重,有“西郊达菲”之称的网红棕熊“军军”疑似被投喂干燥剂。 悉心养育和成功推广,让上海动物园诞生了一批“网红”,诸如被爱称为“西郊达菲”的棕熊“军...

被年轻人的“保鲜膜套用法”惊呆了!换个思路后,没想到妙用无穷

被年轻人的“保鲜膜套用法”惊呆了!换个思路后,没想到妙用无穷

保鲜膜套,算是家庭里必备的物品了。相较于传统的保鲜膜,极大提升了我们使用便捷性,并且密封性还非常好。 然而,就是这么一个以密封、保鲜功能为主的小东西,到了年轻人的手里,却成了生活里的“万能神器”。...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信