基于非英伟达卡训练,实测美团开源模型与DeepSeek、阿里 Qwen 3谁更强?
这个夏天最爽的事情,莫过于热热闹闹的外卖大战!
实在是太省钱啦!
当大家还在推测这场补贴大战还要持续多久之时,美团忽然把方向盘一打。
宣布:我要发布个开源大模型啦!
就在昨天,美团发布了其首款开源大模型LongCat-Flash,这是一款拥有5600亿个总参数的MoE(混合专家)模型。
为什么会推出这款来源大模型?
美团CEO王兴在不久前的年报电话会上,曾给出清晰的战略框架。
王兴将美团的AI战略阐述为三个层次:第一层是工作中的AI ,用以提升内部员工的生产力;第二层是产品中的AI ,用AI升级现有服务并推出全新的AI原生产品;最后是自研大语言模型 。
LongCat-Flash正是第三层战略的直接体现。
在这个战略蓝图下,美团核心本地商业CEO王莆中曾公开确认称,正打造的“ 专属生活小秘书 ”,就是那个最核心的AI原生产品。
而且,尤其值得关注的是,LongCat-Flash的训练,并非基于英伟达GPU完成。
在其官方报告中,美团使用了“数万个加速卡”的模糊表述。
由于一些原因,该硬件厂商的具体名字不方便透露。
意义重大。
产品方面,据介绍,LongCat-Flash采用 Shortcut-connected MoE 架构和 “零计算专家” 双重机制,使总参数 5600 亿的模型在推理时仅仅激活 18.6B–31.3B 参数。
能实现每秒 100 tokens 以上的单卡推理速度, 比DeepSeek-V3 还快 50%。
别看美团是外卖公司,但其开源的LongCat-Flash模型纸面实力一点都不弱。
它在Agent工具调用、指令遵循的表现超过国内数一数二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。
不过LongCat-Flash在通用领域、编程等场景的能力和、Kimi-K2、Qwen3 -2507还有一定差距。
价格上,LongCat-Flash属于物美价廉,据美团龙猫团队介绍,输出成本低至 5 元/百万 Token。
那效果到底如何,我们来测试一番,作为初来乍到的模型,当然得把之前模型踩过的坑都再踩一遍,看它能不能hold得住。
首先,是一道曾难倒无数模型的比大小问题——9.11和9.8谁大?
遗憾,开局不利,LongCat-Flash回答错误,比大小失败。
接下来,是另一个经典的坑——数字母。
我们让它数“Strawberry”这个词中有几个字母“r”,为了防止数据被提前训练,我们特意在原词基础上多加了一个“r”。
在加了一个字母“r”的情况下,LongCat-Flash依旧回答正确,扳回一局!
为了验证它是否是真的会数字母,换一个词”assessments“,让它数里面有几个字母“s"。
这次就没有回答正确,”assessments"有5个字母“s”,而它给出的回答是4次。
再来看看下一道题,一根8米的绳子,可以通过宽2米,长2米的门吗?
还是翻车,依旧回答错误,LongCat-Flash给出的回答是“一根8米的棍子无法直接通过宽2米,长2米的门”。
很遗憾,在这些曾用于刁难其他模型的经典测试题中,LongCat-Flash的表现并没有想象中的那么好
不过,这并不能代表该模型的全部实力,直接进入下一趴,和其他模型来场PK。
此次派出的选手分别是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厉害。
为了防止它们这三兄弟“开挂”,测试过程中不开搜索。
测试题一:高三摸底试卷题
这道题是一道多选题,正确答案是:A、B、D,看看哪位选手能做对,为了测试的准确性,将题目转换成了LaTeX格式。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
Qwen3 -2507和Deepseek R1都回答准确,出个了正确答案:ABD,反观LongCat-Flash回答错误,露了一个A。
测试题二:天气卡片
提示词:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions
经典老题,测试模型的美感,看谁生成的更加好看。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
从上面的视频不难看出,LongCat-Flash生成的效果真不赖,不过如果要说谁生成的效果更好看,那自然是Qwen3 -2507。
测试题三:3D山脉
提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。
这道题主要是测试模型的编程能力,因为测试了很多模型,发现有很多模型面对这道题,生成的效果都不咋样,看看它们是否能交出一个满意的答卷。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
这次测试不知道为什么,连续生成了3次,DeepSeek R1都没有生成完整的山脉,而LongCat-Flash和Qwen3 -2507则是生成出来了,但LongCat-Flash生成的效果更好。
测试题四:逻辑推理题
提示词:给甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。甲对乙和丙说:我知道你们两人的数字一定不相等。乙想了想,对甲说:我们两人的数字之差一定比丙大。丙听完甲和乙的话后,依旧沉默不语。若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)那么,丙的数字是多少?
先说答案:4。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
全部回答准确。
虽然此次测试没有基准测试那么全面,但也可以看出各个模型的优缺点。
目前美团的LongCat-Flash模型已经上线Hugging Face、GitHub等开源平台,技术报告同步发布。
同时,美团也提供了LongCat-Flash模型的网页版体验链接。
传送门:longcat.ai/
感兴趣的小伙伴可以去试一试。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾