基于非英伟达卡训练，实测美团开源模型与DeepSeek、阿里 Qwen 3谁更强？

美羊羊3天前教育资讯3

这个夏天最爽的事情，莫过于热热闹闹的外卖大战！

实在是太省钱啦！

当大家还在推测这场补贴大战还要持续多久之时，美团忽然把方向盘一打。

宣布：我要发布个开源大模型啦！

阿里云模型训练_阿里开发能力模型_

就在昨天，美团发布了其首款开源大模型LongCat-Flash，这是一款拥有5600亿个总参数的MoE（混合专家）模型。

阿里云模型训练_阿里开发能力模型_

为什么会推出这款来源大模型？

美团CEO王兴在不久前的年报电话会上，曾给出清晰的战略框架。

王兴将美团的AI战略阐述为三个层次：第一层是工作中的AI ，用以提升内部员工的生产力；第二层是产品中的AI ，用AI升级现有服务并推出全新的AI原生产品；最后是自研大语言模型。

LongCat-Flash正是第三层战略的直接体现。

在这个战略蓝图下，美团核心本地商业CEO王莆中曾公开确认称，正打造的“ 专属生活小秘书 ”，就是那个最核心的AI原生产品。

而且，尤其值得关注的是，LongCat-Flash的训练，并非基于英伟达GPU完成。

在其官方报告中，美团使用了“数万个加速卡”的模糊表述。

由于一些原因，该硬件厂商的具体名字不方便透露。

意义重大。

产品方面，据介绍，LongCat-Flash采用 Shortcut-connected MoE 架构和 “零计算专家” 双重机制，使总参数 5600 亿的模型在推理时仅仅激活 18.6B–31.3B 参数。

能实现每秒 100 tokens 以上的单卡推理速度，比DeepSeek-V3 还快 50%。

别看美团是外卖公司，但其开源的LongCat-Flash模型纸面实力一点都不弱。

_阿里云模型训练_阿里开发能力模型

它在Agent工具调用、指令遵循的表现超过国内数一数二的DeepSeek-V3.1、Qwen3 MoE-2507，甚至比闭源的Claude4 Sonnet还要好。

不过LongCat-Flash在通用领域、编程等场景的能力和、Kimi-K2、Qwen3 -2507还有一定差距。

价格上，LongCat-Flash属于物美价廉，据美团龙猫团队介绍，输出成本低至 5 元/百万 Token。

那效果到底如何，我们来测试一番，作为初来乍到的模型，当然得把之前模型踩过的坑都再踩一遍，看它能不能hold得住。

首先，是一道曾难倒无数模型的比大小问题——9.11和9.8谁大？

阿里开发能力模型__阿里云模型训练

遗憾，开局不利，LongCat-Flash回答错误，比大小失败。

接下来，是另一个经典的坑——数字母。

我们让它数“Strawberry”这个词中有几个字母“r”，为了防止数据被提前训练，我们特意在原词基础上多加了一个“r”。

阿里云模型训练__阿里开发能力模型

在加了一个字母“r”的情况下，LongCat-Flash依旧回答正确，扳回一局！

为了验证它是否是真的会数字母，换一个词”assessments“，让它数里面有几个字母“s"。

阿里开发能力模型__阿里云模型训练

这次就没有回答正确，”assessments"有5个字母“s”，而它给出的回答是4次。

再来看看下一道题，一根8米的绳子，可以通过宽2米，长2米的门吗？

_阿里开发能力模型_阿里云模型训练

还是翻车，依旧回答错误，LongCat-Flash给出的回答是“一根8米的棍子无法直接通过宽2米，长2米的门”。

很遗憾，在这些曾用于刁难其他模型的经典测试题中，LongCat-Flash的表现并没有想象中的那么好

不过，这并不能代表该模型的全部实力，直接进入下一趴，和其他模型来场PK。

此次派出的选手分别是Deepseek R1和Qwen3 -2507，看看LongCat-Flash能否真的辣么厉害。

为了防止它们这三兄弟“开挂”，测试过程中不开搜索。

测试题一：高三摸底试卷题

这道题是一道多选题，正确答案是：A、B、D，看看哪位选手能做对，为了测试的准确性，将题目转换成了LaTeX格式。

LongCat-Flash：

_阿里云模型训练_阿里开发能力模型

Deepseek R1：

阿里云模型训练__阿里开发能力模型

Qwen3 -2507：

阿里开发能力模型__阿里云模型训练

Qwen3 -2507和Deepseek R1都回答准确，出个了正确答案：ABD，反观LongCat-Flash回答错误，露了一个A。

测试题二：天气卡片

提示词：Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

经典老题，测试模型的美感，看谁生成的更加好看。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

从上面的视频不难看出，LongCat-Flash生成的效果真不赖，不过如果要说谁生成的效果更好看，那自然是Qwen3 -2507。

测试题三：3D山脉

提示词：创建一个 3D HTML 山脉场景，包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色，并可切换等高线显示。

这道题主要是测试模型的编程能力，因为测试了很多模型，发现有很多模型面对这道题，生成的效果都不咋样，看看它们是否能交出一个满意的答卷。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

这次测试不知道为什么，连续生成了3次，DeepSeek R1都没有生成完整的山脉，而LongCat-Flash和Qwen3 -2507则是生成出来了，但LongCat-Flash生成的效果更好。

测试题四：逻辑推理题

提示词：给甲、乙、丙三人各发一个正整数，并告诉他们他们三人的数字之和为14。甲对乙和丙说：我知道你们两人的数字一定不相等。乙想了想，对甲说：我们两人的数字之差一定比丙大。丙听完甲和乙的话后，依旧沉默不语。若甲乙丙三人都很聪明，且只要他们能推断出三人的数字分别是什么，那个人会在第一时间说出。（不考虑甲、乙见到丙沉默之后是否知晓）那么，丙的数字是多少？

先说答案：4。

LongCat-Flash：

_阿里云模型训练_阿里开发能力模型