清晨重磅!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用

美羊羊3周前教育资讯5

阿里巴巴周一发布并开源通义千问3.0(Qwen3)系列模型,并称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比,Qwen3还显著降低了部署成本。阿里表示,Qwen3无缝集成两种思考模式,支持119种语言,便于Agent调用。

_开源无缝钢管_开源集成框架

性能媲美DeepSeek R1、OpenAI o1,全部开源

Qwen3系列包括两个专家混合 (MoE) 模型和另外六个模型。阿里巴巴表示,最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力。

此外,被称为“专家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式,将任务划分为更小的数据集,类似于让一组各有所长的专家分别负责不同部分,从而提升整体效率。

_开源无缝钢管_开源集成框架

_开源集成框架_开源无缝钢管

同时,阿里巴巴还开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。

开源无缝钢管_开源集成框架_

开源无缝钢管__开源集成框架

“混合型”模型,两种思考模式

阿里巴巴表示,Qwen 3系列是“混合型”模型,既可以花时间“推理”以解决复杂问题,也可以快速回答简单请求,分别叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能够有效地进行自我事实核查,类似于OpenAI的o3模型,但代价是推理过程中的延迟时间较高。

Qwen团队在博客文章中写道:

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。

至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。

这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

开源无缝钢管__开源集成框架

训练数据量是Qwen2.5的两倍,便于Agent调用

阿里巴巴表示,Qwen3系列支持119种语言,并基于近36万亿个token(标记)进行训练,使用的数据量是Qwen2.5的两倍。Token是模型处理的基本数据单元,约100万个token相当于75万英文单词。阿里巴巴称,Qwen3的训练数据包括教材、问答对、代码片段等多种内容。

据介绍,Qwen3预训练过程分为三个阶段。在第一阶段(S1),模型在超过30万亿个token上进行了预训练,上下文长度为4K token。这一阶段为模型提供了基本的语言技能和通用知识。

在第二阶段(S2),训练则通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的5万亿个token上进行了预训练。在最后阶段则使用高质量的长上下文数据将上下文长度扩展到32K token,确保模型能够有效地处理更长的输入。

开源无缝钢管_开源集成框架_

阿里巴巴表示,由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。特别是在 STEM、编码和推理等领域,Qwen3 Dense基础模型的表现甚至超过了更大规模的Qwen2.5 模型。对于Qwen3 MoE基础模型,它们在仅使用10%激活参数的情况下达到了与Qwen2.5 Dense基础模型相似的性能,显著节省了训练和推理成本。

而在后训练阶段,阿里使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域,为模型配备基本的推理能力。然后通过大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

阿里巴巴表示,Qwen3在调用工具(tool-calling)、执行指令以及复制特定数据格式等能力方面表现出色,推荐用户使用Qwen-Agent来充分发挥Qwen3的Agent能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了代码复杂性。

除了提供下载版本外,Qwen3还可以通过Fireworks AI、Hyperbolic等云服务提供商使用。

目标仍对准AGI

OpenAI、谷歌和Anthropic近期也陆续推出了多款新模型。OpenAI近日表示,也计划在未来几个月发布一款更加“开放”的模型,模仿人类推理方式,这标志着其策略出现转变,此前DeepSeek和阿里巴巴已经率先推出了开源AI系统。

目前,阿里巴巴正以Qwen为核心,构建其AI版图。今年2月,首席执行官吴泳铭表示,公司目前的“首要目标”是实现通用人工智能(AGI)——即打造具备人类智力水平的AI系统。

阿里表示,Qwen3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。展望未来,阿里计划从多个维度提升模型,包括优化模型架构和训练方法,以实现几个关键目标:扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以进行长周期推理。

开源社区振奋

阿里Qwen3的发布让AI社区感到激动,有网友献上经典Meme:

开源集成框架__开源无缝钢管

有网友说,

在我的测试中,235B在高维张量运算方面的表现相当于Sonnet。

这是一个非常出色的模型,

感谢你们。

开源无缝钢管_开源集成框架_

有网友对Qwen3赞不绝口:

开源无缝钢管__开源集成框架

而开源AI的支持者则更加兴奋。有网友说:

“有了一个开源32B大模型,性能跟Gemini 2.5 Pro不相上下。”

“我们彻底杀回来了!”

开源集成框架_开源无缝钢管_

网友感谢阿里积极推动开源:

开源集成框架_开源无缝钢管_

相关文章

赵丽颖男友被嫌弃丑!男方虏获芳心全靠细节,又带娃又送包太贴心

赵丽颖男友被嫌弃丑!男方虏获芳心全靠细节,又带娃又送包太贴心

赵丽颖被曝恋情了!有狗仔爆料拍到《乔妍的心事》导演赵德胤连续3天现身赵丽颖小区,有门禁卡进出自如,还单独带赵丽颖儿子想想出门玩,引起网友热议。 不过赵丽颖粉丝却大破防了,直言男方太丑了,外形跟赵丽...

乌外长:乌方准备无条件停火至少30天

乌外长:乌方准备无条件停火至少30天

特朗普蔫了:俄乌和平协议“也许达不成” 观察者网消息,美国总统特朗普上任100天有余,但他竞选期间承诺的尽速解决俄乌冲突一事,尚未出现明显进展。对此,在美国全国广播公司(NBC)5月4日播出的专访中,...

部分线路单车次乘客不足2人,北京拟撤销、优化这些公交线路

部分线路单车次乘客不足2人,北京拟撤销、优化这些公交线路

近日,北京市交通委启动了新一批公交线路优化调整的征求意见。据了解,此次调整的7条线路主要是对北京南站地区整体公交线网布局进行优化,将部分线路撤出北京南站,同时撤销部分客流量过低的线路,例如计划全线停运...

印度证实印巴已同意停火

印度证实印巴已同意停火

印度外交秘书唐勇胜(资料图) 当地时间5月10日,印度外交秘书唐勇胜证实,印巴已同意停火。 唐勇胜表示,巴基斯坦军事行动总指挥于10日15时35分致电印度军事行动总指挥。双方达成一致,自印度标准时间...

63岁梁朝伟参加派对,和周润发同框,都有了白发,看起来很有精神

63岁梁朝伟参加派对,和周润发同框,都有了白发,看起来很有精神

63岁梁朝伟满头白发惊现派对!与70岁周润发同框状态成焦点... 在杜琪峰导演70岁寿宴的鎂光灯下,老友记们上演了一幕令人感慨万千的时光特写。当梁朝伟穿着略显褶皱的蓝条纹衬衫现身时,在场媒体都捕捉到了...

马斯克隐退,“政府效率部”面临大换血,美内阁或强势“收权”

马斯克隐退,“政府效率部”面临大换血,美内阁或强势“收权”

【环球时报驻美国特约记者 萧达 环球时报特约记者 刘皓然】在美国企业家埃隆·马斯克近日确定将“重返特斯拉”后,多家美国媒体披露,政府内阁或将大幅削减“政府效率部”(DOGE)职能,并收回部门预算及人事...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信