SEMI大半导体产业网

9月26日，阿里通义千问正式发布Qwen3-Omni。据通义千问介绍，Qwen3-Omni是原生全模态大模型，预训练全模态不降智，并在36项音频及音视频基准测试中获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型。

模型架构上，Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成，直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列：在每一步解码中，MTP模块输出当前帧的残差码本，随后Code2Wav合成对应波形，实现逐帧流式生成。

阿里通义千问发布原生全模态大模型Qwen3-Omni