摘要Qwen团队提出了全新的Thinker-Talker架构,支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。该模型还引入了新的位置编码技术TMRoPE(Time-aligned Multimodal RoPE),实现视频与音频输入的精准同步。实时音视频交互:支持完全实时交互,分块输入和即时输出。自然流畅的语音生成:在语音生成的自然性和稳定性方面表现优异,超越许多现有方案。卓越的端到端语音指令跟随能力:在语音指令跟随方面表现出与文本输入处理相媲美的效果,在多项基准测试中表现优异。在多模态任务OmniBench中达到SOTA(State-of-the-Art)水平。在单模态任务中表现优异,涵盖语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。性能优于类似大小的单模态模型和封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。 Qwen2.5-Omni模型已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,供开发者和研究人员使用。北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。据“通义千问Qwen”官方微信号介绍,这款模型的主要特点如下:
官方演示视频: Qwen2.5-Omni:看,听,说,写,样样精通!
模型性能方面,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。
该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。
邮件:siyushenqi@gmail.com
工作时间:周一至周五,9:30-18:30,节假日休息