阿里云发布并开源Qwen2.5 - Omni，引领多模态技术新潮流

本文介绍了阿里云在3月27日凌晨发布并开源通义千问Qwen模型家族中新一代端到端多模态旗舰模型Qwen2.5 - Omni的消息，详细阐述了该模型的特点、性能表现以及相关使用链接。

在科技不断革新的当下，3月27日凌晨传来一则令人瞩目的消息。阿里云正式发布了通义千问Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5 - Omni。值得一提的是，该模型还在Hugging Face、ModelScope、DashScope和GitHub等平台上实现了开源，这无疑为相关领域的研究和发展注入了新的活力。

阿里云方面表示，Qwen2.5 - Omni模型是专为全方位多模态感知精心设计的。它具备强大的处理能力，能够无缝对接文本、图像、音频和视频等多种不同的输入形式。更为出色的是，它可以通过实时流式响应，同时生成文本以及自然语音合成输出，为用户带来更加丰富和高效的交互体验。下面我们来详细了解一下该模型的主要特点：

全能创新架构：Qwen团队大胆提出了一种全新的Thinker - Talker架构。这是一种端到端的多模态模型，其目标明确，旨在支持文本、图像、音频、视频的跨模态理解。与此同时，它还能够以流式方式生成文本和自然语音响应。此外，Qwen还提出了一种新的位置编码技术，名为TMRoPE（Time - aligned Multimodal RoPE）。这种技术通过时间轴对齐，实现了视频与音频输入的精准同步，为多模态数据的处理提供了更精确的支持。
实时音视频交互：该模型的架构致力于支持完全实时交互。它支持分块输入和即时输出，这意味着用户在与模型进行音视频交互时，能够获得快速且流畅的反馈，大大提升了交互的效率和体验感。
自然流畅的语音生成：在语音生成方面，Qwen2.5 - Omni表现卓越。它在自然性和稳定性上超越了许多现有的流式和非流式替代方案，能够生成更加自然、流畅的语音，让用户感受到更加真实的交互体验。
全模态性能优势：当与同等规模的单模态模型进行基准测试时，Qwen2.5 - Omni展现出了卓越的性能。具体来说，在音频能力上，它优于类似大小的Qwen2 - Audio，并且与Qwen2.5 - VL - 7B保持同等水平，充分显示了其在全模态处理上的强大实力。
卓越的端到端语音指令跟随能力：Qwen2.5 - Omni在端到端语音指令跟随方面表现出色，其效果与文本输入处理相媲美。在MMLU通用知识理解和GSM8K数学推理等基准测试中，该模型也取得了优异的成绩，进一步证明了它的强大功能。

在模型性能方面，Qwen2.5 - Omni的表现更是可圈可点。在包括图像、音频、音视频等各种模态下，它的表现都优于类似大小的单模态模型以及封闭源模型，比如Qwen2.5 - VL - 7B、Qwen2 - Audio和Gemini - 1.5 - pro等。

在多模态任务OmniBench中，Qwen2.5 - Omni达到了SOTA（State - of - the - Art）的表现，处于行业领先水平。此外，在单模态任务中，Qwen2.5 - Omni在多个领域都有出色的表现，涵盖语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed - tts - eval和主观自然听感）等方面。

模型架构图

▲ 模型性能图

如果你想进一步了解或体验Qwen2.5 - Omni模型，可以通过以下链接：

Qwen Chat：https://chat.qwenlm.ai
Hugging Face：https://huggingface.co/Qwen/Qwen2.5 - Omni - 7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5 - Omni - 7B
DashScope：https://help.aliyun.com/zh/model - studio/user - guide/qwen - omni
GitHub：https://github.com/QwenLM/Qwen2.5 - Omni
Demo体验：https://modelscope.cn/studios/Qwen/Qwen2.5 - Omni - Demo

阿里云在3月27日凌晨发布并开源的通义千问Qwen2.5 - Omni模型展开。详细介绍了该模型的多模态设计特点，包括全能创新架构、实时音视频交互、自然流畅的语音生成、全模态性能优势以及卓越的端到端语音指令跟随能力等。同时，阐述了其在多种模态任务中的优异表现。最后提供了相关的体验链接，方便用户进一步了解和使用该模型。

原创文章，作者：东海凝丝，如若转载，请注明出处：https://www.gouwuzhinan.com/archives/44694.html

阿里云发布并开源Qwen2.5 - Omni，引领多模态技术新潮流

相关推荐

安徽同兴科技“异形切割神器”专利获批，前景可期，安徽同兴科技获异形零件激光切割专利，彰显创新实力

压岁钱不应成攀比负担，多地倡导小额化

松霖科技2024年度财报：营业利润增长超30%

全国医保基金管理专项整治推进会召开，多部门发力保安全，九部门携手，深入整治医保基金管理顽疾

酒量好真的会让麻药不管用？医生来揭秘 爱喝酒的人手术麻醉有啥不同？专家解惑

发表回复

酒量好真的会让麻药不管用？医生来揭秘爱喝酒的人手术麻醉有啥不同？专家解惑