阶跃星辰开源两大模型:视频生成与语音交互的革新

阶跃星辰联合吉利汽车集团开源了两款多模态大模型,包括性能卓越的视频生成模型阶跃Step - Video - T2V和业内首款产品级开源语音交互大模型阶跃Step - Audio,详细阐述了这两款模型的性能优势、相关评测结果,以及开源行为在AI社区引发的关注等内容。

阶跃星辰开源两大模型:视频生成与语音交互的革新

阶跃星辰开源两大模型:视频生成与语音交互的革新

就在今天上午,阶跃星辰与吉利汽车集团达成合作,开源了两款多模态大模型。其中有目前在全球范围内参数量达到最大、性能堪称最好的开源视频生成模型——阶跃Step - Video - T2V,还有行业内第一个产品级的开源语音交互大模型——阶跃Step - Audio。

就像之前在全球科技界引发强烈反响的DeepSeek R1一样,阶跃星辰所推出的Step - Video - T2V视频生成模型,采用的是最为宽松的MIT许可协议。这一协议支持免费的商业使用,使用者还能够对其进行任意修改以及衍生开发,这无疑为开源社区带来了全新的技术思路启发。而这次的发布也让阶跃星辰成功地成为了大模型开源世界里来自中国的又一股强劲力量。

阶跃Step - Video - T2V在全球开源视频生成大模型中性能领跑。它的参数量多达300亿,能够直接生成204帧、540P分辨率的高质量视频。这表明它所生成的视频内容能够保证具有极高的信息密度,并且在内容的一致性方面表现得极为强大。

从生成的效果方面来看,阶跃Step - Video - T2V在处理复杂运动、生成美感人物、视觉想象力的呈现、基础文字生成、原生中英双语输入以及镜头语言等多个方面都具备非常强大的生成能力。而且它的语义理解能力和对指令的遵循能力都很突出,能够高效率地助力视频创作者精准地呈现创意。用户可以在跃问网页端以及跃问App上体验阶跃Step - Video - T2V的视频生成能力。

为了全方位地对开源视频生成模型的性能进行评测,阶跃星辰还发布并且开源了专门针对文生视频质量评测的新基准数据集,也就是Step - Video - T2V - Eval。这个测试集包含了128条来源于真实用户的中文评测问题,其目的在于评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上的质量。

阶跃星辰开源两大模型:视频生成与语音交互的革新

Step - Video - T2V - Eval的评测结果显示,阶跃Step - Video - T2V这个模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,都明显地超过了市面上那些现有的、效果最佳的开源视频模型。

再来看阶跃Step - Audio,它是行业内首个产品级的开源语音交互模型。这个模型能够依据不同的场景需求,生成带有情绪、方言、语种、歌声以及个性化风格的表达,从而能够和用户进行自然且高质量的对话。它所生成的语音具有超自然、高情商等特点,同时还能够实现高质量的音色复刻,并且进行角色扮演,能够满足影视娱乐、社交、游戏等多个行业场景下的应用需求。

在LlaMA Question、Web Questions等5大主流公开测试集中,阶跃Step - Audio模型的性能均超过了同类型的开源模型,在这些测试集中位列第一。尤其在HSK - 6(汉语水平考试六级)的评测中,阶跃Step - Audio的表现十分突出,堪称是最懂中国话的开源语音交互大模型。

阶跃星辰开源两大模型:视频生成与语音交互的革新

由于当前行业内语音对话测试集相对有所缺失,阶跃星辰自行构建并且开源了多维度评估体系——StepEval - Audio - 360基准测试。这个测试从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度,对开源语音模型进行全面的测评。通过人工横评之后的结果表明,阶跃Step - Audio的模型能力非常均衡,而且在各个维度上都超过了之前市面上效果最佳的开源语音模型。

在AI社区方面,这也是阶跃星辰首次开源其Step系列基座模型。据新民晚报记者了解,阶跃星辰创始人、CEO姜大昕博士表示:“阶跃星辰一直朝着实现AGI的目标坚持不懈地研发基座大模型。我们深知AGI的实现离不开全球开发者的共同努力,开源的初衷,一方面是希望能够跟大家分享最新的技术成果,从而为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现AGI的必经之路,不过目前这个领域还处于早期阶段,我们期待能够与社区开发者共同集思广益,一起拓展模型的技术边界,并且推动产业落地。”

另外据介绍,阶跃星辰是吉利汽车集团的科技生态战略合作伙伴。双方进行深度合作,在算力算法、场景训练等领域实现优势互补,这大大增强了多模态大模型的性能表现。

阶跃星辰的大模型在AI社区引发了广泛的关注。抱抱脸官方转发了中国区负责人给予的高度评价:“简直就是下一个DeepSeek”;GPT - J作者也贴出了用新模型生成的视频。更多的网友对国内AI公司对开源社区的贡献表示欢迎。

本文总结了阶跃星辰联合吉利汽车集团开源两款多模态大模型的事件,详细介绍了阶跃Step - Video - T2V和阶跃Step - Audio两款模型的性能优势、相关评测情况,阐述了开源的意义,以及在AI社区引发的关注,体现了这一开源行为在多模态大模型领域的重要意义和积极影响。

原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/19711.html

(0)
SorrowfulSorrowful
上一篇 2025年2月19日
下一篇 2025年2月19日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注