国产多模态语音大模型再突破!Step-Audio 2 mini开源即登顶SOTA,解锁语音交互新可能

AI教程2个月前发布 admin
270 0

阶跃星辰正式推出开源端到端语音大模型Step-Audio 2 mini,并在国际权威评测中以多项SOTA成绩引发关注。这款模型不仅实现了语音理解、生成与推理的深度融合,更凭借对复杂声学信号的精准解析能力,为语音交互领域树立了新的标杆。


核心技术突破:从“听得见”到“听得懂”​

Step-Audio 2 mini采用创新的端到端多模态架构,摒弃传统ASR(语音识别)-LLM(大语言模型)-TTS(语音合成)的三级处理流程,直接实现原始音频到语义理解的端到端映射。这一设计大幅降低了时延,同时显著提升了模型对副语言信号​(如语气、情感、笑声)和非人声信号(如环境音)的捕捉能力。

尤为值得关注的是,模型首次在语音领域引入链式思维推理(CoT)与强化学习联合优化。通过模拟人类“理解-推理-回应”的思维链条,Step-Audio 2 mini不仅能解析显性指令,还能捕捉隐含需求。例如,在用户提及“Meta最新动态”时,尽管存在信息混淆,但其仍能通过工具调用快速检索并输出相关内容。


多维度测评霸榜,性能全面领跑

在多项国际基准测试中,Step-Audio 2 mini展现了碾压性的优势:

  • 通用音频理解​:在MMAU测试集以73.2分位列开源端到端模型第一;
  • 口语对话能力​:URO Bench基础与专业赛道双冠,超越Qwen-Omni、Kimi-Audio;
  • 多语种翻译​:CoVoST 2(中英)和CVSS评测集分别达到39.3和29.1分,超越GPT-4o Audio;
  • 语音识别精度​:中文CER(字错误率)3.19%,英语WER(词错误率)3.50%,稳居开源模型榜首。
  • 体验地址https://www.appmall.com/applicationCenter/details/tama-jxoDwoC0T6qEyyd3

更令人惊喜的是,其对非标准场景的适应性:无论是引擎加速声、鸟鸣流水声,还是哲学问题的抽象思辨,模型均能给出自然流畅的回应。例如,用户询问“爱美是自由还是枷锁”时,模型以“购物前问自己三个问题”的类比,巧妙化解了抽象议题。


开源生态赋能,加速产业落地

阶跃星辰选择将Step-Audio 2 mini开源,无疑为开发者与研究者提供了宝贵的技术资源。目前,模型已上线GitHub、Hugging Face等平台,支持语音原生Tool Calling功能,可轻松实现联网搜索、跨模态交互等扩展能力。

实际应用层面,吉利银河M9已率先搭载阶跃星辰的端到端语音大模型,成为全球首款量产落地的车型。此次Step-Audio 2 mini的开源,将进一步推动语音技术在智能家居、机器人、医疗等领域的渗透。阶跃星辰透露,其已与TCL、Cyan青心意创等企业达成合作,探索多场景语音交互解决方案。

© 版权声明

相关文章