国产多模态语音大模型再突破！Step-Audio 2 mini开源即登顶SOTA，解锁语音交互新可能

270 0 10

阶跃星辰正式推出开源端到端语音大模型Step-Audio 2 mini，并在国际权威评测中以多项SOTA成绩引发关注。这款模型不仅实现了语音理解、生成与推理的深度融合，更凭借对复杂声学信号的精准解析能力，为语音交互领域树立了新的标杆。

核心技术突破：从“听得见”到“听得懂”

Step-Audio 2 mini采用创新的端到端多模态架构，摒弃传统ASR（语音识别）-LLM（大语言模型）-TTS（语音合成）的三级处理流程，直接实现原始音频到语义理解的端到端映射。这一设计大幅降低了时延，同时显著提升了模型对副语言信号（如语气、情感、笑声）和非人声信号（如环境音）的捕捉能力。

尤为值得关注的是，模型首次在语音领域引入链式思维推理（CoT）与强化学习联合优化。通过模拟人类“理解-推理-回应”的思维链条，Step-Audio 2 mini不仅能解析显性指令，还能捕捉隐含需求。例如，在用户提及“Meta最新动态”时，尽管存在信息混淆，但其仍能通过工具调用快速检索并输出相关内容。

多维度测评霸榜，性能全面领跑

在多项国际基准测试中，Step-Audio 2 mini展现了碾压性的优势：

通用音频理解：在MMAU测试集以73.2分位列开源端到端模型第一；
口语对话能力：URO Bench基础与专业赛道双冠，超越Qwen-Omni、Kimi-Audio；
多语种翻译：CoVoST 2（中英）和CVSS评测集分别达到39.3和29.1分，超越GPT-4o Audio；
语音识别精度：中文CER（字错误率）3.19%，英语WER（词错误率）3.50%，稳居开源模型榜首。
体验地址：https://www.appmall.com/applicationCenter/details/tama-jxoDwoC0T6qEyyd3

更令人惊喜的是，其对非标准场景的适应性：无论是引擎加速声、鸟鸣流水声，还是哲学问题的抽象思辨，模型均能给出自然流畅的回应。例如，用户询问“爱美是自由还是枷锁”时，模型以“购物前问自己三个问题”的类比，巧妙化解了抽象议题。