Voxtral

前沿开源语音理解模型

2025-07-16

Mistral AI的Voxtral是一个新的开源语音理解模型系列。提供24B和3B两种规模，它不仅限于转录，还能直接从语音进行问答、摘要和功能调用，性能达到行业领先水平。

Mistral AI推出的Voxtral是一款突破性的开源语音理解模型系列，提供24B和3B两种版本。它不仅超越了基本的转录功能，还提供了直接从语音进行问答、摘要和功能调用等高级特性。凭借最先进的性能，Voxtral支持多语言处理、长达40分钟的长音频，以及为生产和边缘部署提供的无缝集成。Voxtral设计经济实惠且灵活，以远低于竞争对手如OpenAI Whisper和ElevenLabs Scribe的成本，提供了更优的性能。它将高准确度与深度语义理解相结合，非常适合客户支持、分析和语音驱动的工作流等现实世界应用。通过API或本地下载，Voxtral为开发者和企业提供了先进的语音智能民主化途径。即将推出的增强功能包括说话人分割、情感检测和非语音音频识别，进一步扩展其能力。无论是用于原型设计还是大规模部署，Voxtral都能提供开放的、生产就绪的语音交互解决方案。

产品网站

Product Hunt

Open Source Artificial Intelligence Audio

Voxtral

前沿开源语音理解模型

Snack it

Blink