Sesame

实现语音存在的对话语音模型

2025-03-05

Sesame
Sesame的对话语音模型(CSM)创造了超越文本到语音的AI声音,旨在实现真正自然且引人入胜的对话。
Sesame推出了一种对话语音模型(CSM),旨在创造超越传统文本到语音的AI语音,目标是实现自然、情感智能的对话。通过专注于“语音存在感”,Sesame的AI伴侣以细腻的音调、节奏和上下文意识与用户互动,促进真实的对话和信任。CSM利用多模态学习和基于变压器的架构,实时生成连贯、富有表现力的语音。虽然当前模型在自然度方面表现出色,但在完全复制人类对话动态方面仍存在挑战。Sesame致力于开源其工作并扩展多语言能力,为更沉浸和直观的语音界面铺平道路。
Open Source Artificial Intelligence Audio