MiniCPM-V

一款能在手机上实现视觉、语音及多模态直播的GPT-4o级MLLM

2024-06-02

MiniCPM-V 是一款面向终端设备的尖端多模态大语言模型（MLLM），在视觉、语音和直播场景中提供媲美GPT-4o的性能表现。该模型由OpenBMB开发，可处理图像、视频、文本和音频输入，并以端到端方式生成高质量输出。凭借仅8B的紧凑参数量，MiniCPM-V在多项基准测试中超越了GPT-4V、Claude 3.5 Sonnet等商用模型。

核心特性：

视觉能力：在单图理解、多图推理和视频解析任务中表现卓越
语音交互：支持双语实时语音对话，可配置音色并控制情感/风格
直播处理：能持续处理视频流与音频流，实现实时交互
高效运行：针对移动设备优化，具有超高token密度，显著降低内存占用与能耗
便捷部署：兼容llama.cpp、vLLM等框架，可快速搭建本地/在线演示

对于希望在移动应用中集成先进多模态AI的开发者而言，MiniCPM-V在性能与资源效率间实现了完美平衡。

GitHub Repository

Multimodal AI Vision-Language Models Speech Recognition Live Streaming Mobile AI

Coolify

Perplexica