SmolDocling
256M VLM,为端到端文档AI设计
2025-03-25

SmolDocling,来自Hugging Face和IBM Research,是一款超紧凑(256M)的开放VLM,用于端到端文档转换。它能从图像中提取文本、布局、表格、代码等内容。
SmolDocling是由Hugging Face和IBM Research开发的一款超紧凑开源视觉语言模型(参数256M),用于高效文档转换。它可以从图像中提取文本、布局、表格、代码等元素,并轻松转换为markdown、HTML等格式。兼容Transformers、vLLM和ONNX等流行推理工具,支持DoclingDocuments以实现灵活的输出生成。专为多模态图像到文本处理设计,SmolDocling在保留前代关键特性的同时,优化了体积和速度。用户可以进行本地推理或利用GPU加速执行OCR、表格提取和LaTeX转换等任务。该模型的论文发表在arXiv上,Hugging Face Spaces上提供了演示。其轻量级架构使其成为可扩展文档AI应用的理想选择。对于开发者而言,SmolDocling通过Python提供了简单的集成方式,并提供了不同推理方法的示例。支持包括图表转表格和公式转LaTeX在内的专业转换,提升了其在多样化文档工作流程中的实用性。
Open Source
Artificial Intelligence
Development