Marker

快速准确地将文档转换为markdown、JSON和HTML格式

2024-06-11

Marker是一款高性能文档转换工具,可将文件转为markdown、JSON和HTML等结构化格式。它能处理PDF、图片文件、PPTX、DOCX、XLSX、HTML及EPUB等多种输入格式,在保留表格、公式、表单和代码块等复杂元素方面表现优异,同时能智能剔除页眉页脚等冗余内容。

核心功能包括:

  • 多格式支持:兼容各类文档类型与语言
  • 精准高效:性能超越云服务与开源方案,在H100 GPU上可达122页/秒的处理速度
  • 灵活扩展:支持用户自定义格式规则与处理逻辑
  • LLM增强:可选配大语言模型提升识别准确率,特别适用于复杂版式与表格提取
  • 多硬件适配:完美兼容GPU/CPU不同运行环境

这款工具特别适合研究人员、开发者及企业用户进行高精度文档转换。提供托管API满足规模化需求,采用cc-by-nc-sa-4.0许可协议,符合条件机构可获取商业授权。

Document Processing PDF Conversion Text Extraction OCR Artificial Intelligence