Marker是一款高性能文档转换工具,可将文件转为markdown、JSON和HTML等结构化格式。它能处理PDF、图片文件、PPTX、DOCX、XLSX、HTML及EPUB等多种输入格式,在保留表格、公式、表单和代码块等复杂元素方面表现优异,同时能智能剔除页眉页脚等冗余内容。
核心功能包括:
- 多格式支持:兼容各类文档类型与语言
- 精准高效:性能超越云服务与开源方案,在H100 GPU上可达122页/秒的处理速度
- 灵活扩展:支持用户自定义格式规则与处理逻辑
- LLM增强:可选配大语言模型提升识别准确率,特别适用于复杂版式与表格提取
- 多硬件适配:完美兼容GPU/CPU不同运行环境
这款工具特别适合研究人员、开发者及企业用户进行高精度文档转换。提供托管API满足规模化需求,采用cc-by-nc-sa-4.0许可协议,符合条件机构可获取商业授权。