Github 趋势榜第一!开源 Agent 开发神器,任意文档转 JSON、MD
完整AGI构建离不开文档处理这一基石。IBM开源的Docling,凭借多格式支持(PDF、DOCX、PPTX、图片等)、精准OCR、高还原度的页面布局/表格处理以及与LLM集成等特点,仅需几行代码就能将各类文档转换为JSON或Markdown格式,在单列、双列排版及表格解析等方面实测效果良好,虽然在单双列混合排版下存在些许瑕疵,但整体适用于大部分场景。其多线程处理能显著提升吞吐量,且MIT许可开源,为文档解析提供了新选择。来源:https://mp.weixin.qq.com/s/NHoeE0l0UPjiwVGI5bcBAQ
页:
[1]