让大模型「看懂」专业文档,OpenDataLab 将与钉钉打造企业级解析工具 DLU
- 综合知识
- 2025-09-06
- 2
高质量数据是 AI 大模型训练与应用的基础,更是企业向 AI 转型升级的「燃料」。然而,众多企业在开发 AI 应用过程中,却因大模型难以读懂非结构化数据而面临困境。
能否让更多企业级用户用上一款更趁手的数据工具,从而实现 AI-Ready 数据自由?
近日,OpenDataLab 和钉钉正基于 MinerU,推出一款面向企业用户的文档解析工具——DLU(Document Language Understanding),共同助力企业破解 AI-Ready 数据难题,从而降低行业大模型训练及 AI 应用开发门槛,加速 AI 技术在各行业的规模化落地。
MinerU 是上海人工智能实验室(上海 AI 实验室)OpenDataLab 推出的智能文档解析引擎,因精准解析能力及广泛兼容性深受用户青睐,在 GitHub 上已累计获得超 4 万星标。
上海 AI 实验室作为国际级人工智能新型科研机构,在大模型、数据智能等方向具备深厚的技术积累。其自主研发的 OpenDataLab 平台为国内领先的人工智能大模型数据平台,拥有 7700 余个开源精标数据集,迄今已为超 10 万用户提供了 200 余万次数据获取服务。近期更新的 MinerU2.0 实现了解析速度和精度双提升,甚至以 0.98B 的参数达成性能比肩 72B 的主流大模型。
作为阿里巴巴集团旗下的企业级智能移动办公平台,钉钉拥有丰富的文档产品和广阔的企业用户基础。钉钉文档、AI 表格等产品此前已深度集成 MinerU 能力,并通过开放平台向生态开发者开放文档解析功能,为 DLU 的联合研发提供了扎实的技术与场景基础。
基于 MinerU 打造的 DLU 将于近期开源,其具备良好的文件格式兼容性,深层次的内容理解与精准的结构化输出能力。DLU 不仅支持主流的 Office 文档、PDF、Markdown 及代码文件,还涵盖钉钉自有的文档、表格与 AI 表格格式;并支持提取纯文本内容,精准解析图表、公式、插图乃至专业领域的化学分子式等复杂视觉元素,将其有效转换为适合大模型训练的高质量语料。
接下来,DLU 还将借助钉钉在企业服务场景上优势,深度融入办公协同生态,支持用户在同一平台内完成从文档创建、解析提取、知识库管理、数据标注到定制化模型训练的全流程闭环,提升 AI 应用开发与日常办公效率。
上海人工智能实验室青年科学家、OpenDataLab/MinerU 开源项目创始人何聪辉表示:「MinerU 拥有广泛的用户基础,我们希望进一步拓展其在企业场景中的应用,并充分发挥 OpenDataLab 平台的作用,与合作伙伴共同打造『数据工具中的 PyTorch』,助力更多企业级用户实现 AI-Ready 数据的自由。」
钉钉 CTO 朱鸿表示:「开源 DLU,能有效解决企业在 AI 时代面临的数据准备难题,筑牢智能化转型根基。钉钉正积极构建 AI 新生态,期待携手更多技术伙伴与行业力量,共同为千行百业的数字化转型与智能化升级提供强劲支撑」。
来源:互联网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。