HyperAIHyperAI

Command Palette

Search for a command to run...

海豚:基于异构锚点提示的文档图像解析

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

Abstract

文档图像解析因其包含文本段落、图表、公式和表格等复杂交织的元素而极具挑战性。现有方法要么采用专门的专家模型进行组装,要么直接以自回归方式生成页面级内容,尽管性能尚可,但仍面临集成开销大、效率瓶颈以及版面结构退化等问题。为解决上述局限,我们提出了一种新型多模态文档图像解析模型——Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting),该模型遵循“分析-解析”范式。在第一阶段,Dolphin 按阅读顺序生成一系列版面元素;这些异构元素作为锚点,并结合特定任务提示,被反馈至 Dolphin 以在第二阶段实现并行的内容解析。为训练 Dolphin,我们构建了一个包含超过3000万样本的大规模数据集,覆盖多粒度解析任务。在主流基准与自建基准上的全面评估表明,Dolphin 在多种页面级与元素级设置下均达到了当前最优性能,同时凭借其轻量化架构和并行解析机制,实现了卓越的效率。代码与预训练模型已公开发布于以下网址:[https://url]。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供