向通用文字识别迈出坚实的一步!华科&金山办公推出多模态大模型TextMonkey

AI最新资讯2个月前发布 tree
38 0 0

今日应用


今日话题


向通用文字识别迈出坚实的一步!华科&金山办公推出多模态大模型TextMonkey
向通用文字识别迈出坚实的一步!华科&金山办公推出多模态大模型TextMonkey
 

重点标签 TextMonkey多模态文档理解可解释性办公自动化

文章摘要


TextMonkey模型概述:
TextMonkey是基于Monkey模型的改进版,由华中科技大学和金山的研究人员共同提出。该模型专注于文本相关任务,如文档问答和场景文本问答,通过引入位置信息和扩展文本任务,显著提升了文档理解能力和可解释性。TextMonkey在多个测试基准中取得国际领先成绩,预示着在办公自动化、智慧教育和智慧金融等领域的应用潜力。

核心技术介绍:
1. Shifted Window Attention:通过滑动窗口注意力机制,解决了图像切分导致的语义不连贯问题,增强了图像块间的上下文联系。
2. Token Resampler:通过计算图像token的相似度,过滤出重要的视觉token,减少了冗余信息,提高了模型性能。
3. 多任务训练:TextMonkey支持多种文本相关任务,如文本检测、问答等,并在问答时提供答案位置,增强了模型的可解释性

实验结果分析:
TextMonkey在多个基准数据集上的性能显著提升,特别是在OCRBench上的得分超越了所有已开源的多模态大模型。消融实验表明,Shifted Window Attention和Token Resampler模块对性能提升起到了关键作用。此外,合理增加模型分辨率是提升性能的关键,而非简单地追求高分辨率。

可视化结果与Demo展示:
TextMonkey能够准确定位和识别场景图像和文档图像中的文本,展示了其在多种场景下的能力。在线Demo进一步证明了TextMonkey的实用性。

更多可能性:
TextMonkey还可作为智能手机代理,通过语音输入和屏幕截图,模仿人类点击手势,执行各种任务,自主操控手机应用程序。

总结:
TextMonkey在Monkey基础上增强了图像间的交互和视觉信息的连续性,通过过滤融合策略减少了视觉token的冗余。其在问答中引入位置信息,有效提升了可解释性和减少了幻觉。TextMonkey的成功预示着通用文档理解的新时代,为相关行业技术变革带来了新的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...