向通用文字识别迈出坚实的一步！华科&金山办公推出多模态大模型TextMonkey

AI最新资讯4个月前发布 tree

63 0 0

今日应用

Gif Abyss

Attention Required! | Cloudflare

今日话题

向通用文字识别迈出坚实的一步！华科&金山办公推出多模态大模型TextMonkey

重点标签 TextMonkey、多模态、文档理解、可解释性、办公自动化

文章摘要

TextMonkey模型概述：
TextMonkey是基于Monkey模型的改进版，由华中科技大学和金山的研究人员共同提出。该模型专注于文本相关任务，如文档问答和场景文本问答，通过引入位置信息和扩展文本任务，显著提升了文档理解能力和可解释性。TextMonkey在多个测试基准中取得国际领先成绩，预示着在办公自动化、智慧教育和智慧金融等领域的应用潜力。

核心技术介绍：
1. Shifted Window Attention：通过滑动窗口注意力机制，解决了图像切分导致的语义不连贯问题，增强了图像块间的上下文联系。
2. Token Resampler：通过计算图像token的相似度，过滤出重要的视觉token，减少了冗余信息，提高了模型性能。
3. 多任务训练：TextMonkey支持多种文本相关任务，如文本检测、问答等，并在问答时提供答案位置，增强了模型的可解释性。

实验结果分析：
TextMonkey在多个基准数据集上的性能显著提升，特别是在OCRBench上的得分超越了所有已开源的多模态大模型。消融实验表明，Shifted Window Attention和Token Resampler模块对性能提升起到了关键作用。此外，合理增加模型分辨率是提升性能的关键，而非简单地追求高分辨率。

可视化结果与Demo展示：
TextMonkey能够准确定位和识别场景图像和文档图像中的文本，展示了其在多种场景下的能力。在线Demo进一步证明了TextMonkey的实用性。

更多可能性：
TextMonkey还可作为智能手机代理，通过语音输入和屏幕截图，模仿人类点击手势，执行各种任务，自主操控手机应用程序。

总结：
TextMonkey在Monkey基础上增强了图像间的交互和视觉信息的连续性，通过过滤融合策略减少了视觉token的冗余。其在问答中引入位置信息，有效提升了可解释性和减少了幻觉。TextMonkey的成功预示着通用文档理解的新时代，为相关行业技术变革带来了新的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

向通用文字识别迈出坚实的一步！华科&金山办公推出多模态大模型TextMonkey

今日应用

今日话题

文章摘要

文章来源

ICLR2024 oral：小尺度Transformer如何Scale Up

PointMamba: 点云分析的简单状态空间模型

相关文章

暂无评论

热门网址

热门标签