通用文档理解新SOTA，多模态大模型TextMonkey来了

AI最新资讯4个月前发布 tree

66 0 0

今日应用

电子课本

电子课本-电子课本网

今日话题

通用文档理解新SOTA，多模态大模型 TextMonkey来了
通用文档理解新SOTA，多模态大模型TextMonkey来了

重点标签 多模态大模型、TextMonkey、办公自动化、智慧教育、智慧金融

文章摘要

TextMonkey 是由华中科技大学和金山的研究人员基于 Monkey [1]（Li et al., CVPR2024）工作提出的，专注于文本相关任务的多模态大模型（LMM）。TextMonkey 在多个场景文本和文档的测试基准中处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接：，代码地址：。

TextMonkey 通过采用零初始化的 Shifted Window Attention 实现了更高输入分辨率下的窗口间信息交互，使用相似性过滤重要的图像特征，简化输入并提高模型性能。它还增强了可解释性，减少了幻觉，具备理解用户指令并点击相应位置的能力，展现了下游应用的巨大潜力。

实验结果表明，TextMonkey 在各种基准数据集上的性能显著提升，在以场景文本为中心的视觉问答、文档 VQA 和关键信息抽取任务中分别取得了 5.2%、6.9% 和 2.8% 的准确率增长。特别是在 OCRBench [2] 上获得了 561 的得分，超越此前所有已开源的多模态大模型。

TextMonkey 的成功核心在于它模拟人类视觉认知的方法，通过文本定位技术强化了答案的准确性，提升了模型的解释性。TextMonkey 支持多任务训练，包括读出所有文本、文本检测识别、输出给定文本坐标、文本问答等。消融实验表明 Shifted Window Attention 和 Token Resampler 两个模块的有效性。

TextMonkey 在场景图像和文档图像中都能准确定位和识别文本。它还探索了作为智能手机应用程序的 Agent 代理方面的可行性。使用来自 Rico 数据集的 15k 用户点击数据上进行微调之后，TextMonkey 能够理解用户意图并点击相应的图标，这表明了 TextMonkey 在微调之后作为 App Agent 的巨大潜力。

总结来说，TextMonkey 在 Monkey 的基础上增强了图像间的跨窗口交互，在扩大分辨率的基础上增强了视觉信息的语义连续性，有效缓解了视觉信息碎片化的问题。通过在问答中引入位置信息，TextMonkey 增强了可解释性并减少了幻觉。TextMonkey 在多个文本相关的测试基准中处于国际领先，在 OCRBench 中超越其他开源多模态大模型。TextMonkey 的到来为通用文档理解带来曙光，这有潜力促进办公自动化、智慧教育、智慧金融等行业的技术变革。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

通用文档理解新SOTA，多模态大模型TextMonkey来了

今日应用

今日话题

文章摘要

文章来源

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

基于光照、结构和纹理解耦，暗光人脸超分辨率图像算法（附代码链接）

相关文章

暂无评论

热门网址

热门标签