今日应用
今日话题
能精准解读X光片,开源视觉大模型Dragonfly
重点标签 AIGC、大语言模型、Dragonfly、多分辨率视觉编码、医学图像
文章摘要
Together.ai开源了一个名为Dragonfly的多分辨率视觉大语言模型,该模型专注于AIGC领域,并对大语言模型(LLM)的发展和应用落地进行了深入研究。Dragonfly包含两个版本:Llama-3-8b-Dragonfly-v1是一个通用模型,预训练于550万张图像;而Llama-3-8b-Dragonfly-Med-v1则是在140万张生物、医学图片上进行了额外微调,能够解读X光、磁共振、超声成像等专业医学图片。Together.ai声称,Dragonfly-Med在处理高分辨率医学图像方面的能力优于谷歌的Med-Gemini等知名模型。
Dragonfly-Med展示了其对医学图像的解读能力,例如能够根据胸部X光检查图像编写详细的放射学记录,其AI生成的结果与专业医生给出的答案几乎一致。Dragonfly的多分辨率视觉编码技术通过调整输入图像的分辨率,捕获宏观到微观的多尺度信息,允许模型同时理解图像的全局结构和局部细节。此外,局部放大图像块选择技术使Dragonfly在处理高分辨率图像时能够有选择性地关注与任务最相关的区域,有效减少冗余信息,提升模型效率和性能。
Dragonfly的架构中,图像编码器负责将输入图像转换成视觉标记,为后续处理和分析提供中间表示。局部放大选择机制则从高分辨率图像的多个子图像中选择最相关的部分,增强对关键视觉特征的理解和推理能力。通过多分辨率视觉编码策略,模型能够从不同尺度上捕捉图像信息,并在高分辨率子图像集合中寻找与中分辨率子图像摘要嵌入最相似的子图像,通过计算点积相似度实现。
Dragonfly在AI2D、ScienceQA、MMMU、MMVet和POPE等多个视觉推理和解读任务上的表现超越了目前知名的模型,尤其在图像区域细粒度理解方面表现出色。