今日应用
今日话题
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
重点标签 AI智能体、科学研究、PaperQA2、科学文献、开源
文章摘要
AI 科学家的研究逐渐增多,大语言模型(LLM)在帮助科学家检索、综合和总结文献方面显示出巨大潜力。然而,其在研究工作中的使用仍存在诸多限制,如事实性错误、细节处理不当和科学文献检索基准的不完善。为了解决这些问题,FutureHouse、罗切斯特大学等机构的研究者们构建了一个强大的科研智能体PaperQA2,并在多个现实文献搜索任务上进行了评估。
PaperQA2在检索和总结任务上的表现超过了博士生和博士后,能够大规模识别生物学论文中的矛盾。例如,ZNF804A rs1344706 等位基因对精神分裂症患者的大脑结构有积极影响的说法与后来发表的研究相矛盾。研究者生成了 LitQA2,一组共 248 个多项选择题,其答案需要从科学文献中检索,以评估 AI 系统对科学文献的检索能力。
PaperQA2是一个RAG智能体,将检索和响应生成视为一个多步骤智能体任务。它在LitQA2上运行时,平均每个问题解析并使用了14.5篇论文,获得了85.2%的精确度和66.0%的准确度。此外,PaperQA2在原始147个问题上的准确率与后一组101个问题的准确率没有显著差异,表明其优化已经很好地推广到了新的LitQA2问题。
研究者还尝试改变PaperQA2的参数,以了解哪些参数决定其准确性。他们发现,智能体更好的记忆能力是其性能差异的关键因素。此外,研究者利用PaperQA2构建了一个名为ContraCrow的系统,可以自动检测文献中的矛盾,实现了73%的准确率、88%的精度和仅为7%的假阳性率。
总的来说,这项研究展示了AI智能体在科学研究中的潜力,特别是在文献检索、总结和矛盾检测方面。PaperQA2和ContraCrow等系统的发展,有望彻底改变人类与科学文献互动的方式,提高科研效率和质量。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心