今日应用
今日话题
弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
重点标签 弱智吧、AI训练、数据集、指令微调、COIG-CQIA
文章摘要
在一项最新的研究中,使用百度贴吧中的弱智吧数据训练的大型AI模型在多个测试中取得了优异的成绩。这些测试包括问答、头脑风暴、分类、生成、总结和提取等,其中弱智吧数据训练的模型在8项测试中取得了最高分。研究团队由中科院深圳先进技术研究院、中科院自动化研究所和滑铁卢大学等机构组成。他们发现,弱智吧中的问题增强了AI的逻辑推理能力,从而提升了模型的性能。此外,弱智吧的数据质量高,用词准确且简洁,增加了指令多样性,有助于避免过度拟合。这项研究不仅为中文大模型开发提供了高质量的指令微调数据集COIG-CQIA,还为构建中文指令数据集提供了有益的启示。
弱智吧的AI代码能力甚至超过了使用专业技术问答社区思否数据训练的AI。这一发现让网友们感到非常有趣,也引发了对弱智吧数据为何有如此奇效的讨论。弱智吧的问题被认为是异质的,类似于脑筋急转弯,这有助于提升模型的指令多样性和性能。此外,弱智吧问题中充满陷阱,可以用来分辨AI能力的高低,因此成为了AI浪潮的重要见证者。论文地址为:https://arxiv.org/abs/2403.18058。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...