弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书

AI最新资讯4个月前发布 tree
71 0 0

今日应用


今日话题


弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
 

重点标签 弱智吧AI训练数据集指令微调COIG-CQIA

文章摘要


在一项最新的研究中,使用百度贴吧中的弱智吧数据训练的大型AI模型在多个测试中取得了优异的成绩。这些测试包括问答、头脑风暴、分类、生成、总结和提取等,其中弱智吧数据训练的模型在8项测试中取得了最高分。研究团队由中科院深圳先进技术研究院、中科院自动化研究所和滑铁卢大学等机构组成。他们发现,弱智吧中的问题增强了AI的逻辑推理能力,从而提升了模型的性能。此外,弱智吧的数据质量高,用词准确且简洁,增加了指令多样性,有助于避免过度拟合。这项研究不仅为中文大模型开发提供了高质量的指令微调数据集COIG-CQIA,还为构建中文指令数据集提供了有益的启示。

弱智吧的AI代码能力甚至超过了使用专业技术问答社区思否数据训练的AI。这一发现让网友们感到非常有趣,也引发了对弱智吧数据为何有如此奇效的讨论。弱智吧的问题被认为是异质的,类似于脑筋急转弯,这有助于提升模型的指令多样性和性能。此外,弱智吧问题中充满陷阱,可以用来分辨AI能力的高低,因此成为了AI浪潮的重要见证者。论文地址为:https://arxiv.org/abs/2403.18058。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...