今日应用
今日话题
“弱智贴吧”的数据,居然是最强中文语料库
重点标签 AIGC、LLM、数据集、COIG-CQIA、指令微调
文章摘要
AIGC领域专业社区关注:本篇文章来自一个专注于AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。
COIG-CQIA数据集发布:中国科学院、北大等10家机构联合推出了COIG-CQIA,一个专用于中文的高质量指令调优数据集。该数据集旨在填补高质量中文数据集的空白,解决中英文结构和文化差异问题。
数据集特点:COIG-CQIA数据集抓取了中文互联网的论坛、网站等高质量数据。有趣的是,“弱智贴吧”的数据质量超过了许多知名知识社区。数据集地址和论文地址已提供。
数据集构成:研究人员从22个高质量数据源中精心挑选内容,包括问答社区、百科网站等。他们采取了筛选高赞回答、评分过滤、人工审核等方式,确保数据贴合真实场景。
数据集性能:COIG-CQIA对国内知名模型进行了微调,结果显示其比现有开源中文数据集对大模型的帮助更好。
指令微调解释:指令微调是一种在大模型上进行微调的方法,通过提供指令和输出来指导模型更准确地完成内容输出。它与数据预训练不同,指令微调专注于提高大模型的拟人化输出和内容精准性。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...