OpenAI曾转录100万小时视频数据,训练GPT-4

AI最新资讯4个月前发布 tree
33 0 0

今日应用


今日话题


OpenAI曾转录100万小时视频数据,训练GPT-4
OpenAI曾转录100万小时视频数据,训练GPT-4
 

重点标签 AIGC大语言模型数据隐私合成数据科技巨头

文章摘要


文章首先介绍了AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型的发展和应用落地。接着,文章提到纽约时报发布的一篇关于科技巨头如何为AI收集数据的文章,指出OpenAI为了缓解训练数据短缺问题,开发了开源语音识别模型Whisper,并从视频平台YT等转录了超过100万小时的视频数据用于训练GPT-4。同时,谷歌、Meta等科技巨头也在修改隐私数据条款,以避免版权法的制裁,获取高质量训练数据。

文章强调,高质量数据对于生成式AI领域至关重要,大模型通过海量预训练数据学会人类的写作技巧和习惯。通过高质量数据训练的小参数模型,性能可以强过大参数模型。此外,文章提到合成数据正成为主流,它具有良好的隐私保护、无限数据源、控制数据分布和低成本等优势。然而,合成数据也存在过度拟合的缺点。最后,文章提到OpenAI发布的视频模型Sora可能使用了合成数据进行训练。

文章通过引用纽约时报、维基百科、谷歌官网、Meta官网和theverge官网的素材,对AI领域的数据收集和应用进行了深入探讨。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...