今日应用
今日话题
OpenAI曾转录100万小时视频数据,训练GPT-4
重点标签 AIGC、大语言模型、数据隐私、合成数据、科技巨头
文章摘要
文章首先介绍了AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型的发展和应用落地。接着,文章提到纽约时报发布的一篇关于科技巨头如何为AI收集数据的文章,指出OpenAI为了缓解训练数据短缺问题,开发了开源语音识别模型Whisper,并从视频平台YT等转录了超过100万小时的视频数据用于训练GPT-4。同时,谷歌、Meta等科技巨头也在修改隐私数据条款,以避免版权法的制裁,获取高质量训练数据。
文章强调,高质量数据对于生成式AI领域至关重要,大模型通过海量预训练数据学会人类的写作技巧和习惯。通过高质量数据训练的小参数模型,性能可以强过大参数模型。此外,文章提到合成数据正成为主流,它具有良好的隐私保护、无限数据源、控制数据分布和低成本等优势。然而,合成数据也存在过度拟合的缺点。最后,文章提到OpenAI发布的视频模型Sora可能使用了合成数据进行训练。
文章通过引用纽约时报、维基百科、谷歌官网、Meta官网和theverge官网的素材,对AI领域的数据收集和应用进行了深入探讨。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...