OpenAI曾转录100万小时视频数据，训练GPT-4

AI最新资讯4个月前发布 tree

33 0 0

今日应用

讯飞听见

讯飞听见依托科大讯飞的语音识别技术,打造智慧办公服务平台,提供语音转文字、录音转文字、AI写作、视频会议、视频转文字、视频加字幕、同声翻译、语音翻译等服务,可满足多样化的语音转文字及文字编辑需求,致力于提高办公效率。

今日话题

OpenAI曾转录100万小时视频数据，训练GPT-4

重点标签 AIGC、大语言模型、数据隐私、合成数据、科技巨头

文章摘要

文章首先介绍了AIGC领域的专业社区，关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型的发展和应用落地。接着，文章提到纽约时报发布的一篇关于科技巨头如何为AI收集数据的文章，指出OpenAI为了缓解训练数据短缺问题，开发了开源语音识别模型Whisper，并从视频平台YT等转录了超过100万小时的视频数据用于训练GPT-4。同时，谷歌、Meta等科技巨头也在修改隐私数据条款，以避免版权法的制裁，获取高质量训练数据。

文章强调，高质量数据对于生成式AI领域至关重要，大模型通过海量预训练数据学会人类的写作技巧和习惯。通过高质量数据训练的小参数模型，性能可以强过大参数模型。此外，文章提到合成数据正成为主流，它具有良好的隐私保护、无限数据源、控制数据分布和低成本等优势。然而，合成数据也存在过度拟合的缺点。最后，文章提到OpenAI发布的视频模型Sora可能使用了合成数据进行训练。

文章通过引用纽约时报、维基百科、谷歌官网、Meta官网和theverge官网的素材，对AI领域的数据收集和应用进行了深入探讨。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI曾转录100万小时视频数据，训练GPT-4

今日应用

今日话题

文章摘要

文章来源

马斯克感叹硅谷AI春招太疯狂！百万美元年薪随便开，小扎一线当猎头，谷歌创始人返场抢人

由近期 RAGFlow 的火爆看 RAG 的现状与未来

相关文章

暂无评论

热门网址

热门标签