今日应用
今日话题
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!
文章摘要
随着2026年数据荒的临近,硅谷大厂们正争相购买可用于AI训练的数据资源。从社交媒体上的旧照片到聊天记录,这些曾被忽视的数据现在变得极其宝贵。科技巨头们不惜花费数十亿美元购买这些数据,以提升AI模型的性能。然而,这也引发了关于隐私泄露和版权问题的担忧。
OpenAI因版权问题陷入诉讼风波,而其他公司则开始为锁定内容付费,以避免类似的问题。数据经纪人成为了一个新兴行业,他们通过购买版权所有者的授权来获取数据。同时,AI数据定制行业也在兴起,这些公司提供定制化的视觉效果和语音样本。
AI模型的训练数据中存在的偏见问题也逐渐显现。例如,Meta的AI图像生成工具无法生成某些特定种族组合的图片,这暴露了训练数据集的不足。专家认为,AI的行为反映了其创造者的偏见。
Sam Altman看好合成数据的未来,这类数据由AI模型生成,有助于AI系统的自我进化。但目前,构建一个能自我训练的AI系统仍然充满挑战。OpenAI正在尝试通过两个不同模型的协作来生成更高质量的合成数据。
数据对AI模型的重要性不言而喻。研究表明,训练数据越多,模型性能越好。为了训练GPT-4,OpenAI收集了超过100万小时的YouTube视频数据。谷歌也在利用YouTube视频和Google Docs等应用中的数据来训练自己的AI模型。Meta则因数据不足而面临挑战,公司高管被迫频繁开会讨论解决方案。
AI生图工具的偏见问题引起了公众的关注。Meta的AI工具无法生成东亚男性和白人女性的合影,这反映了训练数据中缺乏多样性。这不仅是技术问题,更是文化意识的体现。随着AI技术的不断发展,如何解决这些问题成为了行业关注的焦点。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC新智界