谷歌允许 OpenAI 从 YouTube 视频中抓取数据用于 GPT-4 训练中国Twitter：www.twitter.com

据中国Twitter网最新报道，OpenAI 废弃了 YouTube 视频中的数据来训练其最先进的大语言模型 (LLM) GPT-4。据报道，该 AI 公司使用了 100 万小时的 YouTube 视频来进行 GPT-4 训练。

有趣的是，同时拥有 YouTube 的谷歌相关部门的人士也了解 OpenAI 转录 YouTube 视频的做法。

据称，谷歌也采用了相同的方法，因此它允许 OpenAI 从 YouTube 视频中抓取数据以进行 GPT-4 训练

报告表明，OpenAI 开发了一种新模型——Whisper音频转录模型，该模型帮助这家 AI 公司废弃了 YouTube 视频数据。值得注意的是，该公司很清楚自己可能会受到政府机构的审查。然而，它继续这样做，认为这是合理使用。

《纽约时报》声称 OpenAI 废弃了 YouTube 视频和播客中的数据来训练其两个人工智能模型。该报告进一步提到 OpenAI 总裁 Greg Brockman 参与了该公司 GPT-4 培训的不正当做法。

该通讯社进一步报道称，谷歌也在训练其 Gemini AI 时采取同样的做法，这直接侵犯了创作者的版权。然而，谷歌表示，只有在原始创作者同意的情况下，它才会从 YouTube 视频中删除数据。

《纽约时报》还谈到了《纽约时报》的一篇报道，称谷歌去年调整了其隐私政策。谈到同样的事情，它提到：

根据该公司隐私团队的成员和《纽约时报》看到的一份内部消息，这一变化的动机之一是允许谷歌能够利用公开的谷歌文档、谷歌地图上的餐厅评论以及其他在线材料来获取更多信息。其人工智能产品。

此前，OpenAI CTO Mira Murati 证实，他们的新 AI 视频模型SoraAI 是在公开的视频数据上进行训练的。

YouTube 意识到 OpenAI 的做法，但似乎不愿干预

YouTube 首席执行官尼尔·莫汉 (Neil Mohan)最近在接受彭博社采访时表示，这种做法明显违反了服务条款。他加了：

这些期望之一是遵守服务条款。它不允许下载文字记录或视频片段等内容，这明显违反了我们的服务条款。这些是我们平台上内容的规则。

当被问及 OpenAI 使用 YouTube 视频中的数据进行GPT-4 训练时，他给出的答案并不令人满意。莫汉表示，他知道这些报道，并补充说它可能使用也可能没有使用 YouTube 视频的数据。

最后，对于 OpenAI 和 Google 等人工智能公司来说，使用公开数据进行人工智能训练并不新鲜。也就是说，这些公司很清楚他们可能会因同样的问题而受到监管机构的审查。