谷歌允许 OpenAI 从 YouTube 视频中抓取数据用于 GPT-4 训练

中国Twitter网最新报道,OpenAI 废弃了 YouTube 视频中的数据来训练其最先进的大语言模型 (LLM) GPT-4。据报道,该 AI 公司使用了 100 万小时的 YouTube 视频来进行 GPT-4 训练。

有趣的是,同时拥有 YouTube 的谷歌相关部门的人士也了解 OpenAI 转录 YouTube 视频的做法。

据称,谷歌也采用了相同的方法,因此它允许 OpenAI 从 YouTube 视频中抓取数据以进行 GPT-4 训练

报告表明,OpenAI 开发了一种新模型——Whisper音频转录模型,该模型帮助这家 AI 公司废弃了 YouTube 视频数据。值得注意的是,该公司很清楚自己可能会受到政府机构的审查。然而,它继续这样做,认为这是合理使用。

《纽约时报》声称 OpenAI 废弃了 YouTube 视频和播客中的数据来训练其两个人工智能模型。该报告进一步提到 OpenAI 总裁 Greg Brockman 参与了该公司 GPT-4 培训的不正当做法。

该通讯社进一步报道称,谷歌也在训练其 Gemini AI 时采取同样的做法,这直接侵犯了创作者的版权。然而,谷歌表示,只有在原始创作者同意的情况下,它才会从 YouTube 视频中删除数据。

《纽约时报》还谈到了《纽约时报》的一篇报道,称谷歌去年调整了其隐私政策。谈到同样的事情,它提到:

根据该公司隐私团队的成员和《纽约时报》看到的一份内部消息,这一变化的动机之一是允许谷歌能够利用公开的谷歌文档、谷歌地图上的餐厅评论以及其他在线材料来获取更多信息。其人工智能产品。

此前,OpenAI CTO Mira Murati 证实,他们的新 AI 视频模型SoraAI 是在公开的视频数据上进行训练的。

YouTube 意识到 OpenAI 的做法,但似乎不愿干预

YouTube 首席执行官尼尔·莫汉 (Neil Mohan)最近在接受彭博社采访时表示,这种做法明显违反了服务条款。他加了:

这些期望之一是遵守服务条款。它不允许下载文字记录或视频片段等内容,这明显违反了我们的服务条款。这些是我们平台上内容的规则。

当被问及 OpenAI 使用 YouTube 视频中的数据进行GPT-4 训练时,他给出的答案并不令人满意。莫汉表示,他知道这些报道,并补充说它可能使用也可能没有使用 YouTube 视频的数据。

最后,对于 OpenAI 和 Google 等人工智能公司来说,使用公开数据进行人工智能训练并不新鲜。也就是说,这些公司很清楚他们可能会因同样的问题而受到监管机构的审查。

点击购买一个Google、Toutube账号……