OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

IT之家 3 月 18 日消息，OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。

在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”

当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 Instagram 或 Facebook 视频是否被纳入训练集的问题。她辩称，如果这些视频是公开可用且可以使用的，那么可能会被使用，但她本人对此并不确定。

当记者询问 OpenAI 是否与其合作伙伴图片素材公司 Shutterstock 达成过数据训练方面的合作，Murati 索性拒绝继续讨论数据来源话题。

Murati 甚至回避记者关于 OpenAI 与图片素材巨头 Shutterstock 的数据合作，拒绝透露来自该平台的视频是否被用于训练 Sora。最终，她干脆中止了相关讨论，坚称数据来源“肯定是公开可用或经过许可的”，却无法给出任何具体细节。

Murati 这番闪烁其词的做法让 OpenAI 陷入尴尬境地。此前，该公司就因数据抓取行为引发广泛争议，甚至面临多起版权诉讼，其中就包括纽约时报的指控。如今，连 CTO 都无法说清其最热门模型的训练数据来源，难免让人怀疑 OpenAI 高层对该问题的重视程度。

据报道，采访结束后，Murati 私下承认了确有使用 Shutterstock 视频训练 Sora。然而，相较于网络上浩如烟海的视频内容，来自 Shutterstock 的素材可能只是 Sora 训练数据的一小部分。

IT之家注意到，Murati 的讳莫如深引发了网友热议。不少人认为她缺乏坦诚，质疑其对自身产品的了解程度。有人直言，CTO 竟然对如此关键的问题不知情，实在令人难以置信。

然而，也有人为 Murati 辩护，认为既然内容已经发布到网络，就应该允许人工智能公司加以利用。他们认为，用户既然选择公开内容，就应该承担被使用的风险。

Murati 的回避行为究竟是为了防止更多版权纠纷，还是真的对数据来源一无所知，我们不得而知。但可以肯定的是，公众有权质疑这些“公开可用且经过许可”的 AI 训练数据究竟来自何处。未来，含糊其辞的官方说辞恐怕难以平息人们的疑虑。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

友情提示

网红营销，越真实越受欢迎

“误删”马来西亚总理发帖，元宇宙公司道歉

孙正义把创始人告了

Meta的AI野心

离开苹果，他从父亲的角色再度出发

Meta：印度是 Meta AI 使用量最大的市场

原配抓小三，男子从妻子手中解救小三头也不回的就走啦！！

女儿着急去排练，一听是奢香夫人，玲花：这个我熟｜综艺

遇到这样的大爷应该怎么做？

正式逮捕！迄今为止中国体坛最大官职，刘国梁蔡振华深受其害

文在寅卸任后待遇：每月1400万韩元退休金，配备65名警卫全身而退

过了60到70岁的老人一定要注意，听听她怎么说？

美总统之子亨特·拜登就9项税务指控罪名认罪

7球惨败擦亮伊万眼睛国脚说下半时实在太煎熬了

观察：不怕万一就怕伊万，国足0比7输日本创耻辱纪录，主教练就是木桶最短板

观察｜美官员称拟向乌提供隐身巡航导弹，将显著改变冲突格局？

多地探索按住房套内面积计价销售：“所见即所得”，避免公摊比例过大

乌克兰政坛地震，余震要到泽连斯基访美以后