首页 > 资讯 > OpenAI 的米拉-穆拉提(Mira Murati)说"不清楚 "Sora的训练数据从何而来
Ana Paula Pereira  

OpenAI 的米拉-穆拉提(Mira Murati)说"不清楚 "Sora的训练数据从何而来

摘要:OpenAI 的首席技术官米拉-穆拉蒂(Mira Murati)说,她不清楚 "文字到视频 "模型 Sora 背后的数据来源。

OpenAI 公司的首席技术官米拉-穆拉提(Mira Murati)并不清楚该公司即将推出的视频生成人工智能模型 Sora 的数据来源。

3 月 13 日,在接受《华尔街日报》采访时,当被问及该公司 Sora 模型的数据来源时,穆拉提的回答含糊不清。

穆拉提回答说:"我们使用了公开数据和授权数据。"这家估值 800 亿美元的公司是如何训练其即将推出的模型的。

《期刊》的乔安娜-斯特恩(Joanna Stern)接着问,Sora 是否使用了来自 YouTube、Instagram 或 Facebook 等社交媒体平台的数据进行训练。"穆拉提回答说:"我不太清楚:

在转到另一个话题之前,斯特恩提到了 OpenAI 与图片库公司 Shutterstock 的合作关系,询问其数据是否可以用来训练 Sora。"我不想详细介绍使用的数据。但这些数据都是公开的或获得许可的数据,"穆拉提补充道。后来,她向本刊证实,Sora 使用了 Shutterstock 的数据。

人工智能模型是通过大量数据集(即训练数据集)进行训练的,这些数据集有助于模型学习识别模式、进行预测或理解语言。

OpenAI 首席技术官米拉-穆拉提在接受《华尔街日报》采访时。来源:《华尔街日报》

穆拉蒂从 2018 年开始在 OpenAI 工作,领导着公司一些最受欢迎的项目,包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 和公司最新版本的聊天机器人 GPT-4。2023 年 11 月,在 OpenAI 董事会赶走山姆-奥特曼(Sam Altman)后,她短暂接任临时首席执行官。

OpenAI 曾多次成为涉及其人工智能模型训练数据的法律诉讼的目标。2023 年 7 月,作家莎拉-西尔弗曼(Sarah Silverman)、理查德-卡德雷(Richard Kadrey)和克里斯托弗-戈登(Christopher Golden)对该公司提起诉讼,指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。

12 月,《纽约时报》在一份类似的版权侵权诉状中起诉了微软和 OpenAI,称这两家公司利用该报的内容训练人工智能聊天机器人。另一起集体诉讼在加利福尼亚州提起,指控 OpenAI 在未经用户同意的情况下,从互联网上获取用户私人信息来训练 ChatGPT。

Tags:
免责声明
世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:juu3644。