北京 切换城市

请选择您所在的城市:

    热门
    城市

    中国双创

    发布投稿
    客服热线010—53684885
  • 美AI巨头被控秘密“侵吞”数据

    2024-04-17 08:05:00

    来源:科技日报   编辑:郑涛(QV0003)

    阅读:4970

    评论:0

    [摘要] 人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。收集数据走捷径英国《泰晤士报》近日刊文指......

    人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。


    据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。


    收集数据走捷径


    英国《泰晤士报》近日刊文指出,科技巨头一直在走捷径为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。


    美国《商业内幕》网报道称,YouTube在其官网明令禁止独立于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。


    实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。


    最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。


    当OpenAI首席技术官米拉穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。


    《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。


    面临数据瓶颈


    对于科技公司来说,庞大的数据肥料是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。


    但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI养分不足。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。


    这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。


    Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。


    在人类数据告急的情况下,不少公司甚至试图用AI喂AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的合成数据,喂给参数更小的模型。但有研究认为,合成数据最终将让AI自食其果。


    因版权被多方状告


    《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于合理使用,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。


    去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。


    生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。


    《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。


    美国电影制作人、前演员及作家贾斯汀贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,这是美国最大的盗窃案。


    人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。


    据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。


    收集数据走捷径


    英国《泰晤士报》近日刊文指出,科技巨头一直在走捷径为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。


    美国《商业内幕》网报道称,YouTube在其官网明令禁止独立于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。


    实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。


    最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。


    当OpenAI首席技术官米拉穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。


    《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。


    面临数据瓶颈


    对于科技公司来说,庞大的数据肥料是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。


    但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI养分不足。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。


    这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。


    Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。


    在人类数据告急的情况下,不少公司甚至试图用AI喂AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的合成数据,喂给参数更小的模型。但有研究认为,合成数据最终将让AI自食其果。


    因版权被多方状告


    《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于合理使用,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。


    去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。


    生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。


    《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。


    美国电影制作人、前演员及作家贾斯汀贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,这是美国最大的盗窃案。

    [声明]本网站在其他媒体、网站中摘录的文字、图片和音视频稿件等,都注明了稿件来源。被选用的文字、图片、音视频稿件的作者,如认为直接摘录不妥,恳请及时与我们联系,我们将予以当即删除等妥善处理。
  • 人已打赏

        ×

        打赏支持

        打赏金额 ¥
        • 1元
        • 2元
        • 5元
        • 10元
        • 20元
        • 50元

        选择支付方式:

        打赏记录
        ×

        精彩评论文明上网理性发言,请遵守评论服务协议

        共0条评论
        加载更多
        北京双创平台

        北京双创平台

        33382文章
        14076.8万总阅读
        全国
        友情链接
        全国高等学校学生信息咨询与 人民网 新华网 中国网 央视网 网信网 国际在线 中国日报 中国经济网 光明网 求是网 央广网 中国青年网 中国新闻网 腾讯网 搜狐网 新浪网 网易网 凤凰网 全国人大 全国政协 中国政府网 最高人民法院 最高人民检察院 国家发改委 民政部 科技部 教育部 工信部 人社部 住建部 外交部 公安部 国资委 中科院 新闻出版广电总局 新职业 全国大学生创业服务网
        中国双创是传播和交流中国创新创业发展的公共服务平台。中国双创与政府、高校、协会、企事业单位等机构深度联合,为“工、农、兵、学、商”提供权威的创新创业政策解读,精准专业的数据服务,个性化推荐引擎,共享技术、人才、金融、市场、信息等。

        版权说明:凡本网注明“来源:中国双创”的所有作品,均为中国双创合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。

        电话:0086-01-53684885

        传真:0086-10-63343583

        媒体合作:0086-10-53397606

        品牌活动合作:0086-10-53397606

        广告合作:0086-10-63343583

        打赏成功!

        感谢您的支持~

        打赏支持 喜欢就打赏支持一下小编吧~

        打赏金额¥{{ds_num}}
        打赏最多不超过2000元

        收银台

        订单总价¥0.00

        剩余支付时间:000000

        手机扫码支付

        使用支付宝、微信扫码支付

        余额(: ¥)
        为了您的账户安全,请尽快设置支付密码 去设置
        其他支付方式