OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 2025 年 8 月 14 日 上午12:44 • 海外营销 • 阅读 58 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.nodgame.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 11.2K 文章 0 评论 298 问题 16 粉丝 私域神器:海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 2025 年 8 月 14 日 上午12:44 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 2025 年 8 月 14 日 上午12:44 相关推荐 海外营销 AI产品榜|2024 年 4 月共 33 个重要榜单 本期 AI产品榜由公众号:AI产品榜、小熊跑的快、共识粉碎机、张无常、Mindcode、张远康Stephan、阿曼达的乌托邦,以及X博主 向阳乔木@vista8 联合发布。 siyushenqi.com 2025 年 8 月 13 日 48000 海外营销 一周要闻NO.114丨微信与iPhone16二选一;第一个投资黑神话的人;淘宝天猫松绑“仅退款”;“搜索”迈入3.0时代 一起看看这周有哪些出海圈值得关注的大事记吧! siyushenqi.com 2025 年 8 月 14 日 48000 海外营销 观望了这么久,腾讯终于放出了自研的派对游戏! 腾讯天美工作室放出一张图官宣要建造“天美乐园” siyushenqi.com 2025 年 8 月 19 日 44000 海外营销 游戏老厂们丢失的二十年 中国游戏二十年。 siyushenqi.com 2025 年 8 月 19 日 49000 海外营销 ASA观察:2021年中国游戏产业报告,释放了哪些重要信号? 对于开发者和相关从业人员来说,《2021年中国游戏产业报告》不单单是一份数据总结,其数据背后所释放的一些重要信息也值得关注。 siyushenqi.com 2025 年 8 月 3 日 57000 海外营销 东南亚实时跨境小额汇款背后是怎样的布局? 4月底,新加坡金融管理局(MAS)与泰国银行(BOT)官宣两国将打通基于PayNow和PromptPay网路的实时跨境汇款,并宣称是世界上首次移动支付系统实时跨境转账尝试。 siyushenqi.com 2025 年 8 月 13 日 46000 海外营销 内购超7100万美元,下载量近亿?这款放置模拟经营游戏有何特殊之处? 不走寻常路。 siyushenqi.com 2025 年 8 月 18 日 59000 海外营销 攻占市场,小游戏在韩国杀疯了! 根据Sensor Tower的报告,2024年上半年,韩国手游畅销榜前100名中,中国发行商的收入占比显著提升至28%,内购收入增长了11%。 siyushenqi.com 2025 年 8 月 17 日 50000 海外营销 腾讯正式接手《网络奇兵》系列开发 继《网络奇兵3》和《网络奇兵4》域名转移至腾讯之后,今日Otherside娱乐发推宣布,腾讯将接管《网络奇兵》系列游戏。 siyushenqi.com 2025 年 8 月 26 日 66000 海外营销 大模型降价潮再起! 阿里云宣布本年度第三轮大模型降价,其中通义千问视觉理解模型全线降价超过80%,Qwen-VL-Plus降价81%,Qwen-VL-Max降价85%,创下行业内的新低价格。 siyushenqi.com 2025 年 8 月 13 日 51000 海外营销 美客多称霸拉美市场,2023年第四季度营收大涨42% 美客多在拉美一骑绝尘。 siyushenqi.com 2025 年 8 月 12 日 47000 海外营销 双11大促在即,TikTok电商在印尼上线官方商城,意味着什么? 跨境商家和全球化品牌尤其关注TikTok电商的动态,就在最近,“TikTok Shop商城”在东南亚地区的印尼上线。这对于跨境商家意味着什么? siyushenqi.com 2025 年 8 月 13 日 54000 海外营销 起境科技联合创始人钟碧舒确认担任第四届PAGC短剧峰会圆桌嘉宾 起境科技联合创始人钟碧舒确认担任第四届PAGC短剧峰会圆桌嘉宾 siyushenqi.com 2025 年 8 月 18 日 46000 海外营销 TikTok Shop正式推出商家自运营模式,向大批卖家抛出橄榄枝 TikTok Shop紧紧咬住了美国电商市场。 siyushenqi.com 2025 年 8 月 12 日 47000 海外营销 新品观察|利润翻5倍!二次元手游《赛马娘》凭什么横扫日本市场? 《赛马娘》5个月让CY公司利润翻了5倍。 siyushenqi.com 2025 年 8 月 25 日 75000 海外营销 微软发布Phi-4,最强小模型!参数极小、超GPT-4o Phi-4是微软研究院发布的Phi系列第五代模型,拥有140亿参数,尽管参数量小,但在GPQA研究生水平和MATH数学基准测试中分别达到了56.1和80.4的高分,超过了GPT-4o和其他同类型开源模型。 siyushenqi.com 2025 年 8 月 13 日 44000 海外营销 亚马逊和Temu的“互相成就” Temu 希望变得更像亚马逊,以降低供应链风险并提供更快的送货服务,而亚马逊也在竞相复制 Temu,因为它无法忽视这样一个事实:对于一些购物者来说,Temu 的低价胜过亚马逊的便利性。 siyushenqi.com 2025 年 8 月 6 日 45000 海外营销 Temu在家门口“吃瘪”?卷不过日本百元店? Temu日本站的落地似乎略显仓促 siyushenqi.com 2025 年 8 月 13 日 63000 海外营销 《云图计划》登顶海外iOS免费榜 散爆补齐“少前”宇宙核心板块 二次元Roguelike能否在全球土壤上扎根? siyushenqi.com 2025 年 8 月 24 日 66000 海外营销 今天,我们聊聊一些在日本意外“火了很久”的国产手游 近年来,不少国产手游在日本意外成功了,比如《荒野行动》《黑道风云》,甚至是官场、宫廷题材产品。 siyushenqi.com 2025 年 8 月 25 日 73000 海外营销 第一款游戏赚了120亿后,他们用“换皮”开始了新一轮的全球屠榜 “畅销榜的排名一般都没什么变化。” siyushenqi.com 2025 年 8 月 25 日 72000 海外营销 初创仅3年,被腾讯买下80%,上海还深藏一家大牛齐聚的游戏公司? 鹅厂挽弓搭新箭,剑指红海意领衔。 公司初成资历老,未来可期勇争先。 siyushenqi.com 2025 年 8 月 24 日 86000 海外营销 登顶欧州多国Top1 寻隐借Open AI将「文本搜索图片」变成现实 用文字描述搜索图片,听起来不可思议的事情已经成真了 siyushenqi.com 2025 年 8 月 19 日 47000 海外营销 狂飙200天:进退两难的中国大模型团战 共识可以快速形成,也可以快速瓦解。 siyushenqi.com 2025 年 8 月 14 日 48000 海外营销 Reddit宣布收购短视频应用Dubsmash 看到 TikTok 在全球范围内掀起的短视频热潮之后,许多科技公司都希望壮大这方面的业务。 siyushenqi.com 2025 年 8 月 25 日 72000 海外营销 Falcom米哈游跨国对谈:回合制RPG将向何处? 对于如今“回合制RPG日渐式微”的说法,中日双方又会发表怎样的看法? siyushenqi.com 2025 年 8 月 24 日 73000 海外营销 中东地区微波炉市场竞争激烈吗? 中东地区微波炉市场竞争激烈吗? siyushenqi.com 2025 年 8 月 12 日 49000 海外营销 马斯克再次起诉,OpenAI、Sam Altman 8月6日,美国加利福尼亚州北区地方法院受理了新的起诉案件,马斯克以违反联邦法律、欺诈、违反信托义务、不正当竞争等理由,起诉OpenAI和其联合创始人Sam Altman、Gregory Brockman。 siyushenqi.com 2025 年 8 月 13 日 60000 海外营销 印度回应封禁224款中国App:后续是否跟进,仍无计划 9月16日,印度电子和信息技术部(MeitY)在国会回应封禁224款中国App的相关问题。 siyushenqi.com 2025 年 8 月 26 日 66000 海外营销 美团全面押注AI 2024年,美团实现收入3376亿元,同比增长22%,分部经营利润总额为451亿元,增长143.6%,利润率翻倍至13.4%。美团合并到家和到店事业群,通过“拼好饭”“品牌卫星店”等低价策略和即时零售业务推动增长。第四季度,美团收入885亿元,同比增长20.1%,经营利润66.9亿元,同比大增280.7%。 siyushenqi.com 2025 年 8 月 13 日 56000 发表回复 请登录后评论...登录后才能评论 提交