OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 5天前 • 海外营销 • 阅读 10 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.nodgame.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 7.5K 文章 0 评论 296 问题 16 粉丝 私域神器:国内海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 5天前 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 5天前 相关推荐 海外营销 Lemon8在美国推不动,到底是哪里做错了? 一款以柠檬黄为主视觉颜色的应用空降下载榜榜单——今年3月,异常拥挤的美国社交媒体赛道迎来新挑战者Lemon8。 siyushenqi.com 1小时前 0000 海外营销 亚马逊常见的几种认证 一、CE资格证书; "CE"是欧盟国家的象征,代表了欧盟国家市场准入条件批准。欧洲共同体意味着欧洲统一(欧盟国家同盟)。“CE”标示在欧盟国家市场中归属于强制性认证标示,不论是哪个地方的商品,只需要在欧盟国家市场中强制性贴CE标志就可以了。仅有含有CE标志的商品才可以在欧盟国家中国销售。欧洲地区通用性安全认证标志:通讯设备,家电产品,安全防护用具,小玩具等。… siyushenqi.com 2024 年 9 月 20 日 472000 海外营销 一家上海游戏公司,竟然在日本横扫畅销第一二名 8月5日,外媒Gamebiz发布了日本Google Play市场的周畅销排名变动情况 siyushenqi.com 1小时前 0000 海外营销 回到中国=看见未来?我们和AppsFlyer亚太区总裁Ronen Mense聊了聊出海 2023年,是一个转折的关键时期。这一年,我们渴望摆脱疫情的阴影,重新与世界建立起链接。 siyushenqi.com 2025 年 8 月 3 日 18000 海外营销 输给了拼多多的基金经理 怕高都是苦命人。 siyushenqi.com 6天前 10000 海外营销 明年吃机器人剥的小龙虾 2025世界机器人大会满眼是人形机器人,不再“跳舞炫技”,而是现场做咖啡、拧螺丝、剥小龙虾,真正开始“干活”。 siyushenqi.com 6天前 5000 海外营销 短剧VIP,量大不管饱 正版短剧因价格高昂而备受诟病,盗版资源以更低价格吸引用户,导致正版资源面临挑战。 siyushenqi.com 1天前 3000 海外营销 “技术驱动”做快时尚!Halara如何将运动服卖出圈? Halara为何选中了快时尚赛道? 如何凭借“技术驱动”做快时尚? 作为技术大佬,如何将运动服卖出圈? siyushenqi.com 6天前 9000 海外营销 2023年10月成功出海的中国手游 - 《崩坏:星穹铁道》重返收入榜与增长榜冠军,朝夕光年《龙息:神寂》空降增长榜亚军 Sensor Tower商店情报平台最新数据显示,2023年10月中国手游产品在海外市场收入及下载量排行榜,详细榜单变化如下。 siyushenqi.com 15小时前 1000 海外营销 2024年中国手游出海收入榜与发行商收入榜 - 《菇勇者传说》等多款新游增长亮眼,点点互动等多个发行商收入创历史新高 2024年全球手游收入反弹4%至809亿美元,重返上升通道。海外市场App Store和Google Play手游收入则增长超过5%至662亿美元,比2019年高出31%。 siyushenqi.com 1天前 3000 海外营销 AI通灵!类ChatGPT模型解码大脑信息,准确率高达82% Hinton对AI恐惧不是没有道理。现在,德克萨斯大学开发的一种类ChatGPT模型都能读心了,准确率高达82%,网友惊呼精神隐私在哪? siyushenqi.com 5天前 11000 海外营销 年度最热AI应用TOP 50,除了ChatGPT还有这么多宝藏 排名出乎意料。 siyushenqi.com 5天前 10000 海外营销 雷火老大亲任制作人,网易真要做3A单机了 《归唐》是网易的第一款单机大作,2023年就注册商标并创建宣发窗口,但早期因公司对单机商业模式不乐观,高层有争议,最终在胡志鹏坚持下才得以保留,于6月20日迎来首曝。 siyushenqi.com 3天前 9000 海外营销 月收入暴涨150%,秒生会议纪要,AI融入办公解放“打工人” AI辅助下,语音转文字迎来新变革。 siyushenqi.com 5天前 9000 海外营销 PAGC 2025丨展会推荐官 PHILYAP TECHNOLOGY PTE.LTD. 创始人 韩昊辰、MPU丨FlexTV CFO Carol Wang、中文在线集团 内容营销中心营销三部 总经理 张皓 邀您参与万人出海展会 PAGC 2025丨展会推荐官 PHILYAP TECHNOLOGY PTE.LTD. 创始人 韩昊辰、MPU丨FlexTV CFO Carol Wang、中文在线集团 内容营销中心营销三部 总经理 张皓 邀您参与万人出海展会 siyushenqi.com 2天前 3000 海外营销 从“ 平台转型 ”到“ DTC品牌出海 ”,2022趋势何在? 在这几年,整个独立站领域,COD和Dropshipping的占比逐渐变少,特别是在Facebook对于流量和开户管控,以及Google广告对网站审核严格等条件下,COD模式在开户和收单率等问题上无法解决,使得此模式基数缩小。 siyushenqi.com 6天前 8000 海外营销 引发“炸店”的拼多多仅退款,到底意味着什么? 拼多多被有组织“炸店”背后,隐藏着多少不为人知的原因。 siyushenqi.com 6天前 8000 海外营销 “热度失控”的TikTok爆品:卖爆亚马逊,二手价格翻6倍 2024开年第一热品。 siyushenqi.com 6天前 9000 海外营销 大厂卷短剧,不能错过的超级红利 互联网红利见顶后,短剧成了互联网大厂为数不多的必争之地。 siyushenqi.com 19小时前 2000 海外营销 OpenAI CEO奥尔特曼:当年是马斯克选择分道扬镳,我们没看到AGI的来临 谈到去年董事会罢免经历,奥尔特曼表示,“那绝对是我一生中最痛苦的职业经历,充满了混乱、羞耻、沮丧以及其他一大堆负面的东西。” siyushenqi.com 5天前 6000 海外营销 贴牌走向品牌!OutdoorMaster一年卖出40万滑雪镜 “中国制造”出海,滑雪品牌Outdoor Master的破圈增长之路 siyushenqi.com 6天前 9000 海外营销 2024电商的机会在线下 马云:未来十年,没有电子商务一说。 siyushenqi.com 6天前 12000 海外营销 卷王京东重燃“价格战” 京东百亿补贴的脚步明显提速 siyushenqi.com 6天前 9000 海外营销 死磕大模型,他们让美国人不安 国产大模型Kimi有了商业化大动作。 siyushenqi.com 5天前 9000 海外营销 一周要闻 NO.83丨32款进口版号下发;幻兽帕鲁6天狂赚1亿美金;拼多多冲入世界100强 一起看看这周有哪些出海圈值得关注的大事记吧! siyushenqi.com 18小时前 0000 海外营销 购物改视频,小红书视频3.0提速 小红书APP的第二Tab由「购物」替换为「视频」,采用类似抖音的单列信息流形式,这是小红书加强视频内容的重要举措。 siyushenqi.com 1天前 2000 海外营销 【出海榜单】2024 年 2 月中国非游戏厂商及应用出海收入 30 强 2024 年 1 月中国非游戏厂商及应用出海收入排行榜出炉 siyushenqi.com 16小时前 3000 海外营销 洞见2022:通过ASA,看全球高吸引力垂类应用在中国市场的发展态势 当前全球十大高吸引力垂类应用包括:社交、个人提升(含教育与健身健康)、照片与视频、娱乐内容、工具、效率、生活、阅读与参考、商业、财务与金融。 siyushenqi.com 2025 年 8 月 3 日 19000 海外营销 综合游戏解决方案公司“Hidden Monster”获得技术评估最高等级 T4 Hidden Monster 获得技术等级 T4 并因其技术和适销性而得到认可;成立于 2020 年 9 月,基于丰富的经验和专业知识,与国内外知名游戏公司合作;为中小型游戏公司推出发行平台业务,为中长期商业化做准备。 siyushenqi.com 1天前 2000 海外营销 “AI黏土特效”又将是昙花一现? 五一期间,一款带有AI黏土滤镜的应用“Remini”在各大社交平台走红。 siyushenqi.com 5天前 10000 发表回复 请登录后评论...登录后才能评论 提交