为防AI训练滥用其内容,多家美国主流媒体封禁互联网档案馆时光机工具
背景:时光机的使命与价值
互联网档案馆(Internet Archive)自1996年成立以来,致力于保存全球网络信息,其“网站时光机”(Wayback Machine)工具可追溯并归档超过一万亿个网页,成为数字时代的重要历史记录平台。时光机不仅帮助研究人员、记者和公众回溯网页变更历史,还常被用于法律诉讼、学术研究和文化保存。
在传统媒体逐渐数字化、地方报纸大量关闭的背景下,时光机在保存新闻记录方面的角色愈发关键。许多记者依赖其追踪新闻事件演变、核实信息,甚至揭露报道被修改的历史痕迹。例如,2016年《纽约时报》对伯尼·桑德斯相关文章的编辑变动正是通过时光机首次被发现。
封禁趋势:主流媒体对AI训练的担忧
近年来,随着大型语言模型(LLM)训练对网络数据的大量依赖,多家新闻出版商开始担忧其内容被人工智能公司未经授权地用于模型训练。为此,《卫报》、《纽约时报》、《金融时报》及Reddit等平台纷纷限制互联网档案馆爬虫“ia_archiverbot”的访问权限。
《卫报》商务与授权总监罗伯特 · 哈恩表示,他们并未屏蔽时光机爬虫,但已将其内容排除在API之外,并通过过滤机制限制其在时光机界面上的呈现,从而减少AI企业通过非直接方式抓取其报道的可能。《纽约时报》方面则直接指出担忧:“互联网档案馆中的时报内容正被人工智能公司用于训练,违反版权法,并与我们形成竞争。”

Reddit和《金融时报》也采取了类似策略,限制AI爬虫对内容的访问,尤其关注付费墙后的内容保护。
行业内反应:记者与组织的声援
尽管主流媒体出于版权和商业利益考量采取限制措施,但不少记者和新闻自由倡导组织对此表达了反对意见。电子前沿基金会(EFF)、为未来而战(Fight for the Future)等组织联合逾百名在职记者向互联网档案馆递交了支持信,强调其在新闻调查、事实核查和历史研究中的不可替代性。
联署者包括知名电视主播蕾切尔 · 玛多(Rachel Maddow)和《拦截》(The Intercept)播客监制劳拉 · 弗林(Laura Flynn)。劳拉表示,时光机在她职业生涯中是“不可或缺的工具”,特别是在检索历史音频片段和验证事实方面。《芝加哥读者》撰稿人米科 · 卡波拉尔(Mick Dumke)也指出,该工具帮助他获取已消失的旧粉丝网站内容,这些资料若未被归档,将永远遗失。
此外,记者工会也在使用时光机进行组织工作,比如通过检索历史招聘信息,对比企业岗位描述与实际内容的变化,追踪长期薪资趋势。
技术与法律层面的冲突
此次封禁的核心在于AI训练数据的合法性与新闻内容版权的边界问题。目前美国已有上百起AI版权诉讼,其中多数聚焦于科技公司未经许可抓取新闻、书籍、音乐等材料用于训练AI模型。媒体认为互联网档案馆的开放性可能间接为AI企业提供了“后门”路径。
《纽约时报》发言人未明确说明AI公司是否已实际利用其档案内容进行训练,但强调担忧其内容被用作竞争工具。类似观点也在Reddit中被提及,即封禁时光机爬虫是为防止AI公司通过第三方平台获取其内容资源。
互联网档案馆方面则强调其为非营利组织,并欢迎负责任的爬虫行为。其负责人马克 · 格雷厄姆表示,他们愿意与媒体沟通并寻找解决方案。但与此同时,档案馆也正面临服务器过载、恶意抓取等问题,去年因一家AI公司从AWS服务器发起高频率请求导致暂时断线。
未来影响与担忧
如果主流新闻机构持续限制时光机的存档权限,其历史资料的完整性将大受影响。许多早期网页将无法被有效保存,导致公众、研究者和记者失去追溯数字历史的能力。这种趋势不仅削弱新闻监督能力,也可能对司法系统构成挑战,因为时光机存档的网页在美国多起诉讼中被作为关键证据引用。
此外,目前尚无其他工具能与时光机匹敌。一旦其访问受限,数字新闻的保存和可追溯性将出现断层,尤其是对已关闭或转型的地区性媒体来说,时光机可能是其最后的数字备份。
尽管如此,互联网档案馆仍在努力与出版商沟通协商。马克 · 格雷厄姆表示,希望部分媒体在未来重新评估这一策略。然而,随着AI与新闻出版业之间的版权博弈持续升级,时光机所代表的开放存档理念正面临前所未有的挑战。