GitHub修改Copilot隐私政策:4月24日起默认使用用户交互数据训练AI
自2026年4月24日起,GitHub将实施一项关于Copilot数据隐私政策的重大更新,针对免费版(Free)、专业版(Pro)和高级专业版(Pro+)用户,启用“默认选择加入”(default opt-in)机制。这意味着,用户的代码输入、输出、相关上下文信息以及聊天交互记录,默认将被允许用于训练和改进GitHub的AI模型。

政策详情与受影响范围
此次政策变更的核心在于数据收集的范围和机制。
- 收集内容:涵盖模型输入和输出、用户编写的代码片段、上下文信息(如代码所在的函数或类)、仓库结构以及与Copilot的聊天交互记录。
- 适用用户:主要影响使用Copilot Free、Pro和Pro+的个人用户。
- 豁免用户:Copilot Business(商业版)、Copilot Enterprise(企业版)以及教育版用户目前不受此变更影响。
- 免受影响的情况:如果用户此前已手动关闭了“允许GitHub收集数据用于产品改进”的选项,该设置将保持有效,历史数据不会被用于训练,除非用户重新开启。
“默认选择加入”机制引发的争议
GitHub将此变更描述为“默认选择加入”,这引发了开发者社区的广泛讨论和不满。
- 被动选择的质疑:批评者指出,这种机制实际上是“强行授权”。真正的用户同意应当是主动的“选择加入”(Opt-in),而非要求用户在不知情或通过繁琐设置“被动选择退出”(Opt-out)。
- 数据所有权焦虑:许多开发者担心,没有明确的知情同意,个人或私有仓库(Private Repositories)的代码将被作为AI训练的“食材”。
- 信任危机:社区反馈显示,这一政策可能导致用户流失,甚至有人考虑迁移到其他平台。
商业考量与官方解释
GitHub首席产品官Mario Rodriguez解释了此举背后的逻辑,即通过真实场景的数据来优化模型。
- 提升性能:官方表示,在微软内部进行的初步测试中,使用内部员工交互数据训练后,代码建议的采纳率显著提升。
- 安全性与准确性:引入真实交互数据旨在提高代码建议的准确性和安全性,帮助模型更好地理解工作流并识别潜在漏洞。
- 行业惯例:GitHub强调,这一做法符合Anthropic、JetBrains和微软等主要公司遵循的行业惯例。此外,官方澄清数据可能会在GitHub关联公司(如微软)内部共享,但不会与第三方AI模型提供商共享。
隐私界定与用户应对
尽管GitHub声明不会共享数据,但政策对“私有”概念的定义挑战仍引发顾虑。
- 私有仓库的边界:政策明确指出,用户在主动使用Copilot时,即使是私有仓库中的代码也会被处理,并可能被用于训练,除非用户选择退出。
- 合规担忧:部分企业开发者担忧,这将破坏SOC 2等合规要求,因为无法确切知晓谁访问了源代码。
- 如何退出:对于不希望参与数据训练的用户,必须手动前往GitHub账户设置的“隐私”(Privacy)选项中,关闭“允许GitHub将我的数据用于AI模型训练”(Allow GitHub to use my data for AI model training)的开关。