模型危机

从VaR到Zillow:模型缺陷引发的数十亿损失

金融行业长期依赖模型进行定价、估值、反欺诈与反洗钱,但模型本身的风险往往被低估。2007至2008年全球金融危机的部分根源正是指标模型——风险价值(VaR)模型的缺陷,它错误估计了投资组合的潜在损失。2012年,摩根大通“伦敦鲸”交易失败,因模型计算中的电子表格错误导致风险低估,最终损失60亿美元并背负近10亿美元罚款。2021年,房地产公司Zillow的房价估值模型无法准确预测市场,导致其购房项目失败,被迫进行3.04亿美元库存减记并裁员四分之一。

这些案例暴露出模型风险的常见诱因:

  • 输入数据问题:不完整、过时或有偏差的数据会扭曲输出。例如,使用过时市场数据会导致预测趋势偏离真实走向。
  • 模型选择错误:生成式AI虽热门,但未必适用于金融预测。成熟的传统模型可能更具效率与成本优势。
  • 部署环境脱节:销售业绩预测模型若强制使用实时数据流,可能因稳定性不足而频繁失败,改用每日快照反而更可靠。
  • 地域与人群泛化失败:针对特定地区医院设计的患者分诊模型,换到邻近州便失效;基于儿童胸部扫描训练的疾病检测模型,无法用于成人。

模型崩溃:当AI吃下自己生产的“毒数据”

一种更隐蔽的危机正在生成式AI领域蔓延:模型崩溃(Model Collapse)。它指的是用AI生成的数据继续训练下一代AI模型,导致模型性能逐渐退化,直至输出毫无意义。2024年,研究论文《Is Model Collapse Inevitable?》通过实验证明,如果每一代模型只依赖上一代合成的数据,错误会像滚雪球一样积累,最终模型变得无用。

模型危机

这一现象的根源在于合成数据缺乏真实世界的多样性与噪声分布。当模型反复学习自己生成的简化版本,原始数据中的长尾信息与细微特征会被逐步抹去。研究也给出了解决方案:必须持续积累真实数据,与合成数据混合训练,才能打破“诅咒式递归”。这意味着,一旦互联网上AI生成内容占据主流,未来训练数据将面临严重的“自我污染”风险。

开源大模型的安全黑洞:五起数据泄露事件揭示的盲区

随着DeepSeek、Ollama等开源大模型私有化部署激增,数据安全风险同步爆发。Gartner预测,到2027年中国80%企业将采用多模型策略,但绿盟科技星云实验室统计显示,仅2025年1月至2月全球就爆发五起重大数据泄露事件。以下是关键事件摘要:

  • DeepSeek数据库配置错误(事件一):Wiz安全团队探测到DeepSeek非常规端口(如8123、9000)上的未授权服务,暴露了内部API日志、聊天历史、API密钥与后端元数据。攻击者利用ClickHouse API直接窃取数据。
  • PyPI恶意依赖包攻击(事件二):攻击者在PyPI上传名为“deepseek”和“deepseekai”的恶意包,当开发者安装后,恶意代码会窃取用户环境变量与凭证,并通过C2通道外泄。
  • LLM劫持攻击(事件三与五):攻击者利用泄露的云凭证部署OAI反向代理,将受害者订阅的托管LLM服务权限转售,导致巨额云成本。事件五中,公开爬虫数据库Common Crawl被扫描出约1.2万个硬编码的DeepSeek API密钥和凭证。
  • OmniGPT数据泄露(事件四):大模型集成工具OmniGPT被攻破,超3万名用户的邮箱、电话、API密钥及账单信息在暗网公开售卖。攻击者利用泄露的API接口继续渗透系统。

这些事件映射出常见的攻击手法:网络服务发现→原生接口滥用→通过Web服务外泄数据(MITRE ATT&CK中的T1046、T1106、T1567)。硬编码凭证、错误配置的数据库、第三方工具漏洞,正成为AI安全的最大盲区。

监管与技术双线作战:如何抵御模型风险?

面对模型危机,业界已从监管和技术两方面寻求对策。美国美联储与货币监理署(OCC)发布了模型风险管理监管指南(SR 11-7),要求金融机构建立MRM框架,涵盖模型开发、验证、监控与治理。同时,AI和机器学习技术本身也开始用于管理模型风险:

  • 模型验证自动化:对市场模型进行压力测试,验证其在极端情境下的表现。
  • 实时模型监控:通过机器学习算法检测性能退化或输出异常。
  • 模型清单与映射工具:如IBM OpenPages等MRM软件,可跟踪指标、模型与策略,满足监管要求。

针对大模型安全,绿盟科技等机构提出具体防护措施:

  • 数据库与第三方工具:限制非常规端口暴露,实施最小权限原则,定期审计云存储与数据库的未授权访问。
  • 供应链与公开数据:禁止硬编码凭证,使用密钥管理服务(KMS)替代;部署敏感信息发现工具,对代码仓库和公开数据集进行持续扫描。
  • LLM劫持防护:限制云托管LLM的访问范围,启用多因素认证与成本异常告警。

总体模型风险还来自不同模型间的依赖与交互。例如,医疗诊断模型的偏见会传递到患者护理预测模型,导致紧急护理分诊失灵。企业需要建立全局视角,评估模型间的联动效应,才能从根源上遏制危机的连锁反应。