谷歌 AI 摘要频现低级拼写错误,大语言模型固有缺陷难根治

LLM的“记忆负担”被放大:连字母组合都拼错

多位用户反馈,谷歌AI摘要系统在回答简单查询时,会输出如“Shakespeare wrote many plays including Hamlet and S”这样戛然而止的拼写残片,甚至在解释“如何煮鸡蛋”时出现“Boil the egg for 10 miuntes”这类低级错误。这些看似“手滑”的拼写问题,根源并非简单bug,而是大语言模型在生成过程中对token序列的局部依赖——模型可能因自注意力机制中上下文窗口有限,将无关训练数据中的字母碎片错误拼接,或直接复制未经语法校正的语料片段。

遗忘机制缺失:大模型只是“新生”而非“成人”

根据技术分析,当前大语言模型的架构已具备注意力机制(Attention),但遗忘机制(Forgetting Mechanism)仍完全缺失。这导致模型在推理时,无法像人类一样自动过滤短期无用信息或修正记忆偏差。例如,当模型在训练数据中同时看到“colour”和“color”的混杂出现时,若缺乏遗忘机制,它可能随机输出任一拼写,甚至混合成“colour”这种变体。谷歌AI摘要的拼写错误,本质是模型在生成过程中“没有能力忘记”错误范例,只能机械复现。

改善模型输出:不一定需要“砍掉重练”

用户常误以为修复拼写错误必须重新训练整个模型。实际上,Google Cloud的技术方案指出,通过微调(Fine-tuning)提示工程(Prompt Engineering)即可显著改善输出质量。例如:

  • 为AI摘要增加“拼写校验”的后处理步骤,强制替换已知错误拼写;
  • 在提示词中明确要求“输出前检查单词拼写”;
  • 使用微调数据集专门剔除拼写错误样例。

但谷歌AI摘要的持续出错,恰恰说明其产品化环节未部署这些优化——预训练模型直接上线后,缺乏针对性调整,导致数据中的“低级错误”被无差别放大。

从“偏见放大”到“错误固化”:数据的脏水坑问题

语言学模型会无意中放大训练数据中的偏见和错误。如果原始语料本身包含大量非标准拼写(例如社交媒体文本、OCR扫描错误),模型不仅学会这些模式,还会在生成时以更高的频率复现。谷歌AI摘要的低级拼写错误,实际上是数据清洗不彻底的结果——模型将“miuntes”视作合理拼写变体,而非错误。更隐蔽的是,这类错误会通过用户反馈循环固化:若系统持续收到对错误摘要的“有用”点击(用户误以为正确),模型将强化该路径,形成“垃圾进-垃圾出”的恶性循环。