微软发布 Web IQ:专为 AI 智能体打造的搜索 API,减少 Token 消耗并提升响应速度

新API瞄准智能体“成本墙”痛点

在AI智能体加速落地的背景下,企业普遍面临一个关键矛盾:Agent调用成本高达普通LLM调用的15倍,其中大量Token消耗在反复检索外部知识库、拼接上下文的过程中。微软最新发布的Web IQ搜索API正是瞄准这一痛点——它专为AI智能体设计,而非传统的通用网页搜索。该API在Azure AI Search底层架构上增加了一层“智能体检索”引擎,能够自动将多轮对话中的复合问题拆解为精炼的子查询,避免智能体对无关内容的无效抓取,从而显著降低输入Token的用量。根据Azure AI Search文档中的成本示例,使用类似机制后,单次复杂查询的Token费用可从原来依赖多轮冗余调用的数美元降至1美元左右,且响应速度得到数量级提升。

查询规划引擎:从“满屏抓取”到“精准狙击”

Web IQ的核心能力在于其内置的查询规划引擎。传统的搜索API通常只接收单一查询词,返回整页结果;而智能体在回答“找一家靠近海滩、提供机场接送、步行可到素食餐厅的酒店”这类多条件问题时,往往需要多次搜索、合并信息,消耗大量Token。Web IQ利用部署在Azure OpenAI上的轻量级LLM,自动分析聊天线程与用户意图,将复杂需求分解为若干专注的原子子查询,并一次性并行检索索引中的纯文本与向量数据。这种“先拆解、后执行”的混合检索策略,不仅让语义匹配与关键词匹配同时生效,召回率显著提升,更避免了智能体反复调用API带来的Token浪费。微软在Build大会上也强调,让智能体“少跑冤枉路”是降低运营成本的关键。

与Copilot生态深度整合,降低智能体开发门槛

Web API并非孤立工具,而是微软“智能体优先”战略中基础设施层的关键一环。它与Azure AI Foundry、Microsoft 365 Copilot副驾驶®以及Copilot Studio紧密联动。开发者可以在Copilot Studio中通过低代码方式为智能体绑定Web IQ作为默认知识检索源,自动享受查询分解与缓存带来的效率红利。同时,该API支持MCP协议(模型上下文协议),能让智能体以标准化接口调用搜索能力,进一步减少自定义集成工作。微软在Build大会上展示的“多智能体编排”功能中,Web IQ也扮演着全局知识中枢的角色——多个协作Agent共享同一个高效检索通道,避免各自为政导致的重复查询与Token浪费。

实测效果与定价逻辑:面向高频调用的性价比革新

在微软公布的性能对比数据中,针对同一组企业级知识问答场景(如合同条款检索、产品文档多条件筛选),Web IQ相比通用搜索API+后处理方式,平均Token消耗减少37%,端到端响应时间从秒级缩短至200-500毫秒。其计费模型也做了针对性设计:除了基础的Azure AI Search索引存储与查询费用外,主要用于支付查询规划阶段LLM的输入/输出Token成本(采用即用即付模式)。以一个典型业务场景为例:智能体需要回答“过去半年华南区销售额超过100万的客户有哪些?他们的续约率如何?”——传统方式可能需要多次搜索与拼接,总成本约4.3美元;而通过Web IQ一次性规划并检索,总成本仅约1.02美元,成本下降超过75%。这对于每日百万级调用的B端智能体应用而言,意味着可观的运营成本节省。