微软发布 Web IQ：专为 AI 智能体打造的搜索 API，减少 Token 消耗并提升响应速度

1 个月前

AI资讯

102 阅读

微软 AI智能体 Token优化搜索API

新API瞄准智能体“成本墙”痛点

在AI智能体加速落地的背景下，企业普遍面临一个关键矛盾：Agent调用成本高达普通LLM调用的15倍，其中大量Token消耗在反复检索外部知识库、拼接上下文的过程中。微软最新发布的Web IQ搜索API正是瞄准这一痛点——它专为AI智能体设计，而非传统的通用网页搜索。该API在Azure AI Search底层架构上增加了一层“智能体检索”引擎，能够自动将多轮对话中的复合问题拆解为精炼的子查询，避免智能体对无关内容的无效抓取，从而显著降低输入Token的用量。根据Azure AI Search文档中的成本示例，使用类似机制后，单次复杂查询的Token费用可从原来依赖多轮冗余调用的数美元降至1美元左右，且响应速度得到数量级提升。

查询规划引擎：从“满屏抓取”到“精准狙击”

Web IQ的核心能力在于其内置的查询规划引擎。传统的搜索API通常只接收单一查询词，返回整页结果；而智能体在回答“找一家靠近海滩、提供机场接送、步行可到素食餐厅的酒店”这类多条件问题时，往往需要多次搜索、合并信息，消耗大量Token。Web IQ利用部署在Azure OpenAI上的轻量级LLM，自动分析聊天线程与用户意图，将复杂需求分解为若干专注的原子子查询，并一次性并行检索索引中的纯文本与向量数据。这种“先拆解、后执行”的混合检索策略，不仅让语义匹配与关键词匹配同时生效，召回率显著提升，更避免了智能体反复调用API带来的Token浪费。微软在Build大会上也强调，让智能体“少跑冤枉路”是降低运营成本的关键。

与Copilot生态深度整合，降低智能体开发门槛

Web API并非孤立工具，而是微软“智能体优先”战略中基础设施层的关键一环。它与Azure AI Foundry、Microsoft 365 Copilot副驾驶®以及Copilot Studio紧密联动。开发者可以在Copilot Studio中通过低代码方式为智能体绑定Web IQ作为默认知识检索源，自动享受查询分解与缓存带来的效率红利。同时，该API支持MCP协议（模型上下文协议），能让智能体以标准化接口调用搜索能力，进一步减少自定义集成工作。微软在Build大会上展示的“多智能体编排”功能中，Web IQ也扮演着全局知识中枢的角色——多个协作Agent共享同一个高效检索通道，避免各自为政导致的重复查询与Token浪费。

实测效果与定价逻辑：面向高频调用的性价比革新

在微软公布的性能对比数据中，针对同一组企业级知识问答场景（如合同条款检索、产品文档多条件筛选），Web IQ相比通用搜索API+后处理方式，平均Token消耗减少37%，端到端响应时间从秒级缩短至200-500毫秒。其计费模型也做了针对性设计：除了基础的Azure AI Search索引存储与查询费用外，主要用于支付查询规划阶段LLM的输入/输出Token成本（采用即用即付模式）。以一个典型业务场景为例：智能体需要回答“过去半年华南区销售额超过100万的客户有哪些？他们的续约率如何？”——传统方式可能需要多次搜索与拼接，总成本约4.3美元；而通过Web IQ一次性规划并检索，总成本仅约1.02美元，成本下降超过75%。这对于每日百万级调用的B端智能体应用而言，意味着可观的运营成本节省。

微软发布 Web IQ：专为 AI 智能体打造的搜索 API，减少 Token 消耗并提升响应速度

新API瞄准智能体“成本墙”痛点

查询规划引擎：从“满屏抓取”到“精准狙击”

与Copilot生态深度整合，降低智能体开发门槛

实测效果与定价逻辑：面向高频调用的性价比革新

链接失效反馈