如何为生产环境选择 LLM 路由策略 AI

分享本帖:
目前,人们对大型语言模型(LLM)路由策略的理论依据已有了充分的理解:将简单查询发送给低成本模型,将复杂查询升级至高端模型,从而获取成本差额。RouteLLM在2025年发表的论文中展示了在保持95%的GPT-4质量水平的同时,实现了85%的成本降低。 The Sandbox和Decentraland展示了如何……等等,记错了。.
数字是真实的。难于找到书面记载的是,路由实现为何在生产环境中经常无法达到其设计规格——以及哪种故障模式因为其悄无声息而最为危险。.
路由正在解决的成本问题
在探讨具体机制之前,先量化一下其中的利害关系会有所帮助。高端模型——如GPT-4级别、Claude Opus以及同等级别的模型——每百万令牌的运行成本在$30–60之间。而Claude Haiku、GPT-4o-mini以及类似的轻量级模型,其成本仅为上述模型的一小部分。 在处理客户服务、内部工具或内容工作流的生产级AI部署中,绝大多数查询在结构上都很简单:状态查询、模板化摘要、简短分类、是/否资格验证。这些任务都不需要前沿模型才能正确处理。.
与采用智能路由的部署方案相比,将所有流量都路由到单一高端设备的组织通常要多支付40%至85%的费用。这并非供应商的基准数据——而是SIRAYA在审查亚太地区客户的基础设施支出时,在这些环境中一再观察到的普遍情况。这些节省是切实可行的。 实施的复杂性也是真实存在的,而这正是大多数团队遇到困难的地方。.
五种策略及其实际的权衡
基于规则的路由 最简单的形式是:关键词匹配、意图模式检测或输入长度阈值将请求映射到特定的模型。发送所有少于 200 个 token 的请求到廉价模型的路由规则执行成本低(亚毫秒级的开销),易于理解,但也很脆弱。它在语义复杂的短查询、查询恰好包含触发关键词但不需要这些关键词所暗示的能力时会失败,并且随着查询模式的演变,它需要持续的手动维护。.
语义/机器学习路由 使用分类器(通常是小型 BERT 风格模型或微调的嵌入式分类器)来评估提示的复杂度或领域,并据此进行路由。 虽然比规则更准确,但每个请求会增加 10–50 毫秒的分类开销。对于对延迟不敏感的工作负载,这尚可接受;但对于端到端延迟目标低于 500 毫秒的实时对话型 AI 场景,这种开销就不可小觑了。.
级联路由 是实现最常见的策略,也是本文其余部分讨论的主题,因为它也是最有可能在生产环境中悄无声息地退化的策略。.
基于延迟的路由 路由到当前负载下最快的模型端点——对于故障转移和地理分布很有用,但本身不提供成本优化。它需要与质量感知路由分层使用,而不是作为替代。.
共识路由 将同一提示发送给多个模型,并汇总响应结果。这对高风险决策确实大有裨益——研究估计,与单模型响应相比,其准确率提高了7至15个百分点,GPQA-diamond基准测试成绩从46.9%跃升至68.2%。 成本会随调用模型数量的增加而倍增,因此该方法更适用于低频次、高价值的决策场景,而非处理大量数据的工作负载。.
级联路由:阈值校准问题
瀑布式路由遵循一个简单的循环:将请求发送给最便宜的有能力的模型;如果模型对其响应的置信度低于阈值,则升级到下一层;重复此过程,直到达到高级模型或响应通过阈值。.
设计是稳健的。校准是生产部署与设计意图出现分歧的地方。.
置信度阈值几乎总是针对基准数据集进行调整——MMLU、HellaSwag、内部策划的查询集。这些数据集具有清晰、可分类的难度分布。而生产查询的分布则不然。客户会用十种不同的方式表达同一个基本问题。一个结构上看起来简单的查询(简短、常用词汇、无技术术语)在上下文中可能在语义上很复杂。反之亦然:一个冗长、技术性强的查询,轻量级模型能够正确处理,因为它在其训练数据中匹配了一个被充分覆盖的模式。.
这两种故障模式沿着相反的轴线分开:
如果阈值设置过低,大多数查询都会被升级——有时多达 60–70% 的查询会被升级,而经过合理调校的级联机制通常只会升级 15–25% 的查询。 您不仅为绝大多数流量支付了高级模型的价格,还为每次升级的请求额外增加了初始低成本模型往返带来的延迟成本。您的成本仪表盘显示的数据比单模型路由更糟糕,P95延迟指标也随之恶化。由于成本和延迟信号均清晰可见,团队通常能在数日内发现这种故障模式。.
如果阈值设置得太高,真正需要高级模型的查询就不会升级。轻量级模型会返回一个听起来合理但包含错误的响应。. 这种故障模式是无声的。. 没有触发任何警报。响应延迟表现良好。成本指标非常出色。路由机制似乎完全按预期运行——直到后续审计、用户投诉或业务结果指标揭示,在需要升级处理的那部分查询中,答案质量已悄然下降了20–30%。.
在处理面向客户的查询的生产环境中,无声的故障最为危险。对于复杂查询而言,30%级别的响应质量下降,可能数周内都不会在常规满意度评分中显现出来。.
为什么基准测试不能用于校准生产阈值
大多数路由论文和供应商文档会将阈值与基准数据集进行校准,然后将由此产生的成本降低作为生产预期。这造成了系统性的高估。.
基准数据集经过精心策划,具有明确的正确答案和可衡量的难度级别。它们无法捕捉真实生产查询中的歧义、上下文依赖性和领域特异性。金融服务应用程序的查询分布——合同解释、监管交叉引用、细微场景分析——将与消费者支持应用程序的查询分布表现出非常不同的行为。.
在实践中,正确的阈值校准需要影子模式部署:将级联路由逻辑与单模型路由并行运行,在您的实际生产流量上比较不同层级的输出质量,并根据观察到的升级行为而不是基准性能来设置阈值。这需要对您生产查询的有意义的样本进行真实标签标注——这虽然成本高昂,但却是校准一个不会随时间无声退化的阈值的唯一方法。.
SIRAYA在亚太地区部署中观察到一种常见模式:团队采用知名开源堆栈实现级联路由,应用论文中推荐的阈值,运行30天后,便报告称成本大幅降低。 六个月后,一次无关的产品审查发现,处理 75% 查询的模型层存在错误,其错误率之高甚至会导致无法通过最初的验收标准。自初始部署以来,该阈值从未重新校准,而查询分布也已发生偏移。.
低销量下的管理费用陷阱
存在一个容积下限,低于该下限,级联和语义路由策略会增加成本而非降低成本。.
语义路由需要维护一个嵌入模型(或调用嵌入模型 API)来对每个提示进行分类。 如果您的部署每天处理 10,000 个请求,且每次嵌入分类调用成本为 $0.0001,那么分类开销为 $1/天。 这微不足道。若每天处理 1000 万次请求,分类开销为 $1,000/天——这可能仍远低于路由带来的节省,但也可能占您总 LLM 支出的相当大一部分,具体取决于您的模型层级组合。.
对于级联路由,其开销在于每个最终被升级的请求都需要进行一次一级模型调用。 如果 30% 的请求被升级,这些请求将承担两次模型调用——基础模型和高级模型——其中基础模型调用只会增加延迟,而不会带来额外价值。在高升级率的情况下,级联路由的成本可能高于直接路由到高级模型。.
盈亏平衡点取决于升级率、处理量以及不同模型层级之间的价格差异。根据RouteLLM研究中的数据(85%的成本降低,以及26%需要使用高级模型的请求),无论生产量大小如何,其经济效益都十分显著。 若升级率被错误设定为65%且高级模型价格差为2倍,级联路由不仅会增加开销,却无法带来显著的成本节约。.
实际观察什么
大多数监控 LLM 路由的团队关注每次请求的成本和响应延迟。这些指标是必要的,但不够充分。.
捕获无声质量下降的指标是 上升率随时间变化, ,作为时间序列进行追踪。校准良好的级联将具有稳定的升级速率——如果您的查询分布合理一致,那么每个月的请求升级比例应大致相同。升级率上升可能表明查询复杂性增加或阈值校准出现漂移。 跌倒 升级率但未伴随质量改进是一个警告:要么你的查询确实越来越简单,要么你的阈值已经改变,复杂的查询不再升级。.
第二个指标是 响应质量抽样对响应的抽样进行人工定期审查或基于 LLM 的自动化评估,特别是过滤与已知复杂请求类型匹配的低升级查询。这在运营上成本高昂,这就是为什么大多数团队会跳过它的原因——也是为什么质量悄无声息地下降而未被发现的原因。.
在架构层面:如果您需要跨区域路由(这在亚太地区很常见——新加坡、东京、悉尼、孟买的模型可用性和延迟配置各不相同),您的路由逻辑需要独立考虑区域终端节点的健康状况。一种假设特定模型层级始终可用的路由策略,在区域网络中断期间会静默降级到备用层级,而不会指示该区域流量的质量预期不再被满足。.
大多数球队都做错的决定
最常见的部署决策错误在于将大型语言模型(LLM)的路由视为配置步骤,而非校准过程。团队通常会选择一种路由策略,设定一个阈值,然后就不再理会。然而,随着查询分布的变化、模型提供商更新其“一次写入,一次读取”(API)策略,以及业务需求的演变,这种路由方案会逐渐过时。.
有效的 LLM 路由策略需要持续的校准周期——最少每季度一次,对于高流量或质量敏感的工作负载,最好每月一次。启动时正确的阈值在六个月后可能不再正确。在第一季度处理你边缘案例的模型层,可能在第三季度被提供商更新,从而改变其能力边界。.
对于从零开始构建的团队:从基于规则的路由开始作为基线,而不是级联。基于规则的路由提供明确、可观察的行为,您可以据此进行推理和跟踪。在构建基于机器学习的路由之前,先构建质量衡量工具——您需要真实世界的质量数据来校准任何基于阈值的策略。当您有足够的生产信号来设置相对于实际查询分布(而非基准)的阈值时,再引入级联路由。.
成本节约是真实的,足以证明这项投资的合理性。校准的严谨性决定了这些节约是否会以你看不见的质量下降为代价。.