LLMOps、评测与可观测性全景图
从 Prompt 试验到生产闭环,把评测、观测、回归、反馈与治理接成一套系统 (2025-2026)
Layer 1
输入资产
Prompt / 数据 / 知识
→
Layer 2
实验与评测
Dataset / Eval / A/B
→
Layer 3
运行时链路
RAG / Agent / Tool
→
Layer 4
观测与告警
Trace / Cost / Risk
→
Layer 5
反馈闭环
回流 / 复盘 / 迭代
| 层级 | 核心关注 | 典型内容 | 为什么重要 |
| 输入资产 | 可版本化的输入 | Prompt、系统规则、检索语料、工具定义、评测集 | 没有稳定输入资产,后面无法定位效果变化来自哪里 |
| 实验与评测 | 离线验证效果 | Golden Set、LLM-as-Judge、人工标注、回归集、对比实验 | 避免“主观感觉不错”直接上线 |
| 运行时链路 | 真实请求执行 | 模型调用、检索、重排、工具调用、缓存、路由 | 很多质量问题并不发生在模型本身,而在整条链路 |
| 观测与告警 | 线上可见性 | trace、token、延迟、失败率、幻觉信号、拒答率 | AI 应用如果不可观测,就很难持续运营 |
| 反馈闭环 | 持续修正系统 | 用户反馈、错误样本、人工审核、Prompt 迭代、知识更新 | 真正有效的 AI 系统,往往依赖长期迭代而不是一次性调好 |
2022 - Prompt 实验期
很多团队先从 Playground、少量样例和人工观察开始验证大模型是否可用。
2023 - RAG 与 Agent 原型增多
应用从单轮问答转向知识增强和工具调用,链路变长,问题来源也更复杂。
2024 - Eval、Trace、Prompt 管理成为常见需求
团队开始意识到 AI 应用不只要“能跑”,还要可回归、可解释、可比较。
2025 - 生产治理进入常态
成本、延迟、模型路由、风险控制、人工审核和业务指标开始一起进入治理面板。
2026 方向 - 从“模型接入”转向“系统运营”
AI 系统更像长期运营的软件产品,评测、可观测性和反馈回流的重要性继续上升。
传统接口测的是对错,AI 系统常常测的是质量分布
很多 AI 输出不是简单的 true / false,而是相关性、忠实度、格式正确性、风险等级和用户可接受度的组合。
“跑通 Demo”不等于“能稳定上线”
同一个 Prompt、同一个模型,在不同输入、不同上下文长度、不同检索结果下可能表现差异很大。
经验原则
如果没有固定评测集、回归样本和上线前对比流程,AI 应用很容易在一次次小改动中悄悄退化。
至少要有三类样本
Golden 样本用于回归,边界样本用于测脆弱点,线上真实样本用于避免实验室偏差。
评测项不只看答案文本
常见评测项包括答案相关性、引用忠实度、工具调用成功率、结构化输出合法性、拒答策略和安全策略命中情况。
关键提醒
评测集如果长期只覆盖“好做的问题”,团队会对系统真实风险形成错误判断。
Trace 要能串起完整链路
一次请求里,最好能看到用户输入、Prompt 模板版本、检索命中、重排结果、工具调用、模型响应、后处理和最终输出。
指标不能只盯 token 和延迟
除了延迟、成功率和成本,还要关注空回答率、拒答率、上下文命中质量、工具失败率和高风险输出信号。
日志要可审计但也要注意脱敏
AI 系统常常接触业务数据、用户输入和内部知识,日志采集需要平衡可排障性与隐私要求。
不是所有反馈都该直接改 Prompt
问题可能来自检索、知识过期、模型路由、工具权限、输出解析、产品交互,先分层定位再改才更稳。
高价值反馈通常来自失败样本
成功样本说明系统可用,失败样本才更能暴露边界、误导路径和治理缺口。
经验原则
把线上坏例子沉淀为固定回归集,往往比单纯追加更多 Prompt 技巧更能持续提升系统质量。
| 类别 | 定位 | 典型能力 | 关键关注 |
| Prompt 管理 | 管理输入资产 | 模板版本、变量注入、对比试验 | 可追溯性、回滚、团队协作 |
| 评测平台 | 离线验证与回归 | 数据集、Judge、人工标注、批量跑分 | 样本覆盖、评分一致性、成本 |
| Tracing | 还原运行时链路 | Span、事件、模型调用、工具调用 | 上下文关联、脱敏、检索可见性 |
| 线上监控 | 持续观察健康度 | 延迟、token、错误率、风险信号 | SLO、告警阈值、成本波动 |
| 反馈系统 | 沉淀用户与审核意见 | 点赞点踩、人工修正、坏例回流、工单 | 反馈质量、优先级、闭环效率 |
| 治理护栏 | 控制风险与边界 | 审核、拒答、权限控制、人工介入 | 误伤率、审计、策略版本化 |
检索命中不对
- 答案看起来像幻觉,根源其实是错召回、漏召回或知识过期
- 重点在检索评测、引用可见和知识刷新机制
Prompt 改动引起回归
- 一个看似无害的格式优化,可能影响工具调用或拒答策略
- 重点在版本对比和固定回归集
工具链路不稳定
- 模型输出结构漂移、参数缺失、外部 API 超时都可能让 Agent 失效
- 重点在结构化输出、重试和失败回退
线上成本突然飙升
- 上下文膨胀、无效重试、过度调用大模型或缓存命中差都可能导致成本失控
- 重点在 token 归因、模型路由和缓存治理
离线评测
- 优点: 成本可控、便于重复、适合回归测试
- 缺点: 容易脱离真实用户输入分布
- 适合: 上线前验证、Prompt / RAG / 路由改动比较
在线评测
- 优点: 更接近真实流量与业务结果
- 缺点: 风险更高、实验控制更难
- 适合: A/B 测试、灰度验证、长期效果运营
| 方式 | 强项 | 代价 | 适合场景 |
| LLM-as-Judge | 快、可批量、适合迭代比较 | 评分标准可能漂移,仍需人工校准 | 大规模初筛、Prompt 对比、RAG 回归 |
| 人工评审 | 更贴近业务真实判断 | 成本高、一致性训练要求高 | 关键场景验收、高风险输出、策略定标 |
输入可版本化
- Prompt、知识库、工具定义、规则和评测集都要有版本概念
- 否则效果退化时很难定位变更来源
上线前跑回归
- 模型切换、Prompt 改动、检索策略更新都应跑固定样本集
- “人工看了几个例子没问题”通常不够
线上链路可追踪
- 至少能看到请求级 trace、模型调用、检索命中和工具动作
- 没有链路视角,很多线上故障会停留在“感觉不对”
坏例能回流
- 用户点踩、人工修正、失败工单都应进入后续评测和迭代
- 坏例越沉淀,系统越容易持续变稳
先把系统做成可观察,再去追求“更聪明”
很多团队的问题不是模型太弱,而是根本看不清问题出在哪一层。
评测是产品工程,不只是算法工程
评测指标应该同时覆盖技术质量、业务目标和风险边界,而不是只看单一分数。
最有价值的不是平均分,而是坏例分布
平均分上升不代表真正关键场景变好,很多系统故障恰恰藏在少量高风险失败样本里。
评测集
→
Prompt 版本
→
Trace 观测
→
线上反馈
→
回归发布
周期: 2-4 个月
前置: 已有基础 LLM 应用开发经验
输出: 能把 Demo 逐步收敛为可运营系统
关键: 把“效果好不好”变成可追踪问题
Prompt / 资产管理
→
离线评测平台
→
Tracing / 指标
→
风险治理
→
反馈数据飞轮
周期: 6-12 个月
前置: 后端、平台、观测或数据工程基础更佳
输出: 能参与建设组织级 AI 生产治理能力
关键: 不只做模型接入,要做长期运营底座
误区: 效果不好就继续改 Prompt
- 问题也可能来自检索、知识过期、工具失败或产品交互不清晰
- 先分层定位,再决定改哪一层,通常更高效
误区: 有几个成功案例就能上线
- 成功案例只能说明系统在少量样本上可用,不能代表整体稳定性
- 上线前更该看边界样本、坏例和高风险场景
误区: 可观测性就是记日志
- 没有 trace、指标、版本关联和检索可见性,日志很难解释真实行为
- AI 系统更需要请求级链路视角
误区: 分数提升就代表产品提升
- 离线分数、用户满意度、业务转化和风险表现不一定同向变化
- 评测体系最好同时覆盖质量、业务和治理三类目标
确定性趋势:
LLMOps 平台化继续增强: Prompt 管理、评测、Trace、反馈回流会越来越被做成统一能力,而不是散落在脚本里。
业务指标与模型指标更紧耦合: 团队会更强调“回答质量提升是否真的带来业务收益”。
风险治理成为默认层: 审核、权限、人工介入和审计会更深地进入 AI 应用主链路。
值得关注:
Judge 体系持续进化: LLM-as-Judge 会更常见,但如何和人工校准、如何降低偏差仍值得重点关注。
跨模型与跨链路对比: 不同模型、不同检索策略和不同工具编排的自动对比会越来越常态化。
需要警惕:
只追模型升级不补治理短板: 更强模型不一定能掩盖检索错误、链路黑箱和反馈闭环缺失。
过度依赖单一分数: 一个总分很容易掩盖关键坏例和高风险失败模式。
日志采集无边界: 为了排障而过度记录敏感输入,也可能引入新的合规和安全问题。
总结:
LLMOps、评测与可观测性的本质,不是多加几个监控面板,而是把 AI 系统从“偶尔答得很好”的 Demo,推进到“长期可解释、可回归、可运营”的工程系统。
给不同角色的建议:
- AI 应用工程师: 先补齐回归集、Trace 和坏例回流,再去做更复杂的 Prompt 或 Agent 技巧
- 平台团队: 优先把评测、版本、观测和反馈做成公共底座,而不是让每个项目各自拼脚本
- 技术负责人: AI 系统的长期价值往往来自持续运营能力,而不只是首版模型效果
一句话判断这张图的价值:
它回答的不是“模型怎么接”,而是“一个 AI 系统怎样长期稳定地知道自己做得好不好,以及哪里出了问题”。