Agent-in-the-Loop: A Data Flywheel for Continuous Improvement in LLM-based Customer Support

实现了一个持续的数据飞轮，用于迭代改进基于 LLM 的客户支持系统。将四种关键类型的标注直接集成到实时客户运营中，这些反馈信号无缝反馈至模型更新中。

快速阅读

AITL-overview

客户输入：客户发送查询或消息。
基于 LLM 的交互系统：系统首先从“统一知识库”中检索相关知识。该知识库整合了客户指南、常见问题解答、内部政策、动态上下文和历史案例等资源。随后，系统使用 LLM 生成回复候选。
建议回复：系统会向客服人员（Agent）展示两个备选回复，这两个回复可能生成自不同的模型。
客服标注（Agent Annotation）：客服人员在为客户提供服务的同时，对系统提供的建议进行实时评估，具体包括四步标注：

通过这一整套基于真实交互场景的在线反馈和自动训练管道，该方法成功地将模型更新周期从几个月缩短到了几周。

客户输入：客户发送查询或消息。

基于 LLM 的交互系统：系统首先从“统一知识库”中检索相关知识。该知识库整合了客户指南、常见问题解答、内部政策、动态上下文和历史案例等资源。随后，系统使用 LLM 生成回复候选。

建议回复：系统会向客服人员（Agent）展示两个备选回复，这两个回复可能生成自不同的模型。

客服标注（Agent Annotation）：客服人员在为客户提供服务的同时，对系统提供的建议进行实时评估，具体包括四步标注：

步骤 1：成对回复偏好：客服人员对随机排序的候选回复进行比较，并标注偏好程度（如显著更好、更好或稍微更好）。

步骤 2：采用决策与理由：客服人员提供是否采用该回复的决定，并以自由文本的形式提供具体的理由和批评意见。

步骤 3：知识相关性检查：客服人员对 LLM 提示中所使用到的知识资源的相关性进行评估和打分。

步骤 4：缺失知识识别：客服人员通过专门的界面，标记在帮助客户时所依赖但系统未检索到的缺失信息。

审核标注：由人类专家和基于 LLM 的验证器共同审核客服的标注与实际对话交互，以标记其中可能存在的冲突。

持续学习管道：收集到的标注和反馈会被自动化地重新整合到模型的训练管道中（这里优化的是RAG中的检索，重排和生成模型）。这一阶段主要包括：

数据聚合与过滤：结合基于规则的方法（基于审查分数阈值）和模型驱动的方法（使用 LLM 虚拟法官过滤提示遵循度低的数据），以减少数据不一致和幻觉。

自动化模型重新训练：使用参数高效微调（PEFT，例如 LORA/QLORA）技术定期对检索、排名和生成模型进行重新训练，从而优化 GPU 资源的使用。

评估与反馈循环：在精选的数据集上，结合基础真实数据评估和虚拟法官评估对模型进行测试，最终将重新训练的模型部署回 RAG 系统，完成数据飞轮的闭环。

通过这一整套基于真实交互场景的在线反馈和自动训练管道，该方法成功地将模型更新周期从几个月缩短到了几周。

Agent-in-the-Loop: A Data Flywheel for Continuous Improvement in LLM-based Customer Support