RAG+大模型在电商客服领域-商品推荐的应用


本文是我们项目小组的技术负责人 史蒂夫-彭 贡献的~重点在介绍基于大模型做商品推荐,这个一直是难点,我们到现在还在持续优化方案~

近年来,随着大型模型的发展,检索增强生成(Retrieval Augmented Generation)技术,简称 RAG,再次引起了广泛关注。在客服管理领域,RAG被视为目前最具潜力的大型语言模型(LLM)应用方案之一。各行业的领军企业都在积极构建内部知识库,如何充分利用这些资源,与客服管理相结合,赋能客服团队,其中蕴藏了大量商机和需求。

电商行业面临着客服流动性大的挑战。在淡季,可能只需要几个外包客服甚至兼职客服,而在旺季,则需要大量临时客服。在这个过程中,培训、管理和接待质检都是巨大的难题。因此,如何在客服管理方面进行成本降低和效率提高,成为整个行业亟需解决的问题。当企业希望提升客户服务水平时,将大模型用作客服协助工具成为一项极具吸引力的选项。

传统的检索系统通常需要建立一个结构化的、按目录分区管理的知识库,其中包含文档和表格等内容。用户在使用时需要类似搜索引擎的方式通过关键词检索,存在使用难度较大的问题,通常需要查阅多份资料、反复跳转才能找到答案。传统的知识库系统往往容易混乱和膨胀,导致治理成本高昂,个人常常会陷入知识查询和分析的困境中。客服更是难以掌握其中的知识结构和细节。在RAG技术的加持下,可以通过将相关文档输入到大型模型的方式,利用其强大的自然语言处理和机器学习能力,对文档进行分析和总结,直接给出答案内容。让大模型作为客服copilot是企业比较强的诉求。

由于大模型有比较强的阅读理解、分析推理、文本生成能力,一定程度也降低我们对于输入知识的严格要求,这也顺应了知识库升级知识湖的大趋势。

在开源领域中,结合大型模型的解决方案有多种选择。例如,像fastgpt和askanything这样的产品,以及像langchain和llama-index这样的开源项目,它们提供了许多实用案例。虽然这些方案可以解决一些文档知识的需求,但对于某些商品知识而言,利用向量相似度来实现精确匹配具有挑战性。举例来说,商品ID通常由数字和字母组成,重复率极高,因此向量相似度在召回效果上可能表现不佳。此外,单个商品的关联知识、属性和文档可能超过大型模型的token限制,需要进行裁剪才能处理。

商家的商品参数知识通常以高度结构化的表格数据形式存在,大多存储在关系型数据库中,一个示例如下:

针对上面的知识结构,如果是用向量模型、语义检索来做召回,效果会大打折扣。开源的向量模型对于商品型号没有做过特殊的调优,语义层面无法很好地区分商品ID、型号、商品编号等无语义的内容,如不能精确区分R075与R075X是两个不同的商品,而基于开源模型微调成本较高且效果不可控;此外基于语义、关键词等召回无法满足范围检索的需求,比如客户需要某个尺寸、重量、价格范围内的——“长度不要超过4m”这样的诉求。所以可以补充一些工程的手段,如获取咨询过程中消费者发送的商品链接、下单信息等提取可能的商品ID。整体解决方案的关键需要一个基于业务且灵活的检索系统,除了常见的FAQ知识、文档之外还要能支撑表格的知识检索。

商品属性表非常大,有的品类的参数多达数百个,商品数更是多达数万个,需要扩展一个模型来进行更准确的recall。如商品参数问答、推荐得场景需要通过一些专属匹配模型来过滤相关属性。尤其商品检索、推荐等场景没有限定商品ID,整个知识内容会很长,上下文会超过大模型的token限制,从成本和性能层面考虑必须要做筛选。

大型模型的强项在于分析决策,而非信息检索。如果将整个商品库交由大型模型处理,除了成本难以控制外,响应延迟可能较大,且无法保证回复质量。因此,将大型模型视作调用检索工具的大脑是更佳选择。鉴于商品数据通常以结构化形式存储于关系型数据库中,通过前期属性筛选可极大降低数据库IO压力。而余下的数据可通过构建规则语法进行进一步过滤。

如下面的示例所示,可以让模型基于用户的问题生成规则,再拿这个规则匹配相关的数据


咨询问题:“推荐功率低于1600w的油烟机”
{
type = "$gt",
name = "功率",
value = "1600w"
}
// 进行规则运算过滤目标商品

线上实施效果显著,客服在处理咨询时能够快速地进行知识查询和回复,效果如同下文所示。我们已将此方案交付给多个客户使用,而他们的积极反馈也证实了这一方案的价值。

此外,RAG技术在电商客服领域的应用潜力巨大。以运营需求为例,我们可以利用RAG的智能推荐功能突出推广畅销商品,实现精准营销;而个性化回复则能够实现千人千面的定制化服务,提升用户体验。此外,通过引入rerank、人设等环节,我们能够进一步优化客服流程,提高问题解决效率,从而节省人力成本。未来,随着电商行业的不断发展,RAG技术在客服领域的应用前景仍然广阔,还有许多尚未被挖掘的优化空间等待我们去探索。

1