「我在淘天做技术」一篇文章告诉你商品团队在做哪些有意思的事?

( 本文阅读时间:15分钟 )

近期淘天集团秋季2024届校园招聘正式启动,预计将发放2000多个offer,其中技术类岗位占比超过50%。为了方便大家更真实地了解淘天技术的布局和现状,我们策划了「我在淘天做技术」系列,首次全面分享淘天技术进展和创新应用。

商品域是干什么的,承担哪些职责

商品在电商里是个基础域,我们可以把商品比作“血液”,它需要在电商体系里面健康、畅通和智能地运转,所以保障商品本身的质量、标准化以及知道消费者需要商品什么信息非常重要,这也是我们这边团队最重要的职责。

1.1 有哪些人会用到我们

我们的用户首先是商家,商家发布商品需要用到发布系统,例如商家发布服饰的商品,需要给最新的衣服的吊牌和水洗标的拍好照片,同时也需要拍一些模特图照片以及尺码图。有了这些基础素材后,直接就能生成商品的基础信息了,包括标题、衣服材质、衣服的外观特质如袖长、领型等信息,商家只要根据每种颜色和尺码信息设置相应的价格和库存信息就行了。

当然服装最重要的是模特图片,淘宝提供了 AI 图片生成的能力,可以选择不同的模特人物进行换脸和换背景,这样很容易就把一个服装商品发布出来了。

还有消费者在平台上买东西,可能遇到过这样一些问题:

  • 搜索了“全棉”的衣服,“不是全棉”的也都被搜出来了;
  • 商品图片价格很低,但一点进去详情,发现价格对应的货品不是想要的;
  • 商品参数的信息也不是很准确;
  • 商品的图片清晰度不高,不太美观;
  • 我们怎么知道当前买有没有礼物送了,能不能不要找卖家去确认;
  • 双 11 时 为什么 8 点我下单会提示正在繁忙……,一会又提示卖完了,你们为啥就不能多备点货?

上面这些消费者遇到的问题,都是我们需要加倍努力改善用户体验的地方。

1.2 我们承担哪些职责

商品团队在做的,总结起来就是三个方面的事情:1. 帮助商家发布和维护商品的基础信息,包括商品的标题、原价、商品属性、各种图片、商品库存仓储、服务和物流信息等,提供给商家主要是商品发布系统用于把商品的商品数据写进来。

  1. 第二方面是平台用于管理和存储商品信息的系统包括类目和商品中心系统。由于商品数据非常多,我们需要一套体系来分类管理这些商品数据,类似图书馆一样给不同的书分类便于找到它。除了管理好它,我们还需要对这些数据进行一些加工,抽象出一些通用相似的数据出来进行标准化,便于平台和消费者更好的发现和消费它。
  2. 第三类就是这些数据最终会被消费者看到和消费。包括把这些数据输出到前台业务去展示例如推荐、搜索和商品详情供消费者浏览和查看,包括商品数据在各个市场之间的流通和转化,以及最终消费者下单需要扣减商品的库存,扣减库存时需要防止商品超卖等。

这三方面的事情,可以归结为解决 2 个主要问题:* 一是负责管理和维护商品的生命周期的数据,对商品数据的质量负责,支撑各种对商品数据的写入、流通、管理和消费的业务需求和定制;

  • 二是负责保障商品系统的稳定性,解决日常、大促等高并发下读写数据的一致性、可用性等技术难题。

既然商品是电商系统的血液,就需要维护这个血液的健康、流动的顺畅以及它在身体某个时候某个部位特别需要时,能够智能地支撑。
所以整个商品域需要承担的职责有 3 个:* 职责一:【数据质量·健康】保障商品基础元数据的质量,包括商品属性、SKU和标题等。通过建设商品质量分等指标衡量体系,通过与前台消费场与商家端的联动保障商品信息能够持续的进行治理和净化。

  • 职责二:【管理运营·通畅】对基础元数据进行抽象和标准化,让可复用性和通用性更强,让要素更容易流通起来。以OCR和算法结构化能力对基础数据进行加工,使得商品参数更客观、商品类目组织更灵活,让前台业务能够更高效的管理和运营商品数据。
  • 职责三:【应用消费·智慧】对要素的应用市场有更深的理解,对商品按照基础产品数据、导购素材以及结构化offer服务信息3类进行数字化和结构化,以消费者视角进一步理解商品信息,定义更有竞争力的商品,让消费者更容易发现好商品,提升匹配效率。

商品域有哪些独特的技术场景和挑战

前面介绍了商品团队大概做哪些事情,接下去给大家介绍一下商品域有哪些好玩的技术场景和挑战:

  • 卖家发布商品时,能否不需要填写信息,能否拍照照片,我们自动就能帮卖家生成一份完整的商品的基础信息?比如卖家卖元気森林,这些信息在外包装上都有,能否通过 OCR 技术之间提取出来。拍张照片我们就知道你想卖的是什么,然后自动生成商品信息,卖家只需要填写价格和库存就行了,这个我们能否做到?
  • 如果我们从商品的外包装和品牌官网获取信息,那么商品的信息都是准确的,我们就很容易知道哪些卖家卖的是同一款商品,哪些商品的属性是相似的是同类的商品,我们能否就能对商品做更细粒度的管理和分析了?例如相同的商品为什么卖家卖的价格不一样,哪个商家卖的更便宜?相似的商品属性有哪些差异,消费者更关心哪些功能属性?能否对消费者做更精准的推荐?
  • 除了给消费者推荐,我们是否也可以给卖家做经营建议?例如你卖的这个商品,在平台上有多少商家在卖,处在什么竞争力水平,建议你提供什么有差异化的服务等。
  • 平台如何更高效的管理这些海量的商品信息,如何发现和治理商家在商品信息上的作弊,例如标题和商品属性不一致,图片和属性不一致,图片和标题不一致等,你在平台上发现各种体验差的 case 都是需要我们的治理。
  • 技术挑战同样很大,商品信息读取包括你搜索的商品列表、商品详情的展示、购物车里的商品信息等都需要读取商品信息,双 11 高峰期商品需要提供几千万的TPS读取 ,如何保障这么大量的信息读取?另外商品库存系统也承担了最大量的写,每一次下单都要减库存,而要保障每一次扣减都不能出错,否则就会出现资损问题,这个挑战可想而知,当前有哪个交易系统有这么大的高并发的写的场景的?
  • 直播、秒杀、抢茅台是商品需要解决的热点问题。我们都知道读请求可以通过缓存能解决,但是你遇到过即使放在缓存里,都有可能把缓存的机器网卡都打满的场景吗?即缓存都支撑不了这么大的量,你能想到的缓存方案可能我们都实现过,所以单 key 热点光集中缓存也解决不了。
  • 不光是热点读问题,热点写也很棘手。我们知道可能通过将写数据通过分库分表来分散写的性能,但是抢茅台既是读热点也有写热点问题,怎么解决?单元化可能很多公司有做过,但是你们有人实现过库存的单元化吗?这里面的技术挑战有哪些:同一个数据要实现多点写,而总量既不能多也不能少;同时还要能实现每个单元之间的库存能相互调拨,所以单元化不仅能解决单点写瓶颈还能实现跨单元的容灾。

以上这些都是我们经常遇到一些业务和技术场景,这里面需要你有电商中对商品的深度理解和思考带来的业务技术问题,也有纯粹的高并发和高可用的基础技术难题。

如果总结起来,可以归为如下几类:

  1. 如何去挖掘和分析海量的商品数据。这需要我们深入理解商品在整个电商链路中的作用,找到最有价值的点,去满足业务需求发挥出最大的价值,所以要理解电商必须要先理解商品,商品可以串联起电商的每个环节,如何对这些数据进行加工是可以创造新价值的地方。
  2. 商品数据如何数字化和智能化。我们这个域本质上是把现实世界中的商品进行数字化,这里面就存在如何保障数字化的准确性和高效了。超市里通过扫码能识别商品、我们有哪些手段能智能化的识别商品呢?
  3. 高并发、高可用和热点问题如何解。整个交易环节,商品的读和写都是最大的环境,所以我们的技术场景一定是最复杂的。

**03

我们解决了哪些行业顶尖的技术难题

给大家分享几个数据:

A.有电商域最高读写量的系统,并发量体现技术难度

  • 有几千万的读请求,库存有上百万的并发写请求;
  • 直播抢茅台几百万的热点读,单库数万写。

B.数据量和业务多类型体现复杂度

  • 几十亿的商品量,非常复杂的业务类型;
  • 一颗超大类目属性树,需要占用几个G的内存。

这些技术指标都是我们遇到的高并发的挑战,围绕这些高并发、高可用的技术场景,我们已经解决了哪些行业难题呢?

  1. 行业领先的秒杀技术方案。早期的商品秒杀是解决瞬时大并发度和并发写的集中的场景,我们通过设计秒杀方案[1]来解决这个典型的行业难题,这个也是被行业广泛使用。
  2. 商品的静态化缓存方案。这个也是业界首创的一个解决 Web 系统海量读请求的解决方案,通过把读请求中的静态数据和动态数据分离,通过减少 Web 请求中动态数据的大小来减少数据的传输,来在前端提升用户体验,后端因为减少数据的编码,所以可以提升性能。是一个非常好的通用的优化方案[2]。
  3. 库存的单元化方案。并发写一直是交易系统中的一个业界难题,部分公司解决了交易的单元化部署,但是还没有对单点的库存进行单元化部署,这个技术难题被我们解决了,是行业的一大技术突破,技术方案可以参考:我们真正把库存实现了跨机房单元化部署[3]。
  4. 类目属性树的数据压缩方案。我们有一颗几个 G 以上的一个数据树,怎么把这颗树更好的方案内存中,供大量的业务进行查询和读取是一个非常大的挑战,怎么对数据进行极致的压缩,既要保证数据空间足够小又要保证数据的读取效率,是一个典型的时间和空间的矛盾的技术难题。
  5. 其他的如大数据对象的读取问题、热点数据的探测问题、防止缓存被击穿问题、富客户端的 jar 包依赖问题、防止资损问题、业务模型建模问题等等。
  6. 算法问题,如跟进图片做类目预测、属性识别、标题的生成、图片的 OCR 识别等。

**04

面对新的市场环境和技术迭代,哪些新问题等待去突破

4.1 行业内容电商的优点

行业很多电商公司快速发展,基于2个逻辑,一个是从图文信息交互转变到了视频流的信息交互,对消费者来说,信息交互的体验变好了。另外一个是从原来的货架式的人找商品,到场景化推荐的商品找人的方式,一个是先有需求再有商品,一个是给你一个消费场景,从场景到商品激发需求。
所以这种知识类电商很好的满足了一部分消费人群的新的消费需求,在巨大的流量加持下帮助人们从海量种类的商品中发现和认识自己需要的商品,提供了购物中需要的知识信息从而加快购物决策。##### 我们需要解决什么

内容是解决用户信息获取,还是解决用户在购物决策链路上的信息补充。一个消费内容本身,一个是帮助购物决策,目的不一样。如果我们把内容定位与服务消费者的决策,那么我们就看用户在购物过程中需要哪些信息来做决策。从消费场景出发->需求->商品->物流&服务->评价->优惠价格->卖家。

  • 消费场景出发->需求。不管是传统的超市购物,还是现在的电商基本没有消费场景的概念,基本都是直接从需求->商品,例如我渴了需要一瓶水,我们很少根据在什么场景下需要喝什么水来卖水,例如吃火锅建议喝什么水、运动后喝什么水更好等,第一次约会这也是一个消费场景,在这个消费场景下会产生哪些消费需求,需要有人给定义出来,目前有人在定义这些吗?有,是谁?可能是品牌商,可以是网红,可能主播,他们在哪里?目前可能是在行业内容平台。
  • 从需求->商品。我现在想吃炒鸡腿这是个需求,怎么满足这个需求?你可以选择直接去肯德基买(可能贵但方便),或者自己买个鸡腿油炸(便宜但麻烦),或者我推荐买一个空气炸锅自己做一个(便宜也方便)。那么满足这个商品可能有三个商品:肯德基鸡腿、生鸡腿、空气炸锅。用什么样的商品来满足需求,可以从商品的特性、成本、体验和服务的维度来表达给消费者,这里面有知识性的内容,和经验评价性的内容需要挖掘。
  • 从商品->商家。当我以及决定买华为手机的时候,我会选择哪个商家来买呢?这个就是从商品到选商家的过程,是在官方旗舰机买,还是在苏宁易购买,还是在猫享里买,还是在淘宝的小商家买,那么我们给消费者提供什么样的信息来满足消费者来决策选择哪个商家呢?我们现在的tb上有提供给消费者这些不同的商家的差异性吗?价格一样吗、有送礼物吗、物流时间一样吗、有送保修服务吗,这些信息有没有结构化的表达给消费者。
  • 消费者使用反馈。商品到消费者手上只是商品的生命周期的开始,商品的使用方法和经验,保修和保养的经验知识也同样是重要的,这个些是偏UGC的内容,可以发动消费者来生产。

商品域需要做些什么

前面讲了这么多内容的好处以及对电商的影响,最后我们还是要回到我们自己能做些什么?
我们商品中台管理了国内电商的全部商品信息,我们想从商品数字化->结构化消费信息供给的转变,也就是除了商品的基础信息数字化外,我们还要结构化展现和积累消费决策过程中的知识性和经验性的信息。即从描述商品是什么,到回答消费怎么发现需要的商品,怎么选商品,怎么选商家,怎么用商品的转变。

我们的最终目标是通过设计商品的结构化信息,让有竞争力的商品能够自动的浮现出来,因为现在已经进入的存量竞争时代,消费者都是非常成熟的,有些商家的商品仅仅通过SEO获取到不该有的流量,不仅是欺骗了消费者,也会让哪些真正有好性价比商品的商家离开平台。
所以商品中台的结构化商品信息就是让商家把精力不要放在商品的基础产品信息上(商品是什么),而应该放在商品的导购信息和商品服务信息上。**
通过这些结构化信息的采集,其实我们是能知道同样卖iPhone的商家,没有商家卖iPhone到底有啥差异是价格不一样,还是提供的服务不一样。而买iPhone还是华为,我们通过产品特性来区分。消费者通过同品比服务和营销信息来决定买哪个商家的商品,通过比客观产品特性来决定买哪款商品,这个消费者的决策讲更加简单和透明,不会出现买贵的怕吃亏,买便宜的怕上当的感受。4.2 新的技术突破如何给商品域带来哪些新机会

AI 会带来新的变革,带来哪些影响

新技术的进步无疑给商品也带来新的变化,只要适应和应对这种新的变化才能更好的发展,从有力和不利两个方面的说:

  • 有利的。首先前面以及分析利用大模型技术不管是OCR技术还是对文本内容的总结和泛化能力,都对商品的信息的数字化有比较大的提升,与其带来的就是商品数字化的成本会下降,例如商品可以拍照发品了。也就是对商品内容的生产效率会有提升。第二对商品信息的结构化难度会下降,他更接近人对内容的理解进行分类,例如哪些词是营销类的词,哪些是颜色的词,哪些是规格大小等,可以对一个复杂的文本内容进行P/V的结构化表达,利用这一点我们可以对卖家填的内容更进一步的理解和分析。第三,有了结构化的信息,我们可以更好的对商品进行标准化了,例如哪些是同款哪些是相似款,哪些商品的材质是一样的等,可以更好的做好人货的匹配了。
  • 不利的。首先大模型的总结和泛化能力很强,但是也带来了一个副作用,就是他生产的内容会更加的真假难辨了,例如你现在问华为p60的基本参与,大部分模型都会一本正经的回答错误的答案给你,我们如何判断大模型产出内容的正确性是一个大难题。另外,技术的进步带来生产力的提升,必然对以前我们靠卖家积累的商品信息的内容的先发优势会减少,以前是卖家帮我们做数字化,而现在大模型可以帮我们做数字化,导致我们这么多积累的数据的壁垒很容易被打破。

商品如何抓住新的机会前面我已经列举了在AI的技术加持下,对商品会产生一系列的变化和影响,我们商品体系应该如何应对和顺应这种变化,是我们商品团队应该回答好的问题,如何回答这个问题,我们有几个核心的判断和观点:

  1. 商品的元信息是AI时代下的重要资产。商品上的元数据有哪些?我们如何获取到这些元信息?如何抽取和加工这些元信息?我们之前提出了客观属性的概念,本质上就是解决商品属性来源的客观性和准备性问题,我们不希望卖家人为的抽象商品属性,而是希望卖家告诉我们商品的原始信息,由我们来提取和采集商品的信息,这样能保证信息的唯一性和客观性进而能保证数据的准确性。(包装图、吊牌、说明书、检测报告等)
  2. 垂直域的AI大模型构建本身也是壁垒。我们把chatgpt比喻成一个学过了世界上通用知识的一个本科生,但是要在某个领域做到足够专业,就需要再读个博士,构建电商垂直域的、甚至是商品域的大模型数据底座本身也是非常有竞争力的。从上面的必应回答的例子中可以看出,只列举了部分手机参数,但是消费者关心的颜色以及鸿蒙操作系统这些亮点并没有展示,基于我们丰富准确的商品数据,做RLHF模型优化或者Prompt调优的微调。
  3. 商品元信息的准确性和结构化,仍然非常稀缺,构建商品知识库价值很大。我们从商品的元数据里提取商品的客观属性,但是这些数据有很多是专业术语,消费者看到这些信息,很多并不知道是啥意思,对消费来说有啥好处,所以需要把这些专业术语转化成消费者能够听懂的语言。除了利用大模型丰富的知识储备,能解释我们的客观参数,变成人能够理解的主观属性,让专业术语变的可解释性。我们还可以利用大模型来对我们商品的评价信息做结构化的总结和提炼,让消费者获取有价值信息的效率提升。
  4. 基于大模型技术的加深对商品的理解和应用仍然是关键,例如一键发品、场景化消费等。