Query-查询
淘宝搜索系统的Query每时每刻都在发生,为了更好的理解Query,我们可以将Query暂时理解为测字占卜!
一、测字占卜技术回顾
测字占卜技术的两大理论基础,第一,求卦人写的字反映其当时的状况、需求、愿望等,同理,淘宝网(www.taobao.com)用户在淘宝网搜索框输入的查询关键字,也反映了用户的购物等需求;第二,算卦人要了解求卦人各方各面的情况才有可能占卜正确,同理,淘宝搜索系统必须从海量查询日志认真分析才有可能对用户的查询意图进行准确预测。
二、如何测字占卜
其实搜索引擎中的查询意图预测在学术界已经出现了好几个年头了。2005年就有人在ICDM上发表文章,说利用半监督学习方法对查询自动分类【Beitzel 2005】。2007年,Broder在SIGIR上发表了文章,利用web知识对稀疏查询进行分类,并取得了不俗的表现【Broder 2007】。自此,中国研究界又多了一个研究的方向。微软在IR研究领域从来就没有落后过,2009年的World Wide Web会议上微软学者提出将维基百科的几百万文章和类目知识体系利用起来,对短小的Query进行扩充,从而辅助实现Query的分类。
同理,对淘宝网用户输入的关键字进行准确的占卜。薄言老师看了很多淘宝网的查询日志,统计了用户在淘宝网最有可能输入的查询词,并对这些查询词进行了分类。
(1)用户最常输入的词
在淘宝词库的基础上,新收集和整理了人名库、软件库、游戏库以及电子书籍、软件下载、游戏服务、官方网站、用户评价、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务、产品详细、导购咨询等的提示词库。目前词库详细情况如下表所示:
词项类型 | 详细词项类型 |
类目词 | |
产品类型词 | |
品牌词 | |
扩展品牌词 | |
型号词 | |
促销词 | 质量促销词、信誉促销词、销量促销词、价格促销词、时间促销词 |
时间词 | 季节词、中外节日词、中国节气、年份词、月份词 |
地域词 | 国家或地区名称词、世界重要城市词、中国地区名称词 |
人名词 | 体育明星、华语男歌手、华语女歌手、日韩男歌手、日韩女歌手、欧美女歌手、欧美男歌手 |
提示词 | 机构提示词、网站提示词、价格提示词、商务活动提示词、疑问提示词、电子书籍提示词、软件提示词、多媒体提示词 |
属性词 | 材质、功效、适用人群、颜色、电影名称、电视名称、综艺节目名称、动漫名称、电子书籍名称、软件名称词、游戏名称词 |
(2)淘宝网常见查询意图
淘宝网常见的查询意图有:产品购买、电子书籍、软件下载、游戏服务、官方网站、用户评价、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务、产品详细、导购咨询、书籍购买等15类。
2.1 总体分类框架
淘宝搜索系统的整体框图如下所示,对用户输入的查询,根据淘宝词库中每一个查询意图可能的提示词和内容词,计算每一个查询意图的概率,得出查询为每一个意图的概率后,对最终结果给一个综合打分,给出最终的每一个查询的概率,最后根据每一个查询的概率给出查询的意图。
2.2 各查询意图的可能特征词
每个查询意图都有很多促发词,称为该查询意图的特征词。例如产品购买型查询的特征词包括产品购买词和产品购买提示词,这是淘宝上最常见的查询。下面列出常见的查询意图的特征词(为方便大家的理解,把上文中对各查询意图的定义和举例也同时给出)。
查询意图类型 | 含义 |
产品购买 | 用户查询中有明确的产品购买需求或意愿举例:oppo音乐手机、成人用品、九阳豆浆机、2010淘宝流行女装。识别:一般含有产品类型词、品牌词、型号词等 (最常用,也是淘宝中最常见的) |
电子书籍 | 用户查询中表明用户有下载、购买电子书籍的需要或意愿举例:刑法全文、鬼吹灯txt全集下载、武装风暴最新章节等。识别:一般包含全文、最新章节等提示词,淘宝已整理了常见的电子书籍名称词典 ,淘宝网暂未启用 |
软件下载 | 用户查询中表明用户有了解、下载、购买软件的需要或意愿举例:手机主题免费下载、everest ultimate 汉化绿色版。识别:一般包含下载、绿色版、汉化版等提示词,淘宝网已整理常见的软件名称词典 ,淘宝网暂未启用 |
游戏服务 | 用户查询中表明用户有了解、下载、购买游戏及游戏相关的副产品的需要或意愿举例:传奇私服、植物大战僵尸英文版。识别:一般包含私服、下载、游戏等提示词,淘宝网已整理了常见的游戏名称词典 ,淘宝网暂未启用 |
官方网站 | 用户查询中表明用户有了解、登陆某个官方站点的需要或意愿举例:三星显示器官网、中国灵异网站识别:一般包含官网、网站、信息网等提示词,淘宝网已整理了常见的网站及其域名词典,另外也整理了常见的品牌官网,当查询中包含品牌词时系统也给出相应的官方网站,淘宝网暂未启用 |
用户评价 | 用户查询中表明用户有了解、其他用户对某个产品的评价的需要或意愿举例:左旋肉碱的减肥评价、什么卸妆油好用。识别:一般包含评价、用处、好用吗等提示词,淘宝网暂未启用 |
组织机构 | 用户查询中表明用户有了解某个组织、机构、公司等的需要或意愿举例:用友软件公司、广大环球家具超市。识别:一般包含公司、超市、俱乐部等提示词,淘宝网暂未启用 |
产品价格 | 用户查询中表明用户有了解特定产品价格的需要或意愿举例:长寿烟价格、锐步鞋报价。识别:一般包含价格、报价等提示词,或类似2000元的货币词项 ,淘宝网暂未启用 |
促销信息 | 用户查询中表明用户有了解特定促销信息的需要或意愿举例:北京十一商场打折、特价机票、皇冠店铺。识别:一般包含打折、特价、秒杀等促销词,淘宝网暂未启用 |
商务活动 | 用户查询中表明用户有了解关于招商、加盟、求购、供应等商务活动信息的需要或意愿举例:招商加盟、童鞋批发、求购金浪KN-S1005GM。识别:一般包含加盟、批发等提示词 ,淘宝网暂未启用 |
问题解答 | 用户查询中表明用户有了解、获取某个特定问题答案的需要或意愿举例:孕妇可以吃桔子吗、中国最有钱的人是谁、七夕送什么给男朋友。识别:一般包含吗、谁、什么等疑问提示词 ,淘宝网暂未启用 |
多媒体服务 | 用户查询中表明用户有浏览、下载、购买特定图片、音频、视频文件的需要或意愿举例:孟茜图片、第四色视频、鬼步舞背景音乐。识别:一般包含图片、视频、音乐等提示词,淘宝网已整理了常见的电视剧名称、电影名称、综艺节目名称、动漫名称等 ,淘宝网暂未启用 |
产品详细 | 用户已经基本确定所需要的产品,想查询该具体产品的详细描述信息举例:松下328传真机参数、烟雨斜阳剧情介绍。识别:一般包含参数、介绍、详细信息等提示词 ,淘宝网暂未启用 |
导购咨询 | 用户查询没有明确的产品购买意图,希望系统给出购买的信息或指导举例:2岁儿童零食、刘德华代言的手机、十大国产音乐手机识别:一般包含代言、十大等提示词,淘宝网暂未启用 |
书籍购买 | 用户查询表明用户有了解、获取、购买特定书籍的需要或意愿举例:中华成语故事、营销新手入门指南、现代信息检索。识别:淘宝网已整理了常见的书籍名称词典 ,淘宝网暂未启用 |
三、Query水平
可以分别从百度查询日志、谷歌查询日志、淘宝查询日志分别随机挑选了500个Query,对Query意图预测进行了人工检验。
3.1 意图分布
3个测试语料在各查询意图上的识别结果分布如下图所示。可以大致看出:淘宝网查询绝大部分是产品购买型;百度的查询大部分是官方网站型,另外还有部分是电子书籍、书籍购买、产品购买;谷歌的查询集中在官方网站,另外还有部分产品购买、书籍购买。
3.2 准确率分布
各查询的准确率如下图所示。可以大致看出,电子书籍、软件下载、游戏服务、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务等的准确率都非常高,淘宝查询的产品购买准确率非常高。但是百度查询和谷歌查询产品购买型识别准确率比较低,这主要是由于百度和谷歌的查询并非集中于电子商务活动,而我们整理的词典为电子商务词典。
3.3 性能
根据QA给出的性能测试数据,每秒大约处理query数量如下:
平均长度 | 处理速度 | |
平均性能 | 15.20字节 | 729.8条/秒 |
百度日志 | 15.20字节 | 857.5条/秒 |
淘宝日志 | 13.99字节 | 1126.79条/秒 |
谷歌日志 | 16.09字节 | 548.76条/秒 |
3.4 意图预测能力分析
在三个语料的召回率分别入下表所示,当然本来就有非常多的查询根本无法纳入到目前的意图体系。
召回查询数量 | 召回率 | |
百度日志 | 393 | 78.6% |
淘宝日志 | 474 | 94.8% |
谷歌日志 | 389 | 77.8% |
四、将来的工作
目前淘宝Query查询意图预测的工作还处于初级阶段,还有众多功能尚未启用,将来还有很多工作要做,淘宝网的查询意图预测也要在不断的预测过程中逐步改善预测结果准确率。
用户的点击序列将有助于进一步提高查询意图的预测水平。例如,用户A输入【诺基亚 N95】,假设淘宝搜索系统不能识别诺基亚为品牌,N95为型号,则有可能把该查询的意图预测错误。在这种情况下,如果用户A点击了商品购买Comb的结果,则很可能给淘宝搜索系统一个暗示,【诺基亚 N95】查询很可能是产品购买型查询。得到这个信息后,当下一个用户再输入【诺基亚 N95】查询时,淘宝搜索就可以准确的预测该查询为产品购买型意图。
郑重声明:本站“淘宝搜索技术文档”版块所有内容均来自淘宝搜索技术内参,并由薄言亲自归纳整理,旨在将复杂的技术文档转化成直白容易理解的文字,以此来帮助淘宝卖家更好的了解淘宝搜索系统,为此耗费了巨大的时间和精力,请大家尊重薄言的劳动,不要转载和盗用,即使需要转载,请务必取得授权,并注明出处!谢谢!