淘宝标题识别四大原则

1、等效原则
俗称正式规范名称引导
解析:在淘宝中搜索“胸罩”关键词,搜索系统会同时检索“胸罩”与“文胸”这两个关键词,在搜索结果列表中会同时出现标题中含有“胸罩”与“文胸”这两个关键词的标题,如果搜索“文胸”,搜索系统只检索“胸罩”这个关键词,在搜索结果列表中只会出现标题中含有“文胸”这个关键词的标题,因为“文胸”是淘宝的正式规范名称。

2、符号原则
易读性符号“空格”“/”等
解析:淘宝搜索系统在对宝贝标题上的关键词的分隔符上,是有所限制的,不同的分隔符在对应搜索系统的不同目录下,应用出来是不一样的。在使用半角逗号的情况下,淘宝搜索引擎认为逗号的两边完全是不同的词句,进而硬性割裂;而使用其他一些符号比如/或者是半角空格,虽然标题看上去有断句,但搜索引擎在处理的时候会按照紧密排列规律,忽略这些特殊符号的存在,便于分词。

3、拆分原则
淘宝搜索系统汉语分词(MM法与RMM法)
       淘宝搜索的汉语分词系统主要基于字典分词,系统总是认为最大匹配的词汇最优,或者可以说最大匹配可以使切分出的词汇数量最少,而较少的索引词可以有效降低索引系统的工作量和最终索引文件的大小。英文以字母和单词为单位,汉字以淘宝数据库词典中的词为单位,无需拆分的标题具备优先条件。
解析:比如“男装”这个关键词可拆分成“男”、“男装”,“男士服装”这个关键词可拆分成“男”、“男士”、“服装”、“男装”,当搜索“男装”时,无须拆分的“男装”标题优先,然后才是“男士服装”的标题,因为“男士服装”需要拆分,而“男装”无需拆分。有些卖家在构建标题时已含可拆分组成的关键词,但标题后再加一个“男装”这样的词,就是为了符合分词的拆分原则。

4、无序原则
关键词排列顺序不对搜索造成影响。
解析:比如搜索“男士 牛仔裤”与“牛仔裤 男士”,搜索结果基本没有太大影响和不同,“男士 牛仔裤”与“男士牛仔裤”或“牛仔裤男士”这样的搜索结果就有影响了,因为“男士牛仔裤”和“牛仔裤男士”就会受到拆分原则的影响了。

注意:
       细心的卖家可能会发现,应该还有一个原则,那就是标题的“可读性原则”,也就是标题应该通顺流利,便于阅读,标题的可读性原则是针对买家而言的,因为淘宝的汉语分词系统主要基于字典分词,即MM法与RMM法,基于统计的分词法(N-Gram模型)在被淘汰识别中不会起作用,这是由淘宝的电子商务的购物特征相对明确决定的,因此标题的“可读性原则”并不是标题识别的原则之一!

郑重声明:本站“淘宝搜索技术文档”版块所有内容均来自淘宝搜索技术内参,并由薄言亲自归纳整理,旨在将复杂的技术文档转化成直白容易理解的文字,以此来帮助淘宝卖家更好的了解淘宝搜索系统,为此耗费了巨大的时间和精力,请大家尊重薄言的劳动,不要转载和盗用,即使需要转载,请务必取得授权,并注明出处!谢谢!