1、什么是倒排索引
     
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。
2、
实例
下面利用一个例子来说明倒排索引:
比如说有两个文档,doc1doc2他们的内容分别如下:
Doc1: VerRan is good boy

Doc2: Are you VerRan?
如果按照正常的索引建立如下所示:
文档名 关键字 次数
Doc1 VerRan 1
Doc1 is 1
Doc2 VerRan 1
Doc2 Are 1
……
这里索引的建立是以文档为标准的,这样当文档很多的时候数据量将非常的大,检索效率会明显下降的。
倒排索引是以单词为标准来进行索引的建立的。
还以上面的doc1doc2为例:
关键字 出现的文档 次数
VerRan doc1 doc2 1 1
Is doc1 1
Are doc2 1
…….
3、
总结
      通过以上比较可以发现,一般的索引结构建立的是一种文档到单词的映射关系,而倒排索引建立的则是一种单词到文档的映射关系。因为在日常的检索中,通常都是按照关键字进行搜索的,所以,倒排索引可以更好地适合这种检索机制的需要。这也是倒排索引如今被大规模使用的原因。

 

郑重声明:本站“淘宝搜索技术文档”版块所有内容均来自淘宝搜索技术内参,并由薄言亲自归纳整理,旨在将复杂的技术文档转化成直白容易理解的文字,以此来帮助淘宝卖家更好的了解淘宝搜索系统,为此耗费了巨大的时间和精力,请大家尊重薄言的劳动,不要转载和盗用,即使需要转载,请务必取得授权,并注明出处!谢谢!