倒排索引的相关概念及定义

如题所述

第1个回答 2016-05-14

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号（DocID），单词在这个文档中出现的次数（TF）及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项（Posting），包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。右图是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。
在实际的搜索引擎系统中，并不存储倒排索引项中的实际文档编号，而是代之以文档编号差值（D-Gap）。文档编号差值是倒排列表中相邻的两个倒排索引项文档编号的差值，一般在索引构建过程中，可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号，所以文档编号差值总是大于0的整数。如图2所示的例子中，原始的 3个文档编号分别是187、196和199，通过编号差值计算，在实际存储的时候就转化成了：187、9、3。
之所以要对文档编号进行差值计算，主要原因是为了更好地对数据进行压缩，原始文档编号一般都是大数值，通过差值计算，就有效地将大数值转换为了小数值，而这有助于增加数据的压缩率。索引的构建相当于从正排表到倒排表的建立过程。当我们分析完网页时 ,得到的是以网页为主码的索引表。当索引建立完成后 ,应得到倒排表 ,具体流程如图所示：
流程描述如下：
1）将文档分析称单词term标记，
2）使用hash去重单词term　　3）对单词生成倒排列表　　倒排列表就是文档编号DocID，没有包含其他的信息（如词频，单词位置等），这就是简单的索引。　　这个简单索引功能可以用于小数据，例如索引几千个文档。然而它有两点限制：　　1）需要有足够的内存来存储倒排表，对于搜索引擎来说，都是G级别数据，特别是当规模不断扩大时 ,我们根本不可能提供这么多的内存。　　2）算法是顺序执行，不便于并行处理。归并法 ,即每次将内存中数据写入磁盘时，包括词典在内的所有中间结果信息都被写入磁盘，这样内存所有内容都可以被清空，后续建立索引可以使用全部的定额内存。
如图归并示意图：
合并流程：
1）页面分析，生成临时倒排数据索引A，B，当临时倒排数据索引A，B占满内存后，将内存索引A，B写入临时文件生成临时倒排文件，　　2) 对生成的多个临时倒排文件 ,执行多路归并 ,输出得到最终的倒排文件 ( inverted file)。
索引创建过程中的页面分析 ,特别是中文分词为主要时间开销。算法的第二步相对很快。这样创建算法的优化集中在中文分词效率上。

相似回答

什么是倒排索引答：倒排索引是一种特殊的索引结构，它是以文档中的单词或关键词为基础进行索引的。倒排索引的主要思想是按照文档中的词汇建立索引，从而快速定位包含这些词汇的文档。与传统的正排索引不同，倒排索引以“关键字”为中心，列出所有包含该关键字的文档信息。这种索引方式广泛应用于全文搜索引擎中，如谷歌和百度的...

正排索引和倒排索引答：倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式：一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列...

什么是倒排牵引?正排索引和倒排索引的区别?答：倒排索引也常被称为反向索引、置入档案或反向档案，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。带有倒排索引的文件称为倒排索引文件，简称倒排文件。建立全文索引中有两项非常重要，一个是如何对文本进行分词，一是建立索引的数据结构。分词的方法基本上是二元分词法、最大...

倒排索引的介绍答：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

搜索引擎算法中,什么是正向索引?什么是倒排索引?答：带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。建立全文索引中有两项非常重要，一个是如何对文本进行分词，一是建立索引的数据结构。分词的方法基本上是二元分词法、最大匹配法和统计方法。索引的数据结构基本上采用倒排索引的结构。分词的好坏关系到查询的准确程度和生成的索引的大小。在中文分词...

什么是正向索引,倒排索引答：正排索引与倒排索引 正排索引也叫正向索引(forward index),倒排索引也叫反向索引(inverted index)。他们都是搜广推经常用到的工具,用于记录海量对象与特征之间的关系

ElasticSearch倒排索引及其原理答：1、倒排索引采用ImmutableDesign，一旦生成，不可更改。Segment写入磁盘的过程相对耗时，所以借助文件系统缓存，Refresh时，先将Segment写入文件缓存中，以开放查询。2、之前我们已经了解过，Elasticsearch是一个基于Lucene实现的分布式全文检索引擎，其实Elasticsearch倒排索引就是Lucene的倒排索引。3、所谓的倒排索引...

Elasticsearch 倒排索引答：接下来就是建立倒排索引了，在这之前我们先了解两个概念词条字典（Term Dictionary）、倒排列表（Posting List）：ES 的倒排索引就是由词条字典和倒排列表两部分组成的。如下就是一个简易版的倒排索引，倒排列表项只有词条对应的文档 id：一个词条对应一个倒排索引项。ES 会给每个字段都建立...

何为倒排答：倒排索引，也称反向索引，是一种强大的数据结构，用于记录在全文搜索中特定词语在文档中的分布。它是搜索引擎核心技术中的核心，使得我们能在海量信息中迅速定位相关文档。想象一下，每次你在搜索引擎上输入关键词，都是倒排索引在默默工作，为我们呈现相关结果。工作原理揭秘搜索引擎的工作原理如同一场精密...

大家正在搜

索引的定义及其分类定义索引的目的是什么索引的定义和作用 sql索引的概念索引的定义数据库索引的概念简述索引的概念和分类定义索引数据库索引的目的