a一级毛片-a一级毛片录像带 录像片-a一级毛片免费高清在线-a一级毛片视频免费看-欧美精品在线视频观看-欧美精品自拍

什么是倒排索引?倒排的概念是什么?

3086次閱讀

倒排索引源于實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件(inverted file)。


倒排列表概念

倒排列表用來記錄有哪些文檔包含了某個單詞。一般在文檔集合里會有很多文檔包含某個單詞,每個文檔會記錄文檔編號(DocID),單詞在這個文檔中出現的次數(TF)及單詞在文檔中哪些位置出現過等信息,這樣與一個文檔相關的信息被稱做倒排索引項(Posting),包含這個單詞的一系列倒排索引項形成了列表結構,這就是某個單詞對應的倒排列表。右圖是倒排列表的示意圖,在文檔集合中出現過的所有單詞及其對應的倒排列表組成了倒排索引。

在實際的搜索引擎系統中,并不存儲倒排索引項中的實際文檔編號,而是代之以文檔編號差值(D-Gap)。文檔編號差值是倒排列表中相鄰的兩個倒排索引項文檔編號的差值,一般在索引構建過程中,可以保證倒排列表中后面出現的文檔編號大于之前出現的文檔編號,所以文檔編號差值總是大于0的整數。如圖2所示的例子中,原始的 3個文檔編號分別是187、196和199,通過編號差值計算,在實際存儲的時候就轉化成了:187、9、3。


之所以要對文檔編號進行差值計算,主要原因是為了更好地對數據進行壓縮,原始文檔編號一般都是大數值,通過差值計算,就有效地將大數值轉換為了小數值,而這有助于增加數據的壓縮率。

倒排索引概念

倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:“單詞詞典”和“倒排文件”。
  
倒排索引倒排索引
倒排索引有兩種不同的反向索引形式:
  一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表。
  一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。
  后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時間和空間來創建。
  現代搜索引擎的索引都是基于倒排索引。相比“簽名文件”、“后綴樹”等索引結構,“倒排索引”是實現單詞到文檔映射關系的最佳實現方式和最有效的索引結構。





本文由夫唯團隊編輯,如發現錯誤,歡迎通過客服微信反饋。

夫唯于2024年12月停止百度SEO研究和培訓。道別信: 夫唯:再見了百度SEO!

2025年1月正式啟動Google SEO培訓課程,一千零一夜帶領大家一起出海。

感興趣的同學,請添加招生客服小沫微信:seowhy2021。 微信掃碼添加客服人員

我們的目標:讓大家獨立站出海不再“望洋興嘆”。

Processed in 0.815894 Second , 286 querys.