Инверсия индекс (Engl обърнати индекс.) - структура на данните. в която за всяка дума колекция от документи в съответните списъци, всички документи в колекцията, в която тя се срещна. Обърнатият индексът се използва за търсене на текст.
Има два варианта на обърнатия индекса:
- индекс, който съдържа само списък на документи за всяка дума,
- индекс, допълнително включващ дума позиция във всеки документ [1].
Ние описваме как да се реши проблема с намирането на документи, които отговарят на всички думи в заявката за търсене. При лечението на един елемент заявка за търсене отговор е вече в преобърнато индекса - достатъчно, за да се вземат в списъка, който съответства на думата на искането. Когато се взимат за обработка на списъци многословни заявките, съответстваща на всяка от думите на заявката, както и да се застъпват.
Обикновено търсачките след изграждането обърната индекс списък на документите, съдържащи думите на заявката е класацията на документите от списъка. Инверсия индекс - е най-популярната структурата на данните, които се използват в извличане на информация [2].
Да предположим, че имаме състав от трима текстове T 0 = => "е това, което е". T 1 = => "какво е" и T 2 = => "е един банан". след обърнатия индекса ще бъде както следва:
Всички цифри представляват номера на текстове, в които той се срещнаха подходящата дума. След изработване на търсене "какво е" молба се получават следните резултати <0. 1> ∩ <0. 1. 2> ∩ <0. 1. 2> = <0. 1>\ Cap \\ капачка \ = \>.
Особености на прилагането на търсачки в реалния свят
Записите в списъка на думата документи, освен документите за самоличност, обикновено също посочват фактори (TF-IDF двоичен фактор :. "Ужасна дума в заглавието или не получиха" други фактори), които се използват в класацията. Индексът може да бъде изградена не на всички форми на думите. и от леми (в канонична форма на думата). Спрете думи могат да бъдат изключени, а не за изграждане на индекс за тях, като се има предвид, че всеки един от тях се намира в почти всички документи по случая. За да се ускори изчисляването на кръстовища използват евристични методи пропускат-показалка-ите. При обработката на заявки, които съдържат много думи, използвайте кворум, която преминава към следващия етап на класиране на документи, които не отговарят на всичките думи на заявката.
Свързани статии