ПредишенСледващото

Инверсия индекс (Engl обърнати индекс.) - структура на данните. в която за всяка дума колекция от документи в съответните списъци, всички документи в колекцията, в която тя се срещна. Обърнатият индексът се използва за търсене на текст.

Има два варианта на обърнатия индекса:

  • индекс, който съдържа само списък на документи за всяка дума,
  • индекс, допълнително включващ дума позиция във всеки документ [1].

Ние описваме как да се реши проблема с намирането на документи, които отговарят на всички думи в заявката за търсене. При лечението на един елемент заявка за търсене отговор е вече в преобърнато индекса - достатъчно, за да се вземат в списъка, който съответства на думата на искането. Когато се взимат за обработка на списъци многословни заявките, съответстваща на всяка от думите на заявката, както и да се застъпват.

Обикновено търсачките след изграждането обърната индекс списък на документите, съдържащи думите на заявката е класацията на документите от списъка. Инверсия индекс - е най-популярната структурата на данните, които се използват в извличане на информация [2].

Да предположим, че имаме състав от трима текстове T 0 = => "е това, което е". T 1 = => "какво е" и T 2 = => "е един банан". след обърнатия индекса ще бъде както следва:

Всички цифри представляват номера на текстове, в които той се срещнаха подходящата дума. След изработване на търсене "какво е" молба се получават следните резултати <0. 1> ∩ <0. 1. 2> ∩ <0. 1. 2> = <0. 1>\ Cap \\ капачка \ = \>.

Особености на прилагането на търсачки в реалния свят

Записите в списъка на думата документи, освен документите за самоличност, обикновено също посочват фактори (TF-IDF двоичен фактор :. "Ужасна дума в заглавието или не получиха" други фактори), които се използват в класацията. Индексът може да бъде изградена не на всички форми на думите. и от леми (в канонична форма на думата). Спрете думи могат да бъдат изключени, а не за изграждане на индекс за тях, като се има предвид, че всеки един от тях се намира в почти всички документи по случая. За да се ускори изчисляването на кръстовища използват евристични методи пропускат-показалка-ите. При обработката на заявки, които съдържат много думи, използвайте кворум, която преминава към следващия етап на класиране на документи, които не отговарят на всичките думи на заявката.

Свързани статии

Подкрепете проекта - споделете линка, благодаря!