Какво се състои от и как работят търсачките

В тази статия ще опишем основните елементи на търсачката, и да се покаже как те са свързани, и малко докосване на историята на търсачките.

Не бъркайте Wandex и Yandex!

Първо беше руски Rambler търсачката. Сега Rambler все още съществува, но за търсачката Yandex използва. Това представлява около 1% от всички търсения.

Сега е ред на въпроса за това как да се изгради и как работят търсачките

Търсачката се състои от три основни елемента:

1. индексирането (агенти, роботи, които излизат през цялото интернет пространство, и уеб сайтове за сканиране)

В търсачките, има много средства, всяка от които изпълнява функцията си:

2. Index (базови документи и допълнителни параметри в преработен вид)

Index - хранилище търсачката където цялата информация се обработва и по организиран начин. Например, документи се съхраняват в пречистена от формуляра за HTML-маркиране, индексните данни са на разположение за местоположението на различни думи в документа и друга информация. непрекъснато се актуализира индекс.

Редица търсачките изрази актуализации. В този случай, пълното обновяване индекса за търсене, въз основа на които се генерират резултатите от търсенето, не е постоянен, но след известно време. Актуализация - този път на двигателя за актуализация на търсене, което води до много молби сериозно променена.

3. Търсене алгоритъм (механизъм, който позволява формирането на издаване)

При получаване на заявка за търсене, алгоритми за търсене на двигателя са го обработват. В суров вид той отива в системата.

Ако искането е популярна, резултатите от търсенето да може да се кешира (съхранявани в търсачката) и по-нататък, когато влизат същите резултати за заявките за търсене, повдигнати от кеша. Ако искането е уникална, а след това алгоритми за търсене на базата на съществуващите формули в тях формират отговор на искане от индекса на търсачката.

Формула, която е генерирала резултати могат да се различават в зависимост от искането, неговия вид (търговски, информационни, навигационна и т.н.), география (формулата за регионални проучвания може да бъде по-лесно, отколкото за Московска област).

Обсъдихме опростен модел на търсачката. действителните търсачки са много по-сложни и включват механизми за борба срещу спама, koldunschiki и много други неща.

Какво е машинно обучение?

Търсачката на Yandex създава формула за класиране на уеб сайтове, базирани на машинно обучение.

В много прости думи на системата може да бъде представен, както следва:

програма товарни фактори за машинно обучение, на която класацията на документи и otranzhirovannye резултати за множество. Програмата търси модели между резултатите от търсенето и факторите на "добри" и "лоши" страници. Намерено модели, включени във формулата за класиране. Например, ако всички "добри" уебсайтове фона беше синьо, а всички "лошите" - жълт, а след това програмата може да се постави във формулата за подобряване на положението на страниците със син фон и под-позициите на страници с жълт фон.
Получените формули са тествани и разработчиците на определени параметри, определени качество подобрено търсене на нови формули или не.
Ако качеството на търсене се е подобрило - формулата е зареден в главната търсенето и да започне да обработва заявките на потребителите.

Както можем да видим, дори и прост модел на търсачката е доста сложна и се състои от много системи. реални Търсачките са много по-трудно, така че процесът на популяризиране на сайтове, изглежда не само трудно, но и много интересно.

Не бъркайте Wandex и Yandex!

Сега е ред на въпроса за това как да се изгради и как работят търсачките

Какво е машинно обучение?

Свързани статии