ПредишенСледващото

Какво трябва да направи робот?
Роботът трябва индекс на обектите. Аз suschsestvuet редица предложения в тази насока.

1.2 съдържа всички думи, които само можете да намерите. За брой дума
непрекъсната последователност от валидни знаци. Допустимо да се помисли английската азбука, цифрите, руската азбука и някои промоции. знаци (напр. с тире). Т.е. дори "а", "но" или "varumpik-strivomnluns" брои думи.

XM бих препоръчал следната структура на базата данни (по-добре е, че това е релационна, но може да мине без него):

маса "речник":
номер (индекс) | дума (низ)

маса "страница":
номер (индекс) | URL (низ) | изтичане (дата и час) | посети (булева)

маса ", думите" (основен):
номер (индекс) | word_id (индекс от "речник") | PAGE_ID (индекс от
"Страници") | брои (число)

Да предположим, че тя е насочена в таблицата по-долу, "Речник"
Той е събрал 450,000 записи. Да предположим, на srednestatichticheskom сайт е 1000 страници и на всяка страница средно 500 неповтарящи се думи. по този начин ние откриваме, че на всеки сайт, ние получаваме от 500,000 записи в таблицата, "думата". Това вече е сериозна тежест, но за да индексира вашия собствен уебсайт е доста реализуема. Също така можете да изрежете често използвани междуметия, които биха представлявали 10-30% от вида на товара ", но", "а", и т.н. За да направите това, ще трябва да се добави поле маса речник "забранена" тип булев а. С това можете да се намали натоварването.

"Йерархично класификатор", пише сега е робот за запис. бл:

Свързани статии

Подкрепете проекта - споделете линка, благодаря!