Как да търсим на статичен сайт

Предишен ◈ Следващото

Хостинг статични блогове, като GitHub Pages е изключително популярен начин за лесно създаване на блогове в пълен CMS. Втората ситуация е по-популярен сред уебмастъри присъстващи - изтръгнати от vebarhiva сайт, който по дефиниция не може да бъде динамичен. Един от основните недостатъци на такива сайтове е, че не е прост и надежден метод за осигуряване на функция за търсене.

За щастие, с чифт безплатни инструменти, можете лесно да създадете динамичен търсене за статичен сайт. Нека разгледаме стъпка по стъпка създаването на такова търсене.

Първо, вие ще трябва да използвате услугата Crawler import.io на. да улови цялото съдържание на сайта си, и да се създаде индекс, и след това да го търсим.

Те публикувал онлайн уроци. който ще ви запознае със създаването на гъсеничен, ако никога не сте чували за него.

Когато създавате Crawler за вашия блог, можете да създадете колони за "титлата" и "субтитрите", на която ще намерите; или можете да вземете цялото съдържание с помощта на колона "изображения" (тип изображение), "съдържание" (тип низ) и "връзки" (Тип на връзката), които ще се покажат всички изображения, текст и връзките на страницата.

В същото време, можете да се обучават само една колона, и вземете няколко параграфа:

Ето един пример, конфигуриране на сканирането на моя блог:

Стъпка 2: Търсене на доставчика на индекс

Търсите бърз начин да прекарате търсене индекс на блога си, реших да опитам FacetFlow. Не само, че те използват Elasticsearch индекси. така че те също са добър пясък, който ви позволява да съхранявате до 5000 документи или до 500MB на данни.

След като сте се регистрирали, те ще се показват параметрите на връзката за услугата:

Стъпка 3: Създаване на индекс

За да ви помогне да създадете индекс, с необходимите параметри, аз написах няколко комунални услуги в Python.
Копирайте хранилището на вашия компютър и след това да конфигурирате да се поберат си данни Facetflow: копирате "es.json.template" файл в "es.json" и въведете данните си. Вие ще трябва да се промени "домакин", и да направи Facetflow ключ API в "идентификационни данни: име".

Създадох основния дисплей Elasticsearch индекс "index_mapping.json" - можете да го промените, ако искате, или можете да го оставите както е.

(Също така има "delete_index.py" - скрипт, който ще изтрие индекса и данни, ако това се налага)

Стъпка 4: Content индексиране

Сега, ние създадохме нашия скенер и нашия индекс за търсене е готов за данни, че е време да започнете Crawler и попълване нашия индекс съдържание за търсене.

Има няколко конфигурационни файлове, които трябва да бъдат създадени за тази цел.

След това трябва да се създаде конфигурация за сканиране. Един пример за тази конфигурация в "crawl.json.example", но това е един пример, за да сканирате моя блог - можете да получите "crawl.json" файл за собствения си отваряне на обхождането import.io инструмент, и избирате къде настройки за износ:

окончателен конфигурационния файл се създава въз основа "mapping.json.template" - ако използвате същите имена на колони, които съм описани по-горе, можете просто да копирате файла в "mapping.json". Ако имате малко по-различни имена на колони, можете да промените файла под името на колоната.

Така че, ако имате auth.json, crawl.json, es.json, index_mapping.json и mapping.json, тогава всичко е готово да започне верижен помещения Elasticsearch индекс данни Facetflow.

Първото нещо, което трябва да изпълните Python скрипт - "Server.py". Той гледа на страницата с данните, които е верижен import.io, а след това ги изпраща на Facetflow.

След това пуснете import.io робота. За да стартирате командния ред на услугата е разширена инструкция.

След като на търсещия е в ход, тя ще ви покаже страница с данни от командния ред. Тази линия ще създаде скрипт, който ще ви информира за начина, по който ги обработва и изпраща Elasticsearch индекс.

След приключване на този процес, роботът import.io показва съобщението "Crawl завърши", а след това излезе - сега можете да се спрете на Python скрипт (Ctrl + C). Facetflow трябва да показва на контролния панел на позиции:

Всеки път, когато трябва отново да го индексират съдържание (например, можете да редактирате публикациите в блога, или да създадете нови), можете да повторите последните две стъпки. Тъй като цикълът използва URL адреса на страницата, като идентификацията, актуализацията ще бъде обработена правилно и всички нови промени правят индексиране правилно. Можете дори да го стартирате като планирана задача сървъра за автоматично актуализиране на индекса.

Стъпка 5: Търсене на съдържание

Сега, когато сте индексира съдържанието, че е време да го намерите! Facetflow ви показва някои примери за това как да го направя, но ако искате да използвате напълно силата на Elasticsearch, използвайте URL адреса за търсене, като:

Свързани статии

Как да направите вашия блог, за да се появи в списъка с резултатите от търсенето,