Възможността за DataparkSearch търсачката
Как да се организира търсене на информация за файлов сървър не само по име и вид на документа, но и от съдържанието му? възможно да се създаде подходящ инструмент, достъпна и прозрачна за потребителите е?
В момента въпросът за извличане на информация става все по-значима информация. В интернет отдавна е конкуренцията между търсачките постоянно предлагане на нови услуги, възможности и сложни търсачки. Но е трудно да се намерят необходимите данни не само в Интернет. огромно количество акумулирани също домашен компютър на потребителя, за да се разбере, а понякога не е много лесно в този сорт. Организациите често централизират информация и сортиране на файлови сървъри, но във времето, за да откриете правилните документи по-трудно. Производителите на софтуер са отговорили на тази нужда. В момента има десетки търсачки работят локално на компютъра, също така се появяват при търсене на сървъра двигатели.
Местните търсачки се разпространяват най-вече безплатно, докато корпоративните версия, което позволява на потребителите да търсят информация на сървъра, са доста скъпи. Разбира се, закупуване на търговски продукт, имаме компетентен техническа поддръжка и други ползи, но по-малки организации или собственици на частни мрежи не винаги са в състояние да плащат хиляди долари за подобни продукти. За щастие, в света на отворения код, има свободни проекти, които не са по-ниско в функционалността на своите търговски конкуренти, с качеството на подкрепа и актуализации.
Сега ние считаме, една от опциите за организиране на документи за търсене на файлов сървър, което е извършено на определена задача.
Налице е файлов сървър с Linux. За да споделяте файлове инсталирани пакети самба и популярен про-FTP. На диска се използва файловата система ReiserFS, като най-продуктивните да се работи с голям брой малки файлове (документи, на около 3000 различни формати: TXT, HTML, док, XLS, RTF). Данните са подредени, но обемът им нараства всеки ден, отстраняването на остаряла информация не решава проблема. Как да се организира търсене на името и вида на документите, както и съдържание? Как да го предоставят на потребителите в локалната мрежа?
За да се отговори на тези въпроси, ние се нуждаем от търсачката, сървър за бази данни (MySQL, firebirg.), Apache уеб сървър, [13] и за гигабайт дисково пространство за експлоатацията на комплекса.
Кои от търсачките да избера?
Има местни търсачки като Google Desktop Search [1] или Ask Jeeves Desktop Search [2]. Може би за организиране търсене в малка фирма или на работното място на потребителя, работещ под Microsoft Windows, тези двигатели могат да бъдат полезни, но не и в този случай. Търсене "чудовища" като Yandex е много скъпо, но ако искате качество помогне на разработчиците, големи компании, може да се наложи да се мисли за отдаване под наем. За * никс-семейство, има няколко проекти. Това двигатели:
Тези двигатели са разположени както двигателите отворените търсене източник за работа в местни и / или WAN мрежи. Бих искала да отбележа, че много от проектите не мултиплатформена и не се показва на операционна система на Microsoft. Има от страна на сървъра решения, като например за Windows-базирани системи: MnogoSearch и "Snoop" [8].
Така че, помислете за кратко търсачките по * никс-платформа:
MnoGoSearch (бивш UdmSearch) - известен на мнозина и е често срещано явление двигател. Има версии, като под Windows (30-дневна безплатна версия) и под * никс-платформа (лиценз GNU). Възможност за работа с почти всички версии на SQL бази данни и за двете платформи. За съжаление, този двигател доста критики, така че аз го избрах.
DataparkSearch - търсене клонинг двигател MnogoSearch. Тя ви позволява да търсите и двете имена на файлове и тяхното съдържание. Обработка TXT файл, HTML-документи и етикети вградени mp3, за лечение на други видове съдържание, допълнителни модули документи. Можете да търсите информация за локалния твърд диск, както и LAN / WAN (HTTP, HTTPS, FTP, NNTP и новини).
Търсещата машина работи с най-честата SQL RDBMS като MySQL [10], Firebird [11], PostgreSQL [12] и други. Според разработчиците, DataparkSearch работи постоянно в различни * никс-операционни системи: FreeBSD, Solaris, Red Hat, SUSE Linux и други. В сравнение с MnogoSearch в двигателя са фиксирани някои бъгове, променили към по-добро, някои функции. разработчиците на уебсайтове и връзки към работния вариант на двигателя в интернет. Голям плюс - документация за качеството на руски.
Така че, сравнявайки "за" и "против" за изпълнението на търсещата машина на файлов сървър търсене DataparkSearch двигател е избран.
За работа, ние трябва: Apache уеб сървър, MySQL сървър за бази данни и изходните кодове DataparkSearch. Инсталирайте Apache сървъра и базата данни MySQL (с всички необходими библиотеки). Ако вашият сървър е друга база данни, можете да го използвате (вж. Документацията за двигателя). След това, ние разопаковате архиви DataparkSearch и пристъпи към монтажа на нашия комплекс.
Install.pl стартирате скрипта и да отговорят на необходимите въпроси: избор на инсталация двигател директория, бази данни и други параметри, свързани с работата на двигателя. Препоръчително е да оставите настройките по подразбиране. Опитните потребители, прочетете документацията се намира в папката док ръчно да конфигурирате двигателя (изберете командата). Ако инсталационния скрипт не може да намери MySQL, не може да бъде определен за библиотеки за развитие (libmysql14 дявола). Сега събира и инсталиране DataparkSearch команди правят и да се инсталира.
Създаване на база данни:
ш $ mysqladmin създаде търсене
SH # MySQL --user = корен MySQL
MySQL> Разрешете всички привилегии ON *. * ДО потребител @ Localhost
Идентифицирани от "парола" С предоставянето на опции;
Да предположим, че името на потребителя - търсещия, парола - QWERTY.
Сега indexer.conf създадете файл в / и т.н. / директория на двигателя, примери на файла (за някои задачи) могат да бъдат намерени в директорията / док / проби източник DataparkSearch. Пример за минимална конфигурация, показана на Фиг. 1.
Фигура 1. минималния набор от параметри indexer.conf
DoStore магазин сгъстен копия на индексирани документи. Секции - модул осигурява гъвкави индексиране функции. Да кажем, че можете да създадете ограничение на маркера или коригира индексиране не само съдържанието на файловете, но URL (хост, име на пътя). Langmap - специални езикови карти за кодиране и разпознаване на езици, за да бъдат ефективни, ако документите са по-големи от 500 байта.
Вторият желаната конфигурация на файла - резултати от търсенето файл search.conf. Препоръчително е да се вземе готов шаблон (файл /etc/search.htm-dist) и да го редактирате, за да отговаря на нуждите ви. Трябва да се отбележи, че основните параметри, представени в indexer.conf файл трябва да съответства на настройките в search.htm, в противен случай няма да има грешки в работата на двигателя. Search.htm се състои от няколко части: първата - променливи - съдържа данни за двигателя (search.cgi сценария) на и са необходими всички други единици за формиране на HTML-страници с резултати от търсенето. Пример променливи блокират в search.conf показано на фиг. 2.
Фигура 2. Минимални стандарти search.htm
Помислете search.htm повече. Както може да се види, параметрите и DBAddr LocalCharset съвпадат с еднакви параметри в indexer.conf. Ако вашият уеб клиент поддържа XML формат, можете да настроите ResultContentType текст / XML. По-долу са HTML блокове, необходими за проектирането на страницата с резултати, те не са представени тук, се дължи на големия обем. Препоръчително е да използвате готови шаблони, намиращи се в /etc/search.htm-dist файл. Придружаващата ги документация напълно описва формата на HTML блокове (дизайн), всеки може да го персонализирате по ваш вкус.
Сега можете да стартирате файла от папка показалец sbin двигател DataparkSearch на с -Ecreate параметър. Ако всичко е направено правилно, това ще се създаде необходимата SQL-таблиците в базата данни. Ако имаше грешки, трябва да проверите вашето потребителско име и парола в MySQL indexer.conf файл, това е най-често срещаната грешка.
За да тествате това се препоръчва да се индексират малка част от ресурса, за да видите, ако се появят някакви грешки, новият повторно индексиране не отнема много време. Индексирането се извършва показалец команда без параметри, в края на краищата, ние ще донесе резултати: изминало време, броят на документи и скорост.
Copy бин / search.cgi DataparkSearch файл от директорията, в CGI-бен папка на нашия уеб сървър и редактирате файла index.shtml ни Apache уеб сървър (който се намира в папката HTML), добавяне на търсенето код: