ПредишенСледващото

Основен курс:
Основи на професионална работа с информационни ресурси в Интернет

опровержение

Въпреки факта, че е направено всичко възможно, за да се гарантира, че документът е без правописни грешки, неправилна информация и остарели препратки към ресурсите на интернет, Санкт Петербург клон на Институт "Отворено общество" не носи отговорност за вреди, както пряко, така и косвени, които могат да бъдат причинени от използването на този документ.

Всички търговски марки са собственост на съответните им собственици.

Намиране на информация - задача, която човечеството решава много векове. С нарастването на обема на информационните ресурси потенциално достъпни за един човек (например, един посетител на библиотеката), са разработени по-сложни и усъвършенствани инструменти за търсене и техники, за да намерят необходимия документ.

На първо място, тези средства бяха подобрени в директориите и информационни отдели на големи библиотеки. В 70-те години на XX век е имало база данни, достъпът до които се осъществява чрез първата телефонна връзка, а след това с телнет по интернет. Цената на работа с тези бази данни е много висока. Например, една минута с база данни диалогов (www.dialog.com) може да струва долар, и на дисплея на елемент намери запис (от Пример 70) - 20 цента. Тази висока цена на търсене на информация изисква създаването на ефективни техники за търсене.

Изследване на методи за извличане на информация са публикувани в научни списания. В нашата страна - в списание "Научно-техническа информация" (STI) в Съединените щати - в списанието на Американската асоциация по информационни системи (JASIS).

Всичко се намира в много години, инструменти и техники за търсене на информация на разположение и ефективни в намирането на информация в Интернет.

Библиотеките използват главно три вида каталози: букви, системни и съдържателни. Извличане на информация система (IRS) в интернет, с цялата си външна разнообразие, и попадат в една от тези класове. Така че, преди да се запознае с тях IRS, нека да видим как да се изгради абстрактна азбука (речник), системно и при система за търсене. И това ще трябва да отговарят на все повече и някои от гледна точка на теорията за извличане на информация. Нашата екскурзия в теорията ще бъде полезно, когато се занимават с IRS веднъж (и в интернет има няколко стотин) - в тези IRS ще признае познатите функции.

Екскурзия в теорията
информационни системи за извличане

Това изискване на информация често е (обикновено) дори не може да бъде точно изразени с думи, и се изразява само в оценката на документи гледани - подходящ или не са подходящи. В извличане на информация теория вместо думата "подходящ" използването на термина "приложимост на документа", но вместо "не се вписва" - "не е уместна." Думата "принадлежност" идва от английски "уместни", което означава ", отнасяща се до случая, в действителност е необходимо." Субективна разбиране за целите на търсене на информация - намерите всички уместност и само уместността документи (ние искаме да се намери "само това, което искаме, и нищо повече").

Когато много документи, използвани извличане на информация система (IRS). В този случай, информацията трябва да бъде изразен с помощта на който "разбира" данъчните служби - трябва да бъдат формулирани ИСКАНЕ:

Запитване рядко може точно да изрази информация необходимостта. Въпреки това, много от данъчните служби по различни причини не може да се определи дали определено искане за документ. Степен на съответствие с искането на документа се нарича значение. Съответният документ може да бъде nepertinentnym и обратно. Известен (САЩ) IPA, което е искане, състоящ се от една-единствена дума "Русия" (Русия), дава списък на документите, първият от които думата не е на всички, но има една дума "Гагарин". Този документ не е от значение, но pertinenten за включване на американската публика. В случай, че търсите информация за куката (котки), заявката се състои от думи "котката", в почти всяка IRS ще даде много уместно, но nepertinentnyh документи.

Класически пример на системата за класификация и извличане - Yahoo (www.yahoo.com). Едва ли се появи, Yahoo бързо печели признание качествено изследване на класификатора. Сега Yahoo има повече от 100 биореактори.

Това не е лесна задача. Има една професия, за да реши този проблем - преводачи. Един добър преводач превежда не само на думи, но и това, което се нарича "културни реалности." В случай на информация, търсене на подходяща професионална нарича "информационен посредник." Той е собственик kognitologicheskimi техники, знам как да се изгради класификатори и как те интерпретират систематици. Това знание позволява на информация брокер да говоря с вас, за да проучи вашата нужда от информация и да я превърне в поискване. Библиотеки такива "информационни брокери", работещи в информацията и библиографска отдел. Информация за брокери на интернет в страната ни са открили, въпреки че все още е рядкост.

Тези техники се използват в ситуации, в които документът може да се поставят в една от няколко секции на класификатор, и лицето, извършило търсене (търсачка) не може да знае до каква точно част.

Референтен се използва, когато създателите на класификатора и систематици в състояние да направят ясно решение се позовава на документа в един от разделите на класификатора и търсачката с определена степен на вероятност в търсенето на документа, за да излязат от тази секция. След това в този друг раздел поставя препратка ( "виждат".) В раздела на класификатор, който всъщност съдържа информация за документите от този тип.

Например, една карта на информацията на страната може да се постави в "Наука / География / Country", "Икономика / География / Страна" или "Референтен / Карти / Country". Решението е направено, че картите на държави са поставени във втората секция "Икономика / География / Country"; докато в други две препратки към раздел са поставени в нея. Тази техника е широко използван в IRS Yahoo (означен чрез препратка в неговата @ знак).

Класификация и възпроизвеждане на данни в Интернет много (някои споменати в резюмето на IRS в края на статията). Голям класификация и система за възстановяване (Yahoo в САЩ. Европейската Жълт Web. Russian Съзвездие Интернет и Au) с помощта на спомагателен речника IRS на собствените си позиции (аналози библиотека индекси). Друга класификация и система за възстановяване, просто съществува във връзка с IPA речника тип (Excite, Lycos, Infoseek).

За щастие, въпреки изобилието от думи (и фрази) в областта на естествените езици, като повечето от тях се използват рядко, беше отбелязано, учен лингвист Zipf в края на 40-те години на века. Освен това, най-често използваните думи - то съюзи, предлози и предметите, т.е. думи са безполезни, когато търсят информация. В резултат на това най-големия речник речник IRS Интернет -Alta Vista - има обем от само няколко GB.

Вместо да казва "Документите, съдържащи думата" маса ", или документи, съдържащи думата" стол '', използвани съкратеният израз е показано на фигурата. Допълнително намаляване на експресията открити в системата за извличане речник на езика на заявката: вместо "Намери списък на документите, съдържащи думата" маса "или документи, съдържащи думата" стол '', по-голямата част от извличане на думата система е достатъчно, за да напиша нещо подобно

Съюз или в заявката за речника IPS действа като логически оператор, свързване на множество от желаните документи. Речник IRS използва три логически оператори: OR, AND и И-НЕ ( "без"); Като правило, тези твърдения са идентифицирани по следните начини:

Тези оператори имат приоритет (главно изпълнява, а не, тогава - и само тогава - OR) (. Единственото изключение е, че вместо Infoseek IRS скоби използва други наименования), така че при съставянето на сложни заявки могат да използват скоби. Като правило, речник IPS Интернет предоставя на потребителите два интерфейса - режим "комплекс поискване" (разширено търсене "), които са на разположение на всички логически оператори и прост режим на търсене, в което, като правило, не е възможно да се използва на скоби и, следователно, може да се използва не всички комбинации от оператори.

Нека да разгледаме един хипотетичен пример за търсене на информация за масите. По отношение на случаите на думата "маса" и познанията ни за логически оператори, призив към речника на системата за извличане може да изглежда така:

маса или бюро или маса или бюро или маса

Е, това е само една дума, но писането е доста тъжна.

Western IPA фокусирани върху английския език, предлага едно просто решение: вместо думата можете да напишете своето начало, да замени променливата част със звездичка:

Формално погледнато, звездичката замества произволен брой символи, така че те се каже, че тя представлява десния отрязване. Обадете се на думата наименование "маса *" език не се включи, така че за тези части на логически изрази заявките използваното име условия. Звездичката за тази цел (вдясно отрязване), прилагана от всички известни речници Интернет IPS.

Въпреки това, такова искане ще намерите и документи с думите "хранене", "маса върха", "главен писар" и дори "пост". Това явление - изкуствен sinonimija - може значително да попречи на търсенето, но проявлението му често е невъзможно да се предскаже предварително.

Два руски IPS (Yandex и КСО) "знаят" Руска граматика и речник за съхраняване само на така наречената "нормална форма" дума (за съществително - именителен единствено число). Тези системи позволяват искането за писане на естествен език, нормализиране на условията на заявката, като по този начин значително се опростява търсенето на руски интернет.

Описани възможности за извличане на думата система, макар и доста мощен, често са напълно недостатъчни, за да търсите дори много основна информация. Нека се опитаме да решим следния проблем: да се намери информация за продажбата на метални столове:

* Метални и столове *

Но това искане се среща с ценова листа дружество за търговия, която продава ракита дървен стол (втора линия на ценовата листа) и метален шкаф (линия 178 каталожна цена). И търсения на оператора за документи, в които думите за търсене да се появят навсякъде!

За да се отговори на този проблем, някои IRS не се съхранява само на списък на документите, в които думата, но също така и на броя на думите в даден документ. Това позволява език, за да се използва IPS БЛИЗО оператор, който решава проблема:

Метален стол * * NEXT

Много IRS не позволява да се напише такова искане - не им се разрешава да се използват термините с дясната отрязване заедно с редица оператор (само на думи), но това ограничение е постепенно да се премахват, - следвайте информацията за специфичните IPS.

БЛИЗО оператор в различни IRS, определен по различен начин (тя е на разположение в Alta Vista. Lycos. AltaVista и Yandex. Както и IPS DejaNews телеконферентна връзка. И различни наименования се използват във всички от IRS). Освен това, в различни IRS може да има различни значения. Така че, Alta Vista вярва, че близо - това е не повече от 15 думи в произволен ред, а други IPS позволяват да определите необходимото разстояние между думите (точно както-е или не е повече от определен брой). Lycos позволява да определите разстоянието и желания ред на думите. Sic дава възможност да посочите разстоянието между думите в думи и изречения; Yandex - с думи и абзаци (с възможност за посочване на реда на думите следват).

Американската сървъра IPS Alta Vista (www.altavista.digital.com) предоставя уникален начин да прецизирате резултатите от търсенето. Този метод работи само ако се използват само английски термини в заявката.

Когато кликнете върху бутона Сложно има списък от понятия, които се случват в новооткритите документи. Всяка концепция Alta Vista свързва списък на думи, които са непосредствено видими. Всяка идея може да бъде включено в новия искане да бъдат изключени от него или да го игнорирате. Това само по себе може драстично да подобри ефективността на търсене чрез премахване на концепцията за не-желаният обект площ, а това съжителство с условията често сте използвали трудно да се отгатне.

Ако браузърът се използва Java, а след това с натискане на графиката. ще видите диаграма на връзки между понятия, и в допълнение, да може да се включва или изключва от разследването не е само концепцията на цялото, но някои думи, свързани с тях.

Относно IPS с точка на потребителя на преглеждат най-проста структура. Потърсете името на обекта на интереса си (темата може да бъде нещо, без значение като индийска музика), а името на свързания списък на съответните ресурси в Интернет. Това би било особено полезно, ако пълния списък на предметите, е малък.

Така че това беше преди известно време. Web-майстор, занимаваща се с един предмет, започва да се сложи на техните сървъри връзки към колегите сървъри, създаване на кръгова препратка структура.

Ясно е, че за да намерят най-подходящия обект на интерес в момента е лесно. www.webring.org получава своето дъщерно IPS - Класификация и речник, за да ви помогне да намерите името на обекта.

Дайте обща рецепта за ефективно търсене на информация стратегия в интернет, може би, е невъзможно. Има някои принципи, които да прекарват по-малко време. Ще се опитам да ги обясня.

Ще започна с един пример. Ако имате нужда, за да разберете, където дървото расте боровинки, че е малко вероятно, че ще отида в азбучен каталог на библиотеката. Може би ще намерите необходимата литература, използвайки систематичен каталог. С помощта на няколко по-вероятно - чрез обект. Но, най-вероятно, никой от директориите на библиотеката няма да ви помогне. Но отидете на информационно-библиографска отдел на големи библиотеки, и ще получи задължение библиограф библиография на храсти или някаква подобна книжка, от която сте и ще намерите отговор на въпроса си.

Подобна стратегия може да се използва успешно в интернет. Общата цел на ИПП е възможно да потъне хиляди справки, издадени до вас на обикновена молба. Целта на помощта на универсално търсене и извличане на система с общо предназначение, може да се специализира IRS, посветен на темата за вашето търсене. Такава ИПП може да бъде разпознат от думите "информация (информация)", "документ (документ)" и т.н. в открити в универсалните документи IRS. Но често специализирана IRS може да се крие от обществеността на сървъра, професионален или специализирана организация, издатели.

Понякога трябва да търсите множество информационни системи с по-тесен тема. Един ден аз бях помолен спешно да се намери информация за продажбата на плавателни съдове за сухи товари (на английски език - бункер). Query в Alta Vista (просто търсене)

Той даде нулев резултат; разследване

хиляди връзки към страници, посветени на продажбата на лодки и яхти (въпреки това, уловени и една баржа). А внимателно проучване на първите няколко страници от списъка с резултати от търсенето, показва, че думата "морски (море)" е често присъстват в открити текстове. И тогава си спомних, че има една дума "морски" на английски език, което означава "всичко в морето". разследване

вече е сред десетте най-големи връзки, които се съдържат в линка, разположен на www.GeoCities.com информация на тема системата за морска. Но информацията в него за продажбата на сухи товари не беше. Но беше информацията за изпращането на сухи товари от пристанищата на света, включително и информация за собствениците на кораби. Много от компаниите - собственици на кораби, са имали в своето наименование думата "корабните брокери (търговци съдилища)." Това английски израз аз не знам. Въпреки това, искане до Alta Vista

Третият елемент от стратегията: използвате няколко IPS. Ако редовно търсене на информация по всяка тема, маркирайте ИПП. че работят най-добре за вас.

Свързани статии

Подкрепете проекта - споделете линка, благодаря!