Особености на прилагането на съхранение на документи и механизми за извличане

Предишен ◈ Следващото

Изисквания за системи, насочени към спестяване и ефективна обработка на неструктурирани или semistructured данни доведоха до друг през 1970 г., отделен клон на системи за управление на база данни на софтуера, на основата на какви документи информационни системи.

Въпреки това, теоретични изследвания на извличането на информация от документи, започнало през 1950 - 1960 г., за съжаление, не са получили такава строга, пълна и в същото време технологично осъществими данни и модели за обработка, като на релационния модел на фактическите системи. Не е получила като стандартизация и многобройни опити за създаване на така наречения универсален език, извличане на информация за формално описание на семантичното съдържание на документи и заявки за търсене в тях.

В момента, информационни системи за извличане са широко използвани в електронните правни системи, библиотеката, интернет и други системи.

Въведение и глави 1, 2, 3, 4 са написани AT Tyazhevym Глава 5 - TT Osipova, глава 6, 7, 8 - RR Fokine, глава 9, както и въпроси за самоконтрол - MA Abissovoy.

Глава 1. Видове информационни системи за извличане. ОБЩИ ХАРАКТЕРИСТИКИ

Извличане на информация система (IRS) - информационна система (IS), едно копие на отделни елементи и инструменти, разработени с тяхното търсене и подбор.

IPS модули са интегрирани в почти всички съвременни софтуер.

Сред огромния брой файлове на всеки диск, ние можем да намерим необходимите файлове.

опитайте да намерите на диск D: WORD файлове (* .doc, * .rtf), който съдържа твърдения, меморандуми, обяснителна, за IPS материали.

В дългосрочен текст (резюмета, разбира се, дипломна работа), можете да намерите точното място за нас в текста, ако си припомним една дума на това място. Може ли всички срещания на текста в една дума заменя с друга дума.

намери някакъв WORD файл (* .doc, * .rtf), и по този файл се направи замяна на това, което някои от техните 10 думи синоними.

IPS върху CD-DVD ДИСК

има лазерен диск и инструкции относно инсталирането на съответния IRS на вашия компютър. Сред тях, например:

- Най-отгоре на Санкт Петербург

- област Top План Ленинград

- За да ти дойде да се тества

- Как да си намеря работа

- Изборът и тайните на цифрови фотоапарати

- Подбор и тайни на ски и сноуборд

Нека да поставим данъчните служби на една от нашите компютри.

На разположение в Интернет най-мощните IPS.

Търсачките Rambler (www.rambler.ru), Yandex (www.yandex.ru) и т.н., се използват основно за да намерите конкретни сайтове. Тези интелигентни IPS. Ако попитаме, за да намерите сайтове с думата "пилот", тя също така ще се намери сайтове с думата "пилот", и във всички случаи.

Най-известните обекти (фирми, библиотеки, история и т.н.) са IRS за търсене на информация в рамките на този сайт. Ето някои примери:

Фигура 1.1. Класификация по вид на IRS елементи индивидуални данни

Според вида на единични клетки се разделя на данните IRS и фактически документални (фигура 1.1).

Фактографска IPA - информационни системи, при които един елемент от данни и да има отделна семантична стойност е пост. образуван от ограничен набор от атрибутите области.

Например, в записа на достъп може да се състои от следните области (виж Таблица 1.1).

Таблица 1.1. достъп рекорд

Операция фактическа IRS изисква нито първоначално структурирани данни (доклади сензор към системите за контрол на процесите, финансово-счетоводни масиви ИС и т.н.), или предварително структуриране на данни. От това произтичат фактически недостатъци на IP:

- често структуриране на данни изисква много режийни, в това число и организационни разходи, водещи до информационни материали на разходите,

- откъс от текста на формализирани позиции за поставяне в фактическите ИС може да доведе до грешки и загуба на част от информацията, която оригиналния източник е на разположение, но поради липсата на данни, съответстващи елементи от данни в него не могат да бъдат отразени.

Наскоро получи приоритетни документални IPS.

Документален IPA - информационни системи, единица елемент от които е по-малки елементи неструктурирани документи.

Обикновено това текстови документи в текстови файлове, въпреки клас неструктурирани документирани данни могат също да включват аудио и графични файлове.

Основната цел на документалния филм е натрупването на IP, и предоставяне на документи на потребителя, че съдържанието, темата, както и други подробности. Запознайте се с нуждите си от информация.

Информация нужди - съзнателно разбиране на различията в индивидуалните знания, определени от разликата между субективното възприятие на предмета на дейност и нивото на познания по тази тема, натрупани от обществото.

Коментари: новини, търсене - това е, информация, която е необходима за потребителя.

Уместност нарича съвпадение намерени документи с информация нужди на потребителя.

Коментари: Намерих и възпроизвеждане на данни не може да отговори напълно на нуждите на потребителя.

Особености на прилагането на съхранение на документи и механизми за извличане

В зависимост от конкретното изпълнение на съхранение на документи и възпроизвеждане на данни и документални търсачки са разделени на системи, базирани на индексиране и семантично навигационни системи (Фигура 1.2).

Фигура 1.2. Видове документални IPS, в зависимост от конкретната реализация на съхранение на документи и механизми за извличане

документи семантично навигационни системи поставени в хранилище (база), оборудвани със специални инструменти navigatsionnymikonstruktsiyami. съответните семантичните отношения (за справка) между различните документи или отделни фрагменти на документа. Такива проекти се приложат някои семантично (семантично) мрежа в документа за база данни. Търсенето се извършва по изрично навигация семантичните препратките между документите. В момента този подход се прилага в хипертекст ИПП.

Индексирането - описание на съдържанието с помощта на формализирана информация език.

Документ Търсене на изображения (AML) е формализирана описание на индекса на документ.

Заявката за търсене на изображението (PAHO) към основния документ е израз на своята потребителска информация се нуждае от медиите и на езика на пространството на търсене.

Системата се основава на определени критерии и методи, които търсят документ, който съвпадат или са близки REF, и извежда съответните документи.

Коментари: Има широк спектър от информация - самите документи. Налице е трудно да се намери нещо. Ние събираме Index - малко информация за лесно извличане. Това е индексиране. Примери: Малък информация (индекс) - карта на района. Голяма част от информацията - това е самото пространство. Малък информация (индекс) - таблица на съдържанието. Голяма част от информацията - това е самата книга. Нека да има книга за художниците. Съдържание лесно да намерите информация за това кои страници, например, Шишкин. В този случай, документите - една глава от книга, търсене пространство - това е таблица на съдържанието, за търсене на изображения на документи (СОД) - това е таблица на съдържанието. Заявка за търсене на изображението (PAHO) - думата Шишкин, ние търсим за съдържанието на елемента с тази дума.

Фигура 1.3. въз основа на индексната система

Подходящи наречени съвпадение намерени документи с искане на потребителя.

Коментари: Самото искане е различен от образа на заявка за търсене (PAHO)? Искането се формулира и се разбира от човек. Например: Аз съм се интересуват от документите в Интернет, твърдейки, че американците до Луната - измислица. PAHO е формулиран така, че да "се разбира" на машината. Например, като набор от ключови думи: луна полет измислица американци. ПАЗО не могат напълно да се съобрази с искането.

Свързани статии