ПредишенСледващото

Презентация на тема: ".. тезауруси 9.1 Основни принципи на развитие, създаване и използване на традиционна извличане на информация синонимен речник thesauruses Примери .." - Препис:

1 9.1. Енциклопедични речници. Основни принципи на проектиране, създаване и използване на традиционна извличане на информация синонимен речник. Примери тезауруси.

Представяне на 9

2 концептуална основа система домейн на всеки домейн е концепцията на системата в района. Определение: Концепцията - идеята, че отразява в обобщен вид обекти и явления на действителността, чрез фиксиране на техните свойства и отношения; последните (свойства и отношения) да действа като концепцията за общите и специфичните симптоми корелира с класовете на обекти и явления (езикови речници)

Представяне на 9

3 Концепции и термини, за да изразят идеята за предметната област в текстовете са думи или фрази, наречени условия. Наборът от домейни от гледна точка на неговата форма терминология система. Съотношението на определен срок определението домейн други термини terminosistemy дадено от

Представяне на 9

4 Определенията на срока? Word (или комбинация от думи), което е най-точното описание на определена представа за специална сфера на науката, технологиите, изкуството, социалния живот и т.н. || Специална дума или фраза се разбира SMTH. в различна среда, професията (Great речник на българския език)

Представяне на 9

5 Термините - точните имена на концепции обикновено всяка концепция площ съответства на най-малко един недвусмислен срок, стойността на които тя е концепцията. - условията, в смисъла на традиционната теория на термини, терминологични Имоти - точните имена на понятията - срокът трябва да се отнасят пряко към концепцията, тя трябва да изразяват идеята е ясна; - значение на думата трябва да бъде точна и не трябва да се припокриват в смисъл с други термини; - значение на думата не трябва да зависи от контекста. Условията, точното име на концепцията, - предмет на терминология, научните изследвания теория, терминология

Представяне на 9

6 Текст От гледна точка на недвижими текстове домейн да се позова на концепцията, в допълнение към основните понятия, може да се използва голямо разнообразие от езикови изрази, които наричаме текстовите условия: - синтактични и словообразуване варианти: получателят на бюджетни средства - бюджетни средства; - лексикални варианти - директен дебит, безспорен отписване; - мулти-ценен израз, в зависимост от контекста, изпращане на служители на различни концепции на изкуството, например, валутата на дума в различен контекст може да означава националната валута или чуждестранна валута.

Представяне на 9

7 Стойност план концепция понятие недвусмислено заглавие = срок по смисъла на условията на терминология Текст

Представяне на 9

8 Информация за извличане извличане на информация синонимен речник синонимен речник - контролиран речник термини в домейна, който е създаден, за да се подобри качеството на извличане на информация в тази предметна област

10 Примери за тезауруси синонимен речник на ООН - UNBIS синонимен речник синонимен речник на Европейския съюз - EuroVoc синонимен речник на Конгреса на САЩ Research Service - LIV СССР -Pravovoy речник -INION -Shemakin "Технически речник» стандартите ISO, ГОСТ

Представяне на 9

11 Традиционен извличане на информация синонимен речник за ръчно индексиране: Структура Концепции Софтуер - дръжки Условни синоними - askriptory - за еквивалентност отношения askriptor - дръжка отношенията между описания

13 Описания с носилки Litter - част от крановете на тези маркери (подемни съоръжения) спрямо кранове (птици) черупки (конструкции) - Сравнение на различни тезауруси Предпочитания фрази: -Phonograph записи срещу записи (фонограф) котило и множествено число: Дърво (Материал) Уудс (гористите райони)

Представяне на 9

14 Избор на заглавие тагове е известна, както и честотата на използване на неутралитет: развиващи се страни срещу слабо развитите страни от други източници: речници, законодателство, тезауруси Местни бюджет - бюджетът на общината

15 Смяна на името на ЕВРОВОК-2 срещу пълната форма Намаляване на неологизми, жаргон, жаргон Търговски марки - срещу Аспирин, Xerox общоприето и научно име на привлечените думи

16 Включването на описания на базата на срока на многословни изрази Разделяне увеличава двусмислие: растителна храна смисъл на израза зависи от реда на думи: Информация наука - научна информация Една от думите компонент е извън обхвата на речника или твърде общи: първа помощ ЕВРОВОК Взаимоотношения не следват от нейната структура: - изкуствени бъбреци, статут на бежанец, светофари

17 йерархични отношения на генерични взаимоотношения често са число -Authority тяло -Geograficheskie на обекти -Distsipliny -hierarchical структура (полк - батальон - фирма) Съотношение на примера: - Хималаите - Планина

18 Асоциативните взаимоотношения индустрия - актьор -Matematika - Математика Дисциплина - -Nevrologiya обект на изследване - нервната система действие - агент или инструмент -Hunting - Хънтър Действие - резултат от -Tkachestvo - плат действие - гол -Perepletnye работи - книга причинно-следствена връзка - смърт - размерът на погребението - единица силил измерване на ток - ампера действие - -Allergen насрещна - антиалергично лекарство, и т.н.

19 Информация за извличане речник: етапи на развитие Първи етап: индексатори описват основната тема на текста произволни думи и фрази са получили много текстове условията събраха сред семейството по смисъла на термините избран най-представителните Някои от останалите синоними са условни, а останалата част се изтриват Специфични условия обикновено не са включени

20 Информация за извличане речник: развитието на изкуството на описания - условия, които са необходими за изразяване на основните теми на синонимите на документа включва само най-необходимото (например, започнете с различна буква), така че да не пречат на работата на условията на Indexer Свързани трябва да се намали до един мандат, за да се избегне нива на индекса субективност на йерархията, включването на специфични термини са ограничени

22 Информация за извличане речник: да се използват връзките показалец избира най-точната Характеристиката описващ съдържанието на Автоматично разширяване на заявката на документ. Проблеми с асоциациите

23 Традиционен IPT: прилагане на автоматичната обработка на липсата на знания за реалното език PONehvatka знания относно действителната езика на софтуер Законодателна Индексирането терминологичен речник: Законодателна Индексирането лексика: -в текстови войски - синонимен речник Въоръжените сили -в КАПИТАЛ текст - столицата, но столица в речника Предлага: Всяка ЕВРОВОК да допълнят списъците с думи и термини, предложени: всеки дескриптор за допълване на списъците с думи и термини, но: неяснотата на или във връзка с различните описания. Но: неяснотата на или във връзка с различните описания. Пояснения пояснение

24 Традиционен IPT: проблем автоматично търсене, разширяването с асоциации, предложен: за въвеждане на тегло, за да въведете теглото да въведете името на връзката: обекта, имота и т.н. въведете името на връзката: обекта, имота и т.н. ЗАКЛЮЧЕНИЕ: Необходимостта да се научите как да се изгради езикови ресурси специално за автоматична обработка на текстови колекции

25 синонимен речник Термин - многоезичен речник синонимен речник на Европейската общност на 9 езика руската версия Термин - + 5000 понятия, които отразяват спецификата на българския Многоезичен синонимен речник -Deskriptor - имената на различни езици -Askriptory - за някои езици

29 Въпроси към лекцията на основните видове отношения в IPT. Защо традиционната IPT малко служи за автоматично индексиране на текста. Използването на традиционни методи на IPT в автоматични технологии за обработка на текст (на заявка).

Свързани статии

Подкрепете проекта - споделете линка, благодаря!