ПредишенСледващото

Автоматично обобщаване на текст

Превод от английски: Mashchenko Никита

Огромен ръст, и лесно достъпна информация за World Wide Web наскоро доведе до подновяване на класическите лингвистика задачи - кондензация информация текстови документи. Тази задача - обработка на данни. Този метод се използва ръчно от незапомнени времена, и за пръв път с помощта на компютър, използван в края на 50-те години. Информацията трябва да се основава на избора и съставянето или въз основа на важно съдържание и заключения в оригиналния текст. Най-новите научни познания и по-мощни компютри формират ново предизвикателство, което дава възможност за решаване на проблема с информационното претоварване, или поне да отложи решението си и да се намали негативното си влияние.

Има много различни дефиниции за това какво в действителност означава, позовавайки се на текстове. Например:
  • кратко, но точно представяне на съдържанието на документа;
  • дестилиране на най-важната информация от източник за производство на съкратена версия за определен потребител / потребители и задачи / цели;
Количествените характеристики, които могат да се определят основната информация включват:
  • семантичен информативност (може да се разглежда като мярка за способността за преструктуриране на основната информация на оригиналния текст);
  • последователност (показан като част от обобщението се прави с интегрирана последователност);
  • степента на компресия.

Историята, която е автоматична компютъризирана абстрахиране започна преди 50 години. метод Luna използва термина честота да се направи оценка на приемливостта на предложения за основна информация. Основната му идея е базирана на знанието, че основните думи, които носят голямата част от информацията не е твърде често и не е твърде рядко се повтаря в текста. Определяне на границите на значението на думите, чрез тяхната честота ще бъде въпрос на опит. Следващата стъпка е да се класира предложенията, които отразяват броя на значими думи и тяхното разстояние в предложението. След това изберете само един утайки малко по-значими резултати. Трябва да се отбележи, че мотивацията на Луната е служил като информационното претоварване.

Следващата значителния напредък е постигнат десет години по-късно. Edmandsona Джобс представи хипотезата на относително висока информационна стойност на фрази, изречения от началото и заключението на статията, изречения, съдържащи думата реплика и фрази като "важни", "резултати", "статия се занимава" и др Дори ако през следващите години донесоха допълнителни резултати, възраждането на тази област и значителен напредък е възникнала през 90-те. Този път е по-голямо използване на изкуствени методи разузнаване в тази област, както и комбинация от различни техники в хибридни системи. През новото хилядолетие, във връзка с разширяването на WWW изместен интерес към изучаването на обобщение на групи от документи, мултимедийни документи и използването на нови техники за намаляване на данни алгебрични.

1. Кратък преглед на методи на базата на класическите принципи

1.1 Пионерска работа

Първият подход за автоматично текст обобщаване използват само прости (равна повърхност) решения индексни кои части от текста, за да включи в основния текст. През 1958 г. той е разработен най-старото значение алгоритъм предлага основна идея е, че авторът ще се повтаря на определени думи, когато пишете за конкретна тема. Понятията, се счита за пропорционална на честотата им, получени в резултат на документите. Други параметри, използвани документи значение в присъствието на някои думи копия (т. Е. думи като "важно" или "подходящ") или думи, съдържащи се в заглавието. Комбинацията от копието на думи, думи, имена и позиции на предложения са били използвани за производството на екстракт беше демонстрирано от приликата им човешки писане на есе.

1.2 Статистически методи

В [] 4 е доказано, че релевантността на документа на условия е обратно пропорционална на броя на документите в корпуса, съдържащ план. Формулата за оценка на уместността на термина даден TFI х idfi, където TFI - аз термин честота в документ и idfi - честотата на документи, съдържащи термина. Предложенията могат впоследствие да бъдат избрани, например, чрез добавяне на релевантността на условия в изречение.

1.3 Методи, основани на възможностите на текст връзка.

Анафоричните изрази, които се отнасят до посочените по-горе части от текста, трябва да са наясно с техните предшественици, да се разбира. методи Добавяне може да не отразяват отношенията между понятията в текста. Ако предложението, съдържащо анафоричните връзка се отстранява без предишния контекст, в основния текст може да бъде объркващо. Сцепление включват връзката между изразите на текста. Те са изследвани чрез различни подходи обобщаване.

Нека припомним метода на лексикално верига, който беше въведен в [7]. Той използва WordNet речника за идентифициране на свързания връзката между условия (т.е. повторение, синоними, антоними, hypernymy и холонимия) и е верига от свързани състояния. Много от тях се определя въз основа на броя и вида на връзката във веригата. Само тези предложения, където най-силните вериги са силно концентрирани, избрани за основния текст. Такъв метод, където предложенията са избрани съгласно обектите се въвежда в [8]. Обекти идентифицирани система резолюция съвместно справка. Допълнителен Резолюция определя дали два израза на естествен език, на един и същ обект. Предложения, където събитието е често по обекти преодолява предварително определен лимит, включени в основния текст.

В групата на методи, базирани на свързаност на текста, можем да се даде възможност за използването на метода на риторичен Структура Теория (RST). RST - теория на текст организация. Тя се състои от няколко риторични отношения, които свързват заедно текстови единици. Отношенията свързват ядрото - което е от основно значение за целите на писателя. От отношения се състои представяне на дърво, което се използва за извличане на текст единица от основния текст. Окончателна оценка на предложението се дава сумата от теглата от корена към предложението. В [10], всеки родител възел идентифицира ядрени деца е от съществено значение. Деца допринасят за нивото на родител. Този процес е рекурсивно в дървото. разход Unit дадено ниво, което е получил след края на промоцията.

1.4 Методи повтаряща графиката

1.5 Сближаване за резюмета

заключение

Ние представи историята и състоянието на автоматично обобщаване област на обучение на текста. Ние плащаме най-голямо внимание, за да подходи въз основа на алгебрични методи за намаляване на емисиите. Тяхната особеност е, че те работят само с контекста на условията, и така те не зависят от определен език. При оценката на техники за резюмиране имат същото значение, както е правилно разбор. Годишна конференция за оценка на обобщаване DUC (Документ Разбирането Conference) е установила лидерство в текста на процеса на оценяване. Независимо от това, само напълно автоматична техника обобщаване - Руж [32], което сравнява едно лице, написани статии и текстове в системата според н-гр. Ние планираме да участват в DUC '08 с нашия нов метод за обобщаване, в основата на които ще се основава на тензора на LSA. Вместо двете измервания ще бъдат използвани три - условия, предложения и документи. Три размери вместо две, за да се използват - условията, предложения и документи. Метод Идеята е, че двете предложения са предназначени да бъдат близо един до друг в смисъл.

списък на източниците

Свързани статии

Подкрепете проекта - споделете линка, благодаря!