класификация на документи

Подходи за класификация на текстове

Има три подхода към проблема с текст класификация [1].

На първо място, класирането не винаги се извършва от компютър. Например, предметни рубрики, възложени библиотечни книги ръчно в конвенционален библиотека. Това ръководство класификация на пътя и не се прилага в случаите, когато това е необходимо да се класира на голям брой документи с висока скорост.

И накрая, на трето подход се основава на машинно обучение. При този подход, набор от правила, или, по-общо, критерият за вземане на решение за текст класификатор се изчислява автоматично от данните за обучение (с други думи, изработени обучение класификатор). Образователна информация - това е един добър брой образци на документи във всеки клас. изучаването на машината остава нуждата от ръчно маркиране (маркиране на срока се отнася до процеса на отчитане на класа документ). Но маркирането е по-лесен задача от написването правила. В допълнение, маркировката може да се извърши в нормален режим на системата. Така например, в програмата за електронна поща може да е възможно да маркирате съобщения като спам, формирайки по този начин на обучение, определен за класификатор - филтър за спам. По този начин, класификацията на текст въз основа на машинно обучение, е пример за контролиран живот. където ролята на учителя действа като човек, който определя набор от класове и бележи тренировъчната.

Има известно първоначалното събиране на маркиране документи R ⊂ C × D> \ подгрупа> \ пъти >>. за които стойностите на Φ. Обикновено тя е разделена на "обучение" и "проверка" на. Първият се използва за обучение на класификатора, а вторият - за независима проверка на качеството на работата си.

Индексиране на документите Изграждане на числен модел на текста, например под формата на многомерен вектор на думи и теглото им в документа. Намаляване на размера на модела. Изграждане и обучение класификатор може да се използва най-различни методи за машинно обучение. дървета на решения. Наивно Бейс класификатор. невронни мрежи. и подкрепа вектор машина и др. Оценка на класификация на качеството може да бъде оценено за критериите за пълнота класификатори точност сравняват при специални тестове.

Наивно Бейс Модел

Наивно модел Бейс е вероятностен метод на преподаване. Вероятността Документ Г попадат в клас С се изписва като P (в | г). Тъй като целта на класифицирането - да се намери най-подходящия клас за документа, наивен задача Бейс класификация е да се намери най-вероятната клас см

Изчислете стойността на тази вероятност не може пряко, тъй като тя трябва да се съдържа набор обучение на всички (или почти всички) от възможните комбинации от класове и документи. Въпреки това, с помощта на Бейс формула, можем да пренаписване на експресията на Р (С | г)

където знаменател Р (г) е пропуснат, тъй като е независима от с, и по този начин не влияе на определянето на максимално; Р (в) - вероятността, че отговаря на клас С. независимо от документа; P (г | в) - вероятността от натъкват на документ, г сред клас в документа.

Използването на снимачната площадка на обучение, вероятността P (в) може да се определи като

където N в> - броят на документи в клас С. N - общ брой на документи в тренировъчната. Тук използваме различен признак за вероятността, тъй като с помощта на набор от обучение може да се оцени само вероятността, а не да се намери точната й стойност.

За оценка на вероятността P (г | в) = Р (т 1. 2. т т п г | в), t_. т _> \ средата в)>. където т к> - елемент от документ г. п г> - общ брой на елементите в документ (включително повторение) трябва да влезе опростените предположения (1) на условно независимостта на елементите, и (2) независимостта на позиция елементи. С други думи, ние се игнорира, от една страна, фактът, че текстът в естествен език появата на думата често се тясно свързан с появата на други думи (например, вероятността, че думата неразделна се срещат в един текст с уравнението на думата. Than с думата бактерия) и второ, че вероятността за намиране на една и съща дума, е различен за различните позиции в текста. Това е така, защото от тези брутни опростявания този модел на естествения език се нарича наивен (все още е доста ефективен при класификация на проблем). Така че, с оглед на предположения, като се използва правилото за умножение на вероятностите за независими събития, можем да запишем

Р (г | в) = P (T 1. 2. т ... TND |. В) = Р (т 1 | в) P (т 2 | в) ... Р (TND | в) = Π к = 1 ри P (TK | в). Т _ \ ldots, т _> \ средата в) = Р (t_ \ средата в) P (t_ \ средата в) \ ldots P (т _> \ средата в) = \ про _ ^> Р (t_ \ средата в) .>

Оценка на вероятността P (т |) с помощта на набор обучението ще

където T ct> - броя на елементите тон за събития от всички класове С (както и всяка позиция - е от съществено значение да се използва втората опростяване предположението, в противен случай ще трябва да се изчисли тези вероятности за всяка позиция в документа, които не могат да се правят достатъчно точно поради оскъдното наличие на данни за обучение - трудно е да се очаква, че всеки елемент се срещна във всяка позиция достатъчен брой пъти); T в> - общият брой на записите в документа клас в. При изчисляването се взема предвид всички повторно влизане.

След квалификациите "обучени", т.е. намерена стойност P ^ (в)> (с)> и P ^ (т | в)> (т \ средата в)>. можете да намерите класа на документа:

За да се избегне бъде незареден в последния формулата по-долу, поради големия брой фактори, на практика обикновено се използва вместо сумата на продукта на логаритми. Логаритъм проблем не се отразява върху определянето на максималните като логаритъм е монотонно нарастваща функция. Следователно, в повечето изпълнения, вместо последната формула използва, е както следва:

Тази формула е проста интерпретация. Шансовете класифицира документ честото клас по-горе, а терминът дневника ⁡ P ^ (в)> (с)> допринася за общата сума на съответните вноски. Стойността на дневника ⁡ P ^ (т | в)> (т \ средата в)> е по-голяма, толкова по-важният елемент на тон за идентифициране на Клас C. и, съответно, на теглото на техния принос към общата сума.

Наивно Бейс Модел

Свързани статии