ПредишенСледващото

Бейс алгоритъм класификация, базирана на знанието на априорни вероятности на класове и законите за разпределение на вероятностите на знаци във всеки клас. На практика, ние знаем само обучение примерни обекти. Предполагаме, вземане на проби елементи независими случайни величини със същото разпределение. Изисква се за пробата да се изчисли плътността на тази дистрибуция.

Необходимо е да се направи оценка на плътността на пробата от независими случайни вектори разпределени по този закон.

Има три основни подхода за оценка на вероятността плътност: непараметричен, параметрични и възстановяване на смеси от разпределения.

възстановяване непараметрични плътност

Ние приемаме, че общото мнение на функцията на разпределение е неизвестен, известна само на определени свойства - например гладка, непрекъсната функция. Тогава за оценка плътност се използва непараметрични методи за оценка.

Да се ​​изгради функция, която се доближава до неизвестен функция в определен смисъл.

метод хистограма оценка

Идея. ако - плътността на случаен вектор, където - мярката на областта. Ако - вземане на проби, - брой на примерни стойности, а след това

Така че - оценка плътност.

  1. намери ограничена област на пространството (обект пространство), съдържаща всички вектори от тренировъчната серия;
  2. разделена на не-припокриващи област;
  3. ако - броя на елементите от пробата за обучение, принадлежащи на района,

където - мярката на областта.

Оценката ще бъде в съответствие с някои избор. За съжаление, не съществува универсален метод за избор на области на оценка, за да бъдат богати.

Методи за оценка на местно

Идея. оцени плътността на мястото с помощта на проба обучение елементи, принадлежащи към определен квартал.

Нека - проба последователност на независими случайни вектори - региони последователност, съдържаща точка, - брой на проба от стойностите на пробите, принадлежащи към област.

Теорема. Ако функцията е непрекъсната във всички области съдържа точка и отговарят на условията,

функцията ще бъде безпристрастен, асимптотично ефективна и последователна оценка на плътността на мястото.

Има два основни подхода за избор на областите, съдържащи точката:

  1. parzenovskogo прозорец метод. Предполага редовни райони, мерки, които да отговарят на теоремата на базата на този определен брой.
  2. K-близкия алгоритъм съседи. Не е определена площ и брой, а след това да се отбележи решителен редовен област, съдържаща най-близките точки.

метод за оценка чрез сближаване функцията плътност

Идея. функция е приблизително чрез система от основни функции - оценка се търси като

Коефициентите са избрани така, че грешката при приближение е сведена до минимум, т.е.

В действителност, вместо безкрайна серия (1) се счита за най-добрата стойност на първите членове.

Като цяло, като се има предвид ортогонална базови функции на системата, използването на Legendre полиноми, Chebyshev, Hermite, Лагранж, Laguerre т.н.

възстановяване Parametric плътност

Ако общата форма на функцията за разпределение плътност на случаен вектор ξ е известно, в смисъл, че точната форма на функцията се определя напълно от набор от параметри, които могат да бъдат оценени от снимачната площадка на обучение, след това се прилага методи на параметрите за оценка плътност.

Известен общ вид на функцията на случайно разпределение вектор плътност зависим параметър вектор. Той е необходим за тренировъчната на векторни стойности на вектора да получи становище.

Максимална метод вероятност

Идея. намери вектор на параметрите, които

Нека плътността се дава от многовариантно нормално разпределение:

Тогава изчислите параметри и максимална вероятност за извадката, са както следва

Идея. ако - разпределението на плътността на случаен вектор, който процедурни въпроси са (вярвам):

Оценка може да се намери в извадката:

Оценка може да се намери от системата уравнения:

Ако zavisimot - непрекъснато, а след това - в съответствие оценка.

разпределения възстановяване смеси

Ако "форма" клас е доста сложно, а не "чувствителни", описващи методи на разпределение на възстановяване, които използват смеси raspreleny - описват клас от няколко дистрибуции.

Да приемем, че разпределението на плътността е под формата на разпределение на сместа:

където - разпределението на плътността на компонента Ith на сместа, - му априори вероятността. правдоподобие функции принадлежат към семейството на параметричен дистрибуции, и се различават само в стойността на параметъра.

Известен проба - независим случаен наблюдение на смес от известен брой и функция. Задължително да намерите оценка на параметрите.

Идея. изкуствено въведен в вектора на скрити променливи със следните свойства:

  1. тя може да бъде изчислена, ако стойностите на вектор параметър;
  2. Търсене максимална вероятност е силно опростена, ако стойностите на скритите променливи.

EM-алгоритъм се състои от итеративно повтаряне на две стъпки. От Е-стъпка изчислява очакваната стойност (очакване) на вектора на скрити променливи в текущия параметър приближение вектор. В М-стъпка, която решава проблема с максимално вероятност (максимално) и се съхранява следния сближаване вектор съгласно текущите стойности и вектори.

Повторения са спрени, когато стойността на функционалната където

или скрити променливи вече не се променят значително. Тя е по-удобно да се контролира скритите променливи, тъй като те имат чувство за вероятност и да се стойности в интервала [0, 1].

"Проблемите", които произтичат от прилагането на EM-алгоритъма

  • Проблемът за избора на начално приближение. Въпреки, че алгоритъмът за EM клони за достатъчно общи предположения, процентът на сближаване може да зависи в голяма степен от "добър" избор на начално приближение. Сближаване влошава, когато се прави, за да поставите няколко компонента в един виртуален разпределение клъстер, или поставете компонент по средата между гроздовете опит.
  • Проблемът за избора на броя на компонентите. Досега се предполагаше, че броят на компонентите е известно по-рано. На практика това обикновено не е така.

EM-алгоритъм с последователно добавяне на компонентите позволява да се реши и двете от тези проблеми. Идеята на този метод е, както следва. Като съвкупност от компоненти, можете да изберете обекти, които описват най-лошата смес - са обекти с най-ниски стойности вероятност. За тези съоръжения се строят и друг компонент. След това тя се добавя към сместа и тече EM-обхождане че новият компонент и старите "pritorlis помежду си." Това продължава, докато всички обекти няма да бъдат покрити компоненти.

непараметричен, параметри и разделяне на смеси: три подхода към проблема за определяне на разпределението на плътността са разгледани. Всеки от тях се използва при определени априорно познание на разпределението на плътността. Параметрични методи за възстановяване се използват, когато функцията за разпределение е известно, че в рамките на набор от параметри, които се оценяват на снимачната площадка на обучение. Непараметрични методи не изискват познания за функцията за разпределение в рамките на параметрите, но само на определени функции качества като мекота или приемственост. Ако формата е достатъчно класове "комплекс" тип, който не може да бъде описан един разпределение, след това се използват методите за разделяне на смеси, се приема, че разпределението на плътността в класа е смес от няколко разпределения.

Въпреки факта, че, както изглежда, всички подходи имат различен диапазон на приложимост и да използват различни методи на преподаване могат да бъдат изолирани и сходства между тях. оценка непараметричен плътност може да се разглежда като специален случай на граничната разпределение на сместа, при което всеки обучение обект съответства точно един компонент с априори плътност вероятност и сферични с център точка. От друга страна, подходът на параметри е краен случай сместа - когато се приема само един компонент. По този начин, всички три подхода различават, на първо място, количеството на добавката компонент в модела на разпределение :. Това води до качествени различия в методите на преподаване. Изискванията за създаване на компонент отслабени чрез увеличаване на техния брой. Възстановяване на смес от произволен брой компоненти е к, очевидно най-общ подход в Бейс класификация.

Вижте. Също насоки относно използването на MachineLearning.ru ресурси в процеса на обучение.

Подкрепете проекта - споделете линка, благодаря!