Перцептрон конвергенция теорема

Предишен ◈ Следващото

Този пример отговаря на две необходими условия, но все още няма решение. За да се получи желаният класирането за първи клас, е необходимо:

За правилното класифициране стимул № 1 до А-тегло елемент № 1 ще бъде положителен;
За правилното класифициране стимул № 2, член на тегло № А-2 ще бъде положителен;
За правилното класифициране стимул № 3 на сумата от коефициентите за претегляне A № елементи 3 и 4 № биха били положителни.

За да се получи желаният класирането за втори клас, е необходимо:

За правилното класификация стимул № 4, сумата от тегловните коефициенти А елементи № 1, № № 2 и 3 ще бъде отрицателно
За правилното класифициране стимул № 5, сумата от Коефициенти за претегляне A елементи № 1, № № 2 и 4 е отрицателен

Това показва, че ако имаме теглата за А-елемент номер 1 и номер 2 са положителни, както и най-малко един от тегла за А-елементи номер 3 и номер 4 е положителен, като по този начин можем да се гарантира, че сумата от броя на тежести 1 (+), № 2 (+) и № 3 (-) ще бъде отрицателно, но трябва в този случай теглото № 4 оставя положително и след това количеството № 1 (+), № 2 (+) и № 4 (+) не може да бъде отрицателен. По този начин, всеки стимул № 4 или 5 № стимул ще бъде класифицирана правилно. Това се нарича липсата на конвергенция в решаването на класификация.

В чист вид достатъчни условия Rosenblatt само описва по-късно в следната теорема, предложен Йосиф:

Теорема 9.
Като се има предвид начално перцептрон и класификация C (W). А необходимо и достатъчно условие, че методът за корекция на грешки за определено време и произволно начално състояние може да се постигне чрез решението се свежда до това, че трябва да съществуват ненулев вектор X * *>. такова, че за всичко, което оценяват отклонение б I (X *) = 0 (X ^) = 0>

но тъй като това е математическо представяне, макар и по-елегантен, но все още не е достатъчно да говорим за това, което е необходимо за изпълнение на условията по отношение на архитектура перцептрон, Rosenblatt горе доказва следната теорема:

Теорема 3.
Като се има предвид начално перцептрон, пространството W стимули и някои класификация C (W). Тогава за съществуването на решения за C (W) е необходима и достатъчна, че съществува вектор ф, който се намира в същата orthant като С (W), и вектор х, така че Gx = ф.

Но са почти три важни последствия от тази теорема:

Ако G - перцептрон специална матрица, т.е. матрицата, без обратна връзка (това се случва, когато му детерминанта е нула), може да има някои класификация който няма решения. В този случай, на сближаването на ученето перцептрон няма.
Ако броят на стимули в комплекта за обучение по-голям от броя на A-елементи в една елементарна перцептрон, а след това има и известна класификация, която да няма решение. Така горната граница се определя от броя на формалните неврони в скрития слой. Въпреки това, на практика достатъчно, за да има 60-80% (и най-малко 50%) от този номер, в зависимост от броя на паралелките, които трябва да бъдат класифицирани стимули.
Вероятността за съществуване на решения за произволно избран класификация с увеличаване на броя на стимули (което директно, съгласно второ изследване, което води до увеличаване на броя на А-клетки) клони към нула. На практика това означава, че в присъствието на от около 1000 А перцептрон елементи, вероятността, че неговата G-матрица е особено близо до нула, а увеличаване на броя на А-елементи като вероятност подходи нула.

Основната теорема на конвергенция Редактиране

В основния конвергенция теоремата на F. Rosenblatt показва, че съществуващите възможните решения могат да бъдат постигнати, а именно прилагането на алгоритъм за обучение с корекция на грешката:

Теорема 4.
Предвид елементарен перцептрон стимули пространство W и някои класификация С (W), за които е известно, че съществува разтвор. Да приемем, че всички стимули на W появяват във всякаква последователност, при условие че всеки стимул продължава над някои ограничен интервал от време. След това, корекция на грешки обучение (с или без квантуване на квантуване подкрепления), като се започне от произволно начално състояние, винаги да доведе до постигането на решения за C (W) по време на краен интервал от време. В този случай, всички входни сигнали за R - елементи достигнат стойности най-малко равни на някои произволна стойност г> = 0.

Допълнителна конвергенция теореми Редактиране

F. Rosenblatt показва какво характеристики трябва да има обучение алгоритъм, така че тя може да достигне до решение в редица на тези теореми.

В Теорема 5, това показва, че методът за корекция на грешки със случайни подкрепления знак, макар и по-малък от метода на коригиране на грешки, за скорост, но, въпреки това, може да достигне до решение.
В теоремата 6 е доказано, че S-контролирано обучението може да бъде получена от разтвор, но може да бъде нестабилна. И с R-контролирано обучение че няма смисъл да се говори за вероятността за сближаване на учебния процес.
В теорема 7 показва, че методът на корекция на произволни смущения (в действителност, метод за корекция без учител), при което се получават също така да се ускори метода за коригиране на грешки, осигурява решение за крайно време.
Теорема 8 показва, че може да съществува гама-перцептрон (перцептрон в което теглата на всички активни връзки първо се променят с равно количество и след това от теглата на всички връзки изваждат друг количество, равно на общата промяна в теглото на всички активни връзки, разделен на броя на връзки) решение, което той няма да може да се постигне.

Налице е краен автомат изпълнява функцията на умножи две двоични числа а и б произволна дължина

Марвин Мински даде някои от неговите доказателства перцептрон конвергенция теорема. Но той допуска доказателствата за да се прецени стойността на тегловните коефициенти, които са от съществено значение за поддържането им в паметта на компютъра, както и броя на необходимите корекции на претегляне коефициенти, което е важно при оценката на степента учене перцептрон.

За да се направи оценка на капацитета на паметта, необходима за съхранение на претегляне коефициенти при решаването на обучение предикат "паритет" Минск изхожда от следните съображения. За всяка униформа представяне фактори, необходими за | R | - 1 бит на всеки, където | R | - броя на точките за перцептрон на ретината. Това е следствие от факта, че това трябва да е теглото на най-големият фактор, че условията, за чието възникване на решения. А изисква редица фактори (максимумът е необходимо) 2 | R |>. Следователно, необходимостта от (| R | - 1) * 2 | R |> бита. Ако сравним тази цифра с това, което се случва, ако да си спомня всички възможни изображения, които могат да бъдат приложени към ретината на перцептрон, ще трябва капацитета = | R | * 2 | R | - 1>. При тези предположения, се оказва, че в продължение на тегло коефициенти капацитет перцептрон изисква почти толкова, колкото да си спомня всички възможни изображения.

За да изчислите броя на повторенията. е необходима основна перцептрон да се определи тежести, обучение Минск анализира предикат "паритет", който е един от най-сложните за теоретично перцептрон. Той взе перцептрон с възможно най-малък брой елементи А, и следователно с най-малък брой Коефициенти за претегляне, и в този случай са определени долна и горна граница за броя на корекции: 5 | R | . където | R | - броя на точките за перцептрон на ретината.

Ето защо, критиката на Минск срещу перцептрон сближаване показва, че:

ако е необходимо да се работи с доста голям резолюция на изображението, например 800x600 пиксела,
и е необходим за решаване на определен математическа функция, която зависи изцяло от всички точки (например паритет предикат, което не означава, че choten или не, докато сте прегледали всички точки на пространството серия)

на перцептрон ще изисква нереално голям паметта на компютъра и дълго време за обучение, независимо от факта, че теоремата на сближаване предполага определен брой повторения.

Тук трябва да се добави само, че не е необходимо да се намерят такива математически функции и отличителни черти от различни класове, дадени на изображението може да се намери само на малка площ, например, състояща се от 20 точки от 8000 възможни за по-голямата част от реалните задачи разпознаване на образи. Конструиране такива предикати на 20 елементи (предикати отговарят на А-елементи) може да се класифицира изображения без това всички техни характеристики (обикновено броят на предикат, както е споменато по-горе, е в рамките на 60-80% от всички изображения). Това навежда на извода, че броят на смислени изображения от определен размер на няколко порядъка по-малък от броя на възможните изображения. Ако не се изисква изпълнението на определени математически функции (смяна, ротация) на такива значими изображения, става ясно, че перцептрон могат не само оптимално забравяйте да класифицира серия от изображения, но също така и да се работи в известен смисъл с изображения с големи загуби, алгоритми за компресия. точно тях, отнасящи се до класа.

Свързани статии

Wick Теорема - физически енциклопедия