ПредишенСледващото

честота речника
Българска национална Corpus ЕЗИК: CONCEPT и технология на CREATION

FREQUENCY РЕЧНИК НА РУСКАТА национален корпус: ПРИНЦИПИ И ТЕХНОЛОГИИ

Речникът съдържа основната лексика на съвременния представител на българския език (2-то полувреме на XX. - началото на XXI век) При условие, информация за честотата на използване, статистическото разпределение на текстове и жанрове, за създаване на текстовете. Речникът се основава на текста на националния орган на обема на български език от 100 млн. Дискурс.

Таблица. 1. Функционални стилове на съвременния български език Subcorpus

2. Размерът на жилища и проба надеждността

Съществуващите честота речник на българския език са били построени в относително малки заграждения: първото поколение компютри не могат да работят с по-голям корпус. Интересното е, че теоретично препоръката разработен през 1970 (Piotrowski и др. 1972), също се оказа, че за надежден описание 1600-1700 най-често размерът на дума, достатъчно да използва тялото 400,000. Знаците. Този аргумент се основава на идеята на доверителния интервал, който се използва широко в статистиката и социология: ако знаем размера на извадката и експериментална вероятността на дадено събитие в извадката (т.е. честотата на нашия случай думата), можем да изчислим доверителен интервал на вероятността за това събитие в цялата население (т.е. честотата на използване на една и съща дума в цялото пространство на език).

Таблица. 2: Сравнение на честотата на отделните думи (жетони на милион средно).

Както можете да видите, теоретичната ръководството на адекватен размер на жилища в този случай не са твърде надеждни. Причината за това се крие в първоначалните предположения за нормално Гаусово разпределение на честотата на думи, при което всяка дума се среща със същата честота, във всички текстове. Ако думата се среща в текста веднъж, за нормално разпределение не се влияе от вероятността за използването му за втори път там. Но в действителност не е така. Всеки текст има някаква собствена тема, която е думата в текста ще се използва много по-висока от средната. Текстът за хобити хобитите думата ще се използва толкова често, колкото се може повече помощни думи, които значително ще увеличат честотата в тялото, които ще включват най-малко един такъв текст [1]. В резултат на това, списъкът с честота, изградена на основата на тялото, отразява спецификата на текстовете, които са дошли да го в изготвянето му.


където # 956; - средна честота на думи над тялото, # 963; - стандартното отклонение на честотата на отделните документи, п - броят на документите, в които се провежда на думата.

стойност D от думи в повечето документи, близо до 100, а думите често се срещат само в малък брой документи, близки до 0. Честота Lenngrena дори лексика списък е сортиран по стойността на продукта на средния коефициент на честотата на думите. Поради факта, че теоретичната статута на тази работа не е ясно, ние не смятаме, че е препоръчително да се справи нашия речник за него. Въпреки това, индикациите му за всяка дума дава възможност да се прецени дали е специфично за отделните области, предмет. Например, думи зловещ специфични и суровини са приблизително равни на честотата (21 консумацията на милион на думи), но съотношението D в специфична - 66, изходна суровина - 18, докато странна - 78, което означава, че последната дума е от значение за по-голям брой домейни и (при равни други условия) има големи шансове да се поставят неспециализирани речник.

3. Структурата на речника

речника концепция включва публикуването на "хартия" версия с придружител електронен вариант, представляващ честотен речник на по-пълно. Речник част съдържа следните раздели:

I. Обща лексика

# 9679; азбучен списък на леми

# 9679; честотен списък на леми

# 9679; разпределение на леми на функционални стилове:

Ø честота речника фантастика

Речник смислен език фантастика

Ø честота речника публицистика

Речник значително вестници и новини лексика

Ø честота речника други не-фантастика,

Речник смислен лексика

Ø честота речника на живо реч,

Речник смислен лексика на живо реч

# 9679; азбучен списък на словоформи

# 9679; списък Честота на съществителни

# 9679; честотен списък на глаголи

# 9679; честотен списък на прилагателни

# 9679; честотен списък на наречия и predicatives

# 9679; честотен списък на местоимения (местоимения, съществителни, прилагателни, наречия, predicatives)

# 9679; честотен списък на леми части реч услуги

III. помощни маси

# 9679; Данните за честотата на част от говорни упражнения и друга статистическа информация

IV. Собствени имена и съкращения

# 9679; азбучен списък на леми

В списъка по азбучен ред на леми е името на лемата, част на речта, общата честота на лемата, броят на документите, в които тя се запознава и коефициент на вариация Д. Общата честота описва броя на повторения на един милион думи тяло, или IPM (случаи на един милион думи). Това се прави с цел да се опрости сравнението на честотата на думите в различните сгради, които могат да бъдат доста различни по размер. Например, ако силата на думата се среща 55 пъти в размера на тялото от 400 хиляди души. Думи 364 пъти в един милион жилища и 40598 пъти в повече от една стомилионна случай на съвременния български език и 55 673 пъти в голям 135-millio¬nnom NKRYA тяло, неговата честота в IPM ще бъде 137.5, 364.0, 372.06 и 412.39, съответно. Търсене електронна публикация включва 60 000 най-често срещаните леми.

В леми списък, подредени според честотата, с име на лема, част на речта, общата честота на лемата, броят на документите, коефициентът D и честотата на разпространение в продължение на десетилетия. Списъкът с честота се състои от 20 000 за честотата на леми.

Честотните речници функционални стилове се базират на subcorpus фантастика, журналистика, както и друга документална реч. Списъкът включва 5000-голямата част от честотата на тези леми subcorpus. Списък на най-често срещаните леми за всеки тип текст е бил избран въз основа на честота сравнение на леми в такива текстове и в останалата част на тялото. Тестът съотношение вероятност (логаритмичната вероятност) се използва като показател за сравнение изчислява чрез следната матрица:

Речниците смислен речник за различни функционални стилове включва 500 леми.

Азбучен списък на словоформи включва всички форми на думи с честота над 0,1 IPM (около 15 хиляди души.); словоформи дадени общата честота. Омонимни форми на думата се с * са отбелязани.

В раздел "части на речта" списък честота на леми е разделена на шест под-списъци: съществителни, глаголи, прилагателни, наречия и predicatives, местоимения и спомагателни части на речта. За всяка лема съдържа цялостната му честота и степен (брой) в списъка. Всеки списък съдържа 1000 най-често срещаните леми.

За списък на собствени имена и съкращения на съгласуване жилища са били идентифицирани съществителни и контракции, писането на текстовете, които с капитал надвишава 95 на сто праг, ср България, Смирнов, GRES, Министерство на външните работи, Кодекса на труда. [2] ядрената част на списъка, наброяващо 3000 най-често срещаните единици, включени в речника.

Според традицията, създадена за такива публикации на страниците на речника показва заглавие "забавни факти": публикувани списъци на най-популярните думи на различни лексикални групи (дните на седмицата, времето, цветовете, глаголи за движение и т.н.), както и най-дългите форми на думите както и списък на честотата на препинателни знаци.

Таблица. 3: Списъкът с честота на наименованията на дрехи и обувки.

Като пример, в таблица 3 представяме честотата на имена означаващи дрехи и обувки. Както може да се очаква, списъкът отразява, от една страна, "типичен" елемент от гардероба (ботуши заемат само 26-ти място в списъка), и от друга страна, тяхната "значимост", за да опише външния вид на човека в текста (костюм - повече Възприемане изолиран нещо от обувки).

4. Получаване на лексикален материал

Български език като език с богата инфлексна създава допълнителни затруднения за съставителите честота речник, колкото се може повече думи-форми в текстове едноименния (ср wordform започнаха като форма на глагола стане съществително стомана. Wordform банка., Представляваща Лема банка и Банката. Думи като вяра и убеждения) , Въпреки това, в честотния речник оригиналната форма на думата или лема, е да бъдат приписани на всяка дума форма е уникална.

Тъй като автоматично решаване на омоними и тълкуването на отделни форми речника позволи някои, макар и малки, грешка, омоними, принадлежащи към първите 20,000 думите на честота, бяха подложени на допълнителна ръчна проверка.

Виноградов VV (Ed. Eds.). речник на езика на Пушкин. Т. I - IV. М. 1956-1961.

Zasorina LN (Eds.). Честота речник на българския език. София: Български. 1977.

RG Piotrovsky Bektaev KB Piotrovskaya AA Математическа лингвистика. М. Висшето училище. 1972 година.

Степанов EM Честота речника на обща научна лексика. М. 1976.

Steinfeld EA Честота речник на съвременния български книжовен език. Талин. 1963.

Josselson Н.Н. Руският брой думи и честота на анализ на граматични категории Standard литературен руски език. Детройт: Уейн University Press, 1953.

Juilland A. D. Brodin Davidovitch С честота речник на френски думи. Хага - Париж: Mouton, 1970.

[2] Това е важно, че прилагателни вида на Христос, Petin, Kostroma / Kostroma отнасят до общата речник.

Свързани статии

Подкрепете проекта - споделете линка, благодаря!