Компютърни науки, кодиране на текста

глава 3
Encoding текст

В тази глава ще се повтори, тъй като текстът е кодиран в компютрите.

Вече знаете как да се кодират номерата. Не е проблем, а когато кодиране всяка друга информация, приличен от ограничен набор от знаци - букви. Достатъчно е да се изброят всички признаци на азбуката и след това да напишете в паметта на компютъра (и, разбира се, да се занимават) съответните номера.

Когато се дава кодиране на текста за всеки от своя символ, обикновено, 1 байт. Това позволява на 8 февруари = 256 различни герои. Съответствието между символа и нейния код, най-общо казано, може да бъде избран съвсем произволно. На практика обаче, че е необходимо да бъде в състояние да прочете текста на същия компютър, създаден от друга. Затова, опитайте се да се стандартизира масата за кодиране. Почти всички в момента се използва таблици се основават на ASCII "American стандарт на обмен на информация код" 5. Този стандарт определя стойностите на долната половина на таблицата с код - за първите 127 кодове (32 контролни кодове, основни аритметични и препинателни знаци, цифри и букви). В резултат на това, тези символи се показват правилно, каквото и кодирането не се използва за конкретен компютър. Ситуацията е по-лошо с "национален" герой и "печатни" препинателни знаци. Особено нещастен езици, които използват кирилицата (български, украински, belobolgarskomu, български и т.н.). Например, за българския език е вече широко се използва кодиране пет маси:

CP866 (DOS-алтернатива) 6 - на PC-съвместими компютри, когато се работи с операционните системи DOS и OS / 2, както и в Fido международната мрежа на аматьорски (Fidonet).
CP1251 (Windows-кодиране) - на PC-съвместим, когато работи под Windows 3.1 и Windows 95
KOI-8R - най-старият все още се използва кодиране. Той се използва за компютри, работещи на UNIX, е де факто стандарт за български текстове в Интернет.
Macintosh кирилица - както подсказва името, той е проектиран да работи с всички езици, използващи кирилица за Mac-ове 7.
ISO-8859. Това кодиране е замислено като международен стандарт за текст на кирилица, обаче, едва ли е използвано някога на територията на България.

Всъщност, проблемът не е толкова голяма. Ако знаем как се представя на оригиналния текст и на коя маса се използва от нашия компютър, процесът на преобразуване е много лесно - просто трябва да се променят някои кодове, от друга страна (както справочната таблица). За това са специални програми - текстови преобразуватели. Напоследък има конвертори, които могат самостоятелно да определят оригиналния текст кодиране, а дори и да знаят как да "разчетат" текстът след няколко неправилен код за реализации.

Шестнадесетични кодекси на някои букви

Между другото, ние отбелязваме, че не са налице особени шрифтове (т.нар dingbatsy), които не съдържат букви и специални символи, като математически или музикален; Декоративни елементи, икони.

Сега, когато капацитета на паметта на компютрите се разрасна неимоверно, че не е необходимо да спаси много в кодировката на текста. Вие може да си позволи "лукса" разходи за съхраняване на текст два пъти повече памет (разпределяне на всеки един от героите не една, а 2 байта). В този случай, е възможно да се постави в кодова таблица - всеки на негово място - не само на буквата на европейските азбуки (латински, кирилски, гръцки), но и буквите на арабски, грузински и много други езици, а дори и повечето от японски и китайски йероглифи. След два байта могат да съхраняват вече няколко 0-65535.

Международна двойно-байт Unicode кодиране. разработена преди няколко години, сега започва да се реализира на практика.

Тестовите въпроси

Как кодиран текст на компютъра?
Можете да отворите текстов файл, и можете да видите на екрана безсмислен набор от знаци. С какво може да се свърже? Какви действия трябва да бъдат предприети, за да прочетете текста?
Какви са предимствата и недостатъците на Unicode кодиране?

бележки

ASCII - American Standard Code за информационен обмен
По-точно, алтернативна променени. Това име е било запазено от времето, когато той все още беше с изключение на "главния кодиране ГОСТ" и "алтернатива кодиране ГОСТ"
Странно, но факт: в развитието на това кодиране не се вземат под внимание писмо на украинската азбука. Ето защо, украински - само на езика на кирилица, че Mac-ове, за да имат своя собствена отделна кодиране - Macintosh украинския

глава 3Encoding текст

Тестовите въпроси

бележки

Свързани статии

глава 3
Encoding текст