PRESENTATION OUTLINE
Кодирование текстовых данных
Представление информации в текстовой (алфавитной) форме — один из самых распространённых способов передачи данных.
Этот метод используется со времён изобретения письменности.
Информация передаётся в виде текста, записанного на каком-либо языке: русском, белорусском и др.
При этом для записи на разных языках может использоваться один и тот же алфавит.
Первая часть таблицы Unicode совпадает с ASCII.
Это обеспечивает совместимость текстов, состоящих из английских символов.
Однако русские символы имеют другие коды, поэтому текст на русском, записанный в ASCII, не будет корректно отображаться в Unicode.
В ASCII русские символы начинаются с кода 128 (в шестнадцатеричном виде — 80₁₆).
В Unicode, код русской заглавной буквы "А" — 0410₁₆.
Для правильного отображения русскоязычных текстов необходимо перекодирование при смене кодировки.
Тексты вводятся в компьютер с помощью клавиатуры.
Каждой клавише соответствует определённый символ, кодируемый в виде двоичного кода. При отображении на экране символ восстанавливается по его коду.
Тот же процесс происходит при сохранении и открытии текстовых файлов.
Объём текста зависит от количества символов и способа кодирования:
ASCII и однобайтные кодировки: 1 символ = 1 байт.
Unicode (двухбайтный): 1 символ = 2 байта.
UTF-8: 1 символ = от 1 до 4 байт в зависимости от языка и символа.