http://npc-news.ru/

Информация. Кодирование информации

Информацию об окружающем нас реальном мире мы получаем в виде набора символов или сигналов. Но если эти символы или сигналы никому не понятны, то информация бесполезна. Необходим язык общения — знаковый способ представления информации. Основа языка — алфавит — некоторый конечный упорядоченный набор символов или сигналов.


Мощность алфавита— полное число его символов (N).

За свою историю человек придумал много языков и алфавитов. Примеры языков:
естественные — мимика и жесты, музыка, живопись, речь человека;
Формальные — чертежи, схемы, формулы, ноты и т.д.
Естественный язык можно формализовать. (Для формализации музыки придумали нотную грамоту, для формализации речи создали национальные алфавиты и т.п.)
Примеры алфавитов: латинский (26 символов), русский (33 символа), арабские цифры, азбука Морзе и т.д.
В зависимости от задачи, которую вы перед собой ставите, можно использовать разные способы представления информации. Чтобы послушать музыку, не нужно переводить её в нотную запись. А вот научиться её играть легче по нотам, чем подбирать на слух.

Формализованные языки используются для кодирования информации.

Некоторый набор символов алфавита образует слово, а число этих символов есть его длина. От изменения длины слова, очевидно, будет меняться и информация, заключенная в нем. Как? Чтобы разобраться в изменениях информации, необходима ее оценка (измерение).

Задача измерения информации не так проста, как кажется на первый взгляд. Различные подходы к измерению информации обусловлены различными подходами к её определению и кодированию.

  1. Субъективное восприятие сообщения (содержало ли оно новую для вас информацию или нет, насколько эта информация была полезной) делает невозможным его количественную оценку при обыденном подходе к понятию «информация».
  2. Подход к информации как мере уменьшения неопределённости знания позволяет применять вероятностный подход к её измерению (будет изучаться в 10 классе).
  3. Подход, основанный на подсчёте числа символов в сообщении (количества данных), называется алфавитным.

Вообще говоря, количество данных и количество информации — два разных понятия.

Данные — это конкретная дискретная форма представления информации, которая используется для её записи в памяти технического устройства или для её передачи по каналу связи.
Количество данных для передачи одной и той же информации может быть различным в зависимости от способа кодирования этой информации (от используемого алфавита).

В каком виде поступает информация в компьютер?

Может ли машина хранить и обрабатывать информацию в виде символов (букв, цифр, знаков), привычных для человека? Увы, нет! Компьютер обрабатывает информацию только в закодированном виде.

Кодирование и его теория своими корнями связаны с древнейшим искусством тайнописи или криптографии . Изобретение телефона и телеграфа в середине XIX века поставило перед учеными и инженерами проблему создания теории связи, как новой теории кодирования, где наибольший интерес стала представлять не проблема связи между людьми, а между людьми и устройствами и только между устройствами.

Первой ориентированной на технику системой кодирования стала азбука Морзе. Это попытка двоичного кодирования, но здесь кроме двух символов — точка и тире — есть еще и третий символ — пробел (пауза).

С той или иной степенью точности информацию можно разделить на небольшие элементарные части. Например, текст в книге состоит из букв, пробелов и других символов, рисунок из точек, музыка из отдельных звуков. Каждый символ — это элементарная часть информации. Информация будет закодированной, если любая ее элементарная часть представлена в виде числа или набора чисел. Поскольку компьютеры работают на электричестве, естественно было бы для кодирования выбрать разные состояния электрического тока (сильный — слабый, включено — выключено). Исторически принято эти два состояния обозначать через 0 и 1.

В каких единицах измерять эту закодированную информацию?

Посмотрите на произвольное число (код): 10100111. Как бы Вы измерили количество информации, закодированной в нем? Проще всего посчитать, сколько цифр потребовалось для кодирования данной информации. Таким образом, единицей информации становится одна двоичная цифра: 0 или 1. Эту минимальную единицу измерения Н. Винер назвал бит (английское bit, сокращенное от binary digit — двоичная цифра). Бит — самое короткое слово двоичного алфавита, причем цифры 0 и 1 при этом равноправны. Количество информации в двоичном коде 10100111 равно 8 бит.

Но 1 бит — это очень маленькое количество информации. Для удобства введена более крупная единица, принятая Международной системой СИ за основную — байт (byte). Один байт — это информация, которая кодируется восьмиразрядным (8 цифр) двоичным кодом.

1 байт = 8 бит
При алфавитном подходе считается, что каждый символ текста имеет определённый информационный вес (b), зависящий от мощности алфавита. 1 бит — это информационный вес символа двоичного алфавита. С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита.

Почему? Тут придется вспомнить комбинаторику.

Сколько разных сообщений можно закодировать одной цифрой двоичного алфавита?
— Два (0 или 1)
Двумя цифрами?
— Четыре (00, 01, 10, 11)
И т.д.
Известна формула: число перестановок (возможных различных кодов) из n цифр равно 2

Другими словами
Информационный вес символа, выраженный в битах (b), и мощность алфавита (N) связаны формулой N=2b
Символов на нашей клавиатуре около 200 (русский и латинский алфавит, строчные и прописные буквы, цифры, знаки препинания, спецсимволы). Попробуем подобрать число n, достаточное для кодирования этих символов: 27 = 128 (мало), 28 = 256 (хватит). Поэтому в кодировке ASCII 1 символ текста кодируется одним байтом (8 битами).

Байт — это не только единица информации, но и элементарная ячейка памяти компьютера. Память компьютера состоит из последовательности таких ячеек. Каждая ячейка имеет адрес — номер ячейки и содержимое — двоичный код, который хранится в ней.

Количество данных, обрабатываемых компьютером, измеряется в байтах, но чаще для этого используются более крупные единицы:
1 Килобайт (Кб) = 210 байт = 1024 байт
1 Мегабайт (Мб) = 210 Кб = 1 048 576 байт
1 Гигабайт (Гб) = 210 Мб = 1 073 741 824 байт.

Может возникнуть вопрос, почему в международной системе СИ приставки Кило, Мега и Гига вдруг получили другое значение. Ответ здесь в больших буквах. Кило и кило — это две большие разницы.
1 килобайт (кб) = 103 байт = 1 000 байт
1 мегабайт (мб) = 106 байт = 1 000 000 байт
1 гигабайт (гб) = 109 байт = 1 000 000 000 байт.
В ноябре 2000 г. международной электротехнической комиссией (МЭК) были приняты поправки к международному стандарту.

По этому решению приставки, кратные степеням 2 получили своё особое название:
1 кибибайт (Киб)= 210 байт = 1024 байт
1 мебибайт (Миб) = 210 Киб = 1 048 576 байт
1 гибибайт (Гиб)= 210 Миб = 1 073 741 824 байт
К сожалению, эти приставки не стали привычными нашему слуху, хотя срок их существования уже достаточно большой.
Постановлением Правительства Российской Федерации от 31 октября 2009 г. № 879 закреплено обозначение двоичных приставок в привычном звучании, но написание их отличается от десятичных.

Скорость передачи данных и пропускную способность каналов связи принято измерять в битах в секунду (бит/с) и кратных этому:
1 килобит (кбит/с) = 103 бит/с
1 мегабит (мбит/с) = 106 бит/с
1 гигабит (гбит/с) = 109 бит/с
А при измерении оперативной памяти принято измерение в единицах, кратных не степеням десятки, а степеням двойки.

Из-за этого первоначально и возникла путаница в приставках.

Для перехода от одной системы к другой достаточно уметь:

а) переходить от любой системы счисления к десятичной;

б) переходить от десятичной системы к другой системе.

Переход от любой системы к десятичной выполняется путем прямого вычисления.

Пример. Дано число 3021(4), записать его в десятичной системе.

Решение. 3021(4) = 3 · 43 + 2 · 4 + 1 = 192 + 8 + 1 = 201.

Переход от десятичной системы к другой покажем на примере. Число 856 записать при основании 4. Устанавливаем, сколько четверок содержится в числе 856: 856 : 4 = 214. Значит, число состоит из 214 единиц 2-го разряда (214 четверок). Сосчитаем единицы 2-го разряда четверками; делим 214 на 4; получаем 53 единицы 3-го разряда и 2 единицы 2-го разряда. Ведем теперь счет единиц 3-го разряда четверками; делим 53 на 4 и получаем 13 единиц 4-го разряда и одну единицу 3-го разряда. Делим теперь 13 на 4. Результат счета единиц 4-го разряда: 3 единицы 5-го разряда и одна единица 4-го разряда. Значит, данное число содержит 3 единицы 5-го разряда, 1 единицу 4-го разряда, 1 единицу 3-го разряда, 2 единицы 2-го разряда и 0 единиц 1-го разряда. Это число запишется так: 31120(4). Таким образом, 856(10) = 31120(4).

 


Добавить комментарий

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>