Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Из Википедии — свободной энциклопедии

Не следует путать с таблицей символов — списком используемых идентификаторов, составляемым при трансляции программы.

Набо́р си́мволов (англ. character set) — таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита (точек и тире в коде Mорзе, сигнальных флагов на флоте, нулей и единиц (битов) в компьютере).

Набор символов в компьютере

Символы в компьютере обычно кодируются одним или нескольким байтами (группами из восьми битов).

Хотя термин «набор символов» (англ. character set, charset), узаконенный интернет-стандартом RFC 2278, сейчас является, пожалуй, наиболее авторитетным, предшествовавший ему термин «кодировка» (англ. encoding) по-прежнему используется в качестве синонима, в частности, в языках программирования Java[1], Perl[2] и XSLT[3], а также в HTML[4].

Нередко также вместо термина «набор символов» неправильно употребляют термин «кодовая страница», означающий на самом деле частный случай набора символов с однобайтным кодированием.

В настоящее время в основном используются кодировки трёх типов: совместимые с ASCII, совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы[5], зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Современные 8-битные вычислительные платформы характеризуются небольшими объёмами ОЗУ и ПЗУ; многобайтные кодировки в таких изделиях значительного распространения не получили. Причиной тому не только больший объём, занимаемый текстовыми данными, представленными в многобайтной кодировке, но и отсутствие «лишней» памяти для хранения графического представления дополнительных символов, а также трудность обработки таких строк. В настоящее время часто используются следующие стандартные однобайтные кодировки:

  • Английскими и европейскими программистами - CP437;
  • Отечественные программисты, в случае создания русскоязычного ПО, используют такие варианты:
    • CP866 - чаще используется более опытными инженерами, начинавшими работать в DOS; позволяет рисовать псевдографические «рамки», но требует хранения исходного текста ПО именно в этой кодовой странице, что бывает затруднительно для начинающих;
    • CP1251 - используется, если необходимо иметь русские символы непрерывным массивом для лёгкости их обработки, и в случае наличия ОС Windows, перекодировать такой текст можно без использования стороннего ПО. Но, не позволяет рисовать «рамки».

Автоматическое распознавание кодировок

Во многих современных текстовых редакторах и браузерах присутствует функция автоматического распознавания кодировок, но она не всегда выдает верный результат. Иногда бывает что текст набранный например в командной строке или некоторых программах не верно декодируется и вместо нормальных слов получается набор непонятных символов или как их называют кракозябров[en]. Справиться с прочтением такого текста может помочь большое количество декодеров текста, которые работают онлайн.

Для однобайтных кодировок нужно учитывать тот факт, что частота использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частота байтов лучше соответствует частоте букв данного языка.[6]

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, MIME). Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

Распространённые кодировки

См. также

Ссылки

Примечания

Эта страница в последний раз была отредактирована 10 марта 2021 в 19:15.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).