Кодирование Танстелла

Кодирование по Танстеллу — форма энтропийного кодирования, используемая для сжатия данных без потерь.

История

Кодирование по Танстеллу было предметом докторской диссертации Брайана Паркера Танстелла в 1967 году, когда он работал в Технологическом институте Джорджии. Темой этой диссертации был «Синтез кодов с бесшумным сжатием»^[1].

Является предшественником алгоритма Лемпеля-Зива.

Свойства

В отличие от кодов переменной длины, одним из которых является кодирование Хаффмана, при кодировании Танстелла сопоставляются исходные символы с фиксированным количеством битов^[2].

Как коды Танстелла, так и коды Лемпеля-Зива представляют слова переменной длины кодами фиксированной длины^[3].

В отличие от кодирования типичных множеств ^{[уточнить]}, кодирование Танстелла анализирует стохастический источник с помощью кодовых слов переменной длины.

Можно показать^[4], что для достаточно большого словаря количество битов на букву источника может быть сколь угодно близко к $H(U)$ — энтропии источника.

Алгоритм

Алгоритм требует в качестве входных данных входной алфавит ${\mathcal {U}}$ , а также распределение вероятностей для каждого вводимого слова. Для этого также требуется произвольная константа $C$ , которая является верхней границей размера словаря, который этот алгоритм будет вычислять. Рассматриваемый словарь, $D$ , построен как дерево вероятностей, в котором каждое ребро связано с буквой из входного алфавита. Алгоритм выглядит следующим образом:

D: = дерево из  $|{\mathcal {U}}|$  листьев, по одному на каждую букву в  ${\mathcal {U}}$ .
Пока  $|D|<C$ :
    Преобразуйте наиболее вероятный лист в дерево с  $|{\mathcal {U}}|$  листьями.

Пример

Пусть исходная строка «hello, world». Предположим (несколько нереалистично), что входной алфавит ${\mathcal {U}}$ содержит только символы из строки «hello, world», то есть 'h', 'e', 'l', ',', ' ', ' w', 'o', 'r', 'd'. Таким образом, можно вычислить вероятность каждого символа на основе его статистической частоты появления во входной строке. Например, буква L появляется трижды в строке из 12 символов: ее вероятность равна $3 \over 12$ .

Нужно инициализировать дерево, начиная с дерева из $|{\mathcal {U}}|=9$ листьев. Таким образом, каждое слово напрямую связано с буквой алфавита. 9 слов, которые мы получаем таким образом, могут быть закодированы в выходные данные фиксированного размера $\lceil \log _{2}(9)\rceil =4$ бита.

Пример Танстелла «hello, world» — одна итерация

Затем берётся лист с наибольшей вероятностью (здесь, $w_{1}$ ) и преобразуется в еще одно дерево с $|{\mathcal {U}}|=9$ листьями, по одному для каждого символа. И нужно повторно вычислить вероятности этих листьев. Например, последовательность из двух букв L встречается один раз. С учётом того, что существует три вхождения букв, следующих за буквой L, результирующая вероятность равна ${1 \over 3}\cdot {3 \over 12}={1 \over 12}$ .

Каждое из полученных 17 слов может быть закодировано в выходные данные фиксированного размера, состоящие из $\lceil \log _{2}(17)\rceil =5$ бит.

Пример Танстелла «hello, world» — две итерации

Этот процесс можно повторять и дальше, увеличивая количество слов на $|{\mathcal {U}}|-1=8$ каждый раз.

Ограничения

Кодирование Танстелла требует, чтобы алгоритм знал до операции непосредственно кодирования, каково распределение вероятностей для каждой буквы алфавита. Эта проблема является общей с кодированием Хаффмана.

Его требование вывода блока фиксированной длины делает результат меньшим, чем у Лемпеля-Зива, который имеет аналогичный дизайн на основе словаря, но с выводом блока переменного размера.^{[прояснить]}

Примечания

↑ Танстелл, Брайан Паркер (сентябрь 1967). Синтез кодов сжатия без шума. Технологический институт Джорджии
↑ [1], изучение алгоритма Танстелла в Массачусетском технологическом институте
↑ «Адаптивное кодирование элементов переменной длины в коды фиксированной длины». [2] [3]
↑ [4], Изучение алгоритма Танстелла на факультете теории информации EPFL

Методы сжатия

Теория

Информация	Собственная Взаимная Энтропия Сложность Избыточность
Единицы измерения	Бит Нат Ниббл Хартли Формула Хартли

Без потерь

Энтропийное сжатие	Асимметричные системы счисления Алгоритм Хаффмана Адаптивный Алгоритм Шеннона — Фано Алгоритм Шеннона Арифметическое кодирование Интервальное Адаптивное Коды Голомба Дельта Инкрементное кодирование Универсальный код Элиаса Фибоначчи
Словарные методы	RLE Deflate LZ LZ77/LZ78 LZSS LZW LZWL LZO LZMA LZX LZRW LZJB LZT LZ4 Brotli Zstandard Кодирование Танстелла
Прочее	RLE CTW BWT MTF PPM DMC

Аудио

Теория	Свёртка PCM Алиасинг Дискретизация Теорема Котельникова
Методы	LPC LAR LSP WLPC CELP ACELP A-закон μ-закон АДИКМ МДКП Преобразование Фурье Психоакустическая модель
Прочее	Компрессор аудиосигнала Сжатие речи Полосное кодирование

Изображения

Термины	Цветовое пространство Пиксель Субдискретизация насыщенности Артефакты сжатия
Методы	RLE DPCM Фрактальный Вейвлетный EZW SPIHT LP ДКП ПКЛ
Прочее	Битрейт Стандартное тестовое изображение PSNR Квантование

Видео

Термины	Характеристики видео Видеокодек Кадр Типы кадров Качество видео
Методы	Компенсация движения ДКП Квантование Вейвлетный

Эта страница в последний раз была отредактирована 23 ноября 2023 в 23:47.

Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.

Из Википедии — свободной энциклопедии

Содержание