Какие методы используются для эффективного сжатия цифрового звука?
В настоящее время наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое «кодирование воспринимаемого» (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.
Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.
Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.
Audio MPEG — группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group — экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов — MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1.
Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов:
1 — коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 — 1:6..1:8 при 256..192 кбит/с; 3 — 1:10..1:12 при 128..112 кбит/с.
Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска.
Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).
Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, «звуковых» дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.
PASC (Precision Adaptive Sub-band Coding — точное адаптивное внутриполосное кодирование) — частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.
ATRAC (Adaptive TRansform Acoustic Coding — акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока — 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.