Александр Матвиенко Профессионал

Акустические саги. Как создавался формат MP3?

Успешно прошедшая операция по записи оцифрованного звука на CDA (Compact Disc Audio) возвестила миру о начале новой эры в записи звука. В 1982 г. в Лангенхагене близ Ганновера было открыто массовое производство компакт-дисков. Бурное развитие компьютерной техники и цифровых технологий, начавшееся несколько позже, привело к необходимости компрессии цифрового звука. Причин для этого была масса. Экономия дискового пространства, повышение скорости передачи цифровой информации, необходимость создания формата записи звука, удобного для использования в программном обеспечении.

В 1987 году немецкий институт Фраунхофера (Fraunhofer Institut für Integrierte Schaltungen) начал всесторонние исследования проблемы кодирования цифрового звука. Именно этому институту принадлежит патент на технологию MP3. «Отцом» этого формата звука называют Карл-Хайнца Бранденбурга (Karl-Heinz Brandenburg), математика и специалиста по электронике, изучавшего методы сжатия уже с 1977 года. В 1989 году, когда был получен патент на формат, ни одного файла MP3 в природе еще не существовало. В 1993 году MP3-файлы были признаны соответствующими международному стандарту MPEG-1.

Какие же принципы легли в основу кодирования цифрового звука в этот формат? Исходный звуковой файл делится на фреймы (англ. frame — кадр) продолжительностью 0,05 сек. каждый. Затем проводится анализ каждого фрейма. При этом все частоты звука, лежащие вне диапазона восприятия ухом человека, отбрасываются. Кроме того, отбрасываются колебания со слишком высоким либо низким значением амплитуды. Как известно, ее верхняя граница восприятия человеком составляет 96 дБ. Нижняя граница восприятия сильно зависит от частоты звука. Высокие и низкие частоты имеют более высокий амплитудный порог восприятия.

На первом этапе сигнал каждого фрейма математическим преобразованием Фурье представляется в виде суммы синусоид различной амплитуды и частоты (ведь графически звук любой частоты представляет собой именно синусоиду). В память записываются значения амплитуд и частот, входящих в результирующую формулу.

Второй этап обработки основан на использовании психоакустической модели восприятия звука ухом человека. К примеру, отбрасываются незначительные последовательные изменения в частоте звука (сигнал частотой 5000 Гц и следующий за ним сигнал 5100 Гц записываются как один с частотой 5000 Гц и суммированной продолжительностью). Другая особенность уха приводит к эффекту частотной маскировки. Звук с определенной частотой маскирует другие звуки с близкой частотой, но меньшей амплитудой, которые отбрасываются. Инерционность восприятия звука ухом приводит к тому, что, скажем, некоторое время после громкого хлопка звук высокой частоты и низкой амплитуды просто не слышен. Такие звуки тоже отбрасываются фильтром.

Третий этап представляет собой сжатие обработанного сигнала известными математическими методами. Сжатие данных в MP3 осуществляется по немного модифицированному варианту алгоритма Хаффмана (Huffman), применяющемуся при создании архивов формата PKZIP, LHA, ZOO, ARJ.

В итоге всех трех преобразований информация, содержащаяся в исходном звуковом файле, ужимается в несколько раз. Степень сжатия в современных кодерах измеряется в килобитах в секунду (kbps), и может быть задана самим пользователем. При этом он должен помнить, что бесконечное стремление к понижению размера файла с повышением степени сжатия приводит к тому, что второй этап обработки звука (именно он регулируется без особых ограничений) становится более агрессивным. «Под нож» начинают идти звуки, различимые ухом человека.

Нет однозначного мнения о минимальной степени сжатия звука, допустимой при его обработке. Одни говорят о том, что 128 kbps (степень сжатия — приблизительно 10:1) — вполне достаточно, другие предпочитают величину, вдвое большую. Сегодня в большинстве проигрывателей и кодеров установлена верхняя граница — 320 kbps, которая способна удовлетворить любого эксперта.

Напоследок отмечу, что кодирование звука в MP3 относится к типу lossy (происходит потеря информации о звуке). Способы, относящиеся к типу lossless, в которых исключен второй этап «психоакустического ножа», а сжатие основано исключительно на математических методах, полностью сохраняют исходную информацию в итоговом сжатом файле.

Обновлено 1.05.2008
Статья размещена на сайте 9.01.2008

Комментарии (4):

Чтобы оставить комментарий зарегистрируйтесь или войдите на сайт

Войти через социальные сети:

  • Это пять. Правда сильно кратко написано, информации б добавить.

    Оценка статьи: 5

  • Неплохо!
    Можно было бы убрать кое-что из подробностей метода сжатия, чтоб статья легче читалась. А еще я бы добавил, что MP3 - не единственный метод, возможно, не самый лучший на сегодняшний день, но зато уж точно самый распространенный. И качество mp3-файла (помимо битрейта и настроек) очень зависит и от выбора кодека!
    И еще пара моментов. Битрейт 320 для очень многих "ценителей звука" все равно не считается приемлемым. Быть может, все дело именно в словосочетании сжатие с потерей качества, самовнушении. Говорят, что на качественной акустике (колонках, аудиокарте или центре) слышат пропажу частот или замыливание.
    А еще можно было упомянуть про расширение MP3-pro, которое не получило большого распространения, увы. Как и Jpeg-2000, впрочем

    • Да, я в курсе. Конкурирующие кодеки Lame, Fraunhoffer и китайский Xing... старая история о скорости кодирования и качестве, которые, как правило, обратно пропорциональны
      О подробностях - хотелось все же ввести читателя в курс механизма сжатия. Возможно, получилось и не очень хорошо.
      А вот о ценителях - уж очень субъективный вопрос. Если бы слуховой аппарат человека каким-то образом был стандартизован и словами можно было бы выразить, ЧТО ИМЕННО не так со звуком. А то получаются "всхлипывания", "плавание", "хлюпание" и, как вы уже сказали "замыливание"
      В любом случае, благодарю за оценку и компетентный комментарий.

  • 5! Очень интересно, хотя и сложновато читается. Удивило то, что MP3-файлы были признаны соответствующими международному стандарту MPEG-1., я всегда думала, что МР3 и МРЕG это одно и тоже, что поделать - чайник! Вот благодаря таким статьям, и получаю знания в сфере компьютерных технологий.

    Оценка статьи: 5