Visa или MasterCard? Карту какой платежной системы выбрать? Кто на свете всех богаче? Анализ роста благосостояния в мире.

Как сжать видео

Техника сжатия изображений очень интенсивно развивалась в последнее десятилетие благодаря, конечно же, Всемирной паутине. Например, для передачи по обычному модему одной минуты стандартного несжатого видео (частота 25 кадров/с, размер 640x480 точек, 24 бита на точку) потребуется 4,5 суток. Благодаря компрессии уже сегодня такое видео можно скачать за несколько минут. Техника видеонаблюдения не могла не воспользоваться плодами научных и практических достижений Интернет-технологий. Компрессия видеосигнала нашла применение прежде всего в распределенных системах видеонаблюдения, где телевизионный сигнал требуется передать на большие расстояния по недорогому телефонному кабелю или радиоканалу с ограниченной полосой частот.

Компьютеризованные системы телевизионного наблюдения уже широко представлены на экспозициях, посвященных безопасности. И хотя реальных инсталляций таких систем в банках пока немного, будущее, безусловно, за ними. Без обработки и сжатия видео немыслимы также технологии ввода изображения в компьютер и захватывающая воображение область распознавания образов.

Алгоритмов сжатия существует много. В системах телевизионного наблюдения, в том числе активно продвигаемых на рынке, нет единого подхода к выбору алгоритма сжатия. Существует мнение (разделяемое автором), что наиболее перспективным алгоритмом для охранных телевизионных систем является Wavelet — по целому ряду причин, о которых поговорим далее.

Как мы видим?

Глаз человека — сложный и очень точный прибор. Искусственным приборам по совокупности характеристик не удается приблизиться к совершенству оптической системы человека. Но зная специфику работы человеческого зрения при обработке изображений, можно оптимизировать тракт видео. Рассмотрим те особенности зрительного процесса, которые стоит учитывать в алгоритмах компрессии стационарных и динамических изображений.

Сетчатка — внутренняя оболочка глаза — представляет собой дискретную светочувствительную структуру. Сетчаткой осуществляется первичная обработка изображения. В результате воздействия потока фотонов на светочувствительные элементы глаза — палочки и колбочки — возникают нервные импульсы, которые по нервным волокнам и зрительному нерву передаются в зрительные центры головного мозга, где и осуществляется вторичная обработка видеоинформации. (Понятия «первичная» и «вторичная» условны, так как обработка — единый процесс.) Кровеносные сосуды, обеспечивающие глаз питанием, располагаются сферически и образуют густую паутину в узкой прослойке сосудистой оболочки. Система нервных волокон и кровеносных сосудов расположена непосредственно перед сетчаткой. И если нервные волокна прозрачны для света, то кровеносные сосуды и капилляры почти непрозрачны. Однако сосуды не мешают нам видеть, так как снижение светового потока на отдельных участках компенсируется экстраполяцией от соседних, освещенных рецепторов. Так зрительная система человека адаптируется к локальным дефектам изображения.

Палочки и колбочки преобразуют световую энергию не только в электрическую (нервные импульсы), но и в химическую, и в тепловую. Энергия нервных импульсов на несколько порядков больше энергии падающего света, т. е. зрительная система обладает своеобразной автоматической регулировкой усиления (АРУ), а падающие фотоны используются только для управления усилением. Световой динамический диапазон глаза варьируется от единиц фотонов до яркостей 104 кд/кв. м, когда происходит полное химическое разложение зрительного пурпура, палочковый аппарат ослепляется, но колбочки продолжают работать. Изменение диаметра зрачка (диафрагмы) дает лишь вспомогательный эффект. При малых яркостях глаз чувствительнее к короткой части спектра (синий, фиолетовый цвет) и хуже воспринимает красные лучи.

Зрительная система реагирует не на абсолютное, а на относительное изменение яркости. Зрение, как и слух, использует логарифмическую шкалу для восприятия внешнего мира, охватывая, таким образом, очень широкий диапазон. Число различимых глазом градаций яркости определяется относительным разностным порогом раздражения и контрастом наблюдаемого изображения. При контрасте 100 (черный бархат на снегу) число разрешимых градаций не превышает 230. Таким образом, 8 бит (28 = 256) вполне достаточно для представления всех различимых градаций яркости. Используемый в современных мониторах режим True Color с 32-битным представлением каждого пиксела (8 бит для яркости и по 8 бит на каждый цвет) уже является теоретическим пределом качества изображения.

Разрешающая способность глаза определяется минимальным углом зрения, под которым раздельно видны две рядом расположенные детали изображения. На разрешающую способность глаза влияет дифракция света, дискретная структура сетчатки и аберрации в оптической системе глаза. Острота зрения в сильной (экспоненциальной) степени зависит от яркости и контраста. Теоретическим пределом разрешающей системы глаза считается угол разрешения в 0,03 с. Но даже в условиях высокой яркости 100 кд/кв. м (ясный солнечный день) и предельного контраста угол разрешения глаза составляет не менее 1 с.

Что касается механизмов цветового восприятия и обработки изображения мозгом, то здесь еще много белых пятен, но эмпирически удается получить вполне корректные результаты для расчета параметров сжатия картинки.

Как происходит сжатие. Немного теории

Возможно те, кто работал с фотографиями, входящими в комплект поставки пакета CorelDRAW, обратил внимание на их великолепное качество и небольшой размер файлов. Это и есть формат Wavelet, с помощью которого данные можно сжимать даже сильнее, чем с помощью Jpeg, и с лучшим качеством .

Рис. 1. Это изображение, сжатое с одинаковыми параметрами, занимает в Jpeg 759 Кбайт, а в Wavelet — 521 Кбайт

 

 

 

Wavelet-преобразование относительно молодо. Теорию вейвлетов (в русском написании этот термин прижился пока только в научной среде) связывают с работами по геофизике Морлета и Гроссмана (Morlet and Grossman) середины 1980-х гг. С тех пор теория вейвлетов завоевала популярность в теоретической физике и прикладной математике, в области обработки сигналов и сжатия изображений. Преобразование использует в процедуре сжатия подход с позиций энтропии. (Entropia по-гречески — поворот, превращение. Понятие энтропии впервые было введено в термодинамике для определения меры необратимого рассеяния энергии.) В теории информации энтропия — мера неопределенности какого-либо испытания, которое может иметь разные исходы. Линейный кодер и кодер Хоффмана, о которых далее пойдет речь, являются энтропийными кодерами.

Для начала рассмотрим вкратце наиболее известный формат сжатия — MPEG. Основная идея этого широко распространенного в Сети формата состоит в том, чтобы хорошо предсказать движение от кадра к кадру, чтобы передавать не всю картинку, а лишь меняющиеся части. Для снижения избыточности в Mpeg, как и в Jpeg, применяется Дискретное Косинусное Преобразование. ДКП выполняется на блоках 8х8 точек. Далее блок 16х16, выделенный в текущем кадре, ищется в соответствующей области большего размера в предыдущих или последующих кадрах. Коэффициенты ДКП (исходных данных или разности текущего и последующего блока) квантуются. Многие коэффициенты после такой операции оказываются нулями. Коэффициенты ДКП, параметры квантования и векторы движения кодируются по Хоффману (который применяется и при Wavelet-преобразовании) с использованием таблиц, определенных стандартом. Закодированные данные складываются в пакеты, которые формируют поток согласно синтаксису MPEG.

Формат Wavelet является более помехоустойчивым, чем Mpeg, за счет отсутствия межкадрового предсказания. Главное преимущество сжатия по вейвлетам — работа целиком над всем полем. ДКП же требует разбиения изображения на части, что хорошо заметно, например, на сильно сжатых Jpeg-картинках . В Wavelet обработка одного поля никак не зависит от следующего. Этот фактор очень важен для систем телевизионного наблюдения.

Алгоритм Wavelet-компрессии основан на преобразовании по двум ортогональным координатам и обеспечивает независимое сжатие по четным и нечетным полукадрам (полям). Каждое поле имеет собственную полосу частот. Двумерные видеоданные преобразуются в набор частотных составляющих. Полоса частот сужается методом фильтрования , а затем квантуется (принимает дискретные значения).

Рассмотрим Wavelet-сжатие и восстановление подробнее. Блок Wavelet-фильтрации состоит из набора фильтров и дециматоров (термин, обозначающий процедуру прореживания сигнала). Эти операции проводятся над изображением по горизонтали и вертикали, рис. 4 иллюстрирует древовидную структуру Wavelet-фильтрации.

Рис. 4. Wavelet-фильтрация яркости и цветоразностных составляющих

Фильтры накладываются в соответствии с базисными Wavelet-функциями (подробнее см. www.mathsoft.com/wavelets), которые лучше коррелируют с широкополосной естественной картинкой, чем синусоидальные функции, применяемые в ДКП.

Wavelet-фильтрация всего изображения позволяет избавиться от блоков ложных данных (так называемых артефактов), возникающих при ДКП. Поэтому и деградация картинки при высоких коэффициентах сжатия в Wavelet проходит более изящно, нежели в Jpeg.

Работа целиком над всем полукадром позволяет снизить вычислительные издержки при обработке и масштабировании изображения, избежать перегрузки DSP-процессора. Это особенно важно для систем реального времени, применяемых в охранных телевизионных системах.

Отфильтрованная картинка состоит из компонентов исходного изображения . Яркостная и цветовые компоненты фильтруются раздельно. Причем фильтрация и частотное представление картинки — только подготовительные процедуры. Никакого сжатия при этом не происходит. Все блоки, от A до N, используются в последующих операциях. Изображение можно квантовать только после фильтрации.

Все данные, изображенные в виде разноцветных блоков на рис. 4, проходят высокочастотную фильтрацию (по одной или двум осям, за исключением блока N). Высокочастотная фильтрация подобна дифференцированию, а производная от константы равна нулю. Реальное изображение состоит из множества областей с одинаковыми или незначительно отличающимися параметрами. Поэтому отфильтрованное изображение в каждом отдельном блоке содержит гораздо больше нулей, чем исходное. Точно так же в электрических схемах применяют последовательный «развязывающий» конденсатор, чтобы избавиться от постоянной составляющей. Величины же ненулевых данных после фильтрации распределены по Лапласу, т. е. находятся в узком интервале значений. В этом и состоит смысл фильтрации. Как уже говорилось, глаз человека менее восприимчив к высоким частотам, ему труднее получить высокое разрешение на областях изображения с большим числом мелких деталей. Это обстоятельство учитывается при адаптивном квантовании отфильтрованного изображения. Блоки, содержащие высокочастотные составляющие, квантуются в более широком диапазоне, чем блоки, содержащие однородные данные. Блок N квантуется слабее, чем блоки K, L и M. Блоки K, L и M — слабее, чем I, J и H, и т. д. Сильнее всех квантуется блок A. Энтропийный линейный кодер обнаруживает в потоке данных длинные последовательности нулей и заменяет их короткими кодами — числом найденных нулей и спецсимволом. Энтропийный кодер Хоффмана — это универсальный компрессор/декомпрессор, который применяют для сжатия любых (не только видео) данных. Идея кодера Хоффмана состоит в построении диаграммы распределения значений. Далее происходит замена наиболее часто встречающихся длинных кодов короткими. Например, пусть чаще всего встречается значение abcdefgh. Оно заменяется коротким значением a. Истинное значение редко встречающегося a заменяется более длинным значением ijklmnop и т. д. Декомпрессия изображения проходит абсолютно аналогично компрессии, но в обратном порядке.

А что на практике?

На практике не все так просто. Каждый полукадр сжимается отдельно, а значит — с различной степенью компрессии, в зависимости от текущего сюжета. В то же время в реальных устройствах скорость выходного потока желательно иметь постоянной, иначе сложно выбрать канал передачи (витая пара, экранированный кабель, оптоволокно и т. д. имеют разную полосу пропускания). Для поддержания скорости выходного потока в определенном диапазоне в Wavelet-аппаратуре предусматривают схему автоматического регулирования коэффициентов квантования. Тем не менее скорость выходного потока — переменная величина. Она меняется около заданного значения в зависимости от изменений сюжета. Поэтому задаваемая средняя скорость выходного потока должна быть на несколько процентов ниже пропускной способности канала. Физическая же скорость потока постоянна и не зависит от количества получаемой сжатой информации. В случае, когда информации меньше, чем прокачивает канал, аппаратура пересылает больше служебных пакетов. Если же информации больше, чем может прокачать канал, часть кадров теряется. На экране это выглядит, как «замораживание» отдельных кадров. Реальную аппаратуру проектируют так, чтобы избежать этого «залипания» кадров. Дорогая высокоскоростная линия связи (оптоволокно, экранированный кабель) позволяет передавать изображение с небольшим коэффициентом сжатия, обеспечивая очень высокое качество. Дешевая низкоскоростная линия связи (телефонная «лапша») требует высокого коэффициента сжатия, что влечет за собой ухудшение качества. Но по низкоскоростному каналу можно передать и изображение очень высокого качества, жертвуя числом кадров (25 кадров/с и менее).

А что в жизни?

Основные преимущества Wavelet (высокая степень сжатия, хорошее качество и помехоустойчивость) определяют и область применения алгоритма. На практике Wavelet-устройства используются в промышленности и военной области.

На рис. 5 показано реальное восстановленное телевизионное изображение (SVHS-качество), полученное при помощи отечественного компрессора (кодера) . Для большей убедительности экран монитора просто сфотографирован, хотя это и ухудшило качество изображения.

Рис. 5. Восстановленное изображение c частотой вывода на экран 12,5 полукадров/с

 

 

 

 

Рис. 6. В одном корпусе монтируется кодер

 

 

 

Кодер обеспечивает оцифровку аналогового PAL- или NTSC-видеосигнала, сжатие оцифрованного потока данных и кадровую организацию видеоданных. Помимо сжатия и восстановления видео-потока, сигналы надо как-то принимать и передавать. Поэтому устройство комплектуется оригинальным модемом .

Рис. 7. Взгляд на модем изнутри

 

 

 

Модем специально спроектирован для работы по выделенной линии и обеспечивает передачу видеоданных со скоростью 2 Мбит/с. По этой же линии передаются и команды управления (режимы работы кодера, внешние реле) .

Рис. 8. Подключение компрессора к системе телевизионного наблюдения

Канал управления (1200 бит/с) разнесен с каналом видеоданных по частоте, но физически оба тракта передаются по одному и тому же проводу. По последовательному каналу видеоданные от компрессора можно ввести прямо в компьютер. Основное достоинство такого кодека заключается в экономической эффективности систем наблюдения при охране объектов, занимающих значительную площадь. Отпадает необходимость прокладки дорогостоящего кабеля, видео можно передавать по обыкновенной телевизионной «лапше». По этой же «лапше» можно передавать видео от разных камер .

Рис. 9. Число телекамер можно наращивать произвольно

Есть и ограничения. Расстояние между камерами не должно превышать 2,4 км, иначе сигнал затухает. Разные сюжеты можно наблюдать на мониторе только с разделением по времени, коммутируя камеры.
Монтаж систем наблюдения в крупном здании, где ранее специальная видеотехника не устанавливалась, — трудоемкая и дорогая работа. Компрессия видео позволяет упростить задачу — в качестве видеотракта можно использовать одну пару проводов из уже имеющейся телефонной сети. Общие тенденции в развитии систем телевизионного наблюдения позволяют предположить, что дальнейшее развитие крупных систем охранного видео не обойдется без сжатия сигнала, подобно тому, как связь между удаленными компьютерами немыслима без сжатия данных.

 


Абонемент на йогу Чтобы занятия йогой приносили не только удовлетворение, но и реальный результат - их следует проводить планомерно, систематически, на протяжении достаточно долгого периода времени. Чтобы реализовать это желание и не дать себе лазейки в виде «сходить, когда появится время» - лучше всего сразу купить абонемент на подходящий курс. Наличие абонемента - прекрасный стимул для начала планирования собственного времени и очень хороший повод для реального старта на пути к самосовершенствованию...

Статьи, интервью, публикации