Автоматическое наведение видеокамер в системах видеоконференц-связи

В групповых системах видеоконференц-связи (системах, предназначенных для установки в переговорных комнатах и конференц-залах ) используются PTZ-камеры. PTZ-камера – это видеокамера на поворотном устройстве с объективом с переменным фокусным расстоянием.

Pan/Tilt/Zoom (PTZ, панорама/наклон/масштаб) - двухкоординатное поворотное устройство с возможностью дистанционного управления, для телевизионных камер с объективом с изменяемым фокусным расстоянием.

 Углы обзора собственно видеокамеры весьма ограничены и составляют около 70° по горизонтали и 40° по вертикали. На рисунке изображен план переговорной комнаты и указан максимальный угол обзора (по горизонтали) видеокамеры системы ВКС.

Наведение_1

В поле зрения видеокамеры попадают все девять участников. Как видно из рисунка, участники находятся на разных расстояниях от камеры и поэтому на удаленной стороне одни участники отображаются крупным планом, а другие более мелким.

Поворотное устройство PTZ-камеры позволяет существенно расширить углы наблюдения, как по горизонтали, так и по вертикали. Механизм поворотного устройства перемещает видеокамеру в горизонтальной и вертикальной плоскостях, что позволяет навести камеру на любого участника (или группу участников). Объектив камеры может менять фокусное расстояние, приближая или удаляя объект видеосъемки. Объектив меняет фокусное расстояние, сохраняя объект в фокусе и создавая впечатление, что вы приблизились или удалились от объекта. Управление камерой осуществляется с помощью пульта дистанционного управления системы.

Для того, чтобы увеличить изображение какого-либо участника, можно с помощью пульта ДУ навести камеру и изменить фокусное расстояние. Однако во время сеанса ВКС делать это неудобно, да и кто это будет делать?

Было бы здорово, если бы система делала это самостоятельно, т.е. говорящий в данный момент участник автоматически отображался бы крупным планом.

Такие автоматические системы сегодня, насколько известно, остались только у одного производителя оборудования ВКС - компании Polycom, система Polycom Director.

Наведение_2

 

Официальная информация производителей об алгоритмах автоматического наведения камеры на говорящего в системах ВКС недоступна, поэтому описанный ниже алгоритм является всего лишь предположением. Предположение сделано на основе изучения конструкции ВКС,  длительного и тщательного изучения работы системы, а также опыта разработки электронно-механических систем. Поэтому можно смело утверждать, что данное предположение в большой степени соответствует действительности.

 

Системы ВКС с функцией автоматического наведения камеры на говорящего легко отличить визуально: во-первых, эти системы имеют ширину блока, на котором установлена камера, не менее 40 сантиметров; во-вторых, над видеокамерой располагается некий конструктивный элемент. На рисунке схематично изображен внешний вид видеокамеры системы ВКС с элементами системы автоматического наведения камеры на говорящего (для простоты рассмотрим не систему Polycom Director с двумя видеокамерами, а предшествующую систему Polycom PowerCam Plus).

Наведение_3

Основными элементами системы автоматического наведения камеры на говорящего являются микрофоны позиционирования, встроенные в блок (микрофоны позиционирования выделены стрелками). Всего микрофонов четыре: два для позиционирования по горизонтали Pan (H) и два - для позиционирования по вертикали Tilt (V).

В основу механизма определения местоположения источника звука в горизонтальной плоскости положен принцип, по которому человек (уши + головной мозг) определяет направление на источник звука.

Человек воспринимаем на слух направление и пространственное расположение звука, основываясь на ничтожных различиях между звуками, которые реально доходят до каждого уха. Мозг позволяет измерять и обрабатывает едва различимые различия между звуками, воспринимаемыми левом и правом звуком. Эти различия между звуками позволяют точно определить, где источник звука.

Чтобы вычислить направление на источник звука в горизонтальной плоскости, мозг использует разницу прихода звука сначала к одному уху, затем к другому. Например, звук в правое ухо пришел раньше, чем в левое, значит источник звука находится справа. Если задержка прибытия звука в левое ухо составляет около 250 мкс, значит, источник звука расположен примерно в 30 градусов справа от центра.

Чем больше задержка, тем больше угол отклонения от центра. Нулевое время задержки означает, что источник звука находится прямо перед нами. Задержка в 700 мкс означает, что источник располагается точно слева, или точно справа (расстояние между ушами принимается равным 23 см).

На рисунке схематично показан способ определения угла направления  на говорящего в горизонтальной плоскости, относительно нулевой оси камеры. Аналогично определяется угол и в вертикальной плоскости.

Наведение_4

Человек определяет положение источника звука в вертикальной плоскости, основываясь не на задержках, а на анализе спектра приходящего сигнала.

Реализовать такой алгоритм в кодеке ВКС невозможно, у кодека просто “не хватит ума”, поэтому производители систем ВКС поступают просто – “добавляют еще два уха” (микрофоны вертикального позиционирования).

Таким образом, кодек ВКС определяет, в каком направлении и на какой угол необходимо повернуть камеры относительно нулевой оси камеры (и в горизонтальной, и в вертикальной плоскостях), чтобы камера точно смотрела на говорящего ("глаза в глаза").

Система ВКС, имея только данные о задержке прихода сигналов в две пары микрофонов, не может определить расстояние до говорящего и не может изменить фокусное расстояние камеры таким образом, чтобы представить говорящего крупным планом. А это важно, поскольку хотелось бы, чтобы говорящие, в независимости от местоположения за столом и расстояния до камеры, имели на экране приблизительно равные размеры.

При определении расстояния до источника звука слуховая система человека базируется на 4-х основных факторах:

  • Интенсивность воспринимаемых звуковых сигналов. Интенсивность звуковых сигналов убывает обратно пропорционально квадрату расстояния от источника.
  • Тембральная составляющая воспринимаемых звуковых сигналов. Звуки от удаленных источников содержит меньше высокочастотных гармоник вследствие их затухания при прохождении через воздушную среду
  • Закономерности между интенсивностью и фазами воспринимаемых звуковых сигналов. Сложность звуковых сигналов уменьшается пропорционально расстоянию до источника.
  • “Рисунок” реверберации воспринимаемых звуковых сигналов. Сравнение прямых и отраженных слуховых сигналов.

Слуховые оценки расстояния до источника звука менее точны, чем оценки направления на источник звука. Воспроизвести в кодеке алгоритм определения (оценки) расстояния до источника звука практически невозможно!

В основу механизма определения расстояния до источника звука  и изменения фокусного расстояния также положен принцип, по которому человек определяет, кто именно из присутствующих говорит в данный момент, а именно:

  1. По разнице времени между поступлениями звука в левое и правое ухо определяется направление, откуда этот звук поступил.
  2. Человек поворачивает голову в направлении источника звука и глазами определяет, кто говорит (фактически – у кого движутся губы)

Таким же способом система ВКС, повернув камеру в направлении говорящего, начинает анализировать движение в кадре (мимику лица говорящего человека), уточняет угол поворота камеры таким образом, чтобы лицо было в центре камеры, а затем увеличивает или уменьшает (изменяя фокусное расстояние камеры) движущийся объект до определенных алгоритмом размеров (фиксируя крупный план говорящего участника).

Таков принцип работы системы автоматического наведения камеры на говорящего. Здесь необходимо сделать следующие замечания:

  • Четыре микрофона, по которым определяется местоположения говорящего, не принимают речевой сигнал для передачи на удаленную сторону, и никакого отношения к тем микрофонам, которые устанавливаются на стол, не имеют. Микрофоны, которые устанавливаются на столе, никакого отношения к системе наведения камер также не имеют.
  • Для корректной работы систем автоматического наведения требуется помещение с малым временем реверберации и хорошим, стабильным освещением.
  • Система автоматического наведения достаточно инерционна. Для определения направления на источник  звука требуется несколько секунд, после чего камера поворачивается в рассчитанную позицию. Однако система автоматического наведения видеокамеры - самообучающая система. При первоначальном включении система работает так, как описано выше. Положении любого говорящего фиксируется в памяти. При последующей активизации система работает уже по предустановленным позициям, и соответственно срабатывает быстрее. Поэтому перед проведением сеанса ВКС с использованием системы автоматического наведения, систему необходимо "обучить"!