Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save w495/4191296 to your computer and use it in GitHub Desktop.
Save w495/4191296 to your computer and use it in GitHub Desktop.
автоматическая классификация видео — обзор литературы

ieee transactions on systems, man, and cybernetics, vol. unknown, no. unknown, unknown 2007 Automatic Video Classification: A Survey of the Literature Darin Brezeale and Diane J. Cook, Senior Member, IEEE

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ВИДЕО — ОБЗОР ЛИТЕРАТУРЫ

Сегодня много видео доступно. Работа над методами автоматической классификацией видео началась, чтобы помочь зрителям найти интересующее видео. В этой статье, мы рассмотрим видео классификацию литературы. Мы обнаружили, что детали описаны с трёх позиций — текста, аудио и видео — и что огромное многообразие комбинаций черт и классификации были исследованы. Мы описываем общие черты, отобранные и подведем итог в этой области. Мы закончим работы предложениями для дальнейшего исследования.

I. Введение

(* infeasible perspective точка зрения incorporated *)

Сегодня у людей есть доступ к огромному числу видео, как и на телевидении, так и в интернете. Количество видео, из которого зрителю приходится выбирать сейчас настолько велико, что становится просто невозможно просмотреть его полностью, чтобы найти интересующее. Один способ, который зрители используют, чтобы сократить масштаб выбора — это просмотр видео по определенным категориям и жанру. В связи с большим количеством видео, которое нужно подвергнуть квалификации, исследование началось с автоматической классификации видео.

Важность автоматизированных методов классификации видео и активная часть исследования подтверждается существованием TRECvid (вывод видео по оценке эффективности). TRECvid предоставляет набор данных и задания, чтобы позволить исследователям сравнить их методологии на основе схожих условий. Так как в большинстве своем TRECvid нацелен на вывод информации по видео, существование видео классификационных заданий, таких как идентифицирующих клипов, содержащие лица или текст на экране, разделяющие между клипами представляющие сцены на улице или внутри помещения, или идентифицирующие клипы с речью или инструментальным звуком.

Мы сконцентрируемся в статье на обзоре подходов к классификации видео, и определим это через индексацию видео. Выбор черт и подходов , взятых для классификации видео, схожи с теми в видео, индексирующими область.

Выбор особенностей, и подходов взятых для классификации видео сходны с подходами из области индексации видео (поиска видео). Большая часть исследований индексации видео подходит с точки зрения баз данных, которая позволяет эффективно и точно получить видео, которые соответствуют запросу пользователя [3]. В отличие от этого, алгоритмы видео классификации ставят видео по категориям, обычно со значимой отметкой, с которой ассоциируется (например, «спортивное видео», или «комедия»).

Много подходов было разработано, чтобы представить автоматизированную видео классификацию. После обзора методов, мы обнаружили, что эти подходы могли быть разделены на 4 группы: основанные на тексте, основанные на аудио, основанные на видео и те, что соединяют в себе и текст, и аудио, и видео черты. Большинство авторов ввели разнообразные черты в их подход из более чем одного способа. Кроме того, в добавок к описанию общих черт, мы предоставляем результаты статей, которые мы на шли по этой теме.

Остальная часть статьи организована следующим образом. В секции 2, мы описываем некоторые понятия, которые являются общими независимо от набора черт, анализируемых для видео классификации. В секции 3, мы описываем подходы, которые используются только в текстовом анализаторе. Аудио анализатор описывается в разделе 4. В разделе 5 , мы описываем видео анализатор. Секция 6 рассматривает комбинированный анализатор. Затем идёт описания и сравнения различных черт в секци 7. Вывод можно найти в разделе 8 там же есть предложения для дальнейшего исследования в этой области.

II. Основы

Для видео классификации, используется 3 способа — текст, аудио, видео. Независимо от этих компонентов, есть общие подходы к классификации.

В то время как большинство исследований видео классификации нацелено на классификацию полностью видео, некоторые авторы концентрируются на классификации отдельных сегментов, например идентификации жестоких сцен в кино или определении различных новостей в потоке вещания новостей. Большинство видео классификаций нацелены на классификацию видео по нескольким обширным категориям, таких как жанры кино, но авторы постарались сконцентрироваться на более узких задачах, таких как идентификация типов спортивного видео среди всего видео. Развлекательное видео (видео о спорте) — очень популярный домен для классификации, но несколько классификационных усилий направлено на информационное видео (новости, медицинское образование).

(* attempt попытка; проба; опыт to make an attempt *)

Многие подходы были включены в кинематографические принципы или понятия из кино теории. К примеру, в фильмах ужасов блёклый свет, в то время как комедии прекрасно освещены. Движение может быть полезной чертой для идентификации фильмов-экшн, спорта, музыкальных видео; ненасыщенные движением фильм зачастую представляют собой драму. Способ с которым сменяются сегменты фильма могут повлиять на настроение. Кинематографические принципы обращен и к аудио тоже. К примеру, определенная музыка выбирается для того, чтобы произвести определенного рода впечатление на зрителя.

При обзоре литературы по видео классификации, мы обнаружили стандарты классификации, таких как Баесовская классификация, метод опорных вектров, нейронные сети.

Как бы то ни было, 2 метода для классификации очень популярны — Gaussian mixture models и модели Маркова.

(* "ubiquitousness" *)

В связи с повсеместным использованием двух подходов, мы предлагаем ознакомиться с некоторым фактами об этих методах.

Исследователи склонные использовать вероятностный подход для моделирования дистрибьюции часто выбирают наиболее изучаемый метод Гаусса. Дистрибуция Гаусса не всегда моделирует хорошо. Одно решение этой проблемы лежит в использовании линейной комбинации Гауссовской дистрибуции, известной как Гауссовская смешанная модель. Неизвестная вероятность диструбции функции может быть представлена формулой:

________,
где …..

Гаусовская дистрибуция была использована для формирования сложных вероятностных дистрибуций также как кластеризация.

Скрытая модель Маркова широко используется для классификации последовательных данных. Видео — это собрание черт, в которых порядок появления очень важен, многие авторы используют модель Маркова чтобы установить временные отношения. Модель представляет собой набор положений и вероятность перехода от одного положения к другому. Типичное использование в классификации видео должна натренировать модель для каждого класса. Представленная тестовой последовательностью черт, последовательность будет приписана к тому классу, который по мнению модели Маркова представляет собой наибольшую вероятность для данной последовательности.

III. Подходы основанные на тексте

В литературе текстовые подходы наименее используемые для классификации видео. Тексты взятые на основе видео распадаются на 2 категории. Первая категория — это тексты-описательные. Это могут быть тексты об объектах, которые снимаются (сценовые тексты), к примеру имя спортсмена на одежде или адрес здания, или текст может появляться на экране (графический текст), так например результаты спортивных соревнований, титры.

Текстовые черты производятся для использования в оптическом распознавании, чтобы преобразовать эти объекты в полезный текст.

Текстовые объекты сами по себе могут стать чертами, которые мы описываем в разделе видео характеристик.

Вторая категория — это запись диалога, которая вычленена из речи с использованием методов распознавания речи или предоставленная в форме программ для слабослышащих или субтитров.

Программы для слабослышащих позволяют таким людям узнать, что говориться героями на экране. Такая программа требует декодер. В добавок к воспроизводимому диалогу на видео, программа для слабослышащих воспроизводит и другую информацию, например звуки спецэффектов, рычание животных, музыкальное сопровождение (заключенное в ноты). В тоже время, такая программа показывает маркеры смены говорящего или обозначения смены темы. Также кроме этой программы, может включены быть субтитры или открытая программа для слабослышащих. Она выполняет ту же роль что и закрытая, но текст является неотъемлемой частью видео и для разъединения потребуется оптическое распознание. Субтитры также являются частью видео в широковещании, хотя это и не обязательно случай с DVD. Но при этом они нацелены на людей которые могут слышать аудио, но при этом не понимают, что говориться, так как это может быть другой язык или аудио плохого качества, обычно субтитры не отображают ссылок не на диалоги.

(* utilize *)

Одно преимущество текстовых подходов в том, что они могут быть использованы на большом документе. Другой положительный момент, что взаимосвязь между чертами (словами) и определенным жанром легко понимается человеком. Например, врядли неожиданным будет услышать «стадион», «арбитр» и «шорт-стоп» в записи бейсбольной игры.

(* largely *)

Но в то же время, использование текста несет в себе и некоторые недостатки. Один из них кроется в том, что в большинстве своем это диалог. Мало есть чего описывать. По этой причине в записи нет многого, что есть на экране. Второй недостаток — не у всего видео есть программа для слабослышащих и в то же время запись не может быть сгенерирована без диалога. Третий недостаток — вычленение закрытой программы недорого, но при этом очень дорого обходится генерация векторных черт, так как векторные черты могут состоять из тысяч терминов.

(* omissions *)

Другая трудность в использовании состоит в том, что текст вычленяется либо распознованителем речи либо оптическим распознователем с экрана, высока вероятность ошибок. В то время как закрытые программы точны, закрытые программы сгенерируемые в режиме реального времени могут быть с описками или опущениями.

(* combination сочетание *)

В следующей секции мы обсудим обработку текстовых особенностей

Далее следует раздел, описывающий конкретные документы, которые выполняются видео классификации только с помощью текстовых функции. Документы, которые использовали текстовые функции, будь то отдельно или в комбинации с другими типами функций, перечисленных в Таблице 1

Процесс Текстовых Черт

Обычный метод представления текстовых черт - это конструирование вектора, используя модель bag-of-words.

В этой модели, каждый вектор имеет равную степень к числу уникальных слов представленных в документе с каждым термином в векторе, представляющим одно из тех слов.

Каждый термин в векторе черт документа будет иметь равное значение к числу раз, когда слово появляется в документе. Один потенциальный недостаток модели в том, что не хранится информация о порядке слова. Представление записи может потребовать вектор размером в десятки тысяч , если каждое уникальное слово будет включено.

(* // prior перед*

// transcript
#

// dimension величина
// dimensionality
//
// сущ. product dimensionality
// Размерность
// dimensionality: high ~ вчт. большая размерность
// dimensionality: high ~ вчт. большая размерность

*)

Чтобы сократить размернонсть перед созданием вектора особенностей используются списки стоплов и стемминг.

Такие слова врядли могут нести разрличительную функцию. И по этому они удаляются из главного списка слов перед формированием векторов особенностей.

Стемминг удаляет суффиксы. оставляя от слова только корень. "независимый" и "незисимость" оба имеют ('корень') "независ".

Таикие урезанные слова используются для генерации веторов особенностей вместо оригинальных слов. Один из наиболее распространных способов стемминга --- использование алгортма Портера.

Другой общий (общепринятый) подход, --- взвешивать каждый термин, используя подход, известный как мера важности слова в контексте документа.

TF-IDF = TF(d, t) * IDF(t)

TF(d, t) --- частотность слова t в документе d

IDF(t) = \log( \dfrac{N}{df(t)} )

N --- число документов, и df(t) --- количество документов содержащих термин t.

(* // obtained *)

Использование только возможности текста

(* // This is followed --- Это сопровождается *)

Жу и другие классифицировали новости используя особенности, получаемые из программ для слубослышаших. Новостное видео разделяется на сюжеты, при использовании маркеров перемены тем, включенных коментатором в программы.

Это сопровождается применением парсера естественного языка для определения ключевых слов внутри новостных сюжетов и превые N уникальных слов сохраняются.

По опыту авторов при N = 20 достигается наибольшая точность предстказаний длинны особенностей.

Классификация представляется вычислением весов для каждой комбинации класса и ключевого слова, а именно

w_ij = P(c_i|f_i)^2 *  \( log(m_j) + 1 \)

w_ij --- является вестом класса i для ключевого слова j где $P(c_i|f_i)$ --- является условной вероятностнью класа i при ключевом слове j и m_j --- число новостных сегментов содержащих ключевое слово j.

Веса для каждого ключевого слова в сюжете суммируются. И новостной сегмент приписывается к классу с наибольшей суммой. Категорями являются:

  • политика,
  • ежедневные события,
  • спорт,
  • погода,
  • развлечения,
  • бизнес и наука,
  • здоровье и технологии.

Бризели и Кук представили классификацию, используя текст и визуальные особенности отдельно. Мы опишем здесь использовние текстовых особенностей.

Программы для слабослышащих вычлены из DVD и представлены как вектора особенностей.

Классификация представлена использованием метода опорных векторов, которая была выбрана, потому что они хороши для классификации проблем в которых мало тренировочных примеров. Но у векторов особенностей много терминов.

В домене развлечений существует $15$ жанров кино.

IV. Аудио подходы

Подходы основанные только на аудио встречаются чуть чаще, чем текстовые. Один плюс состоит в том, что аудио подходы требуют меньше компьютерных ресурсов, чем видео. Также если черты необходимо сохранить, аудио черты требуют меньше места. Другое преимущество аудио подхода в том, что аудио клипы могут быть короткими. Многие статьи, проанализированные нами, сообщают, что необходимо лишь 1-2 секунды.

Для того, чтобы извлечь черты из аудио сигнала, сигнал представлен на определенной частоте (22050Гц).

Эти примеры (семплы, куски) потом могут быть сгруппированы во фреймы. Некоторые авторы предпочитают начинать один фрейм, где заканчивается последний, другие предпочитают наложение фреймов.

Черты могут быть получены либо из домена времени, либо из домена частоты.

На рисунке 1 пример домена времени, на котором амплитуда сигнала представлена в отношении ко времени. Используя трансформацию Фурье, сигнал в домене времени может быть переведен в домен частотности (частоты), известный также как спектр сигнала (!!!).

Пример такого же сигнала в домене частоты представлен на рисунке 2.

Audio Особенности

В то время как многие видео-подходы используют особенности представляющие кинематографические принципы, которые будут обсуждаться позже, многие аудио особенности выбирают чтобы приблизиться к человекому восприятию звука.

аудио особенности могут вести к 3-м уровням аудио-понимая:

  1. Низкий уровень, аккустики, средняя частота фрейма.
  2. Средний уровень звука объектов, аудиоподпись звука меча, который скачит.
  3. Высокий уровень сценовых классов, фоновая музыка, играющая в опреденных типах видео сцен.

Мы приведем, краткое описание некоторых общепринятых применений низкоуровневых аудиоособенностей:

Особенности временного домена.

Среднее квадратическая энергия сигнала приближает человекое восприятие силы и громкости сигнала.

Лию и др, обнаружили что в спортивных программах присутвует постоянный уровень шума,

(* // standard deviation --- среднеквадратичного отклонения // subdivided подразделены // subbands поддиапазоны *)

который может быть выявлен с помощью среднеквадратичного (стандартного) отклонения и динамического диапазона громкости. Сигнал может быть подразделен на поддиапазоны и сила каждого диапазона измеряется отдельно. Различным классам звуков соответствуют различные поддиапазоны.

Частота переходов через нуль (ЧПН, ZCR --- Zero crossing rate) --- число перемен знака амплитуды сигналы.

Более высокие частоты соответствуют большему числу переходов через 0. Речь обычно имеет большую изменчивость ЧПН чем музыка.

Если громкость и число переходов через ноль оба ниже порогового, то этот фрейм может быть представен как тишина. Коэфициент тишины --- является долей (частью) фрейма со значением амплитуды ниже порогового. Речь обычно имеет более высокий коэфициент тишины чем музыка. А в новостях этот коэфициент больше чем в рекламе.

Особенности частотного домена.

Энергетическое (Силовое) распределение является распределением сигнала по частоте компонент. Частотный центройд, который апроксимирует яркость, является средней точкой спектрального распределения силы и предоставляет значение, где частотные компоненты сконцентрированы. Обычно яркость выше в музыке чем в речи, чья частота обычно ниже 7 кГц.

Полоса пропускания --- является мерой, диапазона частот сигнала. У некоторых типов звуков более узкие диапазоны частот чем у других. У типичной речи более низкая полоса пропускания чем у музыки.

Основной частотой (собственная частота) является самая низкая частота в семпле и апроксимирует высоту звука, которая является субъетивной мерой. Высота может быть неопределена для некоторых фреймов.

Высота иногда используется для разграничения между женскими и мужскими голосами.

Так же может быть использована для идентификаии значимых участков речи говорящего, так например введение новой темы.

Фрейм который не является тишиной, но и не имеет тона, может представлять шум, или приглушенную речь.

Мел-частотные кепстральные коэфициенты получаются взятием логарима от спектральных компонентов и затем они помещаются в буфер основанный на шкале мел-частоты, которая основана на восприятии.

Это сопровождается применением ДКП. У ДКП хорошее силовое сжатие, которое после трансформации множества значений несет в себе большую часть информации, необходимой для восстановления, значения сконцентрированы в нескольких новых значениях (коэфициентах).

Только храня те коэфициенты в которых сконцентрировано большая часть силы. размернонсть может быть сокращена, но при этом все еше позволяя создавать аппроксимацию исходных значений.

Video Classification Using Audio Features Only

В этом разделе мы описываем характерные работы (перечисленные в хронологическом порядке) которые представляют видео классификацию только через аудио свойства.

Работы, которые используют наиболее общепринятые аудио свойства как в отдельности, так и в сочетание с другими типами свойств перечисленными в таблице 2.

Лию и др измеряют аудио сигналы на частоте 22,050 Гц. Затем они делят эти сигналы на сегменты длинной в 1 секунду. Сегменты подразделяются на фреймы (не путать с видео кадрами) в 512 семплов каждый.

Началом нового фрейма является каждые 128 семплов, так что он частично перекрывает предыдучщие 3 фрейма.

|128|128|128|X|
    |128|128|X|128|
        |128|X|128|128|
            |X|128|128|128|

Каждый клип представляет собой клип с 12 свойствами:

  1. коэфициент шума (?) \ не-тишины
  2. среднеквадратическое (стандартное) отклонение громкости
  3. динамический диапазон громкости
  4. частотный компонент контура громкости около 4 герц
  5. среднеквадратическое (стандартное) отклонение высоты
  6. соотношение голоса или музыки
  7. соотношение шума или приглушенности
  8. частотный центройд (~ яркость)
  9. полоса пропускания частоты
  10. силовой коэфициент от 0 до 630 Гц
  11. силовой коэфициент от 630 до 1720 Гц
  12. силовой коэфициент от 1720 до 4400 Гц

Последующий анализ показал что свойства с наибольшей силой распознавания являются:

  • частотный компонент контура громкости около 4 Гц
  • частотный центройд (~ яркость)
  • силовой коэфициент от 0 до 630 Гц
  • силовой коэфициент от 1720 до 4400 Гц

Классификация представлена использованием структру 1 класс 1 сеть, в которой отдельная нейронная сеть натренирована для каждого класса.

Выход каждой нейронной сети становится входом для нейронной сети, натренированной для другого класса.

Аудио-классы могут быть:

  • реклама,
  • баскетболл,
  • футболл,
  • новости,
  • прогноз погоды.

Лию и др замеряют аудио сигналы на частоте 22,050 Гц. Затем они делят эти сигналы на сегменты длинной в 1.5 секунды.

Каждый новый сегмент начинается каждые 5 секунд, и так что сегмент перекрывает предыдущий на секунду.

|0.5|0.5|0.5|
    |0.5|0.5|0.5|
        |0.5|0.5|0.5|

Сегменты подразделяются на фреймы в 512 семплов каждый.

Началом нового фрейма являетюся каждые 256 семплов, так что каждый фрейм перекрывается предыдучщим фреймом.

|256|256|
    |256|256|

Каждый клип представляет собой клип с 14 свойствами:

  1. коэфициент шума (?) \ не-тишины
  2. среднеквадратическое (стандартное) отклонение громкости
  3. среднеквадратическое ЧПН
  4. динамический диапазон громкости
  5. ундуляция (волнистость) громкости
  6. силовая модуляция в 4 Гц
  7. среднеквадратическое отклонение периода высоты
  8. сглаженный коэфициент высоты
  9. коэфициент отсутвия высоты
  10. частотный центройд (~ яркость)
  11. полоса пропускания частоты
  12. силовой коэфициент от 0 до 630 Гц
  13. силовой коэфициент от 630 до 1720 Гц
  14. силовой коэфициент от 1720 до 4400 Гц

Эргодический (самостабилизирующися) СММ натренирована для каждого из 5 видео классов

  • реклама,
  • баскетболл,
  • футболл,
  • новости,
  • прогноз погоды.

20 послдовательных клипов используются как тренировочное множество для СММ.

Роч и масон используют аудио (в частноnти MFCC, Mel-frequency cepstral coefficients) из видео для жанровой классификации. Этот подход был избран в связи с успехов автоматического распозновния речи. Авторы исследуют как много коэфициентов нужно хранить, и находят, что наилучший результат достигается при 10-12 коэфициентах. Смешанная модель Гаусса используется в связи с популярностью автоматического распознавания речи. Исследуемые жанры:

  • спорт (особенно подвижные игры),
  • мультики,
  • новости,
  • реклама,
  • музыка.

Динх и др, применяют Вейвлет Добеши 4 к 7 диапазонам к аудиоклипам из телевизионных шоу. Так же как и ДКП, вейвлеты имеют хорошее силовое (энергитическое) сжатие, и удобны для сокращения размерности.

Свойтва для представления аудиоклипов используют коэфициенты вейвелтов. Они являются поддиапазоном силы, поддиапазоном изменчивости, и ЧПН.

Так же авторы определили 2 свойства, центройд и полоса.

centroid = ...

bandwidth = ...

Где N --- число коэфициентов вейвлета, а w --- i-тый коэфициент вейвлета.

(* // performed *)

Классификация представена с использованием C4.5 дерева решений, kNN, метода опорных векторов с линейными ядрами. Лучшие результаты (производительности (?) ) были получены классификатором kNN. В то время как тестировались клипы длинной 0.5, 1.0, 1.5, 2.0 не было найдено значительной разницы в производительности. Исследуемые жанры --- новости, реклама, шоу, концерты, мотогонки, мультики. Вейвлеты сравниваются с фурье по результатам и времени.

Пан и Фалутсос исследуют использования независимый анализ компонентов (НАК) в отношении использования визуальных и аудио свойств отдельно. Мы описываем подход основанный на аудио в этом кразделе. НАК является методом обнаружения множества статистически независимых и не гаусовских компонентов, которые представлены множеством многомерных данных. Для каждго класса получено множество базисных функций. Видео классифицируется жанром, если его основные функции лучше всего представлены им. Это лучше всего определяется как наименьшая ошибка восстановления клипа. Чтобы вычленить основные функции аудио, НАК обращается к случайными семплам к сегментам через каждые 5 секунд, каждая из которых огрубляется со степеью 10. Классы видео: новости и реклама. Монкрив и др используют кинематографические принципы основанные на аудио. чтобы разделить фильмы ужасов от других. Перемены в интенсивности звуковой силы используются для обнаружения, того, что авторы называют событиями звуковой силы.

(* // climax кульминация *)

Cобытия звуковой силы ассоциируются со следующими чувствами: * изумление * тревога * мрачное причутвие * изумление следущее за постоянной тревогой * мрачное причутвие строющееся до кульминации Эти 4 типа событий проявляются больше в фильмах ужасов, чем в дргуих. Среди фильмов ужасов эти события полезные и для классификации сцен.

(* // multivariate . многомерный, множественный hierarchical multivariate model *)

V. Визуальный подход

(* surveyed --- *)

Большинство подходов к классификации видео, которые мы рассмотрели, основывются на визуальных элементах, как в отдельности так и в сочетании с текстом и аудио.

Это соотносится, с тем фактом, что люди получают больше информации из мира, с помощью зрения.

(** Обратить внимание на инверсии. **)

(* frame --- кадр (фотографический кадр) shot --- съемка (кадр, монтажное понятие в кинематографе) scene --- сцена *)

Большинство подходов, которые используют визуальные свойства, получают их или через кадры или или через съемки. Видео это собрание картинок, известных как кадры. Все кадры снятые за дейсвтвие одной камерой называют съемкой. Сцена --- одина или более съемок связаныне друг с другом по смыслу (в редких случаях одна съемка содержит несколько сцен). Например, диалог двух людей может быть снят, так, что толкьо один человек будет в кадре в конкретный момент.

(* appears *)

Каждый раз камера, кажется, останавливатеся, и движется к другому человеку, что представляет собой смену съемок. Но собрание съемок, представляющие беседу полностью является сценой.

Некторые авторы используют термины сцена и съемка взаимозаменяемо. Обычно они используют термин сцена, они на самом деле имеют ввиду съемку.

Многие визуальные подходы используют съемки, т.к. съемка является естественным способом сегментации видео. Каждый из этих сегментов может представлять собой, высокоуровневую идею для людей. Так, например, "2 беседующих человека", "машина едущая по дороге".

Так же съемка может быть представлена единственным кадром, который называют ключевым кадром. Обычно, ключевой кадр, это первый кадр съемки, хотя некотороые авторы используют этот термин, чтобы сослаться на любой единственный кадр съемки.

Съемки так же связаны с некотрыми кинематографическими принципами. Например, в фильмах, которые концентрируются на действии, съемки более кратки, чем в тех, которые сконцентрированы на развитии героя.

Одна проблема связанная с методами основанными на съемках заключается в том, что методы автоматической идентификации границ съемки не всегда работает хорошо.

Идентификация сцен еще более трудная. И существует мало подходов видео классификации, которые это делают.

Использование свойств, которые соотносятся с кинематографическими принципами, популярно для визуальных подходов более чем в тексовых и аудио методах.

Они включают использование цвета как замены уровня освещености, движение как меры действия, и средняя продолжительност съемки для меры темпа видео.

Одна из проблем визульных подходов --- огромное число возможных данных.

Эта проблема может решена как, если использовать ключевые какдры для представлении съемок, или с помощью техник уменьшения размерности, таких как применение вейвлет-преобразования.

(* alleviated решена *)

А. Визуальные средства

1) Цветовые средства

Видео кадр состоит из множества точек, пикселей, и цвет каждого пикселя представлен множеством значений цветового пространства. Существует множество цветовых пространств для предстваления цветов в кадре. RGB и HSV (оттенок (тон), насыщенность, яркость) --- являются наиболее популярными. В цветовом пространстве RGB цвет каждого пикселя представлен некоторой комбинацией отдельных цветов красного, зеленого и синего. В пространстве HSV цвета представляются оттеноком (а именно, длинна волны, восприятие цвета), насыщенностью (а именно, количеством белого в цвете), яркость (интенсивность цвета).

Распределение цветов в кадре часто представляется через цветовую гистограмму. Цветовая гистограмма --- число пикселей в кадре для каждого возможного цвета.

Цветовые гистограммы часто используются для сравнения двух кадров с допущением что одинаковые кадры будут иметь одинаковые числа, даже хотя движние объекта, или движение камеры будет означать что они не совпадают попиксельно (для каждого пикселя).

(* assumption допущением *)

С помощью цветовой гистограммы невозможно определить положение пикселей со специальными цветами. Таким образом, некоторые авторы разделяют кадр на области, и применяют цветовую гистограмму для каждой области, чтобы зафиксировать, пространственную информацию Другой проблемой, связанной с цветовыми подходами является, то что картинки представленные в кадрах могли быть получены при различных условиях освещения и поэтому сравнение кадров может быть не корректным. Решение предложенное Дрю и О состоитsв нормализации цветовых полос канала каждого кадра и перевод их в пространво цветности (Y-UV). После применения вейвлет преобразования и ДКП каждый кажр имеет одинаковы условия освещения.

2) MPEG

Одним из наиболее популярных видео форматов являетя МПЕГ, коего существует несколько разновидностей.

Мы предлагаем высокоуровневое и несколько упрощенное описание МПЕГ-1. Для более детального изучение обратитесь к стандарту. Во время кодировки видео в МПЕГ-1 каждый пиксель каждого кадра, трансформируется из RGB и Y C_b C_r, который состои из одного значения светности (Y) и двух значений цветности (C_b C_r).

Значения в новом цветовом пространстве трансформируются в блоки 8 на 8 пикселей применением ДКП. Большая часть процесса кодировки имеет дело с макроблоками которые состоят из 4 блоков 8 на 8 пикселей, организованых по модели 2 на 2.

Последовательные кадры внутри одной съемки часто очень похожи. Эта временная избыточность может быть использовано как средство сжатия видео.

Если макроблок из предудущего кадра может быть найден в текущем кадре, то кодировки макроблока можно избежать с помощью проецирования позиции этого макроблока из предыдущего кадра в текущий кадр с помощью вектора движения.

(* purpose conducted *)

Большинство работ были проведены по вычленению свойств прямо из МПЕГ видео. Преимущественно с целью индексации видео. Для классификации видео важнейшими свойствами извлеченными из МПЕГ видео являются коэфициенты ДКП и векторы движения. Это может улучшить производительность системы классификации потому что свойства уже вычислены и могут быть получены без декодирования видео.

3) Cредства основанные на съемки

Прежде чем использовать съемки надо сначала их определить (найти). А это оказалось сложной задачей для автоматизации, в частонсти потому что существует множество способов переходов от 1 съемки к другой.

Линхарт утвеждает что ситстемы редактирования видео предлагают более чем 100 различных типов редакций, и ни один существующий метод не может правильно идентифицировать все типы.

Большинство типов переходом сцен попадает в одну из трех следующих:

  • линейная склейка (резкое обрубание);
  • затухание ;
  • наплыв \ расстворение.

(* '`abruptly *)

Линейные склейки --- это когда съемка внезапно прерывается и начинается другая. Затухания бывают двух типов: постепенное исчезновение --- представляет собой постепенное исчезновение съемки в монохромном кадре, в то время как проявление --- съемка постепенно появляется в монохромном кадре. Растворение представляет из себя процесс исчезновения одной съемки, и проявления другой. Детали обоих съемок могут быть видны в этом процессе.

Важно распознавать типы перехода съемок для того чтобы правильно определять перемены съемок. Но сами типы перехода съемок могут быть полезными для средствами категоризации.

(* assumption предположение *)

Однин из простеших методов определения съемок --- взять разницу цветовой гистограммы последовательных кадров, с предположением, что цветовых гистограммах кадров внутри одной съемки будет меньше чем разница для кадров разных съемок.

Этот метод хоть и прост в реализации, но имеет ряд потенциальных проблем.

Первая состоит в том, чтобы определить порог различий который нужно превысить, чтобы сказать о смене сцен. Съемки, которые содержат больше движения требуют большего порогового значения, чем, те, в которых мало движения.

Кроме того, пороговое значение вероятно, должно быть различно для разных видео. И даже внутри одного видео нет определенного значения, которое моглобы идентифицировать все перемены съемок.

Пороговое значение, которое является низким будет идентифицировать смену съемок которой не существует, в то время как, высокое пороговое значение будет пропускать некоторые смены съемок.

Айенгара и Липпман обнаруживают смены съемок используя расстояния Кульбака-Лейблера между гистограммами последовательных кадров,

http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BB%D1%8C%D0%B1%D0%B0%D0%BA%D0%B0_%E2%80%94_%D0%9B%D0%B5%D0%B9%D0%B1%D0%BB%D0%B5%D1%80%D0%B0

которые были переведены в относительное rgb.

Значения высисляются, таким образом:

R
G
B
r =
,
g =
,
b =
R + G + B
R + G + B
R + G + B

Расстоянеи Кульбака-Лейблера считается так

N
q(xi )
KL(p||q) = −
p(xi )log
p(x i )
i=1

где N это число буферов (участков) в гистограммах, p(x_i) --- вероятность цвета x_i для одного кадра. и q(x_i) --- вероятность цвета x_i для другого кадра.

Труонг и другие определяют смены съемок с помощью типов переходов съемок:

  • линейная склейка,
  • пропадание, проявление,
  • и расстворение. Линейная склейки определяются на основании глобального порога, чтобы определить потенциальные срезы, затем скользящее окно, применяется к этим кадрам, используя адаптивный порог.

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

VIII. Заключение

Мы провели анализ литературы по классификации видео и обнаружили, что огромное разнообразие подходов было исследовано. Свойтва описаны по трем методам: текст, аудио и видео. Большая часть литературы описывает описывает подходы, которые используют свойства с позиции одного метода. Не смотря на то что много было сделано, есть еще много исследовательских возможностей в автоматической классификации видео. и в связанной области --- индексации видео. Только очень мало работ, которые мы рассмотрели попытались представить классификацию на уровне кадра или сцены. Возможно класиифицировать на уровне сцены или кадра имеет много применений, таких как фильтрация содержимого (идентификаии жестоких сцен), идентификаии важных сцен, резюмирование (реферирование) видео. Это так же может быть полезно для разделения жанров, например, для создания категории боевиков, которая включает автогонки.

Большая часть работ, которые мы рассмотрели экспериментироватли с 6 или даже меньшим колчеством классов фиьмов. Так что больше исследований должно быть проведено, чтобы определить как они будут работать в реальных условиях.

Журнал "Moving Image Genre-form Guide" перечисляет 129 жанров, 36 форм (минисерии, полнометражный фильм).

Помимо этих 129 жанров, сущестуют поджанры, такие как ситуационные комедии, темные комедии.

Наиболее исследованными оказались спортивные программы.

Другой связанной облатью исследования является моделирование пользователя. Который с позиции зрителя классифицирует видео в 1 из 2-х классов: нравится \ не нравится.

В случае развлекательного видео, пользователю могут нравиться фильмы из разлиных жанров, но не каждый фильм в отдельно взято жанре. Классификация по жанрам поможет сзить поиск, но зритель должен еще самостоятельно проделать работу по идентификации видео внутри жанра, которое, он хотел бы посмотреть.

Существующие методы рекомендации видео основаны на комбинации колоборативной фильтрации, и техниках основанных на текстовом поиске. Колоборативная фильтрация создает рекомендации на основе того, что понравилось похожим людям. Подход основанный на информационном поиске создает рекомендации используя описательную информацию о видео, такую как жанр, актер, режисер.

До определенного момента эти подходы работали хорошо, но большинство видео, доступное сейчас в интернете не имеет рейтинговых оценок, необходимых при колоборативной фильтрации, и не имеет описательной информации, необходимой для методов информационного поиска. Таким образом до существует возможность автоматической классификации видео.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment