Google UVQ

В оценке качества видео есть два класса методов: с использованием оригинала и без оригинала.

Первый класс достаточно широко известен и часто используется при оценке качества видеокодирования. Сюда входят такие уже ставшими стандартными методы как PSNR, SSIM, VMAF, CIEDE2000. А также их производные, призванные устранить недостатки: PSNR-HVS[M], MS-SSIM, SSIMULACRA2 и другие.

Если есть оригинал и необходимо оценить качество кодирования, то здесь путь очевидный. Если же есть просто абстрактное видео, которое не с чем сравнить, то эта задача гораздо сложнее. Оценка качества строится на другом принципе и использует эвристические методы. Этот класс тоже развивается достаточно динамично. Уже появилось множество методов, такие как NIQE, BRISQUE, Ma, BLIINDS, VMAF-NR и Google UVQ.

Сегодня рассмотрим что из себя представляет Google UVQ.

Для улучшения качества сервиса таким платформам видеохостинга, как YouTube, Rutube, VK-Video и др. необходимо определять субъективное восприятие качества видео пользователем. Однако проблема в том, что на стороне видеохостинга нет «оригинала», с которым сравнить видеопоток, принимаемый от клиента. Более того, если гипотетически представить, что такой оригинал есть, то необходимо учитывать, что объективные метрики качества хорошо работают на изначально высоком качестве исходного видео, обычно подготовленным профессионалами на студийном оборудовании. Видеохостинги же в основном имеют дело с пользовательским видео (UGC), в большинстве случаев снятым на простые камеры и телефоны, с неподготовленным освещением, «дёргающейся» картинкой и другими дефектами присущими любительскому видео.

Следующий материал фактически является переводом публикации в блоге Google: https://research.google/blog/uvq-measuring-youtubes-perceptual-video-quality/. Иллюстративные материалы являются собственностью Google.

Подливает масла в огонь вариативность качества пользовательского видео, что сильно влияет на адекватность объективной оценки. Чем больше вариативность, тем менее согласованно работают объективные методы. Люди с большей вероятностью обратят внимание на артефакты транскодирования видео с исходно высоким качеством, чем на те же артефакты у видео с изначально низким качеством.

Специалисты Google опубликовали статью в 2021 году «Rich Features for Perceptual Quality Assessment of UGC Videos», где описали метод решения данных проблем пользовательского контента с помощью универсальной модели оценки видео (UVQ). Модель использует несколько нейронных сетей, от семантического анализа высокого уровня до анализа искажений на уровне пикселей. Для тренировки нейронных сетей используется набор видео YouTube-UGC, содержащий 1500 образцов пользовательского видео. Данный набор использует видео Youtube распространяемых по лицензии Creative Commons. Набор содержит метки как для исходных видео, так и для результата транскодирования, что помогает лучше выявлять связи между самим видео и его воспринимаемым качеством.

Субъективная оценка качества видео

Для сбора информации о воспринимаемом качестве в Google использовали внутренню платформу, где эксперты ставили оценки видеороликам по шкале от 1 до 5, где 1 — самое низкое качество, 5 — самое высокое. Оценки усреднялись для получения метрики MOS (mean opinion score). Далее метрика сопоставлялась с эталонными метками из набора YouTube-UGC и классифицировалась с помощью влияющих на восприятие качества факторов по трём основным категориям: контент, искажения и сжатие. Например, видео без контента (например, полностью состоящего из помех, без видимой понятной картинки) не получит высокую оценку MOS. Также снижению общей оценки качества способствуют искажения, возникающие на этапе производства видео и артефакты сжатия видео, внесённые сторонними платформами, например, при перекодировании или передаче.

Слева: видео без контента не получит высокую оценку MOS. Справа: для видео с динамичным спортом выставили более высокую оценку MOS.

Слева: размытое игровое видео получило очень низкую оценку MOS. Справа: видео с профессиональной обработкой (высокий контраст и четкие края) получило высокую оценку MOS.

Слева: сильно сжатое видео получает низкую оценку MOS. Справа: видео без артефактов сжатия с высокой оценкой MOS.

Следует отметить, что размытое игровое видео имеет самую низкую MOS (1,2). Даже ниже, чем видео со сплошными шумами. Возможное объяснение заключается в том, что у зрителей могут быть более высокие ожидания качества для видео, имеющих картинку вообще. Артефакты размытия значительно снижают воспринимаемое качество видео.

Модель UVQ

Распространенным методом оценки качества видео является выявление комплексных признаков с последующим связкой этих признаков с значением MOS. Однако ручное выявление значимых признаков требует много времени даже для экспертов в предметной области. Кроме того, признаки выявляются на ограниченных выборках, что может плохо работать на более вариативном UGC. Т.е. имеет смысл использовать машинное обучение для оценки качества UGC, поскольку оно может автоматически выявлять признаки на больших выборках.

Обучение модели с нуля на существующих наборах UGC может быть проблематичным, так как количество качественных наборов данных UGC ограниченно. Чтобы преодолеть это ограничение применяется этап самообучения (самоконтролируемого обучения) модели UVQ во время тренировки. Такой этап позволяет выявить из миллионов исходных видео комплексные признаки, связанные с качеством без использования эталонных значений MOS.

Используя категории, связанные с качеством и результат самообучения, была разработана модель UVQ с четырьмя нейронными сетями. Первые три ContentNet, DistortionNet и CompressionNet используются для извлечения признаков качества относящихся к категориям, т.е. контента, искажений и сжатия. Четвертая сеть AggregationNet отображает извлечённые признаки на значение единой оценки качества. ContentNet — сеть типа «обучения с учителем» тренируется с использованием меток контента специфичных для UGC, которые генерируются моделью YouTube-8M. DistortionNet обучается обнаруживать распространённые искажения, например, Гауссово размытие и белый шум в исходном кадре. CompressionNet обучается на артефактах сжатия видео и использует видео разных битрейтов. Сеть использует два сжатых варианта одного и того же контента, которые подаются в модель для прогнозирования соответствующих уровней сжатия. Исходя из предположения, что версия с более высоким битрейтом имеет меньший коэффициент сжатия, видео с более заметными артефактами сжатия получает более высокий балл.

Сети ContentNet, DistortionNet и CompressionNet обучаются на больших выборках без эталонных оценок качества. Поскольку разрешение видео также является важным фактором качества, сети, чувствительные к разрешению (CompressionNet и DistortionNet) используют патчи для анализа (т. е. каждый входной кадр делится на несколько непересекающихся патчей, которые обрабатываются отдельно), что позволяет захватывать детали в исходном разрешении без масштабирования. Три сети извлекают признаки качества, которые затем объединяются с помощью AggregationNet для прогнозирования оценок качества с эталонной MOS из набора данных YouTube-UGC.

Анализ качества видео с помощью UVQ

Использование модели UVQ при анализе видео из YouTube-UGC показывает, что метод способен предоставить единую оценку качества, а также высокоуровневые индикаторы, на основе которых можно сделать выводы о проблемах с качеством. Например, на среднем видео ниже сеть DistortionNet обнаруживает множественные визуальные артефакты, такие как дрожание и размытие объектива, а CompressionNet определяет, что нижнее видео было сильно сжато.

ContentNet присваивает метки контента с соответствующими вероятностями в скобках, т.е. автомобиль (0.58), транспортное средство (0.42), спортивный автомобиль (0.32), автоспорт (0.18), гонки (0.11)
DistortionNet обнаруживает и классифицирует множественные визуальные искажения с соответствующими вероятностями в скобках, т.е. дрожание (0.112), цветовое квантование (0.111), размытие объектива (0.108), подавление шумов (0.107).
CompressionNet определяет высокий уровень сжатия 0.892.

Также модель предоставлять информацию по результатам анализа патчей для нахождения момента появления проблем с качеством. Например, качество патча в момент времени t = 1 хорошее с низким уровнем сжатия. Однако модель определяет сильные артефакты сжатия в том же патче в момент времени t = 2.

UVQ показывает внезапное ухудшение качества (высокий уровень сжатия) для патча.


UVQ может генерировать отчет по диагностике видео, который содержит описание контента (например, стратегическая видеоигра), анализ искажений (видео размытое или пикселизированное) и уровень сжатия (слабое или сильное). Из информации UVQ ниже видно, что качество контента по отдельным признакам хорошее, но именно по качеству сжатия и искажений низкое. При объединении всех трех признаков общее качество является средне-низким. Мы видим, что эти результаты близки к мнению экспертов выставлявших оценки. Корреляция между оценкой экспертов и оценкой полученной с помощью UVQ говорит о том, что модель можно использовать для оценки качества видео.

Отчет UVQ по диагностике видео. ContentNet (CT): Видеоигра, стратегическая видеоигра, World of Warcraft и т.д. DistortionNet (DT): мультипликативный шум, размытие по Гауссу, насыщенность цвета, пикселизация и т.д. CompressionNet (CP): 0.559 (средне-высокое сжатие). Прогнозируемая оценка качества по шкале [1, 5]: (CT, DT, CP) = (3.901, 3.216, 3.151), (CT+DT+CP) = 3.149 (средне-низкое качество).


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *