И на подходе еще восьмой — Google представил свою нейросеть Imagen Video. Обещает быть крутой. Монтажеры и звукооператоры, ваша профессия под угрозой!
Кому нужна нейросеть для видео
Кинематографисты, видеоредакторы, постпродюсеры, блогеры, компании по производству видео — всем им нейросети помогут быстро и просто улучшить качество видеоряда в самых разнообразных аспектах (от технических до содержимого). И все это — без необходимости тратиться на дорогостоящее оборудование и ПО, а также годы специализированного обучения.
Работают в России
Этими нейросетями вы сегодня можете пользоваться — ограничений для российских пользователей нет.
1. DeepHD
Разработка «Яндекса». Эта нейросеть позволяет улучшать качество видео (кстати, у нас вы можете заказать видеомаркетинговые услуги — прим. отдела продаж TexTerra). Видео обрабатывается в реальном времени и изменяется благодаря типовым моделям ИНС. Что делает нейросеть DeepHD:
- Увеличение разрешения исходного видео.
- Улучшение детализации видео.
- Удаление артефактов, которые появляются после компрессии видео.
- Удаление шума на видео.
- Удаление визуального брака.
Все эти функции были задействованы для повышения разрешения, яркости, четкости и насыщения деталями видеоизображения в старых советских мультфильмах, снятых на пленку.
Как устроена DeepHD
В основе нейросети «Яндекса» лежит GAN. Это генеративная состязательная сеть, которая используется для улучшения разрешения видео. Благодаря GAN-модели улучшается качество исходного видео, повышается детализация и его четкость.
В «Яндексе» заявляют: для обучения нейросети DeepHD использовалась огромная выборка данных. Внутри нее содержится более миллиона сценариев того, как должен выглядеть тот или иной объект — в разных разрешениях, в разных комбинациях и даже в разном качестве.
Благодаря огромной выборке данных, программа может безболезненно восстанавливать любые утраченные детали на видео без ущерба для общего кадра.
Нейросеть DeepHD улучшает резкость видео. Это хорошо заметно на кадрах до (слева) / после (справа)
2. Голосовой перевод видео и закадровые субтитры «Яндекс.Браузера»
В сентябре 2021 года стала доступна уникальная функция — автоматический перевод видео с английского языка на русский. Процесс перевода может длиться от пары минут (если видео короткое) до нескольких десятков минут (если видео продолжительное).
Нейросеть «Яндекса» синхронизирует текстовой перевод вместе с видео, чтобы все выглядело синхронно и максимально плавно.
Нейросеть переведет видео — как это работает
- Сначала искусственный интеллект идентифицирует англоязычную звуковую дорожку.
- Распознанная звуковая дорожка конвертируется в текст.
- ИНС делит полученный текст на небольшие фрагменты.
- Идентифицируется пол человека, который произносит англоязычную речь.
- Происходит непосредственно перевод.
- Происходит синтез голоса.
- Сгенерированный русскоязычный звук синхронизируется с видеорядом.
5 августа 2022 года «Яндекс» добавил функцию перевода в реальном времени и для стримов YouTube. В ближайшие месяцы функция закадрового перевода стримов должна появиться и на других видеохостингах, включая Twitch. Нейронная сеть «Яндекса» постоянно совершенствуются и в октябре 2022 года поддерживает уже пять языков: английский, французский, испанский, немецкий и английский.
В настоящий момент закадровый перевод стримов находится в бете и не доступен всем пользователям сервиса. В частности, «Яндекс» продемонстрировал функцию закадрового перевода на каналах Ted, SpaceX, NASA, TechCrunch, Apple и Google
«Яндекс.Браузер» позволяет смотреть англоязычные видео с русской звуковой дорожкой
3. Waifu2x
Довольно известный в узких кругах сервис — с ним хорошо знакомы любители аниме. В отличие от двух нейросетей, которые мы разобрали выше, эта используется для решения только трех задач:
- Улучшение резкости.
- Шумоподавление.
- Увеличение разрешения.
Да, здесь нет ничего сногсшибательного — зато все работает быстро, качественно и без артефактов.
Внимание: здесь речь идет о десктопном Waifu2x, а не о ее онлайн-версии. Получить доступ к десктоп-сборке вы можете по этой ссылке.
Исходное видео 240p, на выходе — 1080p
Что работает с VPN
К сожалению, российские пользователи не могут оплатить и скачать многие крутые сервисы, которые сейчас формируют будущее индустрии.
Решение — хороший VPN с американским расположением сервера и посредник, который выпустит карту американского банка (например, US Unlocked). Пополнить ее можно будет, например, при помощи криптовалюты. Некоторые сервисы также могут требовать американский номер телефона. Эта проблема тоже решаема — можно зарегистрировать виртуальный американский номер при помощи любого удобного сервиса (например, telphin.ru).
4. Wisecut
Wisecut — программа для редактирования и монтажа видеоряда, которая использует искусственный интеллект и сопутствующие технологии для решения типовых задач:
- Автоматическая обрезка тишины.
Поможет ускорить процесс монтажа (не придется вручную искать такие фрагменты). - Авто-распознавание лиц.
Wisecut умеет распознавать лица для их автоматической замены или вставки объектов на их место. - Умные субтитры.
Искусственный интеллект позволяет создать автоматические субтитры. Более того, вы можете добавить автоматический перевод звуковой дорожки в видео на десятки разных языков всего в один клик. - Умная фоновая музыка с автоматической синхронизацией под видео- и аудиоряд.
Специалисты тратят огромное количество времени на подбор фоновой музыки, а монтажеры — на ее сведение с видеорядом. Но благодаря нейросети Wisecut вопрос можно решить за секунды. Кстати, нейросеть создает оригинальную музыку, так что страйков от YouTube ждать не стоит. Wisecut также умеет распознавать звук и речь в видео, благодаря чему может синхронизировать искусственные компоненты с уже существующими. - Автоматическое приглушение звука.
Во время работы монтажеры решают множество типовых задач. Изменение баланса громкости разных звуковых дорожек — одна из них. Благодаря нейросети Wisecut можно выводить музыку на передний план или приглушать ее — в автоматическом режиме. Искусственный интеллект самостоятельно балансирует громкость сразу нескольких дорожек, уменьшая громкость музыки, когда в видео начинается диалог.
Часовое видео с длинными паузами можно сократить до 20-30 минут. Нейросеть сама найдет куски с тишиной, удалит их и сведет видео
5. Pixop
Если предыдущий инструмент больше рассчитан на монтажеров, то Pixop — на всех, кто любит снимать видео. Можно улучшить видео нейросетью — программное обеспечение позволяет решать чисто технические задачи.
- Улучшение качества видео.
Раньше на ручной ремастеринг фильма могли уходить месяцы (иногда даже годы) ручной, кропотливой работы художников и других специалистов. Потом появились полуцифровые способы восстановления видео, но для их использования требовалось дорогостоящее оборудование и очень сложные настройки программного обеспечения.
В 2022 году автоматические фильтры Pixop позволяют сделать ремастеринг за несколько минут. Можно улучшить качество ролика — со стандартного разрешения до HD. Благодаря технологиям искусственного интеллекта и машинного обучения процесс не повредит сценам, а восстановит недостающие детали максимально деликатно.
- Улучшение кадра.
Повышение резкости, умное размытие, изменение частоты кадров, автоматические улучшайзеры, увеличение масштаба, изменение частоты кадров — это лишь малая доля тех возможностей, которые дает нейросеть Pixop. - Автоматический фильтры.
Позволяют, например, удалять черезстрочность, восстанавливать детализацию, осуществлять активное шумоподавление, увеличивать разрешение видео в автоматическом режиме.
Каждый фильтр Pixop обучается на тысячах часах отснятого материала и тестируется разработчиками нейросети.
Работа Pixop: до и после. На кадре с увеличением шумы видны лучше всего
В разработке
При удачном стечении обстоятельств эти сервисы смогут изменить видео-индустрию как таковую.
6. Make-A-Video
Практически единственная в своем роде нейронная сеть, которая позволяет создавать короткие видеоролики по текстовому описанию. Разработчиком нейросети Make-A-Video выступает запрещенная в России Metа.
По представленному разработчиками видео понятно: сгенерированный визуал мало похож на настоящее видео, снятое в реальном мире. Это, скорее, смесь каких-то фотографии, графики и коллажей. Это не высококачественный компьютерный рендер и не супер-реалистичная графика, как в последних компьютерных играх. В сгенерированных видео присутствуют элемент мультяшности. Кроме того, нельзя не заметить немалое количество технических артефактов.
Работа Make-A-Video — смесь «Пластилиновой вороны» и картин сюрреалистов. Пока неясно, насколько серьезно запрещенная в России Metа подошла к созданию своей нейросети
Вот ключевые особенности ИНС, заявленные разработчиками:
- Создание видеороликов по текстовому содержанию любой сложности. Без ограничений по распознаванию запросов.
- Конечный ролик всегда получается не длиннее пяти секунд. Не содержит звуковой дорожки. Имеет низкое разрешение.
7. CogVideo
Уникальная китайская нейронная сеть для создания видео по текстовому описанию (text-to-video). Также как и предыдущая разработка, CogVideo генерирует очень короткие анимации без звука. Здесь, кстати, нет намека на мультяшность, визуал очень реалистичный и не напоминает компьютерную графику.
Все сгенерированные видео имеют сильную зернистость и очень низкую частоту кадров — длина сгенерированного видео четыре секунды, и за это время кадры меняются всего лишь 32 раза.
Коллаж из видео, созданный на основе роликов, сгенерированных нейросетью CogVideo
Кстати, текстовое описание нейросеть понимает только на китайском языке. Так что — это еще один из многочисленных поводов начать изучать этот язык.
Итого, по возможностям и механике работы CogVideo очень напоминает нейросеть DALL E 2-OpenAI.
Новинка — Imagen Video
Google представила свою новую разработку — Imagen Video (всего через несколько дней после того, как запрещенная в России компания Meta объявила о своем Make-A-Video, о котором мы говорим выше).
Imagen Video способна создавать видео 1280×768 с частотой 24 кадра в секунду на основе письменной подсказки. Пока сеть находится на стадии исследования, можно посмотреть примеры на сайте официального релиза Imagen Video.
Судя по образцам, в видео пока еще много заметных артефактов, но плавность и детализация лучше, чем у предшественников.
Примеры видео, сгенерированных нейросетью CogVideo
Вот ключевые возможности сети:
- Высокое разрешение в сочетании с относительно высокой частотой кадров: система соответствует стандарту HD с разрешением 1280 x 768 пикселей при частоте 24 кадра в секунду.
- «Каскад» из семи диффузионных моделей, которые преобразуют исходный текст. С каждым шагом увеличивается разрешение видео до все более высокого и с более высокой частотой кадров. Длина конечного видео на выходе составляет 5,3 секунды.
- Сеть владеет разными художественными стилями — от пиксельной графики до Ван Гога, понимает трехмерные объекты
- Точно генерирует видео по текстовой команде (для обработки текста Google использовал языковую модель Transformer T5-XXL).
Video Imagen была обучена на изображениях и видео одновременно. Но Google решил пока не выпускать Imagen Video или ее исходный код. Причину объясняют «поиском защиты от небезопасного контента (дискриминация, насилие…)». Imagen Video обучался на частично «проблемных данных». Внутреннее тестирование отфильтровало много жестокого и недопустимого контента, но социальные предубеждения и стереотипы сеть все еще периодически воспроизводит. Исследовательская группа сообщает, что распознать и отфильтровать их пока сложно.
Резюме
Будущее уже наступило. Колоссальный прорыв, изменивший видеопродакшн, стал возможен только благодаря нейросетям. А может ли нейросеть оставить без работы монтажеров и звукооператоров? Пока что, нет. Но развитие идет полным ходом. Несмотря на невероятные результаты, искусственные нейронные сети отличаются от человека одним серьезным фактором: результат их работы пока случаен. Специалист-человек, когда работает с видео, всегда придерживается определенной концепции и следует определенной идее. Искусственная нейросеть же этого еще не умеет. Это все еще весьма упрощенный симулятор естественных нейронных сетей, не обладающий возможностью автономно думать. Поэтому и решает пока в основном сугубо прикладные и довольно узкие задачи. Но делает это подчас уже лучше человека. Хоть результаты работы во многом еще и непостоянны, монтажерам и звукооператорам стоит сосредоточиться на освоении решении творческих и многосложных задач.