научные события в мире генеративного ИИ в 2023
ТОП-5
Подборка моделей генеративного искусственного интеллекта, появившихся в 2023 году, от Арипа Асадулаева — преподавателя курсов «Обучение с подкреплением» и «Методы и технологии генеративного и композитного ИИ».
Neural Optimal Transport
В этом подходе авторы предложили новую модель для генеративного моделирования. Несмотря на то, что оптимальный транспорт ранее активно использовался в различных областях математики и экономики, было непонятно, как эффективно считать транспортные преобразования с помощью нейронных сетей и на данных большой размерности (например, на картинках). Авторы этой работы предложили формулировку, которая позволяет использовать нейронные сети для аппроксимации оптимального транспорта между распределениями. Эта модель применяется в задачах непарного обучения, таких как перенос стиля и модификация изображений, и показывает очень крепкие результаты.

Узнать больше можно здесь.
Rectified Flow
Еще одна, на мой взгляд, фундаментальная работа, связывающая в себе оптимальный транспорт и нейронные дифференциальные уравнения. Существующие модели генеративного моделирования часто бывают очень сложными, кроме того, диффузионные и score-based модели требуют выполнения множества шагов для создания единственного изображения. Дистилляция этих моделей, т. е. передача знаний из большой модели в меньшую, — интересная задача. Авторы Rectified Flow предложили методику, которая позволяет «выпрямлять» траектории, по которым следуют диффузионные модели. Во-первых, это позволяет быстрее создавать изображения, а, во-вторых, такая модель может быть дистиллирована намного проще.

Подробнее – здесь.
Drag Your GAN
Несмотря на широкое использование диффузионных моделей, на основе которых построено большинство современных методов, в задачах мгновенной модификации и генерации GAN-подобные модели все еще остаются лучшими. Интересная модель, представленная в 2023 году, — DragGAN. Этот метод позволяет контролировать области генерации, что очень полезно при модификации изображений. Например, этот подход позволяет контролировать позу, эмоции, размер объектов на изображении и так далее, предоставляя нам больший контроль в редактировании и модификации контента.

Узнать больше можно здесь.
Video diffusion
Методы, преуспевшие в создании изображений, постепенно начинают применяться и для создания видео. Высококачественные ролики можно создавать, по сути, используя стандартную формулировку модели гауссовой диффузии с незначительными модификациями. Эти модели сначала создают блок из определенного количества кадров, а затем для создания видео большей продолжительности обученная модель выполняет роль блочной авторегрессии по кадрам. Решения для подобных задач пока довольно инженерные, то есть являются некоторой хитрой комбинацией существующих подходов для других задач, но результаты многообещающие. Вероятно, следующий год станет годом прорыва в генерации видео.

Больше об этом — здесь.
Audio Generation
Нельзя не отметить достижения в использовании генеративных диффузионных моделей для создания и изменения звука. Благодаря этим моделям мы увидели множество различных ремиксов знакомой нам музыки, замены голоса исполнителя и т.д. Выделить основную модель здесь довольно трудно, но я бы отметил Diffusion Voice Conversion и модель, происходящую от нее – Diffusion Singing Voice Conversion. Также довольно сильные результаты были получены моделью AudioGen*, это CLIP-like подход на основе GANs, который позволяет генерировать различные звуки (помимо музыки) по текстовому описанию, например, шум проезжающей рядом машины, гул офиса или звук природы, то есть любой звук окружающих нас повседневно. Исследования в области обработки и преобразования аудио в этом году получили довольно много внимания.

Узнать больше можно здесь.

*Продукт компании Meta, запрещенной на территории РФ