NVIDIA опубликовала код нейросети для генерации реалистичных лиц StyleGAN3
Исходный код системы машинного обучения на базе генеративно-состязательной нейронной сети (GAN) для создания реалистичного изображения лиц StyleGAN3 опубликовала компания NVIDIA 11 октября на хостинге программных проектов GitHub.
Вместе с исходными кодами StyleGAN3 в репозитории размещены уже обученные модели и инструменты для самостоятельного обучения моделей. Обучение производилось на коллекциях изображений Flickr-Faces-HQ, включающей 70 тыс. изображений человеческих лиц в разрешении 1024×1024 пикселей, AFHQv2 — коллекция морд животных и Metfaces — коллекция портретов классической живописи.
StyleGAN3 генерирует изображение нового лица на основе особенностей нескольких лиц. Изображение далее адаптируется под необходимые пол, возраст, цвет кожи и другие особенности. Система выявляет и классифицирует особенности лиц, в дальнейшем она позволяет свободно комбинировать особенности с использованием весовых коэффициентов. Результатом становится изображение лица, неотличимо от фотографии живого человека.
Первая версия системы StyleGAN была представлена в 2019 году, а в 2020 году выпущена ее доработанная версия — StyleGAN2. В третьей версии реализован новый механизм распространения сигналов в нейронной сети в виде непрерывных процессов.
Это позволило обойти проблему алгоритмов машинного обучения, связанную с абсолютным позиционированием сформированных деталей. Проблема приводила к заметным смещениям деталей относительно друг друга при генерации видеоряда. Новая версия решает проблему.
StyleGAN3 написана на языке программирования Python с использованием библиотеки машинного обучения PyTorch 1.9. Для работы требуется видеокарта NVIDIA с поддержкой CUDA 11.1 и не менее 12 Гб оперативной памяти.