YandexART — как устроена наша модель
YandexART — нейросеть для генерации изображений и анимаций, на которой работает «Шедеврум». Недавно вышла новая версия, над которой в Яндексе проделали большую работу. В этом посте расскажем, как устроена модель.
Текущая архитектура YandexART основана на каскадной диффузии. Созданием конечного изображения занимаются три модели. Сначала GEN64 на 2.3B параметров генерирует картинку по промту в разрешении 64х64. Затем SR256 — на 700M — апскейлит изображение с учётом текста от пользователя. Потом работает SR1024 на 700М — она только увеличивает разрешение.
Датасет изначально состоял из триллиона пар «картинка–текст» — по сути, просто дампа интернета. Этот массив фильтровали в несколько этапов.
— Избавление от непристойных изображений.
— Оценка привлекательности с помощью набора данных
— Simulacra Aesthetic Captions.
— Фильтрация по размеру.
— Фильтрация по качеству.
— Фильтрация по эстетичности с использованием классификаторов, обученных на датасетах AVA, TAD66k.
— Фильтрация по сложности сцен.
— Фильтрация по монотонности фонов.
Далее фильтровали текст. За основу взяли описания на английском языке, вручную разметили случайную выборку из 4,8 тысячи текстов и дообучили на ней языковую модель на 180М.
Получилось 2,3 миллиарда пар «картинка-текст». 66 тысяч из них разметили вручную, вставляя оценку каждой по шакле от 1 до 3. На этом датасете обучили модель Sample Fidelity Classifier, а она собрала итоговый набор из 330 миллиона изображений. Для дообучения использовали 50 тысяч пар высокого качества, отобранных с помощью ML‑моделей и асессоров.
В конечном счёте YandexART выдаёт неплохие результаты. Согласно оценкам асессоров, модель оказалась примерно на уровне MidJourney v5, лучше Stable Diffusion XL в 77% случаев и лучше Kandinsky v3 — в 72%.
На этом всё. Более подробно о том, как устроена YandexART, вы можете почитать на Хабре и arxiv. А в сервисе Foundation Models можно протестировать API. Ну а здесь в комментариях делитесь своими результатами и опытом!

YandexART — нейросеть для генерации изображений и анимаций, на которой работает «Шедеврум». Недавно вышла новая версия, над которой в Яндексе проделали большую работу. В этом посте расскажем, как устроена модель.
Текущая архитектура YandexART основана на каскадной диффузии. Созданием конечного изображения занимаются три модели. Сначала GEN64 на 2.3B параметров генерирует картинку по промту в разрешении 64х64. Затем SR256 — на 700M — апскейлит изображение с учётом текста от пользователя. Потом работает SR1024 на 700М — она только увеличивает разрешение.
Датасет изначально состоял из триллиона пар «картинка–текст» — по сути, просто дампа интернета. Этот массив фильтровали в несколько этапов.
— Избавление от непристойных изображений.
— Оценка привлекательности с помощью набора данных
— Simulacra Aesthetic Captions.
— Фильтрация по размеру.
— Фильтрация по качеству.
— Фильтрация по эстетичности с использованием классификаторов, обученных на датасетах AVA, TAD66k.
— Фильтрация по сложности сцен.
— Фильтрация по монотонности фонов.
Далее фильтровали текст. За основу взяли описания на английском языке, вручную разметили случайную выборку из 4,8 тысячи текстов и дообучили на ней языковую модель на 180М.
Получилось 2,3 миллиарда пар «картинка-текст». 66 тысяч из них разметили вручную, вставляя оценку каждой по шакле от 1 до 3. На этом датасете обучили модель Sample Fidelity Classifier, а она собрала итоговый набор из 330 миллиона изображений. Для дообучения использовали 50 тысяч пар высокого качества, отобранных с помощью ML‑моделей и асессоров.
В конечном счёте YandexART выдаёт неплохие результаты. Согласно оценкам асессоров, модель оказалась примерно на уровне MidJourney v5, лучше Stable Diffusion XL в 77% случаев и лучше Kandinsky v3 — в 72%.
На этом всё. Более подробно о том, как устроена YandexART, вы можете почитать на Хабре и arxiv. А в сервисе Foundation Models можно протестировать API. Ну а здесь в комментариях делитесь своими результатами и опытом!
1 255 просмотров · 3 реакций
Открыть в Telegram · Открыть пост на сайте