YandexART 1.3 — наша новая версия нейросети для генерации изображений. По всем проведённым нами замерам она создаёт более качественные картинки и лучше понимает запросы — и всё благодаря переходу на технологию латентной диффузии.
Что «под капотом»
Прежде архитектура YandexART была основана на каскадной диффузии — об этой технологии мы уже рассказывали в другом посте. Если коротко, то суть её заключается в улучшении изображения по мере увеличения разрешения.
Теперь же YandexART работает на латентной диффузии. Вместо того, чтобы шаг за шагом улучшать изображение, нейросеть создаёт его в виде векторного представления, а затем за одно действие генерирует картинку в большом разрешении.
Это позволяет здорово экономить ресурсы. А результаты, как показывают SBS-замеры (Side-by-Side), получаются в 62% случаев лучше, чем у предыдущей версии YandexART.
На чём обучали нейросеть
Новая технология требует нового датасета. Если YandexART 1.2 обучали на 330 миллионах пар картинка-текст, то в версии 1.3 набор данных увеличился до более чем 850 миллионов пар.
При этом к стандартным описаниям в датасете добавились синтетические. Это более подробные тексты, сгенерированные нейросетями. Говоря примерами из предыдущего поста: не просто «наваристые щи», а «наваристые щи с ложечкой сметаны и душистой зеленью».
Вот так и устроена YandexART 1.3. Рассказывайте в комментариях о своих впечатлениях от новой версии нейросети!
ML Underhood