Сбер улучшил генератор картинок Kandinsky: что изменилось

Команда из почти сотни профессиональных художников и дизайнеров вручную отбирала лучшие изображения для обучения обновленной нейросети — такой подход к созданию ИИ-генераторов картинок применили впервые.нейросетевые изображения космических ракетТест генератора изображений Kandinsky. Слева — 4.1 Image, справа — 3.1Источник: Hi-Tech Mail

Российская компания Сбер запустила принципиально новую версию своего искусственного интеллекта для создания изображений Kandinsky 4.1 Image. Разработчики полностью переписали внутреннюю архитектуру системы и внедрили уникальную методологию обучения с участием живых экспертов.

Инженеры отказались от традиционной U-Net структуры в пользу диффузионного трансформера. Эта замена кардинально изменила принципы работы системы — теперь нейросеть может эффективно масштабироваться и показывать лучшие результаты при увеличении вычислительных мощностей.

пример обработки изображения котаВозможности Kandinsky 4.1 ImageИсточник: Сбер

Новый подход позволил достичь четырехкратного ускорения генерации без потери качества. Более того, в некоторых категориях изображений система стала работать даже лучше предыдущих версий.

Самым необычным решением стало привлечение команды профессиональных творцов для отбора обучающих материалов. Почти 100 художников, дизайнеров и фотографов прошли специальный экзамен на понимание композиции, освещения и цветовых сочетаний.

Процесс отбора данных проходил в два этапа. Сначала обычные специалисты убирали изображения с техническими дефектами — артефактами, неправильным кадрированием, засветами. Затем эксперты-художники оценивали сложные аспекты: гармонию композиции, баланс кадра, сочетание оттенков.

сгенерированный Юрий НикулинВозможности Kandinsky 4.1 ImageИсточник: Сбер

Строгий отбор оказался беспощадным — из всех предложенных вариантов команда одобрила лишь 10% изображений. Эти материалы стали основой для специального дообучения системы по технологии Supervised Fine-Tuning.

Обновленная версия научилась точнее следовать текстовым описаниям и генерировать надписи на английском языке. Это открыло новые возможности для создания логотипов и рекламных материалов прямо в диалоге с чат-ботом GigaChat.

созданные нейросетью логотипыВозможности Kandinsky 4.1 ImageИсточник: Сбер

Разработчики также усилили способности системы в области русского культурного кода — теперь ИИ лучше понимает специфику отечественных реалий и традиций при создании изображений.

Тестирование против конкурентов показало превосходство новой модели в большинстве категорий. Сравнение проводили 30 экспертов по специально разработанной методологии с десятками критериев оценки. Попробовать обновленный генератор можно в Telegram-ботах GigaChat и Kandinsky, на сайте giga.chat или в VK-боте Kandinsky.

Также ранее в GigaChat появился редактор готовых изображений. Рассказывали о нем в статье.

Источник
Скачать на ПК
Оцените статью
Dfiles.ru
Добавить комментарий