Команда из почти сотни профессиональных художников и дизайнеров вручную отбирала лучшие изображения для обучения обновленной нейросети — такой подход к созданию ИИ-генераторов картинок применили впервые.
Российская компания Сбер запустила принципиально новую версию своего искусственного интеллекта для создания изображений Kandinsky 4.1 Image. Разработчики полностью переписали внутреннюю архитектуру системы и внедрили уникальную методологию обучения с участием живых экспертов.
Инженеры отказались от традиционной U-Net структуры в пользу диффузионного трансформера. Эта замена кардинально изменила принципы работы системы — теперь нейросеть может эффективно масштабироваться и показывать лучшие результаты при увеличении вычислительных мощностей.

Новый подход позволил достичь четырехкратного ускорения генерации без потери качества. Более того, в некоторых категориях изображений система стала работать даже лучше предыдущих версий.
Самым необычным решением стало привлечение команды профессиональных творцов для отбора обучающих материалов. Почти 100 художников, дизайнеров и фотографов прошли специальный экзамен на понимание композиции, освещения и цветовых сочетаний.
Процесс отбора данных проходил в два этапа. Сначала обычные специалисты убирали изображения с техническими дефектами — артефактами, неправильным кадрированием, засветами. Затем эксперты-художники оценивали сложные аспекты: гармонию композиции, баланс кадра, сочетание оттенков.

Строгий отбор оказался беспощадным — из всех предложенных вариантов команда одобрила лишь 10% изображений. Эти материалы стали основой для специального дообучения системы по технологии Supervised Fine-Tuning.
Обновленная версия научилась точнее следовать текстовым описаниям и генерировать надписи на английском языке. Это открыло новые возможности для создания логотипов и рекламных материалов прямо в диалоге с чат-ботом GigaChat.

Разработчики также усилили способности системы в области русского культурного кода — теперь ИИ лучше понимает специфику отечественных реалий и традиций при создании изображений.
Тестирование против конкурентов показало превосходство новой модели в большинстве категорий. Сравнение проводили 30 экспертов по специально разработанной методологии с десятками критериев оценки. Попробовать обновленный генератор можно в Telegram-ботах GigaChat и Kandinsky, на сайте giga.chat или в VK-боте Kandinsky.
Также ранее в GigaChat появился редактор готовых изображений. Рассказывали о нем в статье.
Источник