Компании переходят на синтетические решения: информация от искусственного интеллекта становится новым стратегическим ресурсом для бизнеса

Рынок синтетических данных за короткий срок достиг миллиардных оборотов, что стало ответом на теорию «мертвого интернета» и сопутствующий ей коллапс обучения моделей ИИ.Источник: Freepik

Люди и бизнес опасались неизбежной деградации ИИ из-за недостатка обучающих данных. Однако реальность оказалась более сложной, интересной и изобретательной, чем простой прогноз. О том, как разработчики ИИ-решений ожидаемо отреагировали не капитуляцией, а новым методом получения необходимых высококачественных данных, рассказывает директор по стратегическому маркетингу «Яндекса» Андрей Себрант.

Недостаток данных — это не выдуманная проблема, а зачастую печальная реальность для бизнеса. Многие компании в самых разных секторах сталкиваются с одной и той же трудностью при попытках внедрения ИИ для конкретных задач: они стремятся дообучить ИИ-модель под свои нужды, автоматизировать определённые процессы, улучшить рекомендации, выявлять брак — и сталкиваются с проблемой данных.

Неудивительно, что начиная с 2025 года, рынок синтетических данных начал стремительно расти и практически сразу достиг миллиардных размеров. Основными факторами такого роста, помимо действительно истощающегося потока новых данных, являются ещё два обстоятельства. Во-первых, регулирующие органы создали множество юридических сложностей для доступа к необходимым данным. Строгий европейский GDPR (Общий регламент по защите данных) и российские законы о персональных данных делают невозможным для разработчиков моделей доступ к важным массивам, а деперсонализация иногда ухудшает качество данных.

Во-вторых, с увеличением качества моделей, особенно в бизнесе, всё более актуальным становится их адекватное поведение в редких и нетипичных ситуациях: мошеннические транзакции встречаются редко, производственный брак необычного типа или редкая медицинская патология плохо распознаются моделями. «Синтетика» в таких случаях незаменима: точное воспроизведение редких, но значимых сценариев или событий позволяет повысить качество работы моделей там, где это наиболее необходимо.

Важно отметить, что качественная «синтетика» не создаётся на пустом месте, она не полностью заменяет реальные данные, а интегрируется в гибридный процесс — реальные данные формируют базис, а «синтетика» увеличивает разнообразие. Исследования показывают, что получающиеся в итоге гибридные датасеты стабильно превосходят как чисто реальные, так и чисто синтетические выборки.

Пример: инциденты на IT-инфраструктуре, которые часто имеют национальный или глобальный масштаб и обходятся дорого, всё чаще оказываются связаны не с действиями злоумышленников, а с плановыми обновлениями софта, в ходе которых что-то пошло не так. Но, к счастью для нас и к несчастью для разработчиков, количество таких критических инцидентов невелико, обучающих данных для надежной модели предсказания инцидента катастрофически не хватает. Использование правильно сгенерированной синтетики повысило точность предсказаний на 21%, что весьма существенно, учитывая убытки от каждого инцидента.

Синтетические данные, конечно, вносят свои риски, и игнорировать их нельзя: если упомянутую модель «кормить» только «синтетикой», со временем она начинает существовать в своей виртуальной реальности, теряет разнообразие и деградирует. Кроме того, «синтетика» может усиливать уже присутствующие в оригинальных данных ошибки и предвзятости.

В условиях массового внедрения ИИ-моделей для работы в всё более разнообразных бизнес-сценариях важно помнить, что синтетические данные — это уже не просто техническая опция для команды ML в IT-подразделении. Это стратегический актив, который определяет, может ли компания обучать модели в тех случаях, когда конкуренты остановились из-за нехватки данных, регуляторных ограничений или высокой стоимости разметки. Разрыв между теми, кто освоил этот инструмент, и теми, кто ещё нет, будет расти экспоненциально, поскольку «синтетика» масштабируется, а сбор реальных данных становится всё более сложным.

Создание цикла «реальные данные → синтетическая генерация → валидация → обучение → улучшенная генерация» в настоящее время формирует долгосрочные преимущества, которые невозможно просто скопировать: увеличивается скорость выхода ИИ-продуктов, появляется юридическое преимущество на регулируемых рынках, решается проблема разметки данных (в «синтетике» разметка присутствует автоматически и не требует дополнительных затрат времени или усилий). А самое главное то, что появляется устойчивость к так называемому «длинному хвосту»: компания, умеющая моделировать (а значит, и надежно предсказывать) редкие, но значимые события, создаёт более надёжные системы безопасности, обнаружения мошенничества и контроля качества.

Если же отвлечься от технических и бизнес-аспектов, то нынешний расцвет синтетических данных и связанный с ним прогресс, на мой взгляд, иллюстрируют важнейшую черту многих современных споров о перспективах ИИ. Препятствие, которое громко объявляется непреодолимой стеной и на первый взгляд действительно выглядит таковым, которое считается фундаментальным ограничением, логично сформулированным и, на первый взгляд, обоснованным, в итоге оказывается вполне преодолимым и вовсе не является стеной. Если, конечно, для этого преодоления задействованы интеллектуальные ресурсы талантливых и преданных делу людей, поддержанные финансовыми и вычислительными ресурсами компаний, в которых работают эти таланты.

Мнение редакции может не совпадать с точкой зрения автора

Фото: hi-tech.mail.ru