Ученые разработали новый инструмент для обнаружения и оценки современных технологий. С его помощью исследователи смогли объединить более 20 000 технологий, которые уже сейчас формируют наше будущее. Эксперты представили первую сотню, которая, по словам научного обозревателя Forbes Анатолия Глянцева, оказалась несколько необычной.
Политики и бизнесмены стремятся понять, каким станет мир завтра. Несмотря на всем известные разговоры о «черных лебедях» и множестве неосуществившихся прогнозов, лучше иметь неполное и не совсем точное представление о будущем, чем не иметь ничего.
Как можно предсказать развитие технологий? Большинство методов в конечном счете сводится к опросам экспертов и обобщению их мнений. Минусы этого подхода очевидны. Во-первых, количество специалистов, работающих над новыми технологиями, настолько велико, что трудно собрать достаточное число экспертов. Во-вторых, чем более квалифицированный специалист, тем уже его специализация. Обобщать мнения узких специалистов приходится аналитикам, которые сами часто плохо разбираются в технических нюансах и, как и все люди, подвержены влиянию моды и стереотипов.
В эпоху больших данных становится все более актуальным другой метод: автоматический анализ научных публикаций, патентов и других соответствующих текстов. Этот механистический подход, однако, также страдает от недостатка экспертизы. Ни патент, ни научная статья не гарантируют, что технология будет функциональной, а тем более — что она будет коммерчески успешной. Кроме того, разработчики технологий часто подчеркивают их преимущества и недооценивают недостатки. Далее, научные статьи ориентированы на узких специалистов, и в них часто опускается много информации, понятной подготовленному читателю без пояснений, в то время как внимание уделяется глубоко техническим деталям, которые, как правило, не важны для предсказания будущего. Наконец, объем научных и патентных публикаций представляет собой огромный, слабо структурированный массив. Содержимое одной статьи может многократно повторяться в других, причем с использованием разных слов и в различных контекстах. Для автоматического анализа это создает серьезные трудности.
Авторы исследования, недавно опубликованного в журнале Scientific Data, нашли неожиданный третий подход.
Редактировать будущее
Для анализа исследователи использовали англоязычную википедию. Этот выбор может показаться необычным. Энциклопедия, создаваемая и редактируемая волонтерами, имеет не самую лучшую репутацию среди ученых. Точный факт, извлеченный из научной статьи, может соседствовать с концепцией, взятой из научно-популярной книги, или с заметкой из новостного портала, понятая и изложенная любителем. В итоге получается винегрет непредсказуемого качества, и самое разумное применение которому — перейти к разделу «Ссылки» и поискать там подходящий источник для изучения темы.
Тем не менее, создание перечня новых технологий нивелирует многие недостатки википедии. Сколько бы неточностей ни содержала статья о квантовых компьютерах, она отражает главное: квантовые компьютеры существуют и многие эксперты рассматривают их как технологию будущего. При этом в 2,6 миллиона проанализированных статей содержится больше информации, чем может вместить любая команда экспертов.
Кроме того, интернет-энциклопедия намного удобнее для анализа, чем массив научных статей. Ее основное преимущество — четкая структура. Поисковая система Google Scholar по запросу Quantum computing («Квантовые вычисления») выдает почти четыре миллиона публикаций. «Автоматическому футурологу» пришлось бы самостоятельно понять, что все они касаются одной и той же технологии. В то же время в википедии существует всего одна статья с таким названием. Более того, вики-статьи имеют стандартную структуру и сеть гиперссылок, отражающую взаимосвязь между технологиями. Статьи сгруппированы по категориям, а между синонимичными терминами есть перенаправления и т.д.
Построение космоса
Авторы исследования считают своим главным достижением не саму карту технологий под названием Cosmos 1.0, а методологию ее создания и метрики, которые они разработали для оценки технологий. Это инструмент, который можно применять к любым наборам данных, имеющим структуру, аналогичную википедии. Рассмотрим подробнее, что и как сделали исследователи.
Начнем с метрик. Авторы вводят четыре показателя. Общность (Generality) демонстрирует, насколько широко может применяться та или иная технология. Индекс осведомленности о технологии (Technology Awareness Index) показывает, насколько общество осведомлено о ней. Глубина технологии (Deeptech) позволяет отличить технологии, основанные на научных прорывах, таких как редактирование ДНК, от более простых, вроде блокчейна или хештегов. Наконец, возраст технологии показывает, когда она стала известной. При расчете этих индексов авторы использовали данные за пределами википедии. Например, возраст технологии рассчитывался на основе информации сервиса Google Books.
Теперь обсудим технику сбора данных. Прежде всего, необходимо было выбрать статьи о технологиях из вики-страниц. Авторы использовали для этого систему искусственного интеллекта Wikipedia2Vec 22. Нейросети такого типа способны выявлять смысловые связи между словами. ИИ, обученный на достаточном количестве текстов, понимает, что слово «ложка» относится к словам «еда» или «пища» так же, как слово «лопата» — к словам «земля» или «грунт». Wikipedia2Vec 22 для уточнения контекста также использует стандартные средства википедии, например, внутренние ссылки.
Исследователи начали с вики-статьи List of emerging technologies («Список новых технологий») и отобрали около 55 000 статей, наиболее тесно связанных с ней. Конечно, в этот список вошли не только статьи о технологиях, но и научные теории, отдельные ученые, организации и т.д. Часть этих примесей удалось отсечь по формальным признакам. В результате осталось около 29 000. Затем авторы отсортировали статьи по посещаемости и исключили примерно 10% наименее популярных. Они исходили из предположения, что технологии привлекают больше внимания, чем темы, относящиеся к ним лишь косвенно. О квантовых компьютерах читают чаще, чем о любом человеке, участвовавшем в их создании. Однако о квантовой механике или квантовой запутанности читают еще чаще. Первая — это наука, а вторая — явление, но ни то ни другое не является технологией. Поэтому такой фильтр сложно назвать идеальным. Так или иначе, в выборке осталось около 23 000 энциклопедических статей.
Первая сотня
Авторы снова применили нейросеть для группировки этих статей по темам. В результате они выделили семь основных кластеров: «биотехнологии», «нанотехнологии», «данные и анализ», «нетворкинг и связность» (под этим расплывчатым названием скрываются технологии связи и компьютерных сетей), «здоровье и медицина», «автономные системы» и «конвергентные технологии». Наконец, каждый кластер был дополнительно проработан с помощью автоматического поиска по патентам и ручного анализа экспертов. Просмотреть тысячи статей хотя бы по заголовкам — это посильная задача для человека. В итоге авторы составили топ-100 прорывных технологий или, скорее, технологических направлений.
Полный список можно увидеть на диаграмме, но давайте пробежимся по нему беглым взглядом. Некоторые странности в классификации бросаются в глаза. Например, в кластере «биотехнологии» содержится 30 пунктов. По идее, каждый из них должен представлять конкретную биотехнологию. Но что делает в этом списке пункт «водородное топливо», не имеющий никакого отношения к биологии? Здесь же пункт «генетика» соседствует с пунктом CRISPR, хотя генетика — это обширная область, а CRISPR — это специфический метод редактирования ДНК, который, безусловно, является частью генетики. Наконец, в кластере «биотехнологии» среди 29 других позиций есть пункт с неожиданным названием… «биотехнологии». С остальными частями схемы ситуация обстоит примерно так же.
Можно возразить, что авторы занимались кластеризацией, а не классификацией. Однако когда итоговый список перспективных технологий, проверенный экспертами, выглядит так, как будто классификация животных по Борхесу, возникают сомнения в его полезности для каких-либо прогнозов и управленческих решений. Возможно, новая методика прогноза и умна, но явно нуждается в доработке.
Мнение редакции может не совпадать с точкой зрения автора.
Фото: hi-tech.mail.ru

