Географы НИУ ВШЭ, используя GPT, создали базу данных об опасных природных явлениях

02.07.2025

Новую технологию разработали на факультете географии и геоинформационных технологий Вышки. В ядре алгоритма — генеративная языковая модель (GPT), которая извлекает из новостных сообщений и структурирует информацию о том, что, где и когда произошло, какой ущерб нанесен и какие меры принимались. Географы Вышки создали новую технологию при выполнении проекта «Лучшие практики адаптации к природно-климатическим рискам в России», получившего флагманский грант ВШЭ «ИИ-технологии для человека» в 2024 году. В 2025 году разработка географов Вышки стала финалистом международного конкурса “AI for Good: Innovate for impact” и в июле будет представлена на международном cаммите ООН в Женеве.

Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тысяч новостных сообщений в 8 миллионах исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тысячах событий, связанных с опасными и неблагоприятными природными явлениями.



Анна Деркачёва

«Крупные природные катастрофы ожидаемо получают в медиаресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 года. Но нам был важен именно массовый охват медиаисточников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои планы адаптации к изменениям климата, и это правильный момент, чтобы собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — рассказала соавтор разработки Анна Деркачёва, научный сотрудник риск-офиса Центра геоданных факультета географии и геоинформационных технологий НИУ ВШЭ.


Рис. 1. Число новостных публикаций об опасных природных явлениях растет с каждым годом, в первую очередь в соцсетях: органы местного самоуправления переходят в онлайн, где предупреждают жителей о плохой погоде, рассказывают о принимаемых мерах реагирования или оповещают о помощи, полагающейся пострадавшим.
© Высшая школа экономики
Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а тексты об одном и том же происшествии группируются.

«Новостные публикации уже десятилетиями используются для сбора информации о чрезвычайных ситуациях. Например, так ведется общепризнанная и долго действующая международная база катастроф EM-DAT. Но поиск и обработка новостей вручную делают создание таких баз трудо- и времяемкой задачей, поэтому они зачастую освещают только крупные события либо посвящены небольшим территориям. В нашу базу данных попадают разномасштабные опасные природные явления. На сегодняшний день база содержит несколько десятков тысяч публикаций. Кстати, в силу специфики используемых источников по ней можно изучать не только опасные природные процессы, но и социальные процессы: например, ярко проявился тренд цифровизации государственных структур», — пояснила Анна Деркачёва.


Рис. 2. Создание базы данных об опасных природных явлениях включает в себя поиск релевантных сообщений, выделение в них целевой информации и ее структурирование, геокодирование места происшествия и объединение текстов об одном происшествии.
© Высшая школа экономики
Разработчики технологии создания базы данных об опасных природных явлениях: сотрудники факультета географии и геоинформационных технологий НИУ ВШЭ Анна Деркачева, Мария Сакиркина, Глеб Краев, Татьяна Анискина и Рената Зигангирова. Полезной для проекта также стала курсовая работа студентки факультета географии НИУ ВШЭ Марии Диденко, выполненная на предоставленных данных.

Фрагменты базы данных доступны по запросу для свободного использования в научных и учебных целях на условиях получения обратной связи, а также по договоренности — для коммерческого использования. Получить ее демо и запросить интересующий срез данных можно, написав на электронную почту georisks@hse.ru.

https://www.hse.ru/news/expertise/1062688963.html
Продолжая, вы подтверждаете использование файлов cookies браузера в целях обеспечения удобного функционирования сайта.