*[Enwl-inf] Новую базу данных об опасных природных явлениях создали географы НИУ ВШЭ с использованием генеративной языковой модели
ecology
ecology на iephb.nw.ru
Ср Июл 2 20:24:07 MSK 2025
От: Пупышева Надежда Васильевна <npupysheva на hse.ru>
Date: ср, 2 июл. 2025 г. в 11:32
Subject: Новую базу данных об опасных природных явлениях создали географы НИУ ВШЭ с использованием генеративной языковой модели
Добрый день, уважаемые коллеги!
Новую технологию создания базы данных об опасных природных явлениях разработали на факультете географии и геоинформационных технологий НИУ ВШЭ. В ядре алгоритма – генеративная языковая модель (GPT), которая извлекает из новостных сообщений и структурирует информацию о том, что, где и когда произошло, какой ущерб был нанесен и какие меры реагирования принимались. Географы НИУ ВШЭ создали новую технологию при выполнении проекта «Лучшие практики адаптации к природно-климатическим рискам в России», который получил флагманский грант НИУ ВШЭ «ИИ-технологии для человека» в 2024 г. А в 2025 году разработка географов Вышки стала финалистом международного конкурса «AI for Good: Innovate for impact» и в июле будет представлена на международном Саммите ООН в Женеве.
Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тысяч новостных сообщений в 8 миллионах исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тысячах событий, связанных с опасными и неблагоприятными природными явлениями
«Крупные природные катастрофы ожидаемо получают в медиа-ресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 г. Но нам был важен именно массовый охват медиа-источников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС, подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои Планы адаптации к изменениям климата и это правильный момент собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — рассказала соавтор разработки Анна Деркачёва, научный сотрудник риск-офиса Центра геоданных факультета географии и геоинформационных технологий НИУ ВШЭ.
Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а серия текстов об одном и том же происшествии группируется.
«Новостные публикации уже десятилетиями используются для сбора информации о чрезвычайных ситуациях. Например, так ведется наиболее признанная и долго действующая международная база катастроф EM-DAT. Но поиск и обработка новостей вручную делают создание таких баз трудо- и времяёмкой задачей, поэтому они зачастую освещают только крупные события либо посвящены небольшим территориям. В нашу базу данных попадают разномасштабные опасные природные явления. На сегодняшний день база содержит несколько десятков тысяч публикаций. Кстати, в силу специфики используемых источников, по ней можно изучать не только опасные природные процессы, но и социальные процессы: например, ярко появился тренд цифровизации государственных структур», — пояснила Анна Деркачёва.
Фрагменты базы данных доступны по запросу для свободного использования в научных и учебных целях на условиях получения обратной связи, а также по договоренности– для коммерческого использования. Получить её демо и запросить интересующий срез данных можно написав на georisks на hse.ru.
Разработчики технологии создания базы данных об опасных природных явлениях: сотрудники факультета географии и геоинформационных технологий НИУ ВШЭ Анна Деркачева, Мария Сакиркина Глеб Краев и Татьяна Анискина, Рената Зигангирова. Полезной для проекта также стала курсовая работа студентки факультета географии НИУ ВШЭ Марии Диденко, выполненная на предоставленных данных.
ИЛЛЮСТРАЦИИ:
Рис. 1. Число новостных публикаций об опасных природных явлениях растет с каждым годом, в первую очередь в соцсетях: органы местного самоуправления переходят в онлайн, где предупреждают жителей о плохой погоде, рассказывают о принимаемых мерах реагирования или оповещают о полагающейся помощи пострадавшим.
Рис. 2. Создание базы данных об опасных природных явлениях включает в себя поиск релевантных сообщений, выделение в них целевой информации и ее структурирование, геокодирование места происшествия и объединение текстов про одно происшествие.
Напоминаем, что работает Телеграм-канал «Природно-климатические проекты», https://t.me/natureclimate
Подписывайтесь!
С уважением,
Надежда Пупышева,
руководитель группы коммуникаций,
факультет географии и геоинформационных технологий НИУ ВШЭ
https://geography.hse.ru
тел.: +7(962)916-05-00
e1: npupysheva на hse.ru
e2: pypisheva на mail.ru
--
Вы получили это сообщение, поскольку подписаны на группу "Региональная платформа по водным вопросам Центральной Азии и др регионов".
От: Svet Zabelin <svetfrog на gmail.com>
Date: ср, 2 июл. 2025 г. в 14:20
Subject: Fwd: Новую базу данных об опасных природных явлениях создали географы НИУ ВШЭ с использованием генеративной языковой модели
----------- следующая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://lists.enwl.net.ru/pipermail/enwl-inf/attachments/20250702/4077f01c/attachment-0001.html>
----------- следующая часть -----------
Вложение не в текстовом формате было извлечено…
Имя: БД_опасные природные явления.docx
Тип: application/vnd.openxmlformats-officedocument.wordprocessingml.document
Размер: 86661 байтов
Описание: отсутствует
URL: <http://lists.enwl.net.ru/pipermail/enwl-inf/attachments/20250702/4077f01c/attachment-0001.docx>
----------- следующая часть -----------
Вложение не в текстовом формате было извлечено…
Имя: рис1_до июля2024.PNG
Тип: image/png
Размер: 17595 байтов
Описание: отсутствует
URL: <http://lists.enwl.net.ru/pipermail/enwl-inf/attachments/20250702/4077f01c/attachment-0002.png>
----------- следующая часть -----------
Вложение не в текстовом формате было извлечено…
Имя: рис2.png
Тип: image/png
Размер: 1310961 байтов
Описание: отсутствует
URL: <http://lists.enwl.net.ru/pipermail/enwl-inf/attachments/20250702/4077f01c/attachment-0003.png>
Подробная информация о списке рассылки Enwl-inf