ОБОБЩЕННЫЙ МАССИВ ГЕОЛОГО-ГЕОФИЗИЧЕСКОЙ ИНФОРМАЦИИ ВОСТОЧНОГО СЕКТОРА РОССИЙСКОЙ АРКТИКИ ДЛЯ ПРОВЕДЕНИЯ АНАЛИЗА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
И.А. Лисенков1, А.А. Соловьев1,2, В.А. Кузнецов3, Ю.И. Николова1
1Геофизический центр РАН, Москва, Россия i.lisenkov@gcras.ru 2Институт физики Земли им. О.Ю. Шмидта РАН, Москва, Россия 3Национальный исследовательский ядерный университет «МИФИ», Москва, Россия
Ключевые слова: Геофизика, геология, геопространственные данные, машинное обучение, AutoML, ГИС, PostgreSQL, Python, Hadoop, Российская Арктика
Страницы: 232-246
Аннотация
Реализован практический подход к сбору и предварительной обработке геолого-геофизических пространственных данных для применения моделей машинного обучения в интересах задач геофизики. Согласно устоявшимся принципам оценки трудозатрат в области анализа данных, которые подтверждаются результатами проводимых опросов среди специалистов, этот этап занимает значительную долю времени и ресурсов, составляющую около 80 % от общего объема типового проекта по анализу данных и тестирования гипотез. Основное внимание уделяется формированию согласованного массива данных, объединяющего геологическую и геофизическую информацию в заданном регионе. Рассматриваются особенности учета различий в представлении геоданных, связанные с форматом (вектор/растр), масштабом, типом атрибутивной информации (количественная/качественная) и их доступностью. Важным аспектом является формализация и синтез алгоритма комбинирования геопространственных показателей и перевода их в количественные векторы. Для комбинирования данных вводится понятие окрестности для отбора и консолидации информации. В работе представлена общая архитектура программно-аппаратного комплекса, включающая модуль сбора и преобразования данных на языке Python с использованием библиотеки Pandas, систему хранения информации на базе системы управления базами данных (СУБД) PostgreSQL с расширением PostGIS. Показано, что для рассматриваемого класса задач геофизики достаточно использования реляционной СУБД для хранения и обработки данных. При необходимости масштабирования системы в случае увеличения размерности задачи предлагается применение технологии работы с большими данными на основе Apache Hadoop. В качестве демонстрации практического применения предложенных подходов приведены результаты сбора данных для Кавказского региона и восточного сектора Российской Арктики. На основе подготовленных данных проведены эксперименты с использованием моделей машинного обучения по распознаванию мест возможного возникновения сильных землетрясений и оценке ряда геофизических показателей в указанных регионах. Приводятся результаты проведенных экспериментов и оценки их эффективности.
DOI: 10.15372/GiG2024148 EDN: TABXMP
|