• Русский

Ученые НЦМУ разработали агрегатор неструктурированных геолого-промысловых данных

Разработка позволяет систематизировать, классифицировать, каталогизировать и анализировать геологическую и промысловую информацию в неизменном виде.

В условиях глобального технологического развития, цифровые платформы, по мнению большинства экспертов, представляют собой оптимальный способ коммуникации представителей всех отраслей, и геологическая — не исключение. Агрегирование большого количества информации в рамках одной системы позволяет организовать единую «точку входа», а также повышает ее транспарентность.  Инновационной базой для геологических данных выступает и разрабатываемая в НЦМУ «Рациональное освоение жидких углеводородов планеты» цифровая научная платформа. В разработке казанских исследователей задействован  искусственный интеллект, работающих на основе WEB платформы, с возможностью подбора аналогов месторождений, анализом данных месторождений аналогов и подбором запрашиваемой информации, который структурирует геолого-промысловые данные.

«При решении задачи классификации отчетной документации использовались инструменты из области NLP (natural language processing) машинного обучения. Данный кластер задач можно отнести к виду NER (named entity recognition). Предлагаемое исследователями решение базируется на подходе rule-based (англ. “основанный на правилах”). В результате предлагаемый алгоритм определяет сущности (названия месторождений), подходящие под описанные правила. Пример выполнения алгоритма нахождения названий месторождений», — сообщил инженер Центра моделирования ТРИЗ Ильяс Идрисов.

В настоящий момент командой специалистов были получены следующие результаты:

1. Разработан макет и схема работы модуля загрузки исходных данных, представленных в виде различного рода отчетной документации;
2. Рассматриваются следующие форматы данных. Текстовые – *.pdf, *.doc, *.docx, *.xls, *.xlsx. Графические – *.jpg, *.jpeg, *.png, *.gif, *.doc, *.tif и *.pdf-файлы, содержащие графику;
3. Реализована следующая схема предобработки входной информации: определение категории файла (отчёт, паспорт, таблица, другое), классификация по месторождениям, на основе анализа содержания документа.

В ближайшей перспективе новый агрегатор будет применен как поисковая система для специалистов нефтегазовой области. К имеющемся наработкам авторы цифрового проекта планируют включить безопасную схему обмена данными с использованием отдельных серверов для удобства пользователей.