Газпром нефть: предиктивное обслуживание буровых снизило downtime на 41%

Total downtime по парку из 1 240 установок снизился на 41%. В абсолютных значениях — 188 000 часов работы установок в год дополнительно. При среднесуточной выручке буровой 7.7 миллиона рублей это даёт +60 миллиардов рублей дополнительной добычи в год. Это самый большой ROI среди всех ML-проектов в нефтегазовом секторе РФ. Количество аварийных отказов «между планами» упало с 68 случаев в год до 9 — главные «убийцы» downtime (подшипники, насосы, верхний привод) теперь предсказываются за 200+ часов. Расход на запчасти снизился на 12% (overmaintenance уменьшился), хотя на старте проекта боялись обратного — что предиктивная замена увеличит расход. На деле — заменяют точечно и реже. Главная сложность, с которой команда столкнулась — миграция инженерной культуры. Опытные начальники установок, бурящие с 1990-х, сначала отвергали рекомендации модели. Помог формат «AI как стажёр»: молодой инженер на смене может сослаться на «AI рекомендует» как на second opinion, и это даёт ему политический cover для аргумента с начальником. Через 14 месяцев культура развернулась — теперь установка БЕЗ predictive maintenance кажется недоукомплектованной.

-41%

downtime

₽60B

доп. добыча/год

68→9

аварийных отказов/год

200+ч

early warning

Контекст

Газпром нефть управляет 1 240 буровыми установками в 9 регионах от Ямала до Иркутской области. Каждая буровая — комплекс из 380+ датчиков (давление, вибрация, температура подшипников, расход бурового раствора, момент на долоте). Среднесуточная добыча всего парка — 360 000 баррелей. Один час простоя одной установки стоит компании 320 000 рублей: упущенная добыча + зарплаты бригады + аренда оборудования + штрафы по контрактам поставки. До 2024 года плановое обслуживание было «по календарю»: каждые N часов — независимо от реального состояния.

Проблема

Календарное обслуживание создавало две одинаково плохие проблемы. Первая — overmaintenance: 38% запланированных интервенций были «преждевременными». Бригада прилетала вертолётом на буровую за 240 км, разбирала исправный узел, ставила заведомо нормальные подшипники обратно. Стоимость такой пустой поездки — 1.8 миллиона рублей.

Вторая — отказы между плановыми остановками. Подшипник, который должен по графику простоять 4 000 часов, начинал шуметь на 3 100-м часу и ломался катастрофически на 3 400-м. Это уже не плановая замена, а аварийная: вертолёт, выезд, разборка с режимом «горящих» работ, неделя простоя. Раз в год в среднем — один такой случай на 18 установках компании.

Решение

Газпром нефть построил систему predictive maintenance на двух уровнях. Уровень один — edge ML на самой буровой. Микроконтроллер на каждой установке (24× ARM Cortex M7) запускает компактные модели (LSTM + 1D-CNN, 12MB каждая) на потоковых данных от датчиков. Цель — детектирование «ранних признаков» отказа: спектральный анализ вибрации подшипников выявляет резонансы за 200-400 часов до катастрофического отказа.

Уровень два — облачный «цифровой двойник» каждой буровой. Поток данных от 380 датчиков агрегируется в реал-тайм и подаётся в большую модель (Temporal Convolutional Network на PyTorch, 230M параметров). Модель сравнивает текущее «поведение» установки с историческими образцами успешных и провальных сценариев из 7 000 установок-лет данных. Если установка X сейчас «выглядит как» установка Y, которая сломалась через 70 часов — генерируется alert с конкретным прогнозом и рекомендуемой интервенцией.

Критично — explainability. Инженеры на буровой не доверяют «магическому» AI. Команда сделала так, чтобы каждое предупреждение приходило с тремя референсными графиками: «вот ваш текущий профиль вибрации, вот профиль за неделю до отказа на похожей установке в 2022, вот нормальный профиль». Инженер видит сам и принимает решение. Принимаемость рекомендаций — 84%.

Результат

Количество аварийных отказов «между планами» упало с 68 случаев в год до 9 — главные «убийцы» downtime (подшипники, насосы, верхний привод) теперь предсказываются за 200+ часов. Расход на запчасти снизился на 12% (overmaintenance уменьшился), хотя на старте проекта боялись обратного — что предиктивная замена увеличит расход. На деле — заменяют точечно и реже.

Главная сложность, с которой команда столкнулась — миграция инженерной культуры. Опытные начальники установок, бурящие с 1990-х, сначала отвергали рекомендации модели. Помог формат «AI как стажёр»: молодой инженер на смене может сослаться на «AI рекомендует» как на second opinion, и это даёт ему политический cover для аргумента с начальником. Через 14 месяцев культура развернулась — теперь установка БЕЗ predictive maintenance кажется недоукомплектованной.

Технологический стек

Edge: 1D-CNN + LSTM (12MB)ARM Cortex M7 (24 cores per rig)Cloud: Temporal Convolutional Network (230M params)PyTorch + TorchServeKafka (sensor stream)TimescaleDBYandex Cloud (10K vCPU)

Сроки

Пилот на 8 установках — 7 месяцев. Раскатка на 200 установок — ещё 11 месяцев. Полное покрытие 1 240 установок — 26 месяцев. Continuous training каждый месяц на новых данных.

Команда

53 человека: ML (14), edge embedded (9), data engineers (8), domain experts (8), MLOps (6), integration (5), product (3)

Уроки для индустрии

Edge + cloud — две разные модели, не одна. Edge ловит ранние сигналы за миллисекунды, cloud делает длинный прогноз.
Explainability важнее точности на 5%. Инженер должен видеть «почему» AI так думает, иначе не примет.
«AI как стажёр» — психологический хак для adoption: молодой инженер использует AI как political cover.
Overmaintenance тоже дорого: 38% «преждевременных» интервенций × 1.8 млн ₽ = большие деньги.
Параметр sensitivity vs lead time — компромисс. Слишком долгий warning = ложная тревога; слишком короткий = поздно реагировать.

← Кейсы