Новые информационные технологии и инструменты анализа данных в энергетике

Новые информационные технологии и инструменты анализа данных в энергетике

В электроэнергетике значительным образом повышается потребность в получении знаний из накопившихся архивов данных. По мнению экспертов, ключевым драйвером этих инициатив будут технологии Big Data.

Для организации эффективного производства необходимо, в первую очередь, решить задачу централизованного сбора и представления информации в масштабах всего предприятия. Актуальна задача анализа технологических показателей работы электростанций и текущего состояния оборудования.

Полученные аналитической системой знания позволяют управлять рисками по остановке оборудования, прогнозировать создание и потребление электроэнергии.

Предприятия располагают значительным количеством оперативной информации, которая собирается из различных источников (автоматизированные системы управления технологическим процессом, ERP-системы, системы управления производством и пр.), а также из систем построения отчетности, прогнозных и имитационных моделей и систем оценки ключевых показателей на основе единого и непротиворечивого источника данных (хранилище данных). Кроме того, за многие годы эксплуатации системы АСУТП накопили большое количество разнородной технологической информации, критически важной для управления производственными процессами.

Все эти данные вместе представляют собой базу для аналитической системы для решения задач эффективности использования оборудования, расчета ключевых показателей производительности, определения узких производственных мест и др.

Оптимизация управления производством в реальном времени невозможна без анализа предыдущих событий и статистики производственных процессов, которые позволяют быстро определять, что произошло на предыдущем цикле производства. Оперативные данные могут дать весьма ценную информацию и повлиять на качество процесса в целом. Как правило, для осуществления анализа данных необходимо несколько производственных циклов, чтобы можно было судить об оптимальности тех или иных параметров.

На крупных предприятиях проблема производительности системы решается путем покупки дорогостоящих систем централизованного архивирования данных, поступающих от различных SCADA-систем, работающих на предприятии, в основном на платформе Oracle. Функциональные возможности и производительность таких систем практически безграничны, однако стоимость данных систем оказывается чересчур высокой, кроме того, требует установки выделенных серверов.

Ведущим решением по хранению данных является технология Hadoop. В режиме реального времени технология анализирует накопленные и оперативные данные, а также данные из социальных сетей, интернета, архивов и т. д. Hadoop сокращает время на обработку и подготовку данных для аналитических систем, а также расширяет возможности по анализу, позволяя оперировать новой информацией, слабоструктурированными и неструктурированными данными.

Система обеспечивает следующие преимущества:

• снижается время на обработку данных на кластере;

• снижается стоимость оборудования в десятки раз;

• повышается отказоустойчивость – при выходе из строя одного или нескольких узлов кластера система продолжает работать;

• обеспечивается линейная масштабируемость за счет добавления новых узлов кластера;

• обеспечивается работа с неструктурированными данными.

Технология Hadoop представляет собой программный framework, позволяющий хранить и обрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce. Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером.

В основе технологии лежит распределенная файловая система HDFS (Hadoop Distributed File System), которая обеспечивает хранение данных Hadoop сразу на нескольких узлах кластера. Таким образом, если один или несколько узлов кластера выходят из строя, то риск потери информации сводится к минимуму и кластер продолжает работу в штатном режиме.

Вторым важным элементом Hadoop является MapReduce – framework для вычисления распределенных задач. В соответствии с подходом MapReduce обработка данных состоит из двух шагов: Map и Reduce. На шаге Map выполняется предварительная обработка данных, которая осуществляется параллельно на различных узлах кластера. На шаге Reduce происходит сведение предварительно обработанных данных в единый результат.

550px-IT_in_the_utility_sector_by_years_TAdviser_2014

Дмитрий ГОЛУБЕВ, руководитель группы систем бизнес-анализа ЗАО «Эр-Стайл»

Об авторе

admin-operby
Энергетик, блогер, публицист.