Распечатать

BYTE: Автоматизированная система диспетчеризации и управления в центрах обработки данных

Обзор автоматизированной системы диспетчеризации и управления (АСДУ) в применении к современным центрам обработки данных: архитектура решения, возможности, преимущества и особенности эксплуатации.

18 июня 2008

 

Рис. 1. Трехуровневая архитектура АСДУ.
Увеличить
Рис. 2. Щит бесперебойного питания. Связь оборудования и автоматических выключателей.
Увеличить
Рис. 3. График изменения температуры и влажности во времени для выбранного шкафа.
Увеличить
Рис. 4. Контроль температурно-влажностного режима в телекоммуникационных шкафах.
Увеличить
Рис. 5. Система кондиционирования: сигнализация об утечке жидкости.

Cовременный мир все больше зависит от информационных систем. Не секрет, что для успеха в бизнесе необходимы высокоэффективные ИТ-решения, которые, с одной стороны, в полной мере удовлетворяли бы потребности бизнеса, а с другой — не становились бы для компаний тяжким грузом в виде увеличивающихся расходов на ИТ и их поддержку.

Современные центры обработки данных (ЦОД) — это экономически оправданные решения, консолидирующие ИТ-ресурсы организации и способные значительно сократить общие расходы на ИТ за счет внедрения централизованной модели вычислений. Однако постоянное усложнение ИТ-инфраструктуры, увеличение энергопотребления и тепловыделения в ЦОД накладывают на работу обслуживающих инженерных подсистем ряд дополнительных требований: очень высокая надежность, управляемость, безопасность, адаптивность к изменениям бизнеса.

Надежности подобных систем и упреждению будущих проблем сегодня уделяется очень большое внимание. Круглосуточный мониторинг, комплексный анализ параметров оборудования, предупреждение отказов и минимальное время реакции — это важнейшие требования к диспетчерским службам, контролирующим инженерные подсистемы ЦОД, а работа персонала в подобных службах становится все более ответственной.

Стоит отметить, что для повседневного контроля инженерных подсистем нужны специалисты в разных областях, таких, как электрика, вентиляция и кондиционирование, обслуживание различного специального оборудования. Автоматизированная система диспетчериз ации и управления (АСДУ) представляет собой целостную платформу для управления всеми инженерными подсистемами и создается как многоуровневая автоматическая система, обеспечивающая контроль состояния и управление технологическим оборудованием ЦОД с выводом данных на экраны автоматизированных рабочих мест операторов.

АСДУ ведет непрерывный мониторинг инженерных систем с регистрацией основных параметров и обеспечивает контроль и управление инженерным комплексом из единого диспетчерского центра. Организация диспетчерского центра на основе решения АСДУ позволяет внедрить новые стандарты качества в управление эксплутационно-обеспечивающим оборудованием, повысить эксплуатационную готовность ЦОД, снизить текущие затраты на управление инженерными системами, обеспечить документирование и протоколирование сбоев, создать базу для оперативного устранения аварийных ситуаций. Архитектура решения Современная АСДУ имеет трехуровневую архитектуру (рис. 1).

Нижний уровень образуют периферийные устройства и инженерное оборудование, формирующие первичные данные. Второй уровень — контроллеры, принимающие и обрабатывающие информацию, и сеть передачи данных. Верхний уровень — это ПО, предоставляющее средства визуализации, архивации, публикации поступающих данных. На рабочие места диспетчеров (АРМ) поступает структурированная консолидированная информация в нужном формате. Аналитический модуль постоянно отслеживает рабочие параметры систем на предмет отклонения от нормы и способен автоматически запускать процедуры согласно заложенным инструкциям, например, подать сигнал тревоги или запустить аварийный дизель-генератор. Важная задача аналитического модуля — заблаговременные предупреждения о грядущих отказах.

Собранные данные можно: # передать операторам и представить их в легко читаемом виде; # сохранить в базе данных; # проанализировать и представить в виде статистических отчетов; # использовать как управляющий сигнал при реакции на определенные события для запуска систем в автоматическом режиме. В состав решения может входить система видеонаблюдения, одновременно с сигналом тревоги выводящая картинку с аварийной подсистемой на монитор оператора. Как правило, в системе предусмотрен Web-интерфейс, кроме того, ее можно интегрировать с системами мониторинга ИТ-инфраструктуры ЦОД.

При использовании в ЦОД комплексных систем управления, например IBM Tivoli или HP OpenView, администраторы получают контроль над информационными бизнес-сервисами и связанными с ними программными и аппаратными ресурсами ЦОД. АСДУ может быть интегрирована с подобными решениями, и тогда инженерные подсистемы будут иметь непосредственную связь с системами более высокого уровня, что повысит эксплуатационную готовность ЦОД. Регистрация и обработка событий Инженерные системы ЦОД состоят из множества взаимоувязанного оборудования, поэтому при наступлении какого-либо тревожного события бывает трудно определить, где конкретно возникла проблема.

Для примера возьмем проблему в контуре питания, между распределительным щитом и активным сетевым оборудованием (рис. 2). Система локализует проблему, определяет уровень возможных последствий и отображает информацию о конкретной системе в окне тревог. Экранная форма со схемой системы показывает отношения между взаимосвязанным оборудованием и возможными последствиями неполадок в отдельных компонентах. АСДУ централизованно фиксирует событие в базе данных и оповещает диспетчера о возникновении проблемы и необходимости ее разрешения.

Далее система определяет уровень серьезности происшествия и присваивает событию определенный приоритет. Приоритет необходим, чтобы повысить эффективность реакции персонала на происшествие. Например, если сработавшая сигнализация говорит о необходимости замены фильтра системы кондиционирования воздуха, оператор должен понимать, в какие сроки и с каким приоритетом разрешить сложившуюся ситуацию.

Система выводит сообщения о выходе отслеживаемых параметров за установленные ранее пределы, а также сообщения о критическом времени наработки эксплуатируемого инженерного оборудования. Например, это могут быть данные о состоянии аккумуляторных батарей, температуре и влажности в стойках. Информация представляется в доступном для администраторов и диспетчеров и легко читаемом виде. Одна из важнейших функций АСДУ — своевременное оповещение о возникших ситуациях всех ответственных лиц, обслуживающих подсистемы ЦОД. Система имеет функции оперативного оповещения диспетчеров, администраторов и руководящих лиц объекта по электронной почте или посредством сообщений SMS, а также интегрируется с другими доступными способами сигнализации в соответствии с установленным регламентом.

Эксплуатационная готовность и безопасность Алгоритмы и регламенты ответных действий на произошедшее событие программируются в АСДУ, и от правильности настройки подобных регламентов напрямую зависит эксплуатационная готовность. Следует определить и конкретных лиц, выполняющих то или иное действие (управление оборудованием, подтверждение тревожного сообщения и т. д.). Для разграничения ответственности за обслуживание разных систем АСДУ имеет возможность управлять полномочиями диспетчеров. Автоматизированная система предоставляет функции разграничения доступа различных групп диспетчеров с привязкой к определенным задачам или контролируемым системам.

В противном случае, если тревожные сигналы и сообщения доставляются абстрактному «диспетчеру» без привязки к конкретному человеку, сложно определить ответственного за реакцию на ту или иную нештатную ситуацию. Ниже мы кратко охарактеризуем основные контролируемые подсистемы и параметры мониторинга АСДУ. Мониторинг и фиксация критических изменений параметров окружающей среды ЦОД. Отказ оборудования может быть следствием не только слишком высокой температуры, но и быстрого ее изменения. Система отслеживает температуру и влажность на уровне стоек с оборудованием и оповещает диспетчера о том, что зафиксированы потенциально опасные значения температуры и влажности.

Хронологические данные и параметры окружающей среды могут выводиться в виде легко читаемых графиков (рис. 3). Мониторинг и фиксация изменений в потреблении электропитания активным оборудованием. По мере появления в ЦОД нового оборудования потребности в электропитании и охлаждении могут превзойти имеющиеся ресурсы, результатом чего станут перебои в работе. В частности, инженерные системы ЦОД требуют дополнительного внимания по мере старения батарей ИБП. Уровень старения батарей зависит от интенсивности их использования и температуры.

АСДУ отслеживает потребление тока для каждой ветви цепи или стойки и оповещает ответственных лиц о ситуациях, грозящих возникновением перегрузки. Она также информирует их обо всех ИБП, у которых время автономной работы оказывается меньше минимума или у которых превышается пороговое значение нагрузки. Отслеживание электропитания оборудования. Неисправность оборудования или линий подачи электропитания, а также некорректные действия обслуживающего персонала могут привести к обесточиванию оборудования.

АСДУ оперативно оповещает диспетчера о наличии или отсутствии питающего напряжения на потребителях. Отслеживание качественных и количественных характеристик электропитания. Некачественное электропитание приводит к выходу из строя или преждевременному износу оборудования. Изменение нагрузки на систему электропитания (включение/выключение климатического оборудования, добавление оборудования ЦОД и т. д.) может повлечь за собой ситуацию, когда система бесперебойного электропитания не в состоянии обеспечить резервирование.

АСДУ предоставляет обслуживающему персоналу централизованную информацию о качестве электропитания и распределении нагрузки по ЦОД в режиме реального времени, а также сохраняет эту информацию в базе данных для дальнейшего выяснения причин отказа оборудования. Определение надежности электропитания. Оперативное отслеживание состояния оборудования, которое обеспечивает гарантированное и бесперебойное электропитание (ИБП, ДГУ), невозможно без централизованного сбора и отображения информации с этих устройств.

АСДУ предоставляет диспетчеру централизованную информацию о состоянии обеспечивающего оборудования. Обеспечение температурного режима работы оборудования. Климатический режим ЦОД может нарушаться из-за неправильных режимов работы климатического оборудования. Из-за неравномерного распределения оборудования в ЦОД иногда возникают зоны локального перегрева, что может потребовать изменений в режимах работы климатического оборудования. Обслуживающий персонал не всегда замечает временный выход температуры или влажности за пределы нормы, что приведет к проблемам при определении причин сбоев в работе активного оборудования. Кроме того, климатический режим ЦОД может нарушаться из-за неправильных режимов работы или аварий на климатическом оборудовании.

АСДУ отслеживает температуру и влажность в телекоммуникационных стойках (рис. 4) и оповещает диспетчера о том, что они достигли потенциально опасных значений, а также сохраняет эту информацию в БД и выдает ее в удобном для последующего анализа виде. Система предоставляет диспетчеру интерфейс для изменения режимов работы климатического оборудования и оперативно оповещает ответственных о сбоях в его работе (рис. 5).

На АСДУ также возложены функции минимизации последствий пожара в ЦОД. При возникновении пожара несвоевременное оповещение персонала, а также работа кондиционеров и несогласованность работы других подсистем в ЦОД может осложнить работу системы пожаротушения и снизить ее эффективность. АСДУ оповещает диспетчера о срабатывании пожарной сигнализации и станции пожаротушения, а также имеет возможность автоматически отключить кондиционеры и вентиляцию.

После срабатывания системы пожаротушения необходимо определять качество воздуха в помещениях и выводить эту информацию на АРМ диспетчера. * * * Определение и отслеживание показателей готовности ЦОД — сложная и неоднозначная задача. АСДУ выступает здесь как средство интеграции всех инженерных и технологических подсистем ЦОД в целостную и управляемую систему. Аналитическая часть АСДУ предоставляет инструментарий для определения причин простоев и планирования уровня избыточности инженерных систем.

Андрей Бусаров, Руководитель направления АСДУ