Распечатать

Мониторинг дата-центра: единым фронтом

Директор департамента инфраструктурных решений «Энвижн Груп» Владимир Попов выступил в журнале CIO (№ 11, 2010 г.) с комментарием по современным тенденциям управления дата-центрами

23 ноября 2010

Развитие систем мониторинга дата-центров исторически начиналось от простых систем предупреждения о нежелательных событиях и шло в сторону управления критическими элементами его инфраструктуры. Для заказчиков становится принципиально важно задействовать системы мониторинга, способные отслеживать всю систему поддержки инфраструктуры, — как ИТ, так и инженерных систем, в каждой комнате, коридоре или стойке ЦОДа.

Основная цель современных систем мониторинга заключается в максимальном увеличении продолжительности работы оборудования и приложений, а также предоставлении гарантии того, что сложное окружение в дата-центре сможет развиваться эффективно с технологической и с экономической точки зрения.

При использовании традиционных систем мониторинга существует множество ограничений: стоимость, сложность сопровождения, ограниченный фокус на избранные группы устройств. Однако современные дата-центры нового поколения уже не могут довольствоваться простым решением по мониторингу, которое не выходит за рамки обычной системы оповещения о наступлении тревожных событий, требующих немедленного вмешательства. Нужна система, действительно способная собирать данные в режиме реального времени и анализировать их с тем, чтобы принимать взвешенные решения, касающиеся инфраструктуры дата-центра. Наиболее эффективные решения интегрируют в себе функционал управления как ИТ, так и инженерной инфраструктурой в единую всеобъемлющую систему которая обеспечивает актуальную информацию, имеющую огромное практическое значение в процессе принятия решения.

Эволюция в технологиях — эволюция в управлении

За два десятилетия эволюции дата-центры превратились в объекты с чрезвычайно сложной распределенной инфраструктурой и громадными требованиями. Вместе с технологическими изменениями прогрессировала и система мониторинга: для определения состояния критических устройств в дата-центре сегодня она поддерживает множество сложных протоколов взаимодействия с элементами всей инфраструктуры.

Структура системы управления дата-центра трансформировалась кардинальным образом. Параллельно развивались две инфраструктурные группы — ИТ и инженерная. Их традиционно обслуживали две разные группы сопровождения. Каждая из них сфокусирована на взаимодополняющих, но все же противоположных функциях. ИТ-группа выполняет требования со стороны бизнеса, и заинтересована в увеличении инфраструктуры для работы серверов, систем хранения и сетевого оборудования. В то же время группа сопровождения инженерных систем отвечает за поддержку энергоснабжения и охлаждения дата-центра. Во многих дата-центрах те, кто приобретает ИТ оборудование, и те, кто отвечает за инженерную инфраструктуру — это разные команды менеджеров, причем последние еще и платят по счетам. Это ведет к разделению стимулов, и получается так, что те, кто в большей степени наделены возможностями контролировать энергию, используемую ИТ-оборудованием, имеют меньше всего стимулов это делать. Существенно важно, чтобы система мониторинга нового поколения разрушила существующие барьеры между группами обслуживания ИТ и инженерной инфраструктуры.

На увеличение сложности инфраструктуры дата-центров в целом сильное воздействие оказывают новые технологии — появление блейд-серверов, интеллектуальных устройств, виртуализации привело к настолько высокому уровню плотности мощности и выделению тепла, что современную систему управления дата-центром трудно сегодня себе представить без адекватно сильной системы мониторинга, соответствующей новому поколению инфраструктуры.

Лимиты потребления энергии имеют свойство заканчиваться, стоимость энергии растет. Все это заставляет организации пересмотреть их стратегические и технические принципы в отношении использования системы мониторинга в пользу единой более гибкой системы.

Общая эволюция дата-центра, усложнение его инфраструктуры сопровождается появлением большого количества новых интеллектуальных устройств, которые требуют серьезного обновления системы мониторинга дата-центра.

Традиции ограничивают

Традиционная система мониторинга сегодня испытывает множество ограничений для ее применения: сложность сопровождения, неполную поддержку устройств и не всеобъемлющий взгляд на дата-центр в целом. Но что еще более важно — информация, касающаяся различных устройств и приложений, расположена в огромном количестве систем, разбросанных по всей площадке, и это делает мониторинг и выявление проблем в дата-центре настолько неэффективным, что проактивная оценка рисков или формирование прогнозов о нуждах инфраструктуры становятся невозможными.

Ограничения, связанные с операционной сложностью, начинаются с проектирования системы мониторинга, с того, как работает множество методов взаимодействия с объектами мониторинга, применяемых в дата-центре. Использование большого разнообразия методов значительно усложняет разработку системы мониторинга, которая должна отслеживать различные устройства с помощью различных протоколов.

Существует два основных подхода к мониторингу, касающихся аппаратных и программных решений. Мониторинг аппаратных решений осуществляется посредством SNMP либо протоколов высокоскоростной индустриальной интерфейсной шины (MODBus, CANBus, JBus, PROFIBus и проч.). Мониторинг программных систем осуществляется посредством взаимодействия непосредственно с устройством, на котором выполняется приложение, и использует протокол этого устройства без какого либо преобразования.

У двух нянек

Основное ограничение системы мониторинга в традиционной системе мониторинга — неадекватная поддержка устройств инфраструктуры. Большинство существующих на рынке систем мониторинга проектировались производителями оборудования, основной целью которых было его продать. Такой подход не дает заказчику поддержки конкурирующих продуктов, заставляя работать с одним вендором.

Расхождение задач, стоящих перед группами сопровождения ИТ и инженерной инфраструктуры также имеет результатом ограничение поддержки устройств. Традиционные системы мониторинга еще больше усиливают разделение на эти две группы — обычно системы мониторинга специально проектируются для ИТ и для инженерной инфраструктуры, но не для обеих групп одновременно. Решения по мониторингу для ИТ-систем концентрируются на ИТ-оборудовании — серверах, системах хранения и прочем активном оборудовании, устанавливаемом в стойку. А системы мониторинга инженерной инфраструктуры в основном фокусируются на оборудовании, которое управляется соответствующей эксплуатационной группой, отвечающей за ИБП, PDU, кондиционеры.

Такое деление ответственности ограничивает способность создавать связную единую поддержку систем для мониторинга всех устройств внутри дата-центра и не позволяет учитывать их влияние друг на друга. Пример такой ситуации и ее разрешения приведен во врезке «Стыковка состоялась».

Большинство имеющихся на рынке систем мониторинга испытывает дефицит поддержки множества протоколов. Зачастую решение поддерживает только SNMP, то не способно осуществлять мониторинг систем, взаимодействие с которыми осуществляется по протоколу Modbus. Недостаток поддержки всех устройств инфраструктуры заставляет организации развертывать несколько решений по мониторингу для каждой такой группы устройств.

Серьезным ограничением на развертывание всеобъемлющей системы мониторинга могут стать экономические причины: значительные инвестиции в инфраструктуру складываются из стоимости приобретения оборудования и ПО, ежегодных лицензионных отчислений, затрат на обучение, расходов на дополнительный персонал, нанимаемый для управления отдельными устройствами.

Многие организации сталкиваются с необходимостью обслуживания своей ИТ-инфраструктуры, когда ее ресурсы уже подходят к концу. В этой ситуации незаменимыми оказываются инструменты мониторинга для надлежащего размещения ресурсов. Такие инструменты позволяют значительно снизить стоимость владения инфраструктурой.

Консолидация данных из различных систем в актуальную информацию, позволяющую посылать регулярно уведомления и рекомендации действий на ситуацию — задача чрезвычайно сложная, а иногда и невозможная, несущая в себе скрытые затраты. В результате организация может остаться без возможности иметь полное представление о взаимодействии различных инфраструктурных компонентов. Как результат — управляющий дата-центром персонал не может принять правильное решение, необходимое для эффективного управления инфраструктурой в целом.

Острова управления

Традиционные системы мониторинга дают неполный и зачастую фрагментированный взгляд на инфраструктуру дата-центра. Частично это происходит из-за того что они собирают информацию, которая располагается во множестве разнородных систем, но не дает представления, например, о нагрузке на систему распределения питания и тем самым не учитывает последствия для бизнеса в случае выхода из строя системы распределения питания хотя бы одной стойки. Скорее всего, традиционная система мониторинга не ответит на вопросы — какие конкретно серверы и приложения будут остановлены в случае отключения питания стойки?

Управление сложным окружением сегодняшнего дата-центра требует планирования и управления его ресурсами. Необходим операционный контроль людей и процессов, которые обеспечивают работу дата-центра, а также мониторинг и автоматизация посредством взаимодействия с оборудованием, расположенным в дата-центре, в режиме реального времени.

Заказчики сегодня использует для этих целей множество систем с уникальными методами извлечения и запоминания информации, которые не позволяют сделать надлежащих сравнений. На самом же деле все, что требуется — это система, которая обеспечит точное представление о возможностях дата центра для получения в режиме реального всеобъемлющей картины текущего состояния критической инфраструктуры и возможности прогнозирования ее потребностей в процессе будущего развития. Используя проактивный мониторинг, заказчики могут идентифицировать потенциальные проблемы до их наступления.

Стыковка состоялась

Компания APC by Schneider на конференции VMworld 2010 в Копенгагене объявила об интеграции своего пакета управления инженерной инфраструктурой InfraStruxure Opetations с системой управления виртуальной ИТ-средой VMware vSphere для управления перечнем оборудования любых производителей. Система обладает функциями анализа в режиме реального времени, и автоматической выдает рекомендации по выполнению надлежащих действий. Благодаря интеграции система VMware vSphere осведомлена о тревогах и событиях, происходящих в инженерной инфраструктуре (касающихся электропитания, кондиционирования, безопасности, и других аспектов окружающей среды), и способна выполнять корректирующие действия по перемещению виртуальных машин в неопасные зоны внутри дата-центра.

Интеграция система InfraStruxure Opetations с VMware vSphere позволяет объединить события инженерной инфраструктуры с данными, поступающими от виртуальных машин VMware. Эта информация транслируется на уровень анализа неблагоприятных событий. Далее система InfraStruxure Opetations определяет, как эти события будут влиять на хостовые машины, на которых развернута виртуальная среда. Результатом анализа станет быстрая миграция виртуальных машин с тех хостов, которые подверглись неблагоприятному воздействию. Это дает в руки заказчиков инструмент управления соглашениями об уровне обслуживания (SLA).

Операционная система для ЦОД

Отвечает Владимир Попов, директор департамента инфраструктурных решений «Энвижн Груп»

Какие, на Ваш взгляд, современные тенденции в дата-центрах требуют пересмотра подходов к их управлению?

Консолидация вычислительных ресурсов, укрупнение ЦОД’ов, наряду с широким распространением технологий виртуализации, требует комплексного подхода к управлению и серверным оборудованием и программными компонентами. От эксплуатирующего персонала требуется быстро манипулировать серверами, дисковыми и сетевыми ресурсами, взаимосвязанными виртуальными машинами и приложениями. Эффективное управление в такой ситуации возможно только при максимальной унификации решений и автоматизации процессов. Виртуальные машины и приложения разворачиваются из готовых шаблонов, ресурсы выделяются в автоматическом или полуавтоматическом режиме, по мере необходимости. За соблюдением параметров, определяющих уровень сервиса, следит единая система мониторинга и управления.

Какова наилучшая стратегия управления инфраструктурой дата-центра — разумно ли объединить средства управления ИТ инфраструктурой и инженерной инфраструктурой на уровне единой панели, единой системы?

Бизнес интересует функционирование сервиса в целом, а не работа отдельных компонентов инфраструктуры. Исходя из этого, я считаю, что и на уровне эксплуатации необходимо контролировать весь спектр зависимостей — условно, от параметров питания и температуры и до времени прохождения бизнес-транзакций. Насколько разумно это объединять на одной консоли – зависит от структуры службы эксплуатации и разделения зон ответственности.

Какие наиболее острые проблемы управления в дата-центрах Вы бы выделили?

Главная сложность комплексной системы управления ЦОД — это ее интеграция в уже существующие разрозненные подсистемы. Сложность заключается именно в комплексности решения. Как правило, каждая отдельная подсистема, например сетевое оборудование или хранение, уже хорошо управляется специализированным решением. Для действительно эффективной централизованной системы управления необходима очень тонкая настройка интеллектуальных сервис-ориентированных алгоритмов, а управление ИТ-инфраструктурой должно включать постоянный контроль состояния всех бизнес-элементов, причем не только количественных параметров, но и качественных.

Оригинал статьи в формате PDF (367 Кбайт)