Распечатать

Складируем информацию

Владимир Попов, директор департамента инфраструктурных решений «Энвижн Груп» комментирует концепцию «облачных» вычислений для журнала «Компания»

15 марта 2010

Объем данных в корпоративных системах увеличивается с каждым днем. И правильное обращение с ними представляет собой неординарную задачу. В помощь компаниям — новые технологии, которые позволяют не только обеспечить надежное хранение, быстрый доступ и защиту информации, но и не разориться на этом.

Одной из самых перспективных технологий в области хранения данных эксперты считают «облачные» вычисления (cloud computing). Суть этого метода в том, что компьютерные ресурсы, получаемые заказчиком, могут быть распределены по разным физическим или виртуальным машинам или фактически предоставляться только одним внешним компьютером. Потребитель лишь отправляет свой запрос, а  «облачная» система уже сама определяет, как его удовлетворить, и этот процесс скрыт от заказчика. Для каждого запроса инфраструктура может быть сконфигурирована по-новому, то есть гибкость ее сравнима с аморфной и постоянно меняющейся формой облака. Отсюда название технологии.

Дорога в облака

Обычно такие сервисы предоставляются через Интернет. Это может быть какая угодно задача — от обработки сложных трехмерных изображений до резервного копирования корпоративной почты. Самый известный пример реализации «облачных» сервисов — решения Amazon.com. Компания предоставляет возможности по запуску виртуальных машин; по хранению неструктурированных данных и API для доступа к ним; по операциям с базой данных SimpleDB (SQL-подобная база данных, запросы к которой формируются в виде HTTP-запросов); по использованию распределенной сети хранения и доставке контента CloudFront. Также среди услуг компании — Simple Queue Service: система очередей сообщений для создания распределенных приложений. Это средство позволяет управлять потоками данных в распределенной программе, которые рассредоточены по разным «облакам» на различных виртуальных машинах. А еще — Elastic MapReduce: система обработки и анализа больших объемов данных на базе открытой Apache Hadoop, это приложение обычно используется для аналитики разнородных данных. Каждую услугу Amazon.com предоставляет отдельно по определенному тарифу.

Другие поставщики услуг по хранению данных также начинают оказывать их на  «облаке». Владимир Попов, директор департамента инфраструктурных решений «Энвижн груп», рассказывает: «Фактически концепция вычислительных  «облаков» является следующим, более высоким этапом аутсорсинга. У заказчика остается минимальная инфраструктура и система управления данными, все остальные компоненты информационной системы переносятся к провайдеру (или группе провайдеров) в вычислительное  «облако». При этом поставщик обеспечивает хранение и резервирование данных, запуск приложений и другие сервисы. Пользователь платит за потребленные услуги по соответствующим тарифам. Такой подход дает клиенту много преимуществ, которые заключаются в отделении бизнес-задач от задач поддержки инфраструктуры, необходимой для их выполнения. Важным преимуществом  «облачной» архитектуры эксперт называет свободу выбора поставщика решений и услуг. В любой момент можно безболезненно перенести свои приложения и данные к поставщику с более выгодным предложением. Кроме того,  «облака» позволяют легко масштабировать — увеличивать или уменьшать объем доступных ресурсов, а оплата производится за те, что реально использовались. Это актуально для бизнесов, которые испытывают сезонные пиковые нагрузки, например для интернет-магазинов. «В результате перехода на  «облачную» концепцию хранения данных происходит существенное перераспределение структуры затрат на развитие и поддержание IT-инфраструктуры, — рассказывает Попов. — В ряде исследований посчитано, что только 30% вложений в IT расходуется на развитие и на удовлетворение бизнес-потребностей. Остальные 70% уходят на поддержку и обслуживание инфраструктуры. «Облачная» инфраструктура позволяет получить обратную картину — на оплату сервисов и поддержание минимальной инфраструктуры приходится не более 30%, а существенная доля затрат на IT направляется на развитие и поддержку бизнеса».

При этом нельзя сказать, что эта концепция развивается совершенно безоблачно. Аналитики предсказывают, что в результате использования технологии данные заказчика без его ведома могут по умыслу или по ошибке оставаться на хранении в удаленных базах годами. То есть может возникать эффект неконтролируемых данных, с которыми невозможно будет что-либо сделать (удалить, изменить, прочитать и т. д.). Кроме того, сложность распределенной «облачной» системы может быть чревата ошибками в обработке информации. Также встают вопросы о надежности «облачных» систем хранения данных и защищенности информации в них от уничтожения и утечки.

Уничтожение клонов

Еще одна технология, используемая в прогрессивных СХД, — дедупликация данных. Она не настолько нова, как  «облачные» вычисления, но весьма актуальна. В январе этого года компания Fujitsu объявила о том, что будет применять эту технологию во всей своей линейке систем резервного копирования ETERNUS CS. Суть дедупликации данных состоит в том, чтобы не тратить место на хранение дублированной информации. При этом избыточные данные обнаруживаются «на лету» и не копируются на физические носители повторно. Система лишь делает ссылку в нужном месте на первую копию дублирующейся информации. Самый распространенный пример — одно и то же письмо, отправленное на несколько внутрикорпоративных адресов, в обычной ситуации сохраняется в папке «Исходящие» отправителя, а также в папках «Входящие» всех получателей. В системах хранения этот метод реализуется более сложно. Могут замещаться ссылками даже части файлов, одинаковые наборы битов. Александр Яковлев, менеджер по маркетингу RISC/UNIX серверов и систем хранения, рассказывает, что применяемая в системах ETERNUS CS технология дедупликации Fujitsu позволяет снизить общие затраты на резервное копирование, так как требования к объему дискового пространства сокращаются на 90% и даже больше. Уменьшаются также затраты на администрирование библиотеки сменных магнитных лент. Fujitsu представила новую модель системы резервного копирования ENTERNUS CS800, предназначенную для среднего бизнеса. И в этой системе использование дедупликации позволяет снизить потребности в пропускной способности сети в 20 раз и более. То есть решение пригодится компаниям, филиалы которых находятся в регионах с малоразвитой инфраструктурой. Отсутствие быстрого Интернета в таких местах обычно препятствует внедрению автоматизированных систем аварийного восстановления данных. Также рекомендуем обратить внимание на новую СХД компании ETERNUS DX80, обладающую функционалом премиум-класса и при этом доступную по цене. Производитель называет эту модель самой надежной в своем классе.

Подвязано лентами

Компания IBM сделала один из важнейших анонсов 2010 года в области хранения данных, представив систему IBM SONAS (Scale out Network Attached Storage). Алексей Шелобков, руководитель направления систем хранения данных IBM в России и СНГ, рассказывает о новой разработке: «Не секрет, что наиболее распространен способ хранения данных в виде набора отдельных файлов. Однако управление гетерогенными файловыми системами и многочисленными файловыми хранилищами в рамках крупного предприятия — это чрезвычайно ресурсоемкая задача. Сейчас появилось решение, избавленное от ограничений традиционных NAS-систем и способное стать одним гигантским диском С для предприятий любого масштаба». IBM в своей системе также использует прогрессивный метод дедупликации. Эта технология решает проблему непрерывного роста объемов хранимых данных, за которым невозможно успеть, лишь наращивая физические емкости хранилищ. По словам Шелобкова, в среднем за счет дедупликации возможно сокращение необходимой емкости хранения от 4 до 20 раз в зависимости от типа данных, объема и т. д. Отличие применения дедупликации в виртуальных библиотеках IBM в том, что этот процесс происходит без подсчета контрольных сумм (метод применяется для учета и восстановления потерянных при передаче данных). Это позволяет IBM осуществлять дедупликацию в режиме online и избегать ошибок восстановления разных фрагментов данных с одинаковыми контрольными суммами.

Кроме того, компания продолжает развивать свои ленточные технологии с учетом финансового кризиса на мировом рынке. Шелобков говорит, что ленточные системы являются экономически наиболее эффективным решением для архивирования данных на длительный период времени. «До сих пор лента является непревзойденным носителем по плотности размещения данных и экономичности электропотребления. С момента выпуска первого привода на магнитной ленте в 1952 г. компания IBM постоянно работает над дальнейшим развитием систем хранения на ленте», — добавляет представитель IBM. В течение 2010 года произойдет переход на пятое поколение стандарта LTO (Linear Tape-Open — стандарт записи на магнитную ленту), что позволит увеличить скорость записи и удвоить емкость систем при сохранении совместимости. Приводы LTO5 для новых и существующих ленточных библиотек IBM доступны уже сейчас. Недавно сотрудникам научно-исследовательского центра IBM совместно со специалистами Fujifilm удалось успешно записать информацию на прототип ленточного носителя нового поколения, обеспечивающего плотность записи 29,5 млрд бит на квадратный дюйм. Это позволит создавать картриджи емкостью до 35 ТБ, что более чем в 20 раз превосходит емкость наиболее современных картриджей LTO5.

На черный день

Метод дедупликации никак не исключает полезности избыточного хранения информации или репликации данных. Во всех современных системах хранения принято организовывать «зеркала» дисков на случай отказа одного из них и другими способами повышать надежность. В марте компания HP представила новое поколение СХД — StorageWorks P2000 G3 Modular Smart Array (MSA) и StorageWorks P4000 G2 SAN. Первая новинка позиционируется как решение для малого и среднего бизнеса, позволяющее фирмам легко наращивать емкости для хранения данных. Также StorageWorks P2000 G3 имеет ряд дополнительных возможностей. Так, в системе повышена гибкость управления данными. Кроме того, обеспечивается более надежная защита за счет репликации по технологии Remote Snap, которая подразумевает создание «мгновенных снимков» информации. Такие «снимки» перемещаются на отдельный массив дисков, чтобы иметь возможность восстановить данные в случае сбоя. Решение StorageWorks P2000 G3 включает в себя ПО Volume Copy, которое автоматически создает локальные копии данных с лицензией на 64 «мгновенных снимка». Кроме того, новая система хорошо масштабируется благодаря увеличению числа жестких дисков. Массив может поддерживать объем до 192 Тбайт. Предприятия, имеющие модели HP MSA2000 G1 или G2 с интерфейсами FC, SAS или iSCSI, могут модернизировать свои системы путем простой замены контроллера.

Во второй новинке HP — StorageWorks P4000 G2 SAN используется технология Network RAID, а также применяются энергосберегающие технологии. То есть решение совмещает в себе высокую надежность и сниженную стоимость владения. В системе содержатся избыточные компоненты и аппаратные средства RAID на случай отказа жестких дисков. А функциональные возможности Network RAID 5 и 6 обеспечивают защиту данных при отключении питания или полном отказе системы. Кроме того, компания на 50% улучшила коэффициент использования емкости дисков. Новая СХД использует интеллектуальный анализатор Best Practice Analyzer, который подскажет, когда нужно «подкрутить» систему для повышения производительности. В итоге всех нововведений стоимость хранения 1 Гб данных в P4000 G2 SAN была снижена на 40% по сравнению с предыдущей версией при одновременном повышении надежности системы.

Все в одном

Прогрессивные технологии активно использует также компания Dell. Их можно обнаружить в новой линейке СХД этого производителя под названием Equallogic. Артем Гениев, менеджер отдела корпоративных систем и решений Dell, рассказывает о применении систем компании для создания конвергентных сетей: «Простая идея, лежащая в основе таких сетей, подразумевает использование одной и той же физической среды для передачи разных видов трафика. То есть трафик сети передачи данных, трафик сети хранения данных (а также другие) передаются по одним и тем же физическим носителям с использованием одних и тех же коммутирующих устройств». Это дает следующие преимущества: упрощение топологии сети, консолидацию сетевых устройств, сокращение энергопотребления, облегчение администрирования, контроля за ресурсами и введения в эксплуатацию новых устройств, сокращение кабельной инфраструктуры. Что в свою очередь позволяет оптимизировать расходы на эксплуатацию и повысить эффективность операций.

Есть различные варианты реализации такой технологии. Стандарт, который, по мнению Dell, обретет достаточную зрелость и популярность в течение 2011 года, называется DCB (Data Center Bridging). Стандарт FCoE (Fibre Channel over Ethernet) позволяет интегрировать поверх DCB сети хранения данных Fibre Channel и тем самым добиться совместимости и защиты инвестиций. «Вторым вариантом реализации идеи конвергентной сети, зрелым и доступным прямо сейчас, является использование сети 10 Gb iSCSI для построения сети хранения данных, — рассказывает Гениев. — Этот вариант обладает рядом преимуществ: простота интеграции (достаточно базовых знаний об IP-сетях), зрелость технологии, высокая производительность, поддержка наследованных инфраструктур, возможность последующей интеграции в сети DCB, простота реализации концепции непрерывности бизнеса и восстановления после катастрофического сбоя». По этой причине Dell предлагает заказчикам законченную экосистему высокопроизводительной конвергентной сети на основе 10 Gb iSCSI, использующей массивы Dell Equallogic PS6010xx и PS6510x и коммутаторы PowerConnect 8024 °F Помимо вышеперечисленных преимуществ, новые решения компании обладают и другими: в комплект входит весь необходимый набор программ, виртуализованная архитектура с возможностью бесшовного масштабирования, используются диски SSD, SAS и SATA для обеспечения максимальной производительности, более эффективное резервное копирование и восстановление после сбоев в результате увеличения полосы пропускания и сокращения затрачиваемого времени, простота ввода в эксплуатацию и управления. В итоге, по заявлению производителя, новые решения имеют самую низкую стоимость владения среди массивов корпоративного уровня.