Распечатать

Intelligent Enerprise, № 18, 2006

Новое качество данных.

5 октября 2006

Новое качество данных.

По мере роста отдельных бизнес-систем, в разное время и с разными целями внедренных в той или иной компании, соотнесение приложений и отдельных информационных ресурсов по четкому правилу «один-к-одному» постепенно начинает размываться. По сути возникает единый информационный актив предприятия. Естественно, что поставщики реагируют на подобные тенденции попытками предложить рынку новые продукты и технологии, а корпоративные заказчики и интеграторы — стремлением максимально эффективно использовать данный актив.

Через историю и жизненный цикл

Попытки решить задачу управления корпоративными данными в целом, которые всё чаще предпринимаются по крайней мере на крупных предприятиях, связаны с усилением интереса к историческим данным и, как следствие, с созданием хранилищ и строительством современных датацентров. Безусловно, важность этих процессов обусловлена повышением уровня значимости электронных данных как таковых. Большее доверие к ним все существеннее втягивает их в ту сферу, которая регулируется разного рода законодательными и иными регламентирующими актами. В связи с проблемой управления корпоративным информационным ресурсом как целым, включающим в себя в том числе и весьма глубокие слои исторических данных, сейчас принято упоминать пресловутый акт Сарбейнса — Оксли. Слишком уж большая актуальность этого вопроса для России факт сомнительный, однако и у нас в стране существует масса регламентирующих актов, действие которых, думается, будет все сильнее распространяться на электронную информацию. Такую тенденцию отмечают, в частности, ИТ-директора крупных машиностроительных предприятий. Технический директор Novell Кирилл Степанов в качестве примера приводит одного из клиентов компании. Металлургический завод, производящий различные полуфабрикаты для авиастроительных предприятий, по его словам вынужден хранить данные о механических испытаниях своей продукции в течение ста лет. Если речь будет идти об их электронном варианте, то вопросы технологии хранения, преобразования и доступа к ним сразу приобретут качественно иной уровень. Проблема осложняется тем, что если в течение указанного срока действительно возникнет потребность в этой информации, то не исключено, что в таком случае придется поднять смежные слои данных, изначально имевших отношение к другим процессам и системам, — о химическом составе продукции, о техническом состоянии оборудования, на котором она производилась, о квалификации, обучении и преемственности персонала, который еще не один раз сменится за время жизненного цикла изделия.

Помимо связи с историческими данными как таковыми процессы консолидации и хранения важны и еще по одной причине. Дело в том, что в корпоративной среде более популярными становятся приложения, которые по сути не порождают собственных данных, а работают с теми, что извлекаются из иных систем, объединяя их и формируя на этой основе новое качество уже имеющейся в распоряжении компании информации. Может быть, банальным, но в то же время наиболее ярким и характерным примером здесь является корпоративная аналитика, с чем, в общем, соглашается большинство из опрошенных нами компаний. «К таким продуктам безусловно могут относиться системы класса Business Intelligence, или BI, — утверждает Анна Ненахова, руководитель отдела систем поддержки принятия решений компании «Энвижн Груп». — На сегодняшний день требования к данным, на основе которых принимаются решения, ужесточаются, поэтому они приобретают особую популярность в последнее время». Системам BI мы посвятили недавний тематический выпуск (см. №14/2006), где и отметили, что возникновение в работе компаний отдельного аналитического направления, если под этим подразумевать выделение специальных продуктов, инфраструктурных решений, методологий и персонала для решения подобных задач, — действительно дело, быть может, полутра-двух ближайших лет.

Еще одним менее очевидным, но в то же время весьма интересным примером приложений, решающих специфические бизнес-задачи на основе данных из сторонних для конкретного приложения источников, являются системы класса Identity Management (IdM), призванные управлять правами доступа к корпоративным системам и решать вопросы информационной безопасности. Думается, еще пару лет назад многие заказчики даже не слышали о существовании таковых, в то время как их целенаправленно продвигают на российский рынок (да уже и внедряют их) чуть ли не все наиболее известные мировые ИТ-вендоры. «ИТ-инфраструктура большинства предприятий сегодня представляет собой комплекс разнородных и разноплановых информационных систем, вводившихся в эксплуатацию в разное время и имеющих разное функциональное предназначение: службы каталогов, почтовые системы, корпоративные информационные порталы, CRM-системы, системы удаленного доступа и т. д. Предприятие развивается, и с увеличением количества внутренних информационных систем, а также с ростом числа сотрудников и усложнением собственной иерархической структуры особую актуальность там приобретает проблема управления правами доступа к различным корпоративным ресурсам, — утверждает руководитель практики программного обеспечения Sun Microsystems в регионе СНГ Антон Денисюк. — Эти же средства должны обеспечивать создание отчетов и проведение аудита на предмет доступа пользователей к тем или иным корпоративным ресурсам, гарантируя таким образом полную прозрачность корпоративных информационных систем в соответствии с требованиями законодательства».

Фактически ту же мысль высказывает и технический директор Novell в СНГ Кирилл Степанов: «Степень востребованности систем класса Identity Management, с одной стороны, определяется количеством используемых в компании информационных систем, с другой — она пропорциональна количеству сотрудников, работающих с ними. Если их число велико, то объём административной работы по управлению доступом к различным приложениям превышает все разумные пределы и появляются серьезные бреши в ИТ-безопасности. По нашей практике за фунционирование систем IdM в организации отвечают два подразделения — ИТ-департамент и служба информационной безопасности». Что касается тех данных, которые являются для IdM первичными, то они в наиболее типичном случае могут поступать из HR-системы. В процессе их функционирования может происходить синхронизация информации, содержащейся в разнородных приложениях, каталогах, базах данных, других хранилищах и иных компонентах ИТ-инфраструктуры, в том числе упомянутых выше.

Неплохим примером приложений, консолидирующих данные из различных корпоративных систем, как нам кажется, являются продукты категории Supply Chain Management (SCM), особенно в том случае, если речь идет об их внедрении в масштабах крупного распределенного производственного холдинга или группы тесно связанных общим бизнесом независимых предприятий. Здесь, как правило, подразумеваются серьезные задачи оптимизации взаимосвязанной производственной или логистической деятельности, планируемой от стадии изучения ситуации на рынке до послепродажной поставки запасных частей (если такая задача ставится в принципе). Поэтому внедрение SCM-систем традиционно считалось одним из наиболее емких проектов в отношении ресурсов, затрачиваемых на сопутствующие работы в области интеграции приложений и данных.

Хотя приведенные примеры далеко не исчерпывающи, в то же время они и весьма разноплановы. И все же в один ряд их позволяют поставить несколько общих черт, присущих представленным приложениям. Во-первых, во всех случаях речь идет о некоем новом качестве использования в бизнесе информации (будь то обеспечение безопасности, аналитическая обработка или вопросы автоматизации чисто производственных задач) на основе данных, уже имеющихся в различных системах. Во-вторых, в этом случае мы практически всегда вынуждены говорить не о чисто оперативных функциях автоматизации. Понятие жизненного цикла информации, связанного с жизненным циклом изделия, работой сотрудника в компании и пр., здесь, как правило, всегда прослеживается явно.

Единая концепция или отдельные элементы

Думается, что многие из перечисленных тенденций определяют предложение адекватных концепций работы с корпоративными данными со стороны поставщиков, а также направления деятельности в решении данного вопроса для системных интеграторов и клиентов. Наиболее популярными концепциями работы с корпоративными данными как единым информационным ресурсом, объединяющим оперативный и исторический информационные слои, являются две комплементарные друг другу идеологии. Речь идет об управлении корпоративным контентом (ECM — Enterprise Content Management) и управлении жизненным циклом информации (ILM — Information Lifecycle Management). Детально останавливаться на них мы не будем, тем более что последней посвящены две отдельные статьи данного выпуска (см. с. 24, 31). Вместо этого зададимся другим вопросом. На рынке традиционно существовали и существуют по сие время технологии, тем или иным образом способствующие как физической, так и логической консолидации данных. Кроме уже упомянутых хранилищ и датацентров, предполагающих, как известно, использование целого ряда подчиненных этим концепциям более специализированных средств консолидации, можно говорить, к примеру, о порталах и ряде других технологий. Вопрос в таком случае может состоять в том, чтобы либо противопоставить концепцию ILM+ECM всем известным технологиям консолидации данных, либо предположить, что всё имеющееся на рынке вносит кумулятивный вклад в решение проблемы.
Высказывания интеграторов на этот счет довольно осторожны и не столь однозначны. «Работа с корпоративными данными существует как отдельное направление. ILM представляется общей концепцией, в какой-то мере сопоставимой с утверждением, что день начинается с восхода солнца, которое потом проходит по небосводу и вечером заходит... У таких абстракций обычно не бывает конкретных реализаций. На практике для консолидации данных применяются не концепции, а хранилища данных, аналитические системы, базы знаний. Как только утихла маркетинговая шумиха вокруг этих направлений, они начали эволюционно развиваться, зреть, реально внедряться в виде конкретных информационных систем и приносить настоящую пользу», — говорит Алексей Добровольский, директор по разработке программного обеспечения компании «Крок». Из технологических приемов более низкого уровня в число приоритетных, по его словам, также попадают средства извлечения, преобразования и загрузки данных (ETL-средства), инструменты генерации отчетов, классификации и поиска информации.

Алексей Хромов, директор департамента продвижения ПО IBM консалтинговой группы «Борлас», высказывается следующим образом: «Тенденция управления корпоративными данными существует и реализуется в виде известных ранее направлений, иногда связанных между собой, но чаще нет. К осознанию этого понятия приводит и создание хранилищ данных для решения разнообразных аналитических задач; в последнее время особое значение придается хранилищам для систем управления эффективностью бизнеса класса CPM/BPM. На уровне концепций наиболее полно тематику корпоративных данных воплощает концепция ECM [Enterprise Content Management], которая, впрочем, еще нуждается в дальнейшем развитии с точки зрения как теории, так и методики и инструментальных средств». Пока, по его словам, ECM используется прежде всего для управления неструктурированными данными предприятия, что не соответствует ее истинному потенциалу.

Специалисты компании «Энвижн Груп», не говоря о какой-либо единой концепции, среди приоритетных технологических инструментов решения обсуждаемой нами задачи выделяют опять-таки ETL-средства, инструменты OLAP и Data Mining.
Иными словами, получается, что сочетанию традиционных средств в сегодняшней практике консолидации пока придается большое значение. Концепция ECM используется все активнее, а связка ECM+ILM пока все же остается в потенциале. Что касается корпоративных заказчиков, то по опыту общения с ними они также предпочитают эволюционно двигаться в развитии традиционных инструментов консолидации информации, при этом полагая (и, кстати, вполне справедливо), что элементы глобальных концепций работы с корпоративными данными они используют. Не особо спешат они еще и потому, что считают (опять-таки скорее всего правильно) эволюционный путь единственно верным. Тем более, что в соответствии с одним из мнений, приведенных выше, программные средства управления контентом еще далеки от совершенства и нуждаются в развитии.

Вместе с тем если внимательно вчитаться в информационные материалы компаний, предлагающих комплексные решения, то они, во-первых, действительно находятся в фазе совершенствования, а во-вторых, вовсе и не нацелены на то, чтобы внедряться в соответствии с известным принципом большого взрыва. При реализации концепции ILM, например, значимую роль играют так называемые политики работы с информацией, когда таковые в организации существуют хотя бы в наиболее простой форме. Если файлы определенного типа по истечении некоторого срока следует переместить на нестираемый носитель, значит, такой процесс можно автоматизировать и это можно считать началом применения ILM-технологий. Далее речь может идти о группировке контента по принадлежности к департаменту или сотруднику, о разделении информации на категории в соответствии с ее содержанием, о фиксировании в ИТ-системе тех или иных семантических связей. Но это по сути и есть эволюционный путь развития. Связка ECM и ILM по мере продвижения к более сложной логике управления данными приобретает более значимую роль.

Что касается вопроса о степени развития концепций комплексного управления данными в настоящее время, то, например, деятельность одного из самых активных апологетов двух вышеназванных технологий, корпорации EMC, сама по себе является ответом на этот вопрос. Целой серии новых или приобретенных вместе с другими компаниями решений можно было бы посвятить отдельную статью. Выделяя самые общие акценты, пожалуй, следует сказать, что за счет приобретения SMARTS и создания систем хранения класса CAS (Content Addressable Storage) сделана заметная попытка приблизить логику организации физического хранения информации и способов управления этим процессом к содержательным понятиям и логике функционирования самого бизнеса. Это представляется весьма важным прежде всего потому, что, похоже, именно такие идеи в наименьшей степени сейчас осознаны российским корпоративным рынком. По крайней мере о них куда меньше высказываются вообще — как заказчики, так и интеграторы. Но может быть, они-то и являются недостающим звеном для осознания всех аспектов управления корпоративным контентом как единой концепции, тем более что некоторые компании, развивая концепцию ILM, намеренно сосредотачиваются на низкоуровневой инфраструктурной составляющей ILM. «Стратегический подход нашей компании к управлению информацией на протяжении ее жизненного цикла заключается в том, что мы концентрируем свои усилия на разработке инфраструктурной части комплексного решения, на котором основывается реализация ILM-подхода, а также на оказании консалтинговых и сервисных услуг различного уровня для внедрения таких решений у заказчика, — утверждает Римма Владимирова, менеджер по продажам систем хранения Sun Microsystems в регионе СНГ. — Более высокий уровень управления, связанный, например, с архивацией данных различных форматов, поиском по контенту и/или по расширенным метаданным, обеспечивается интеграцией с различными программными решениями партнеров Sun Microsystems в области ILM. В рамках инфраструктурной части мы поставляем интегрированные программные и аппаратные продукты для создания ILM-решений с поддержкой управления идентификацией, которые позволяют организовать соответствующее требованиям заказчиков иерархическое хранилище данных с доступом и управлением в зависимости от назначенных пользователю прав.

Возвращаясь к компании EMC, отметим, что с приобретением фирм Authentica и RSA Security заметно упрочились её позиции на рынке систем информационной безопасности (ИБ). А от этого факта перейдем к еще одному немаловажному, как нам представляется, тезису. Под углом зрения информационной безопасности понятие жизненного цикла корпоративной информации становится наиболее рельефным. Именно здесь в более четкой форме, чем где-либо, существует понятие политик работы с информацией. И здесь уже в самое последнее время возникла потребность в консолидации ИТ-ресурсов для решения задач ИБ, что, в частности, подтверждается заметным всплеском интереса к системам Identity Management.

Организационные проблемы — как всегда, главные

Внедрение технологий управления корпоративным информационным ресурсом в целом, впрочем, как и продвижение любых серьезных направлений в корпоративной автоматизации, сопровождается сложностями, традиционно подразделяемыми на технологические и организационные, причём последние во многом смыкаются с методическими.

Возвращаясь к мнениям опрошенных нами компаний, отметим следующее. Несмотря на то, что технологии управления корпоративным контентом еще далеки от идеала и это признается очень многими, технологические преграды во внедрении практически всеми (пожалуй, за исключением лишь специалистов компании «Борлас») прочно ставятся на последнее место. Трудности организационного характера, наоборот, дружно относятся на первое. «Такие организационные проблемы, как элементарная формализация работы с информацией в компании, соблюдение политик информационной безопасности, наличие ответственных за исполнение утвержденных регламентов, являются главными аспектами при внедрении технологий управления корпоративными информационными ресурсами», — замечает Кирилл Степанов из компании Novell. В том же ключе высказывается и Анна Ненахова из «Энвижн Груп»: «Организационные аспекты при формировании единого пространства корпоративных данных, с моей точки зрения, являются более сложной и непредсказуемой работой, чем, например, выбор аппаратных или программных средств. Если, к примеру, на предприятии уже существует развитая система справочников и классификаторов, то, конечно, обеспечение согласованности и непротиворечивости данных носит чисто технический характер. В противном случае необходимо провести ряд организационных мероприятий, позволяющих добиться консистентности данных».

Что касается методических аспектов в решении тех задач, о которых мы говорим в рамках этой статьи, то решительно все опрошенные подчеркнули исключительную значимость формирования описательных метаданных — прежде всего в виде различного рода справочников и классификаторов.

«Для успешного решения этих проблем необходимо и осмысление, и решение на методическом и техническом уровне проблемы метаданных. В области консолидации и синхронизации данных в последнее время получают признание две концепции: MDM [Master Data Management — управление основными данными], применяемая прежде всего к системам нормативно-справочной информации, и Data Hubs [концентраторы данных]. Они близки друг другу. В Data Hubs акцент делается на консолидации данных с учетом семантики предметной области. К осознанию понятия «корпоративные данные» приводит и развитие систем документооборота и электронных архивов», — говорит Алексей Хромов из «Борласа».

Интересно также, что перспективы массового перевода корпоративного контента в семантически более осмысленный формат, где метаданные будут содержаться фактически внутри него (читай: в формат XML), опять-таки всеми опрошенными воспринимаются куда более прохладно. Алексей Добровольский из компании «Крок» прямо заявляет: «В качестве самостоятельной деятельности такая работа с моей точки зрения лишена смысла».