Поиск по сайту:



Об Обществе
Направления деятельности
Социальная политика
Наши партнеры
Пресс-центр
Тендеры
Карта сайта
Контакты

Публикации
Список материалов раздела

Централизованная система мониторинга ИТ-инфраструктуры (Павел Прокопенко, журнал «Connect! Мир связи» № 3/168, март 2010)


(22 марта 2010 г.)


Проект внедрения централизованной системы мониторинга (ЦСМ) ИТ-инфраструктуры ООО «ЛУКОЙЛ-ИНФОРМ» является глобальным как по географическому и организационному, так и по функциональному охвату: проект действует на всей территории России, где работают предприятия Группы «ЛУКОЙЛ», в его реализации принимают участие все девять региональных филиалов «ЛУКОЙЛ-ИНФОРМ», проект затрагивает всю инфокоммуникационную инфраструктуру – от физического уровня модели OSI до уровня приложений, информационных систем и услуг.

Цели внедрения ЦСМ
На момент начала проекта управление инфокоммуникационной инфраструктурой «ЛУКОЙЛ-ИНФОРМ» характеризовалось такими чертами, как:
- слабая управляемость;
- «зоопарк» унаследованных систем;
- устаревший инструментарий;
- нехватка специалистов;
- хаос «княжеств»;
- борьба за ресурсы между подразделениями;
- «перевод стрелок» (поиск виновного и/или ответственного за сбой);
- дублирование инструментария плюс его недостаток;
- отсутствие адекватного мониторинга качества как оказываемых, так и получаемых извне услуг.
Все это мешало решать главную задачу повышения надежности, качества и эффективности ИТО Группы «ЛУКОЙЛ». Требовалось обеспечить сквозное управление услугами и инфраструктурой, для этого в компании был начат ряд проектов, в частности, внедрение централизованной системы мониторинга ИТ-инфраструктуры.
В число функций ЦСМ входят:
- отслеживание статуса всех объектов в режиме реального времени;
- создание единого поля событий (работа с единым набором консистентных данных, Manager of Managers);
- переход от «лоскутного» к централизованному управлению всей инфраструктурой;
- возможность узнавать о проблеме до того, как она будет замечена пользователями;
- быстрота изоляции сбоя, возможность автоматизации корректирующих воздействий;
- установление связей между ИТ-услугами и ИКТ-инфраструктурой;
- мониторинг SLA для услуг, получаемых извне;
- мониторинг OLA/SLO для услуг, оказываемых пользователям;
- управление динамически изменяющейся инфраструктурой (включая интеграцию с CMDB, автообнаружение ресурсов, раскрытие топологии и конфигурации);
- снижение накладных расходов (минимизация служебного трафика и нагрузки).

Базовое ПО
В компании «ЛУКОЙЛ-ИНФОРМ» проводилась пилотная эксплуатация нескольких решений, доступных на тот момент. Выбор был сделан в пользу продукта Netcool компании Micromuse. На сегодняшний день Netcool – лучшее решение для управления современными крупными сложными гетерогенными сетями, 20 крупнейших телекоммуникационных компаний мира используют Netcool. К началу реализации проекта уже существовали внедрения Netcool в России.
Следует отметить, что Netcool – довольно «тяжелый» продукт, и позволить его себе могут только очень крупные компании. Среди главных достоинств решения следует отметить его масштабируемость, адаптируемость (гибкость, открытость, возможность решать задачи несколькими способами) и интегрируемость, что позволяет рассчитывать на длительный срок полезного использования созданной системы.

Семантика Netcool
Семейство продуктов Netcool базируется на методологии CCAI (Collect, Consolidate, Analyze & Automate, Inform & Visualize) и обеспечивает полный набор ключевого функционала на каждом уровне модели CCAI (рис. 1):
Collect (собрать) – ПО Netcool позволяет собирать потоки событий и данных из более 1000 уникальных источников. С помощью постоянно расширяющегося набора интеграций с другими платформами Netcool выполняет мониторинг большинства современных приложений, систем и сетевых технологий и сосуществует с унаследованными системами управления. Уровень сбора представлен сенсорами (probes), мониторами (monitors), а также агентами автообнаружения ресурсов и раскрытия топологии и конфигурации;
Consolidate (консолидировать) – консолидация событий в режиме реального времени обеспечивается высокопроизводительным и масштабируемым движком обработки событий OMNIbus Objectserver. Благодаря возможностям дедупликации, фильтрации, корреляции и подавления OMNIbus существенно уменьшает количество событий, подлежащих обработке операторами. Еще один важный компонент – Precision, предоставляющий актуальную модель сети, которая, среди прочего, позволяет автоматизировать мониторинг, определять первопричину сбоя на основе актуальной топологии, отслеживать изменения в составе сети;
Analyze & Automate (анализировать и автоматизировать) – аналитические функции реализуются на базе продукта Netcool Impact, который обеспечивает средства для установления связей (корреляций) в режиме реального времени между событиями на инфраструктуре и бизнес-услугами и пользователями;
Inform & Visualize (информировать и визуализировать) – Netcool обладает богатым набором разнообразных средств для представления информации в виде списков событий, карт, диаграмм, логических и топологических представлений, которые позволяют быстро принимать меры по решению проблем и информированию затронутых пользователей.
В 2006 г. корпорация IBM приобрела компанию Micromuse, и продукты Netcool стали частью семейства Tivoli, взаимно обогатившись новыми возможностями.

Итоги первых двух этапов проекта
На первом этапе внедрения ЦСМ ИТ-инфраструктуры была создана подсистема управления событиями, призванная обеспечить единое поле событий и выполнять функции централизованной системы мониторинга высшего уровня (Manager of Managers) корпоративной сети связи и передачи данных. Это центральный модуль ЦСМ, построенный на базе Netcool OMNIbus.
Далее, в рамках Центра и Пермского филиала, был реализован модуль мониторинга корпоративной сети передачи данных IP/MPLS. Для этого задействован продукт Netcool/Precision for IP Networks – лучшее в индустрии решение по автоматизированному раскрытию топологии сети (Network Discovery) и определению первопричины сбоя (Root Cause Correlation), которое масштабируется до самых сложных сред, поддерживает широкий спектр устройств и протоколов. Для ретроспективного анализа событий на базе Netcool Reporter реализован модуль исторической отчетности по событиям. Для активного мониторинга сетевых сервисов использован компонент Netcool ISM (Internet Services Monitoring). На первом этапе были закуплены мониторы ICMP, HTTP, HTTPS, TCPPort, SAA, AEM.
Кроме указанных подсистем были созданы подсистема мониторинга и контроля маршрутной информации (на базе Route Explorer компании Packet Design), подсистема мониторинга загрузки каналов и устройств (на базе Cricket), а также подсистема визуализации загрузки каналов (Vizmon).
Основной задачей на втором этапе было распространение полученного функционала на все регионы. В результате включения в мониторинг активного сетевого оборудования по всей Группе «ЛУКОЙЛ» стало возможным создание в ЦСМ иерархического набора географических карт для наглядной визуализации состояния и топологии сети (пример экрана представлен на рис. 2).
Однако ограничиться только тиражированием функционала первого этапа не удалось. На втором этапе был дополнительно реализован следующий функционал:
- мониторинг элементов ЦОД, включая интеграцию Netcool OMNIbus и SUN Management Center (SunMC);
- единая система управления унаследованным оборудованием корпоративной сети связи (ЕСУ УО КСС) на базе оборудования NET-PATH и ПО IRISnGEN компании Teltronics;
- подсистема мониторинга трафика приложений в ЦОД на базе оборудования Network Physics;
- инвентарная БД – DEVLIST – для ведения информации об устройствах, которые необходимо включить в мониторинг.

Текущие работы
На третьем этапе запланированы шаги по дальнейшему развитию ЦСМ по нескольким направлениям:
- интеграция ЦСМ и ИС «Сервис» в рамках процесса управления событиями и процесса управления инцидентами (используется компонент Netcool gateway for HP Service Desk);
- интеграция ЦСМ и CMDB (автоматизация мониторинга и обработки событий) – этот шаг включает инсталляцию и настройку программного компонента Netcool Impact;
- мониторинг серверов и приложений. В рамках третьего этапа реализуется решение для мониторинга платформы Microsoft, аналогичное реализованному на втором этапе для платформы SUN. В роли элемент-менеджера выступает Microsoft Operations Manager (MOM), а для интеграции с ЦСМ применяется сенсор Netcool Probe for MOM. Дополнительно создается кросс-платформенное решение для мониторинга серверов и приложений на базе IBM Tivoli Monitoring (ITM);
- мониторинг услуг «глазами пользователя» – для этого применяется продукт IBM Tivoli Composite Application Management for Response Time (ITCAM for RT), который осуществляет измерение времени отклика приложений через имитацию действий пользователя. На третьем этапе развития ЦСМ будет реализован мониторинг из одной точки (локальной сети ЦА ООО «ЛУКОЙЛ-ИНФОРМ») таких услуг, как «доступ к ИСУ НГДО через SAP GUI» и «доступ к ИСУ НГДО через Citrix». Для качественного мониторинга услуг «глазами пользователя» важно иметь надежные тестовые сценарии, которые будут выполняться «роботами» по заданному расписанию. В идеале такие сценарии должны создаваться разработчиками корпоративных информационных систем. На данном этапе сценарии для «роботов» формируются сотрудниками отдела мониторинга и сетевого анализа;
- мониторинг услуг «глазами поставщика».

Контроль качества
Отдельно стоит упомянуть компонент Tivoli Business Service Manager (TBSM), на базе которого создается подсистема контроля качества сервисов. TBSM обрабатывает события о состоянии компонентов, составляющих сервис, вычисляет интегральный статус сервиса и представляет статус сервиса в графическом виде. Планируется реализовать два типа сервисных моделей:
с позиции пользователя услуги (в разрезе организаций и площадок, на основе сквозного мониторинга «глазами пользователя»);
с позиции поставщика услуги (на основе мониторинга статуса отдельных компонент ИКТ-инфраструктуры).
Модель первого типа позволит объективно измерять доступность и качество предоставления услуги конкретным группам пользователей и, в перспективе, производить оценку соответствия соглашению SLA. Эта модель поможет реализовать наиболее удобное отображение состояния услуги для разных групп пользователей ЦСМ. Создание экземпляров услуг такого типа в TBSM должно быть автоматизировано. Для этого создается шаблон услуги и прописываются правила автопопуляции – создания экземпляров услуг данного типа (на основе БД или событий).
Модель второго типа является традиционным вариантом сервисно-ресурсной модели, которая воплощает структуру сервиса в виде компонентов и взаимозависимостей как ее себе представляет поставщик услуги. Эта модель полезна, например, при поиске первопричины сбоя. TBSM не только вычислит и отобразит интегральный статус сервиса, но и наглядно укажет на первопричину изменения интегрального статуса. При планировании работ на объекте ИКТ-инфраструктуры TBSM позволит увидеть, какие услуги зависят от конкретного объекта, оптимально выбрать время для работ и оповестить всех заинтересованных субъектов.
Схема ЦСМ третьего этапа представлена на рис. 3.
Еще один новый компонент – Traffic Explorer производства компании Packet Design – позволит видеть не только уровень загрузки каналов, но и состав трафика, который загружает данный канал, прогнозировать загрузку сети при увеличении объема трафика определенного типа и многое другое.

Перспектива
В перспективе – не только тиражирование функционала первых трех этапов, но и дальнейшее расширение функционала ЦСМ. Планируется внедрение подсистемы анализа производительности IBM Tivoli Performance Analyzer (ITPA), которая расширит аналитические возможности ITM и ITCAM и позволит более интеллектуально обнаруживать аномалии и прогнозировать загрузку и производительность ресурсов.
Будет внедрена подсистема обнаружения взаимозависимостей приложений Tivoli Application Dependency Discovery Manager (TADDM), которая даст возможность автоматизировать обнаружение приложений и их конфигураций, изменения в конфигурациях, взаимозависимости приложений и создание сервисно-ресурсных моделей в TBSM. Решение IBM Tivoli Service Level Advisor (IT SLA) обеспечит улучшение исторической отчетности по качеству услуг.
Было бы очень полезно внедрить портал для обеспечения единой точки входа в ЦСМ (которая состоит из множества компонентов). В этом обещает помочь продукт IBM Tivoli Integrated Portal (TIP).
Кроме того, будут решаться задачи по повышению отказоустойчивости ЦСМ и ее производительности (в первую очередь графического интерфейса пользователя). Очевидно, что впереди еще большая работа, но ожидаемый результат того стоит.

Информация: Netcool Impact
Netcool Impact – это набор серверных компонентов, обеспечивающих функционал по управлению событиями и интеграции с другими системами. С точки зрения внедрения, Netcool Impact можно воспринимать как инструмент разработчика, используемый для подстройки под конкретные нужды, улучшения и расширения функционала уже инсталлированных продуктов семейства Netcool.
С точки зрения повседневной эксплуатации, Impact – «движок автоматизации», который работает в фоновом режиме и не требует взаимодействия с пользователями. После установки и настройки Impact нет необходимости в дополнительном обслуживании до тех пор, пока не понадобится внести изменения в реализацию ЦСМ.
Impact позволяет также создавать дополнительный набор инструментов для непосредственного применения операторами и повышения эффективности работы службы эксплуатации в целом. Представления Operator View позволят пользователям ЦСМ просматривать дополнительную информацию, относящуюся к событию, выбранному из Списка cобытий (Event List). Представления могут содержать:
- событие;
- кнопки для запуска нужных действий;
- информационные панели, содержащие информацию, собранную и обработанную политиками Impact, извлеченную из внутренних и внешних источников данных.
Обычно представления Operator View применяются операторами при обработке событий ЦСМ, чтобы получить ответы на вопросы:
- что я должен сделать;
- кто дежурит в данный момент;
- каким образом связаться с нужным человеком;
- есть ли другие похожие события;
- имеется ли документация, относящаяся к данному событию.

Информация: IBM Tivoli Monitoring
IBM Tivoli Monitoring обеспечивает мониторинг важных системных ресурсов для обнаружения «узких мест» и потенциальных проблем, а также для автоматического восстановления после критических ситуаций. Tivoli Monitoring помогает освободить администраторов от необходимости просмотра огромного объема данных о работе системы при разрешении проблем.
Необходимо отметить следующие преимущества ITM:
- готовое комплексное решение для мониторинга основных параметров и показателей работоспособности систем;
- единая платформонезависимая среда для мониторинга важнейшего ПО;
- возможность легко комбинировать данные реального времени с историческими;
- дружественный интерфейс пользователя;
- использование UA-агентов, Agent Builder, OPAL (Open Process Automation Library), что позволяет осуществлять - специфический мониторинг как стандартных, так и нестандартных приложений и устройств;
- централизованное управление внедрением агентов мониторинга;
- возможность безагентного (agent-less) мониторинга на базе протоколов SNMP, WMI, Perfmon;
- масштабируемость на основе использования удаленных серверов мониторинга;
- интегрируемость с другими подсистемами ЦСМ (Netcool/OMNIbus, TBSM, ITCAM);
- использование ITM для самоконтроля другими подсистемами ЦСМ, построенными на базе Tivoli Netcool.

Автор: Павел Прокопенко

Источник: журнал «Connect! Мир связи» № 3/168, март 2010






© ООО "ЛУКОЙЛ-ИНФОРМ"