Поиск по сайту:



Об Обществе
Направления деятельности
Социальная политика
Наши партнеры
Пресс-центр
Тендеры
Карта сайта
Контакты

Публикации
Список материалов раздела

Александр Зайцев: Трехсайтовая архитектура – реальная защита от катастроф (Connect! Мир Связи № 3 2008)


(19 марта 2008 г.)


Современный этап автоматизации Группы «ЛУКОЙЛ» реализуется в рамках программы стратегического развития компании. Программой предусмотрено создание и развитие единой интегрированной системы управления, основу которой составляет процессный подход к управлению бизнесом.

В 2004 г. решением Прав-ления ОАО «ЛУКОЙЛ» в составе ООО «ЛУКОЙЛ-ИНФОРМ» были объединены все структурные подразделения предприятий Группы «ЛУКОЙЛ», в функции которых входила деятельность по информационно-технологическому обеспечению предприятий. Вслед за назначением ООО «ЛУКОЙЛ-ИНФОРМ» головной организацией по ИТО Группы «ЛУКОЙЛ» в целях повышения надежности работы и сокращения времени простоев было принято решение о консолидации серверов интегрированных систем управления (ИСУ) в двух центрах обработки данных (ЦОД), расположенных в Москве (рис. 1).

Технологической основой архитектуры корпоративной ИТ-инфраструктуры является сеть систем хранения данных (СХД), построенная на протоколе Fiber Channel (FC). Ее ядро составляют две high-end-системы компании Hitachi Data Systems (HDS USP600) с объемом хранения «сырых» данных более 60 терабайт каждая. Две независимые FC-фабрики, образованные парами директоров Brocade SW48000, обеспечивают возможность синхронной репликации данных на скоростях по 4 Гбит/с.

Две взаимно резервирующие площадки корпоративного центра обработки данных (ЦОД 1 и ЦОД 2) представляют собой специально подготовленные помещения повышенной безопасности, для каждого из которых обеспечено избыточное электроснабжение (категории 1+, т. е. до 480 кВт суммарно от двух вводов, до 40 минут работы от батарей UPS, до десяти дней автономной работы от подключенной ДГУ) и дублирование основных инженерных систем – охлаждения и пожаротушения. Помещения соединены между собой комбинированными каналами с использованием аппаратуры уплотнения DWDM (четыре лямбды по 4 Гбит/с в каждом канале, всего 2х4 Gigabit FC плюс 2х4 Gigabit Ethernet) поверх независимо проложенных кабелей ВОЛС, образующих замкнутое кольцо, что обеспечивает непрерывность связи даже при обрыве одного плеча.

Смонтированная в ЦОД структурированная кабельная система (СКС) компании SYSTIMAX обеспечивает надежное подключение оборудования на скоростях до 1 Гбит/с по кабелям неэкранированной витой пары (UTP категории 6) и до 10 Гбит/с по оптическим кабелям многомодового волокна и полностью соответствует индустриальным стандартам TIA/EIA-568 и TIA/EIA-942.

Серверное оборудование и СХД устанавливаются в ЦОД либо отдельно, либо в специально подготовленные монтажные шкафы и подключаются к раздельным фидерам питания.

Интегрированные системы управления, реализованные в среде SAP R/3, консолидированы на четырех high-end-серверах Sun Fire 25K компании Sun Microsystems (по два на каждой из площадок ЦОД). Каждый сервер поделен на несколько (от четырех до шести) физических доменов, полностью энергонезависимых, с возможностью динамического, без прерывания предоставления сервиса, перераспределения вычислительных ресурсов (процессоров) между ними. На них размещены продуктивные системы, системы тестирования и разработки.

Взаимное резервирование систем обеспечивается как некоторой избыточностью вычислительных ресурсов, так и возможностью в случае возникновения нештатной ситуации на основном сайте остановить на резервном сайте систему тестирования и запустить на высвободившемся оборудовании продуктивную систему практически без ущерба для производительности. Реализация подобного плана обеспечения высокой надежности (High Availability – HA) базируется на синхронной репликации данных между площадками ЦОД и единой сетевой среде второго уровня (IP). Это позволяет динамически перенаправлять клиентские запросы на соответствующий сервер, активный в данный момент, без необходимости вносить дополнительные изменения в таблицы маршрутизации. Организация HA-системы практически исключает простои, вызванные поломкой оборудования.

Для минимизации времени восстановления после сбоев, связанных с программным обеспечением или ошибками операторов, предназначена система резервного копирования, независимо развернутая на обеих площадках ЦОД. Каждые два часа создаются online-копии продуктивных баз (snapshots) на дисковых системах, виртуализированных относительно основных СХД, а ежедневные копии архивируются на ленточные библиотеки. Таким образом, реализован иерархический подход к хранению данных, при котором продуктивные системы размещаются на высоконадежных системах быстрого доступа, а копии и архивы перемещаются на менее дорогие носители.

Реализованная к настоящему времени схема двухсайтовой репликации данных в целом решает вопросы обеспечения надежности функционирования корпоративных систем управления предприятиями Группы. Однако реальную катастрофоустойчивость может обеспечить лишь трехсайтовая архитектура (рис. 2), при которой третья площадка удалена от основных, расположенных в Москве, на значительное расстояние – в данном случае это порядка 2 тыс. км. Столь большое расстояние, с одной стороны, обеспечивает невосприимчивость к региональным катастрофам, с другой – исключает синхронную репликацию.

В таком случае проблема целостности данных на удаленном сайте решается за счет использования асинхронного метода репликации с инкапсулированием FC-пакетов в транспортный протокол IP (FC/IP). Для обеспечения репликации всего объема ежедневно обновляемых данных потребовались основной (выделенный) канал 50 Мбит/с и резервное подключение – шифрованный туннель (VPN) через Интернет.

Несмотря на централизацию ИТО и перенос основных систем – ИСУ и других корпоративных систем – в корпоративный ЦОД в Москве, в крупных филиалах Группы продолжает оставаться в эксплуатации большое количество локальных систем, для которых также необходимо обеспечить высокий уровень готовности. Это достигается путем создания сети региональных ЦОД. В качестве примера можно привести площадку регионального центра в Перми, которая кроме целей консолидации оборудования и обеспечения высокой доступности локальных систем используется для тестирования общекорпоративных ИСУ, разрабатываемых в местном центре компетенции по SAP.

Связь региональных ЦОД с корпоративным центром осуществляется по резервированным каналам передачи данных, как правило, по наземному каналу в качестве основного и спутниковому в качестве резервного, с использованием сертифицированных средств специальной защиты.

Для обеспечения бесперебойного функционирования центров обработки данных – корпоративного и региональных – развернута «зонтичная» система мониторинга сетевой инфраструктуры и серверов ключевых приложений IBM Tivoli Netcool.

В настоящее время задействованы следующие модули:

  • Tivoli Network Manager (ранее Netcool/Precision IP), который осуществляет автоматическое раскрытие топологии IP-сети и централизованный мониторинг всех сетевых элементов;
  • OMNIbus, который через соответствующие пробы обеспечивает сбор всех аварийных сообщений и их консолидацию в БД ObjectServer;
  • модули Internet Services Mo-nitor, обеспечивающие активный мониторинг различных телематических сервисов (DNS, NTP, LDAP, SMTP, IMAP, HTTP и т. д.);
  • Webtop, обеспечивающий интерфейс пользователя системы мониторинга;
  • Reporter, предназначенный для хранения исторических данных по событиям на инфраструктуре и предоставления различных отчетов на их основе.
Для мониторинга различного оборудования максимально широко задействованы средства на базе SNMP, но применяются и специализированные системы, которые в качестве элемент-менеджеров обязательно интегрируются в Netcool. Так, например, для мониторинга серверов Sun Microsystems применяется Sun Management Center, который интегрируется с помощью Netcool Probe for Sun MC. Для мониторинга платформы Microsoft предусмотрен Netcool Probe for MOM (Microsoft Operations Manager). Похожим образом – через специализированные элемент-менеджеры – управляются и инженерные системы ЦОД – электроснабжения (ИБП и ДГУ), климат-контроля и пр.

Система мониторинга интегрируется также с системой управления инцидентами HelpDesk, созданной на базе HP Service Desk. При поступлении события, сигнализирующего о сбое, создается инцидент, который обрабатывается в соответствии с регламентом процесса «Управление инцидентами».

Интеграция системы мониторинга с конфигурационной базой данных (CMDB) позволяет автоматизировать поддержку актуальности объектов мониторинга и обогатить события информацией, которая повышает эффективность работы обслуживающего персонала.

Источник: Connect! Мир Связи № 3 2008






© ООО "ЛУКОЙЛ-ИНФОРМ"