Visa или MasterCard? Карту какой платежной системы выбрать? Кто на свете всех богаче? Анализ роста благосостояния в мире.

FTServer — отказоустойчивый сервер для Windows

Наталья Дубова

Отказоустойчивость на аппаратном уровне

Отказоустойчивость и непрерывная доступность приложений реализованы в сервере ftServer как на аппаратном, так и на программном уровне. Базовый принцип отказоустойчивости - дублирование всех аппаратных компонентов системы для предотвращения любых сбоев и сохранения целостности данных. Каждый элемент обработки информации реализован на сдвоенных логических блоках. Дублированные компоненты работают синхронно и параллельно, выполняя одновременно одни и те же задачи. Поэтому при отказе какого-либо из компонентов обработка данных не прерывается, т. е. сбой системы никак не влияет на работу приложения. Неисправность обнаруживается и локализуется мгновенно, распространение ошибки в системе исключается, работающее приложение будет по-прежнему выдавать достоверные результаты обработки, данные не будут потеряны или искажены. Выполнение приложения даже не приостанавливается, поскольку сразу локализуется в исправном блоке, и, таким образом, несмотря на сбой, время работы прикладной системы не увеличивается из-за потерь на восстановление, и не уменьшается производительность. Замена неисправных блоков проводится в оперативном режиме, без прерывания текущей обработки данных, и не требует от персонала специальных навыков.

В отличие от прежних разработок Stratus система ftServer обеспечивает аппаратную избыточность не только путем дублирования всех модулей (этот режим называется Dual Modular Redundancy, DMR), но и путем утроения числа материнских плат (Triple Modular Redundancy, TMR). Режим TMR обеспечивает еще более высокий уровень надежности, поскольку в случае выхода из строя одного из компонентов избыточность сохранится.

Логика обнаружения и изоляции ошибок реализована в дублированных модулях, созданных на базе специализированных микросхем ASIC и выполняющих роль интерфейса между материнскими платами и подсистемой ввода/вывода. На каждой процессорной плате присутствуют дополнительные логические элементы для обнаружения сбоев, которые используются в режиме DMR для определения неисправной платы. В режиме троирования неисправная плата изолируется по принципу тройного голосования (3-way voting).

Принципиальным для отказоустойчивости является тот факт, что подсистема «процессор-память» и ввод/вывод на диски реализованы на отдельных платах. Базовая система ввода/вывода имеет две независимые шины PCI. Все основные адаптеры (SCSI, Ethernet, Remote Management и Fibre Channel) также дублированы. Таким образом, сбой в шине или адаптере PCI не влияет на работу системы, управление вводом/выводом прозрачно для пользователей переходит на избыточный, исправный компонент, поэтому данные или информация о сетевых соединениях никогда не будут потеряны при сбое.

Статьи, интервью, публикации