В Meta-Facebook поделились методикой постоянного тестирования оборудования

Изображение: pixabay.com
Системная ошибка
Системная ошибка

Методика обнаружения и устранения неявных ошибок Silent Data Corruption (SDC), вызванных неисправными элементами процессора, представлена компанией Meta Platforms (ранее Facebook), работа опубликована 17 марта в блоге компании.

Опубликованный документ описывает методику интенсивного тестирования работающего оборудования, которую компания применяла в своих центрах обработки данных (ЦОД) на протяжении трех лет.

Ранее компания тестировала каждый процессор в течение нескольких часов перед установкой сервера в ЦОД. Дополнительно в процессе работы производилось выборочное тестирование процессоров. Но такой подход не позволяет выявить все проблемы.

Теперь в Meta совмещают три подхода. Проверку оборудования до установки, во время планового обслуживания и тестирование в процессе работы. Тестирование во время работы представляет собой набор операций с заранее известными результатами, результат сравнивается с заранее известными побитово.

Последний подход позволяет выявить до 70% ошибок, накапливающихся вследствие деградации оборудования в процессе работы. Метод регулярного обслуживания с тестированием проводится в среднем раз в шесть месяцев.

2 марта компания Intel компания Intel представила на рассмотрение сообщества Linux код драйвера In-Field Scan (IFS). Драйвер IFS описывает доступ к функциям аппаратной самодиагностики перспективных процессоров Xeon семейства Sapphire Rapids. Предполагается, что новая технология позволит упростить обнаружение ошибок в процессорах и повысить вероятность их выявления.