Вентиляторные шрапнели в суперкомпьютерах

В дата-центрах Яндекса есть собственная система стоек, где на одной плате установлено сразу несколько видеокарт, к которым подключены сервера. На этой технологии работает, например, суперкомпьютер «Галушкин».

Для охлаждения карточек используются вентиляторы на 15 тысяч оборотов в минуту. В течение долгого времени эти вентиляторы работали стабильно и без перебоев. Но спустя два года один из вентиляторов во Владимире буквально разлетелся на куски во время работы.

Мы не придали этому большого значения. Вентиляторов много, они долго служили верой и правдой, поэтому единичный случай нас не насторожил. Но позже вентиляторы начали выходить из строя один за другим — абсолютно случайным образом. Предугадать уничтожение очередного устройства было невозможно.

Разлетаясь, лопасти, как шрапнель, могли «ранить коллег». Получалась цепная реакция: один вентилятор, выйдя из строя, тянет за собой следующий, а тот — своего соседа и так далее. И всё это за какие-то несколько секунд! Порой мы находили обломки лопастей в коридоре, а при работе с полками приходилось надевать очки.

Мы принялись искать причину неисправности. Изучали кабельные стяжки, разбирали вентиляторы, проводили замеры, выдвигали и проверяли самые безумные гипотезы. Мы подключили к поискам и нашу команду RnD.

Выяснилось, что пластик, из которого сделаны вентиляторы, не такой надёжный, как нам казалось. Если на 10 тысячах оборотах в минуту он показывает себя неплохо, то уже на 15 тысячах начинает деградировать, появляются микротрещины.

Единственным решением стала замена вентиляторов. А так как выяснить наверняка, какие устройства подверглись деградации и предугадать разрушение невозможно, менять пришлось все.

Вот такая вот необычная и неожиданная поломка. А с какими неординарными неисправностями сталкивались вы? Расскажите в комментариях!

ML Underhood