Lev Walkin (lionet) wrote,
Lev Walkin
lionet

Category:

SSD restart hell

SSD hell, выжимка из тикета в OPS трекере:
So x0307/8/9/10 started to hang every hour since last night.

Apparently this is a bug we've hit:
http://www.theverge.com/2012/1/17/2713178/crucial-m4-ssd-firmware-update-fixes-recurring-bsod
and firmware 0309 fixes it. I've installed it on x0309 and it indeed stopped it from hanging every hour (though i do not know if this fixes long-term problem). I do expect it to start shutting down x0303/x0304/x0305/x0306 very soon.

They start to fail @ 5,184 hours, so we've 76..190 hours to upgrade the firmware.

@#$%^ Crucial.

--igor

Вот фоллоу-ап с is39, нашим главным по железу:
У нас скиснут все Сrucial SSD в течение 3..7 суток (если не впаять update); 4 хоста уже скисли, один я починил.

После 5184 часов uptime они дохнут каждый час.

Ты, зараза, это предугадал в начале этой недели ;-)

А чё — я ничё! ;)

В начале недели я высказал предположение, что все наши SSD, купленные в одно время, эксплуатируются одинаково, и поэтому помрут в один час. Почему? Потому что диски вылетают не сами по себе, а по какому-то поводу: флуктуация питания, температуры и загрузки. И что у SSD очень узкие тех. допуски и очень ровные техпроцессы. Поэтому, если загрузка и питание более-менее стабильны, то спокойное время между аномалиями загрузки и питания будет как раз способствовать тому, чтобы за это время несколько дисков одновременно выработали свой ресурс. И следующий клиентский шторм или, скажем, переключение коло на дизель с шумом в сети, вырубит сразу все подшедшие к своему лимиту диски.

Но зверёк подкрался совсем не с той стороны ;) Оказывается, в эти SSD просто таймер встроен (они называют это «баг»), похожий на таймер в картриджах для принтеров от HP, ограничивающий их жизнь. И есть патч для этого таймера, для особо вздорных админов, не желающих платить за поддержку ;)

P.S. еще стоит упомянуть, что такое дерьмо мы купили не по выбору, а по причине отсутствия Intel SSD 320, с которыми (в других ящиках) таких проблем у нас нет.

P.P.S. Вот ещё разговорчик:
— На тех хостах, которые сейчас раз в час падают: как так получилось, что баг раньше проявился на них, а не на продакшене?
— Они были включены на ~ неделю раньше.

P.P.P.S. От lazy_neko: А вот тут чуваки попали: http://blog.mailchimp.com/planned-server-maintenance-and-followup-to-server-outage/
Tags: echo
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 20 comments