You are viewing lionet

Previous Entry | Next Entry

SSD restart hell


SSD hell, выжимка из тикета в OPS трекере:
So x0307/8/9/10 started to hang every hour since last night.

Apparently this is a bug we've hit:
http://www.theverge.com/2012/1/17/2713178/crucial-m4-ssd-firmware-update-fixes-recurring-bsod
and firmware 0309 fixes it. I've installed it on x0309 and it indeed stopped it from hanging every hour (though i do not know if this fixes long-term problem). I do expect it to start shutting down x0303/x0304/x0305/x0306 very soon.

They start to fail @ 5,184 hours, so we've 76..190 hours to upgrade the firmware.

@#$%^ Crucial.

--igor

Вот фоллоу-ап с is39, нашим главным по железу:
У нас скиснут все Сrucial SSD в течение 3..7 суток (если не впаять update); 4 хоста уже скисли, один я починил.

После 5184 часов uptime они дохнут каждый час.

Ты, зараза, это предугадал в начале этой недели ;-)

А чё — я ничё! ;)

В начале недели я высказал предположение, что все наши SSD, купленные в одно время, эксплуатируются одинаково, и поэтому помрут в один час. Почему? Потому что диски вылетают не сами по себе, а по какому-то поводу: флуктуация питания, температуры и загрузки. И что у SSD очень узкие тех. допуски и очень ровные техпроцессы. Поэтому, если загрузка и питание более-менее стабильны, то спокойное время между аномалиями загрузки и питания будет как раз способствовать тому, чтобы за это время несколько дисков одновременно выработали свой ресурс. И следующий клиентский шторм или, скажем, переключение коло на дизель с шумом в сети, вырубит сразу все подшедшие к своему лимиту диски.

Но зверёк подкрался совсем не с той стороны ;) Оказывается, в эти SSD просто таймер встроен (они называют это «баг»), похожий на таймер в картриджах для принтеров от HP, ограничивающий их жизнь. И есть патч для этого таймера, для особо вздорных админов, не желающих платить за поддержку ;)

P.S. еще стоит упомянуть, что такое дерьмо мы купили не по выбору, а по причине отсутствия Intel SSD 320, с которыми (в других ящиках) таких проблем у нас нет.

P.P.S. Вот ещё разговорчик:
— На тех хостах, которые сейчас раз в час падают: как так получилось, что баг раньше проявился на них, а не на продакшене?
— Они были включены на ~ неделю раньше.

P.P.P.S. От lazy_neko: А вот тут чуваки попали: http://blog.mailchimp.com/planned-server-maintenance-and-followup-to-server-outage/

Tags:

Comments

( 21 comments — Leave a comment )
dimavs
Feb. 25th, 2012 03:16 am (UTC)
Я M4 128G купил с неделю назад, пришло с красивой бумажкой - срочно обновить фирмварь!!! У них обновлятор - загрузочный iso image с фридосом, всех делов-то на пять минут.

Первому моему SSD (GSkill Falcon 128GB) - три года, работает без проблем. Второму, OCZ Vertex 2 60GB, года полтора.

Edited at 2012-02-25 03:21 am (UTC)
is39
Feb. 25th, 2012 03:57 am (UTC)
Если тачка перед тобой - то на 5 минут, а если ремотно в colocation - то уже поинтереснее.
Ну и дисков в ней обычно несколько. В общем диски с такими ошибками лучше разбивать о головы разработчиков ;-)

Все конечно случается, но почему то с Crucial SSD - все время, а с Intel SSD - почти никогда.
vlad_fourso
Feb. 25th, 2012 11:01 am (UTC)
Конечно, у Intel всегда идеальная прошивка без багов. http://www.notebookcheck.net/Intel-SSD-320-Series-reportedly-failing-due-to-major-bug.57387.0.html
is39
Feb. 26th, 2012 02:16 am (UTC)
Да - я тоже читал. Но, несмотря на использование X25-M g1/g2/g3, X25-E) за последние 4+ года на критические проблемы не налетал. А с Crucial они были сразу и непрерывно, но разные (несовместимость с RAID контроллером, проблемы с SSD других производтелей на том же контроллере, etc), и каждый раз рекомендовался firmware upgrade. Вроде в ноутах они как-то работают, а в сервера лучше таки их не ставить.
yakov_sirotkin
Feb. 25th, 2012 04:10 am (UTC)
Даже для массивов на обычных HDD есть рекомендация брать разные диски. Но это, конечно, жесть.
thinker8086
Feb. 26th, 2012 12:29 am (UTC)
ХМ, встречаю рекомендацию первый раз, а мысль-то хорошая.
yakov_sirotkin
Feb. 26th, 2012 03:41 am (UTC)
Это не я сам придумал - мне рассказал realloc на Сhaos Concstruction на семинаре про создание RAID своими руками, ссылку не могу найти.
lionet
Feb. 26th, 2012 04:50 am (UTC)
Вот уже десяток лет пользуюсь этой рекомендацией.
13-49-ru.blogspot.com
Feb. 28th, 2012 11:02 pm (UTC)
Ночальнег состряпал в ноут зеркало на двух одинаковых ssd (ocz vertex 3, по-моему). Умерли оба в один момент.

Edited at 2012-02-28 11:02 pm (UTC)
wizzard0
Feb. 25th, 2012 09:53 am (UTC)
Оооо! Вот оно что!

Но, черт побери, как они выдерживают при таком "ETTF" (Exact Time To Failure) процент возвратов в ритейле?
lionet
Feb. 25th, 2012 09:59 am (UTC)
ETTF превышает warranty time (1 год) на 8—11 секунд, ессно.

Edited at 2012-02-25 09:59 am (UTC)
wizzard0
Feb. 25th, 2012 02:48 pm (UTC)
Ну, строго говоря, 5184/24=216 ~ 7 месяцев :)

Но аптайм у ноутбуков, действительно, меньше чем 0/24

А вы что-то с Crucial'ом делать будете?
sorhed
Feb. 25th, 2012 10:08 am (UTC)
Вот уроды. (с) Хорошо, что не взял Crucial.
fenikso
Feb. 25th, 2012 10:13 am (UTC)
очень, очень мило :) и протестировать заранее сложно.
alll
Feb. 25th, 2012 11:31 am (UTC)
А им случайно нельзя организовать милый судебный процессик от лица "неопределённой группы лиц"? Ну или хотя бы от тысчонки-другой пострадавших?
ostapru
Feb. 25th, 2012 02:31 pm (UTC)
> а по причине отсутствия Intel SSD 320, с которыми (в других ящиках) таких проблем у нас нет.

У интеля были свои проблемы: http://communities.intel.com/thread/24205
hmepas
Feb. 25th, 2012 03:29 pm (UTC)
Феерично, йопт!
vp
Feb. 25th, 2012 03:29 pm (UTC)
А как они предполагали с этого имнть денег? Как бы выглядела и чем обьяснялась такая поддержка?
Kirill A. Korinskiy [catap.ru]
Feb. 25th, 2012 10:31 pm (UTC)
кончились циклы, для масс
lazy_neko
Feb. 26th, 2012 09:59 pm (UTC)
arozer
Mar. 22nd, 2012 10:52 pm (UTC)
Куею я, чего же боле,
Включая старый ноут свой.
( 21 comments — Leave a comment )