RAID Controller Freeze

Was ist passiert?

In einem Fileserver haben wir einen (Broadcom) MegaRaid SAS9271-8i RAID Controller. Nachdem kein Platz mehr für neue Daten frei war, haben wir ein JBOD (just a bunch of disks) – gefüllt mit 8 TB HDDs – an den Controller angeschlossen.

Sobald jemand das JBOD nutzen und Daten lesen/schreiben wollte, ist der RAID Controller mit folgender Meldung abgestürzt:

Jan 26 14:34:00  kernel: [702452.978067] sd 0:2:3:0: task abort: FAILED scmd(ffff8801fbd02880)
[...]
Jan 26 14:34:03  kernel: [702455.874238] sd 0:2:3:0: task abort: FAILED scmd(ffff881137b28f00)
Jan 26 14:34:03  kernel: [702455.874273] sd 0:2:3:0: [sdf] tag#22 megasas: target reset FAILED!!
Jan 26 14:34:04  kernel: [702456.878163] megaraid_sas 0000:84:00.0: [ 0]waiting for 140 commands to complete for scsi0
[...]
Jan 26 14:36:59  kernel: [702632.659476] megaraid_sas 0000:84:00.0: [175]waiting for 140 commands to complete for scsi0
Jan 26 14:37:04  kernel: [702637.679616] megaraid_sas 0000:84:00.0: pending commands remain after waiting, will reset adapter scsi0.
Jan 26 14:37:04  kernel: [702637.681111] megaraid_sas 0000:84:00.0: resetting fusion adapter scsi0.
Jan 26 14:37:15  kernel: [702648.715953] megaraid_sas 0000:84:00.0: Waiting for FW to come to ready state

Jan 26 14:37:44  kernel: [702677.480809] megaraid_sas 0000:84:00.0: FW now in Ready state
Jan 26 14:37:44  kernel: [702677.480872] megaraid_sas 0000:84:00.0: Current firmware maximum commands: 1008         LDIO threshold: 0
Jan 26 14:37:46  kernel: [702679.068854] megaraid_sas 0000:84:00.0: Init cmd success
Jan 26 14:37:46  kernel: [702679.092868] megaraid_sas 0000:84:00.0: firmware type  : Extended VD(240 VD)firmware
Jan 26 14:37:46  kernel: [702679.092875] megaraid_sas 0000:84:00.0: controller type        : MR(1024MB)
Jan 26 14:37:46  kernel: [702679.092878] megaraid_sas 0000:84:00.0: Online Controller Reset(OCR)   : Enabled
Jan 26 14:37:46  kernel: [702679.092881] megaraid_sas 0000:84:00.0: Secure JBOD support    : No
Jan 26 14:37:46  kernel: [702679.117243] megaraid_sas 0000:84:00.0: Jbod map is not supported megasas_setup_jbod_map 4938
Jan 26 14:37:46  kernel: [702679.117257] megaraid_sas 0000:84:00.0: Reset successful for scsi0.
Jan 26 14:37:46  kernel: [702679.118806] megaraid_sas 0000:84:00.0: 1496287 (538752919s/0x0020/CRIT) - Controller encountered a fatal error and was reset
Jan 26 14:37:46  kernel: [702679.119565] megaraid_sas 0000:84:00.0: 1496297 (538752945s/0x0004/CRIT) - Enclosure PD 08(c Port 4 - 7/p1) fan 1 failed
Jan 26 14:37:46  kernel: [702679.119728] megaraid_sas 0000:84:00.0: 1496299 (538752945s/0x0004/CRIT) - Enclosure PD 08(c Port 4 - 7/p1) fan 2 failed
Jan 26 14:37:46  kernel: [702679.119864] megaraid_sas 0000:84:00.0: 1496301 (538752945s/0x0004/CRIT) - Enclosure PD 08(c Port 4 - 7/p1) fan 3 failed
Jan 26 14:37:46  kernel: [702679.120071] megaraid_sas 0000:84:00.0: 1496304 (538752945s/0x0004/CRIT) - Enclosure PD 09(c Port 0 - 3/p1) fan 1 failed
Jan 26 14:37:46  kernel: [702679.120207] megaraid_sas 0000:84:00.0: 1496306 (538752945s/0x0004/CRIT) - Enclosure PD 09(c Port 0 - 3/p1) fan 2 failed
Jan 26 14:37:46  kernel: [702679.120346] megaraid_sas 0000:84:00.0: 1496308 (538752945s/0x0004/CRIT) - Enclosure PD 09(c Port 0 - 3/p1) fan 3 failed
Jan 26 14:37:58  kernel: [702691.619843] JFS: nTxBlock = 8192, nTxLock = 65536
Jan 26 14:37:58  kernel: [702691.646422] ntfs: driver 2.1.32 [Flags: R/O MODULE].
Jan 26 14:37:58  kernel: [702691.676287] QNX4 filesystem 0.2.3 registered.
Jan 26 14:37:58  kernel: [702691.766574] Btrfs loaded

Nach dem Reset konnte er wieder eine Zeit lang benutzt werden, bis wieder auf das JBOD zugegriffen wurde. And so on…

Ansatz

Trotz Stunden des Suchens, kam ich hier auf keinen grünen Zweig. Viele schrieben ein Firmware Update solle helfen, das hatte ich jedoch schon gemacht. Viele sagten es liege am Kernel, aber auch verschiedenste Versionen brachten keine Abhilfe.

Lösung

Zuletzt habe ich den Broadcom Support gefragt. Nach etwas hin und her (da der erste Befehl auf unserem Controller nicht funktionierte) kam eine Antwort wie diese:

Ja, das ist ein bekanntes Problem, installieren sie storcli und führe sie bitte die nachfolgenden Befehle aus. Falls diese nicht funktionieren, schicken sie mir einen debug log.

storcli /cx set backplane expose=off
storcli /cx set sgpioforce=off

Und tadaa, bisher keine Fehler mehr.

Obwohl ich zugeben muss, dass der Support weiß was er tut, finde ich es schon fast eine Frechheit, dass dies – obwohl offensichtlich bekannt – nirgends erwähnt wird. Oder noch besser out-of-the-box ohne Fehler funktioniert…

Anyway, ich hoffe das hilft auch anderen weiter.

Update:

Stellt sich raus, das hilft doch nicht! Das Problem trat nach ein paar Tagen wieder auf. Mal schauen was der Support antwortet, ich habe nochmals nachgefragt…

Sobald es Neuigkeiten gibt, update ich den Beitrag.

Update 2:

Laut Broadcom Support sind es wohl defekte / fehlerhafte Platten die den Controller zum Reset bringen (die nur im Log des Controllers auftauchen, aber nicht von storcli oder smart als defekt / fehlerhaft angezeigt werden 🙁 ).

Diese Platten sind jetzt ausgetauscht und das RAID wird neu gebaut, da scheinbar 4 Platten gleichzeitig kaputt gegangen sind. Klingt für mich langsam eher nach einem defekten JBOD, aber wir werden sehen. Hoffentlich läufts jetzt wieder.

Update 3:

Es ist wohl ein Mix der Probleme. Ein Slot im JBOD ist definitiv kaputt, jede Platte die auf den Slot gesteckt wird fällt automatisch nach einer Zeit aus dem RAID und wird als „kaputt“ markiert.

Nachdem alle Platten getauscht wurden und dieser eine Slot nicht mehr mit ins RAID integriert wurde, scheint alles zu laufen… Schwere Geburt, ohne gutes Error Logging ist sowas wirklich schwer zu fixen.

Schwäbisch rocks!

Dies ist ein Auszug aus unserem Filmblog – der inzwischen auch viele andere Witzige Dinge beherbergt -, aber da dieser Blog intern ist, dachte ich komm, poste es bei dir auch noch:

Wir haben uns darüber unterhalten wie man Schwäbisch schreibt und sind zu dem Ergebnis gekommen, dass es keine eindeutige oder „offizielle“ Schreibweise gibt. So kam die Idee einfach mal rum zu fragen wie man „Du kannst mir mal den Schuh aufblasen“ (Greetings Ronnie 😉 ) auf Schwäbisch schreibt. Unsere bisherigen Ergebnisse kann man jetzt hier bewundern:

#1 do kaasch miar moal d’schua uffblosa
#2 du koasch mr moal dr schuah uffbloasa
#3 du kasch mir mol n schua ufblosa
#4 dô kannsch mr mol dr schuh uffblosa
#5 du kosch mer der schue ufblose
#6 do kasch mar mol d schua uffblosa
#7 da kasch ma ma de schuah ufblosä
#8 ha du kasch märr doch amoel dä schuä uffbloasä

Wer noch nicht befragt wurde und eine Ergänzung hat, einfach in die Comments 😉 Danke!

Microsoft…

Mit den TRLOD nimmt das Schicksal meiner Xbox 360 seinen Lauf. ( Für alle die nicht wissen was das ist: Es handelt sich um die Umgangssprachlichen „Three Red Lights of Death“ auf gut Deutsch der Hardwaredefekt einer Xbox 360).

Habe dann erstmal im Internet nachgeschaut. Dort stand, dass ca. 40% der ersten Generation der Xbox 360 diesen Defekt haben und es sich bei diesem Problem wohl um einen Produktionsfehler bei den Lötkontakten handle.

Mit diesem Wissen habe ich also bei MS angerufen und wie ausgemacht meine 360 zurückgeschickt um sie umzutauschen.

Erstaunlicher Weise kam der UPS-Mann auch relativ schnell. Gleich am 1. Werktag. Ich dachte „Wow, das fängt ja gut an“.

Heute nach 5 Wochen habe ich nochmal bei MS angerufen um zu fragen was denn los sei. Nach 15min Warteschleife und wirklich nerviger Bandansage, ist dann endlich ein Kundenberater ans Telefon.

Diesen habe ich gefragt wann denn meine Xbox 360 wieder kommt. Daraufhin schickt der mich erstmal wieder 5 Minuten in die Warteschleife.

Doch dann die Erlösung *g*

Ich bekomme laut Versprechen diese Woche meine 360 ersetzt und auch gleich noch Forza Motorsport 2 geschenkt 🙂

Der Anruf hat sich gelohnt *g* =)

Nun freu ich mich schon und hoffe, dass die Xbox wirklich diese Woche kommt =)

Edit:

Meine 360 ist vo ein paar Tagen angekommen 🙂 Bzw ein Austauschgerät. Die alte haben sie hoffentlich verschrottet 😉 .

Das Spiel schicken sie leider nicht gleich mit. Auf das muss man extra 15 Tage warten. Aber was solls 😉 . Dafür, dass man etwas geschenkt bekommt wartet man doch gerne ein bisschen länger ;).

Danke an MS und ihre freundlichen Kundenberater. Die Hotline ist, glaube ich, überfordert ich hing 20 Minuten in der Schleife. Aber die Leute sind nett und helfen einem.