Восстанавливаем lsi raid при замене диска
Всем привет, очень рад, что вы снова зашли на мой IT блог. Сегодня я хочу рассказать поучительную историю, о том, как из-за невнимательности можно сильно попасть в не хорошую ситуацию из которой будет, очень сложно выйти без надлежащего опыта. Будет некий такой траблшутинг по восстановлению lsi raid массивов при замене вышедшего из строя диска. Думаю, что для людей, кто только знакомиться с избыточными массивами данных, будет очень полезно поучиться на чужом опыте.
Предыстория
В любом сервере рано или поздно начинают выходить из строя жесткие диски или ssd и преждевременная замена спасает вас от потери данных. Но при замене бывает такая вещь как человеческий фактор, который может все погубить.
И так есть сервер IBM с raid контроллером M5015 что в градации LSI 9260-8i. В lsi raid контроллере если диск начинает выходить из строя, то начинает срабатывать счетчик Pred Fail Count и диск следует менять. Как заказать замену диска у IBM я уже рассказывал, останавливать на этом не буду. Допустим диск вы получили и вам осталось его заменить, вы меняете его и обнаруживаете что вытащили не тот диск, что будет дальше.
А дальше все зависит от вида raid собранного у вас. У меня на lsi raid контроллере был raid 10. И когда мой коллега вытащил не тот диск, то с ним ничего не случилось, но если вы засуните на его место новый диск или опять тот же что вытащили, то рейд не восстановится. Новый диск будет видится как unconfigured good а старый как foreign, то есть потерянный.
Тут после возврата старого диска сразу нужно было выполнить процедуру описанную ниже и все бы восстановилось, но бывает что приходит мысль, поменять еще в данной ситуации выходящий из строя диск на новый, и вот тут LSi контроллер, дабы не потерять данные переводит локальные луны в offline, что выражается в остановке сервисов или частичной остановки, на данных дисках.
Восстановление lsi raid
Раз уж так произошло, то не спешите паниковать все еще можно восстановить. Первым делом когда вы вернули не правильно вытащенный диск обратно и он получил статус foreign, на нем осталась конфигурация и ее следует обратно импортировать. Делается это следующим образом. Вы должны были заранее установить утилиту MegaRAID Storage Manager (MSM), в моем случае она стоит на Vmware ESXI 5.5, но может быть и на Windows платформе. Заходим в нее и выбираем пункт Physical и выбираете raid контроллер.
Теперь открываем пункт Go to > Scan Foreign Configuration. Выполняем сканирование имеющихся конфигураций.
У вас появится окно с импортированием конфигурации.
Вас спросят действительно ли вы хотите это сделать жмем yes.
Если у вас не стоит MSM то вам придется перезагрузить хост и зайти в bios подобное меню. В котором будет приблизительно вот такое окно, где нужно так же импортировать конфигурацию.
После данной манипуляции ваши локальные lun перейдут в режим online и если вы до этого заменили сбойный диск на новый, то пойдет процедура rebuild. После чего raid перестроится и начнет нормальное функционирование.
Дополнение относительно SSD
Относительно SSD дисков, будьте осторожны, особенно если они в RAID-1, из практики могу привести случай, когда вылетевший диск, при возвращении его в строй, убил RAID массив и перезаписал рабочий SSD. В таких случаях, за место возвращения пропавшей конфигурации, по возможности вынимайте SSD и полностью с него удаляйте все разделы, проверяйте его на предмет ошибок и здоровья, и после этого возвращайте в RAID, чтобы начался автоматический ребилд.
Материал сайта pyatilistnik.org
Иван добрый день!
Вы сталкивались с ошибкой «Operation Failed: ErrorCode = 0x63» при замене диска в рейде?
Нет, но если окажите скриншот и все логи, будет проще понять и опишите ситуацию.
Иван, написал Вам скриншот и описание ситуации на почту
Я ответил вам в почте.
Иван доброго времени суток!
Ситуация немного похожа на Вашу. Начало расти значение Pred Fail Count. Было решено заменить диск. Новый диск перешел в состояние unconfigured good, но ребилда массива нет. В мануале писано что ребилд должен автоматом начаться. Подскажите пожалуйста как поступить в сложившейся ситуации!
Что-то мой коммент не видно ( Попутно вопрос, может вернуть старый диск наместо и как то восстановить состояние массива?
А диск у вас не размечен случайно?
Диск новый, из запечатанной коробки. Может ему drive erase сделать?
Как вариант
Хотя на диске нет «чужой конфигурации.»
Добрый день. У меня тоже вылезла ошибка 0x63. Подскажите пожалуйста какая ситуация было в первом комменте!
Добрый день.Вылетел диск из массива райд 10 на LSI 9260 8i .Купил такой же,что и стоял.Заменил.Запустил комп.Все диски контроллер перевел в «unconfigured good» и слетел виртуальный драйвер.Может кто подскажет что-нибудь.
Вы заменяли в момент работы сервера?
У вас разные диски, хоть и пишут, что объем одинаковый, но может быть разное количество свободных блоков. Ищите оригинальный диск или с таким же числом блоков.
менял диск при выключенном компе.Диск оригинальный,такой же ,что и был.WD red 4тб.Названия дисков одинаковые и оригинал,не серый.
И еще,когда комп загружается,комп видит 7 дисков,а в биосе контроллер видит все 8 и все они «unconfigured good».
Нужно посекторно сравнивать.
это не очень хорошо, он считает что на них нет ничего, у вас есть бэкап старой конфигурации? и какой у вас raid контроллер.
Бэкап не делал, контроллер такой MR lsi 9260 8i
Расскажите чем дело кончилось?
Такая же ситуация Operation Failed: ErrorCode = 0x63
Диски идентичны
Не идентичны. Скорее всего отличается Data Protection.
Например на старом есть, а на новом нет. То такая ошибка и вылезет.
Посмотреть можно через MegaRaid Storage Manager.
Здравствуйте.
Имеется лезвие в блейде, ibm blade hs22 7870. Недавно вдруг появилась ошибка Hard drive 0, (Drive 0) drive predictive failure.
Я думал для замены нужно просто заменить диск, но есть альтернативное мнение, что сначала диск нужно отключить, а потом подключить в управлении блейдом.
в доках которые нашел пишут что просто нужно заменить диск, например в этой _ttp://bladecenter.lenovofiles.com/help … v_pdsg.pdf
Подскажите пожалуйста, как нужно сделать замену правильно?
Здравствуйте. У меня сгорел контроллер LSI 9260 8i, купили точно такой же поставили и все диски в foreign unconfigured good, виртуального нет, при загрузке спрашивает импортировать foreign отвечаю да но он пишет , что не могу. Посоветуйте что можно сделать. Спасибо
В логах есть какие-либо ошибки?
Ошибка что не может импортировать и всё. Я связался с разработчиками и сервера и LSI и после выполнения всех рекомендаций единственно вохзможное полное пересоздание, переустановка ОС и подъем с бэкапа. Печаль. Благодарю за участие!
Похожая ситуация 🙁 Контроллер LSI 9264-8i, 6 HDD в RAID 10.
В MSM Я сделал следующее:
Перевёл диск в offline
Пометил его как Disk Missing
Диск перешёл в состояние Unconfigured good
Я выбрал Prepare to remove и когда контроллер разрешил, вынул диск.
На его место вставил такой же.
Контроллер сразу предложил вернуть диск в Spare на место старого. Диск вернул и он стал offline
И вот тут я сделал ошибку. Я сделал ему online 🙁 ( а нужно было rebuild???)Система зависла. После перезагрузки посыпались ошибки.
Уже в WebBIOS вставили старый диск, сделали ему замену PD,(как я понял, это тоже самое что импорт конфигурации???) и запустили rebuild Сейчас ребилд идёт. Ещё 5 часов. Загрузится система или нет, даже не знаю… Это мой первый fuckup за год работы с megaraid… :(((
Надеюсь, что у вас все восстановится, в любом случае вы получили важный практический урок, а это бесценно
Спасибо Иван 🙂 Ребилд прошел. Но система не загрузилась 🙁 Будем думать, что делать дальше. Скажите, имеет ли смысл ещё раз сделать импорт конфигурации ребилд уже после успешного ребилда сбойного диска? Или напрасная трата времени? Имеет ли смысл провести check consistency на виртуальном диске raid? Это поможет?
Я бы попробовал, если вас по времени не ограничивают
Добрый день, Иван!
А если всё-таки был сделан FOREINGN CONFIG > CLEAR ? Восстановление RAID уже не возможно? (перед этим во включенном состоянии был случайно вынут один из дисков райда)
AVAGO MegaRAID SAS 9361-8i
Добрый день, подскажите, есть IBM Server x3500 M4 с 6ю Sas дисками и raid 50. Стало мигать предупреждение. Нужна замена диска. Остальные диски в порядке. Можно просто выключить сервер, заменить сбойный диск, включиться и сделать ребилд? И еще подскажите, как точно определить подходит ли диск на замену или нет (визуально всё идентично, модель только другая)?
Можно, но я бы лучше не стал, так как может не включиться, такое наблюдал. Вы можете просто погасить активности на дисковой подсистеме в ОС и поменять диск, который отребилдится быстрее .По поводу поддержки, нужно смотреть чтобы количество полезного места на диске было не меньше чем на оригинале. Бывают ситуации, что вроде пишет что на диске 1ТБ, а вот если смотреть посекторно, могут быть существенные различия.
Добрый день, Иван.
Можете подсказать алгоритм действий по замене диска на новый?
IBM 8 HDD raid 10 контроллером M5110e
Если просто замена, то можно на живую извлечь изношенный диск и заменить его на новы
Если у вас просто замена, то вам нужно вытащить сбойный диск и заменить его на новый, после чего начнется процедура восстановления. Если же у вас как и в моем примере на диске есть часть конфигурации и сам диск не поврежден, то нужно сделать импорт потерянной конфигурации
Заменил. В MegaRaid Storage Manager пишет Uncofigured Bad
А сам диск новый рабочий? Если да то сделайте ему статус Uncofigured Good