Восстанавливаем lsi raid при замене диска

Восстанавливаем lsi raid при замене диска

Всем привет, очень рад, что вы снова зашли на мой IT блог. Сегодня я хочу рассказать поучительную историю, о том, как из-за невнимательности можно сильно попасть в не хорошую ситуацию из которой будет, очень сложно выйти без надлежащего опыта. Будет некий такой траблшутинг по восстановлению lsi raid массивов при замене вышедшего из строя диска. Думаю, что для людей, кто только знакомиться с избыточными массивами данных, будет очень полезно поучиться на чужом опыте.

Предыстория

В любом сервере рано или поздно начинают выходить из строя жесткие диски или ssd и преждевременная замена спасает вас от потери данных. Но при замене бывает такая вещь как человеческий фактор, который может все погубить.

И так есть сервер IBM с raid контроллером M5015 что в градации LSI 9260-8i. В lsi raid контроллере если диск начинает выходить из строя, то начинает срабатывать счетчик Pred Fail Count и диск следует менять. Как заказать замену диска у IBM я уже рассказывал, останавливать на этом не буду. Допустим диск вы получили и вам осталось его заменить, вы меняете его и обнаруживаете что вытащили не тот диск, что будет дальше.

А дальше все зависит от вида raid собранного у вас. У меня на lsi raid контроллере был raid 10. И когда мой коллега вытащил не тот диск, то с ним ничего не случилось, но если вы засуните на его место новый диск или опять тот же что вытащили, то рейд не восстановится. Новый диск будет видится как unconfigured good а старый как foreign, то есть потерянный.

Тут после возврата старого диска сразу нужно было выполнить процедуру описанную ниже и все бы восстановилось, но бывает что приходит мысль, поменять еще в данной ситуации выходящий из строя диск на новый, и вот тут LSi контроллер, дабы не потерять данные переводит локальные луны в offline, что выражается в остановке сервисов или частичной остановки, на данных дисках.

Восстановление lsi raid

Раз уж так произошло, то не спешите паниковать все еще можно восстановить. Первым делом когда вы вернули не правильно вытащенный диск обратно и он получил статус foreign, на нем осталась конфигурация и ее следует обратно импортировать. Делается это следующим образом. Вы должны были заранее установить утилиту MegaRAID Storage Manager (MSM), в моем случае она стоит на Vmware ESXI 5.5, но может быть и на Windows платформе. Заходим в нее и выбираем пункт Physical и выбираете raid контроллер.

Восстановление lsi raid-01

Теперь открываем пункт Go to > Scan Foreign Configuration. Выполняем сканирование имеющихся конфигураций.

Восстановление lsi raid-02

У вас появится окно с импортированием конфигурации.

ни в коем случае не выбирайте Clear: Remove logical configuration, если только не решили затереть диск

Scan Foreign Configuration-0

Вас спросят действительно ли вы хотите это сделать жмем yes.

Scan Foreign Configuration-01

Если у вас не стоит MSM то вам придется перезагрузить хост и зайти в bios подобное меню. В котором будет приблизительно вот такое окно, где нужно так же импортировать конфигурацию.

Scan Foreign Configuration-2

После данной манипуляции ваши локальные lun перейдут в режим online и если вы до этого заменили сбойный диск на новый, то пойдет процедура rebuild. После чего raid перестроится и начнет нормальное функционирование.

Будьте пожалуйста внимательными иначе последствия могут быть серьезными

Дополнение относительно SSD

Относительно SSD дисков, будьте осторожны, особенно если они в RAID-1, из практики могу привести случай, когда вылетевший диск, при возвращении его в строй, убил RAID массив и перезаписал рабочий SSD. В таких случаях, за место возвращения пропавшей конфигурации, по возможности вынимайте SSD и полностью с него удаляйте все разделы, проверяйте его на предмет ошибок и здоровья, и после этого возвращайте в RAID, чтобы начался автоматический ребилд.

Материал сайта pyatilistnik.org

Оцените статью
Настройка серверов windows и linux
Добавить комментарий

  1. Эмиль

    Иван добрый день!
    Вы сталкивались с ошибкой «Operation Failed: ErrorCode = 0x63» при замене диска в рейде?

  2. Иван Семин автор

    Нет, но если окажите скриншот и все логи, будет проще понять и опишите ситуацию.

  3. Эмиль

    Иван, написал Вам скриншот и описание ситуации на почту

  4. Иван Семин автор

    Я ответил вам в почте.

  5. Евгений

    Иван доброго времени суток!
    Ситуация немного похожа на Вашу. Начало расти значение Pred Fail Count. Было решено заменить диск. Новый диск перешел в состояние unconfigured good, но ребилда массива нет. В мануале писано что ребилд должен автоматом начаться. Подскажите пожалуйста как поступить в сложившейся ситуации!

  6. Евгений

    Что-то мой коммент не видно ( Попутно вопрос, может вернуть старый диск наместо и как то восстановить состояние массива?

  7. Иван Семин автор

    А диск у вас не размечен случайно?

  8. Евгений

    Диск новый, из запечатанной коробки. Может ему drive erase сделать?

  9. Иван Семин автор

    Как вариант

  10. Евгений

    Хотя на диске нет «чужой конфигурации.»

  11. Евгений

    Добрый день. У меня тоже вылезла ошибка 0x63. Подскажите пожалуйста какая ситуация было в первом комменте!

  12. Владимир

    Добрый день.Вылетел диск из массива райд 10 на LSI 9260 8i .Купил такой же,что и стоял.Заменил.Запустил комп.Все диски контроллер перевел в «unconfigured good» и слетел виртуальный драйвер.Может кто подскажет что-нибудь.

  13. Иван Семин автор

    Вы заменяли в момент работы сервера?

  14. Иван Семин автор

    У вас разные диски, хоть и пишут, что объем одинаковый, но может быть разное количество свободных блоков. Ищите оригинальный диск или с таким же числом блоков.

  15. Владимир

    менял диск при выключенном компе.Диск оригинальный,такой же ,что и был.WD red 4тб.Названия дисков одинаковые и оригинал,не серый.

  16. Владимир

    И еще,когда комп загружается,комп видит 7 дисков,а в биосе контроллер видит все 8 и все они «unconfigured good».

  17. Иван Семин автор

    Нужно посекторно сравнивать.

  18. Иван Семин автор

    это не очень хорошо, он считает что на них нет ничего, у вас есть бэкап старой конфигурации? и какой у вас raid контроллер.

  19. Владимир

    Бэкап не делал, контроллер такой MR lsi 9260 8i

  20. Михаил

    Расскажите чем дело кончилось?
    Такая же ситуация Operation Failed: ErrorCode = 0x63
    Диски идентичны

  21. Misha$

    Не идентичны. Скорее всего отличается Data Protection.
    Например на старом есть, а на новом нет. То такая ошибка и вылезет.
    Посмотреть можно через MegaRaid Storage Manager.

  22. Stils

    Здравствуйте.
    Имеется лезвие в блейде, ibm blade hs22 7870. Недавно вдруг появилась ошибка Hard drive 0, (Drive 0) drive predictive failure.
    Я думал для замены нужно просто заменить диск, но есть альтернативное мнение, что сначала диск нужно отключить, а потом подключить в управлении блейдом.
    в доках которые нашел пишут что просто нужно заменить диск, например в этой _ttp://bladecenter.lenovofiles.com/help … v_pdsg.pdf
    Подскажите пожалуйста, как нужно сделать замену правильно?

  23. Денис

    Здравствуйте. У меня сгорел контроллер LSI 9260 8i, купили точно такой же поставили и все диски в foreign unconfigured good, виртуального нет, при загрузке спрашивает импортировать foreign отвечаю да но он пишет , что не могу. Посоветуйте что можно сделать. Спасибо

  24. Иван Семин автор

    В логах есть какие-либо ошибки?

  25. Денис

    Ошибка что не может импортировать и всё. Я связался с разработчиками и сервера и LSI и после выполнения всех рекомендаций единственно вохзможное полное пересоздание, переустановка ОС и подъем с бэкапа. Печаль. Благодарю за участие!

  26. Alexander Hippel

    Похожая ситуация 🙁 Контроллер LSI 9264-8i, 6 HDD в RAID 10.
    В MSM Я сделал следующее:
    Перевёл диск в offline
    Пометил его как Disk Missing
    Диск перешёл в состояние Unconfigured good
    Я выбрал Prepare to remove и когда контроллер разрешил, вынул диск.
    На его место вставил такой же.
    Контроллер сразу предложил вернуть диск в Spare на место старого. Диск вернул и он стал offline
    И вот тут я сделал ошибку. Я сделал ему online 🙁 ( а нужно было rebuild???)Система зависла. После перезагрузки посыпались ошибки.
    Уже в WebBIOS вставили старый диск, сделали ему замену PD,(как я понял, это тоже самое что импорт конфигурации???) и запустили rebuild Сейчас ребилд идёт. Ещё 5 часов. Загрузится система или нет, даже не знаю… Это мой первый fuckup за год работы с megaraid… :(((

  27. Иван Семин автор

    Надеюсь, что у вас все восстановится, в любом случае вы получили важный практический урок, а это бесценно

  28. Alexander Hippel

    Спасибо Иван 🙂 Ребилд прошел. Но система не загрузилась 🙁 Будем думать, что делать дальше. Скажите, имеет ли смысл ещё раз сделать импорт конфигурации ребилд уже после успешного ребилда сбойного диска? Или напрасная трата времени? Имеет ли смысл провести check consistency на виртуальном диске raid? Это поможет?

  29. Иван Семин автор

    Я бы попробовал, если вас по времени не ограничивают

  30. Леонид

    Добрый день, Иван!
    А если всё-таки был сделан FOREINGN CONFIG > CLEAR ? Восстановление RAID уже не возможно? (перед этим во включенном состоянии был случайно вынут один из дисков райда)
    AVAGO MegaRAID SAS 9361-8i

  31. Андрей

    Добрый день, подскажите, есть IBM Server x3500 M4 с 6ю Sas дисками и raid 50. Стало мигать предупреждение. Нужна замена диска. Остальные диски в порядке. Можно просто выключить сервер, заменить сбойный диск, включиться и сделать ребилд? И еще подскажите, как точно определить подходит ли диск на замену или нет (визуально всё идентично, модель только другая)?

  32. Иван Семин автор

    Можно, но я бы лучше не стал, так как может не включиться, такое наблюдал. Вы можете просто погасить активности на дисковой подсистеме в ОС и поменять диск, который отребилдится быстрее .По поводу поддержки, нужно смотреть чтобы количество полезного места на диске было не меньше чем на оригинале. Бывают ситуации, что вроде пишет что на диске 1ТБ, а вот если смотреть посекторно, могут быть существенные различия.

  33. Алексей

    Добрый день, Иван.
    Можете подсказать алгоритм действий по замене диска на новый?
    IBM 8 HDD raid 10 контроллером M5110e

  34. Иван Семин автор

    Если просто замена, то можно на живую извлечь изношенный диск и заменить его на новы

  35. Иван Семин автор

    Если у вас просто замена, то вам нужно вытащить сбойный диск и заменить его на новый, после чего начнется процедура восстановления. Если же у вас как и в моем примере на диске есть часть конфигурации и сам диск не поврежден, то нужно сделать импорт потерянной конфигурации

  36. Алексей

    Заменил. В MegaRaid Storage Manager пишет Uncofigured Bad

  37. Иван Семин автор

    А сам диск новый рабочий? Если да то сделайте ему статус Uncofigured Good