4Debian.Info - Портал русскогоязычного сообщества Debian Карта сайта Контакты

Меню

Репозитории Debian

Скачать Debian

Установка Debian - Видео



Авторизация:

Новые статьи

Статьи в RSS

Новые комментарии

Новые уроки

Уроки в RSS


Вернутся к списку статей

Аппаратный рейд и Smart мониторинг дисков

Аппаратный RAID — RAID-массив, создаваемый и обслуживаемый без участия операционной системы. Операционная система и программное обеспечение, работающее в ней, однако, может использоваться для диагностики и оптимизации его работы.

S.M.A.R.T. (Smart) (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчётности) — технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.


Ставим пакет smartmontools и настраиваем мониторинг дисков.

При использовании аппаратного рейд контроллера Adaptec 2405.

Физические диски в системе видны как /dev/sgX. Но это в том случае, если загружен модуль sg.
Если устройст /dev/sgX нет, пробуем подгрузить модуль sg:

bash:
  1. modprobe sg

Проверяем:

bash:
  1. ls -la /dev/sg*
  2. crw------- 1 root root 21, 0 Jul 5 14:41 /dev/sg0
  3. crw------- 1 root root 21, 1 Jul 5 14:41 /dev/sg1
  4. crw------- 1 root root 21, 2 Jul 5 14:41 /dev/sg2
  5. crw------- 1 root root 21, 3 Jul 5 14:41 /dev/sg3
  6. crw------- 1 root root 21, 4 Jul 5 14:41 /dev/sg4

Все нормально, диски видны.
/dev/sg0 - это непосредственно сам контроллер, sg1-sg4 - наши диски.

Теперь настраиваем smartmontools.
Правим конфиг /etc/smartd.conf. коментируем строку:
bash:
  1. DEVICESCAN -d removable -n standby -m root -M exec /usr/share/smartmontools/smartd-runner

и ниже добавляем:
bash:
  1. /dev/sg1 -d sat -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  2. /dev/sg2 -d sat -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  3. /dev/sg3 -d sat -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  4. /dev/sg4 -d sat -n standby -m root -M exec /usr/share/smartmontools/smartd-runner

где:
-m root - кому отправлять уведомления от мониторинга
-d sat - тип устройства

Разрешаем запуск демона в /etc/default/smartmontools и запускаем smartmontools.

Теперь тоже самое, но при использовании аппаратного рейд контроллера LSI 9260.

Правим конфиг /etc/smartd.conf. коментируем строку:
bash:
  1. DEVICESCAN -d removable -n standby -m root -M exec /usr/share/smartmontools/smartd-runner

и ниже добавляем:
bash:
  1. /dev/sg0 -d megaraid,0 -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  2. /dev/sg0 -d megaraid,1 -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  3. /dev/sg0 -d megaraid,2 -n standby -m root -M exec /usr/share/smartmontools/smartd-runner
  4. /dev/sg0 -d megaraid,3 -n standby -m root -M exec /usr/share/smartmontools/smartd-runner

где:
/dev/sg0 - это наш рейд контроллер,
megaraid,X - номер диска в массиве,
-m root - кому отправлять уведомления от мониторинга

После этого запускаем демон smartmontools и смотрим лог. Если все ли нормально, то в логе будет нечто подобное:
bash:
  1. Jul 12 11:28:45 node1 smartd[273479]: smartd 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)#012Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net#012
  2. Jul 12 11:28:45 node1 smartd[273479]: Opened configuration file /etc/smartd.conf
  3. Jul 12 11:28:45 node1 smartd[273479]: Drive: /dev/sg0, implied '-a' Directive on line 22 of file /etc/smartd.conf
  4. Jul 12 11:28:45 node1 smartd[273479]: Drive: /dev/sg0, implied '-a' Directive on line 23 of file /etc/smartd.conf
  5. Jul 12 11:28:45 node1 smartd[273479]: Drive: /dev/sg0, implied '-a' Directive on line 24 of file /etc/smartd.conf
  6. Jul 12 11:28:45 node1 smartd[273479]: Drive: /dev/sg0, implied '-a' Directive on line 25 of file /etc/smartd.conf
  7. Jul 12 11:28:45 node1 smartd[273479]: Configuration file /etc/smartd.conf parsed.
  8. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0, type changed from 'megaraid' to 'sat'
  9. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_00] [SAT], opened
  10. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_00] [SAT], not found in smartd database.
  11. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_00] [SAT], is SMART capable. Adding to "monitor" list.
  12. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_00] [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP1006xxx.ata.state
  13. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0, type changed from 'megaraid' to 'sat'
  14. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_01] [SAT], opened
  15. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_01] [SAT], not found in smartd database.
  16. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_01] [SAT], is SMART capable. Adding to "monitor" list.
  17. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_01] [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP1002xxx.ata.state
  18. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0, type changed from 'megaraid' to 'sat'
  19. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_02] [SAT], opened
  20. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_02] [SAT], not found in smartd database.
  21. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_02] [SAT], is SMART capable. Adding to "monitor" list.
  22. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_02] [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP0993xxx.ata.state
  23. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0, type changed from 'megaraid' to 'sat'
  24. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_03] [SAT], opened
  25. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_03] [SAT], not found in smartd database.
  26. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_03] [SAT], is SMART capable. Adding to "monitor" list.
  27. Jul 12 11:28:45 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_03] [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP0981xxx.ata.state
  28. Jul 12 11:28:45 node1 smartd[273479]: Monitoring 4 ATA and 0 SCSI devices
  29. Jul 12 11:29:05 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_00] [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP1006xxx.ata.state
  30. Jul 12 11:29:05 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_01] [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP1002xxx.ata.state
  31. Jul 12 11:29:05 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_02] [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP0993xxx.ata.state
  32. Jul 12 11:29:05 node1 smartd[273479]: Device: /dev/sg0 [megaraid_disk_03] [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD5003ABYX_18WERA0-WD_WMAYP0981xxx.ata.state
  33. Jul 12 11:29:05 node1 smartd[273489]: smartd has fork()ed into background mode. New PID=273489.
  34. Jul 12 11:29:05 node1 smartd[273489]: file /var/run/smartd.pid written containing PID 273489

Теперь smart статус наших дисков будет мониториться и в случае проблем, будет отправляться уведомление на email (в данном случае - на root)

Посмотреть текущее состояние smart можно так:
для Adaptec:
bash:
  1. # smartctl -A -d sat /dev/sg1
  2. smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
  3. Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
  4. === START OF READ SMART DATA SECTION ===
  5. SMART Attributes Data Structure revision number: 16
  6. Vendor Specific SMART Attributes with Thresholds:
  7. ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  8. 1 Raw_Read_Error_Rate 0x000b 091 091 016 Pre-fail Always - 12893
  9. 2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 93
  10. 3 Spin_Up_Time 0x0007 115 115 024 Pre-fail Always - 200 (Average 200)
  11. 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 15
  12. 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
  13. 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
  14. 8 Seek_Time_Performance 0x0005 138 138 020 Pre-fail Offline - 31
  15. 9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 5099
  16. 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
  17. 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 5
  18. 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5
  19. 193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 5
  20. 194 Temperature_Celsius 0x0002 193 193 000 Old_age Always - 31 (Lifetime Min/Max 25/33)
  21. 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
  22. 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
  23. 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
  24. 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

Для LSI:
bash:
  1. # smartctl -A -d megaraid,0 /dev/sg0
  2. smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
  3. Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
  4. /dev/sg0 [megaraid_disk_00] [SAT]: Device open changed type from 'megaraid' to 'sat'
  5. === START OF READ SMART DATA SECTION ===
  6. SMART Attributes Data Structure revision number: 16
  7. Vendor Specific SMART Attributes with Thresholds:
  8. ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
  9. 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1
  10. 3 Spin_Up_Time 0x0027 143 143 021 Pre-fail Always - 3808
  11. 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 25
  12. 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
  13. 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
  14. 9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 9314
  15. 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
  16. 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
  17. 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 24
  18. 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 23
  19. 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 1
  20. 194 Temperature_Celsius 0x0022 118 109 000 Old_age Always - 6169 (0 0 0 26)
  21. 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
  22. 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
  23. 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
  24. 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
  25. 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

Как видно, ничего сложного
4Debian.Info , Smart, RAID

Комментарии: Аппаратный рейд и Smart мониторинг дисков

Только авторизованные пользователи могут оставлять комментарии!

Авторизация или Быстрая регистрация



Яндекс.Метрика
4Debian.Info
При полной или частичной перепечатке текстов статей и публикаций гиперссылка на www.4debian.info обязательна. | "4Debian.Info" | © 2017