ПредишенСледващото


контрол на твърди дискове, използващи SMART

Един от вашите твърди дискове, може да искате да ви кажа, че скоро ще отида в друг свят. Инсталиране на софтуер, който ви позволява да знаете, когато той трябва да бъде заменен.

Много потребители и системни администратори не знаят какво самонаблюдение, анализ и отчетност технологии (SMART), както и факта, че тази технология се използва в почти всички съвременни ATA и SCSI хард дискове. Дискове, поддържащи тази технология независимо наблюдение на тяхното "здраве" и производителност. В повечето случаи, устройството е в състояние да предупреждава администраторът, че нещо не е наред, и то ще се избегне този сценарий. Повечето реализации на SMART позволява на потребителите да провеждат тестване на дисковото устройство и контрол на броя на параметрите, свързани с неговата надеждност и производителност.

По професия съм физик. Моят екип използва разпределени изчислителни клъстери от работни станции, състоящ се от около 600 твърди диска, които съхраняват около 50 терабайта данни. Започнах да се интересувам в SMART технологията преди няколко години, което предполага, че това ще помогне за намаляване на престоите и увеличаване на надеждността на нашия клъстер. През годините съм използвали софтуер smartmontools с отворен код, която се е превърнала в продължение на развитието на UCSC smartsuit пакет.

В този пост ще ви обясни как да използвате помощната програма smartctl, smartmontools, включени в пакета, както и smartd демона да следите състоянието на твърдите дискове. Този пакет може да бъде изтеглен от smartmontools.sourceforge.net сайт. Там можете да намерите ръководство за неговото ustanvoke. Допълнителни документи могат да бъдат намерени в съответните им Man-:

мъж smartctl и човек smartd

Монтаж smartmontools разположение за Slackware, Debian, SuSE, Mandrake, Gentoo, Conectiva и други Linux дистрибуции. RedHat версия включва smartctl и smartd от smartsuit пакет UCSC и smartmontools той ще бъде включен в бъдещите версии.

Започвайки със стандартните ATA-4 твърди изисквания за задвижване, използването на показатели за масата беше отменена. Вместо това, колелата просто връща състоянието на «OK» или «НЕ ОК» в подготовката на техните искания за състоянието. Отрицателният отговор на искането означава, че дискът може да се повреди. Стандартната АТА-5 е добавен в дърводобива от грешки и да се изпълняват команди самопроверка диск.

За да използвате всички от посочените по-горе възможности на дискове, а именно стойностите на показателите за състоянието на диска (повечето устройства са съвместими с SFF-8035i), заявка за здравето на един диск, стартирайте самопроверка, следи дневника грешка, наблюдава влезете тестване (включва резултатите от 21 автотеста), трябва да се знаете как да използвате smartmontools пакети.

smartctl -а / сътрудничество / HDA

Ако SMART не е включена в диска, то трябва да се активира с помощта на «-s на» опция. Ако SMART е активирана, ще видите цялата информация за диска:

Модел на устройството: IC35L120AVV207-0
Сериен номер: VNVD02G4G3R72G
Версия на фърмуера: V24OA63A
Устройство е: В smartctl база данни [за подробности използват: -Р шоу]
ATA версия е: 6
АТА стандарт е: ATA / ATAPI-6 Т13 1410D редакция 3а
SMART подкрепа е: в наличност - устройство има SMART способности.
SMART подкрепа е: Enabled

Този фрагмент съдържа изхода от тази команда системна информация за устройството. Следван от фрагмент, съдържащ доклада за състоянието на диска.

SMART цялостното здраве резултат от теста за самооценка: издържали
Общи SMART стойности:
Offline статус събиране на данни: (0x82) Офлайн дейност събиране на данни е завършен без грешка.
Auto Off-лайн за събиране на данни: Enabled.
статус Автотест изпълнение: (0) предишната самодиагностика рутинни приключи без грешка или не самодиагностика някога е работил.
Общо време за завършване на оф-лайн събиране на данни: (2855) секунди.
Възможности за работа офлайн за събиране на данни: (0x1B) SMART изпълняват Offline незабавно.
Автоматичен таймер за включване / изключване подкрепа.
Задържане Офлайн колекция на нова команда.
подкрепена Offline повърхност сканиране.
подкрепена самодиагностика.
подкрепена Не Превоз Self-тест.
подкрепена Не Селективна Self-тест.
SMART възможности: (0x0003) настроените SMART данни, преди да влезе в режим за пестене на енергия.
Поддържа Smart Auto спаси таймер.
Грешка способност сеч: (0x01) Грешка сеч поддържа.
подкрепени общо предназначение сеч.
Кратко самодиагностика рутинни препоръчва избирателната време: (1) минути.
Extended самодиагностика рутинни време препоръчва избирателната: (48) минути.

Ако като FAILED е в списъка на резултата от изпитването на първия ред на този фрагмент, незабавно да направи резервно копие на данните - дискът може да се повреди. Останалата част от този фрагмент съдържа информация за техническите възможности и примерен път диск, необходими за намаляване и пълна самодиагностика.

Третият фрагмент команден изход «smartctl -а / сътрудничество / HDA» съдържа стойност от около 30 показатели Шофирайте положение:

Специфични за доставчика SMART атрибути с Прагове:
ID # ATTRIBUTE_NAME FLAG VALUE-лошата вършеят ТИП АКТУАЛИЗИРАНА WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 060 Предварително се провали Винаги - 0
2 Throughput_Performance 0x0005 155 155 050 Предварително се провали Офлайн - 225
3 Spin_Up_Time 0x0007 097 097 024 Предварително се провали Винаги - 293 (270 Средна)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Винаги - 10
5 Reallocated_Sector_Ct 0x0033 100 100 005 Предварително се провали Винаги - 0
7 Seek_Error_Rate 0x000b 100 100 067 Предварително се провали Винаги - 0
8 Seek_Time_Performance 0x0005 125 125 020 Предварително се провали Офлайн - 36
9 Power_On_Hours 0x0012 100 100 000 Old_age Винаги - 3548
10 Spin_Retry_Count 0x0013 100 100 060 Предварително се провали Винаги - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Винаги - 10
192 Power-Off_Retract_Count 0x0032 100100050 Old_age Винаги - 158
Load_Cycle_Count 0x0012 193 100 100 050 Old_age Винаги - 158
Temperature_Celsius 0x0002 194 189 189 000 Old_age Винаги - 29 (Lifetime Min / Max 23/33)
Reallocated_Event_Count 0x0032 196 100 100 000 Old_age Винаги - 0
Current_Pending_Sector 0x0022 197 100 100 000 Old_age Винаги - 0
Offline_Uncorrectable 0x0008 198 100 100 000 Old_age Офлайн - 0
199 UDMA_CRC_Error_Count 0x000a 200200000 Old_age Винаги - 0

Позволете ми да ви напомня, че съхранението на стойностите на тези параметри, които не са необходими АТА стандарт, но подкрепата на повечето производители съхранение съвместим с SFF-8035i.

Например, един запис с ID 194 - температура на съхранение. Практиката показва, че намаляването на температурата на съхранение на 5 ° С намалява количеството на грешки, така че един начин да се увеличи надеждността на диска е специален охладител за охлаждане от него.

Всеки индикатор е с 6-байт първична (сурова) стойност (RAW-стойност) и един байт се нормализира. В този пример, първоначалната стойност включва три цифри: температурата в градуси по Целзий (29) и минимум (23) и максимална (33) за времето на работа диск стойност. Форматът използва за съхраняване на основните стойности на показателите, определени от производителя на диска, а не е част от всеки стандартен. За да се оцени надеждността на диск, софтуер превежда първоначалната си стойност за нормализирана индекс, който варира от 1 до 253. Ако нормализирана стойност е по-малка или равна на праг (вършее), е означено в маркирани FAILED WHEN_FAILED колона. В този пример, колоната е празна, тъй като нито един от показателите е не по-ниска от предварително определен праг за него. Най-ниското ниво от включването на SMART стойност на индекса може да се види в най-лошия колона. Колоната ТИП съдържа информация, която е бедна стойност на индекса: диска е просто износени (old_age) или диска е на ръба на недостатъчност (предварително провали). Например, ако стойността на индекса диск се върти времето (ID # 3) е лошо, вероятно диск недостатъчност в рамките на следващите 24 часа.

Ценности и показатели на името, както и като основен метод за конвертиране на нормализираните стойности не са включени в някакви стандарти. Различните производители могат да използват едни и същи параметри имена за различни цели. Поради това е възможно да се контролира начина, по тълкуването на различни показатели, използващи и -v. Например, някои дискове се съхраняват в запис време на 9 диск в минута. Вариант «-v 9, минути» smartctl показва, че стойността на този показател трябва да се показва в минути. Ако устройството е включено в модела smartmontools база smartctl той автоматично ще се използват правилните методи на тълкуване на стойностите.

Следващият фрагмент «smartctl -а» команда изхода - лог дискови грешки. Обикновено тези грешки липсват, така че дневникът е празен. Причината за безпокойство е появата на голям брой грешки. Най-честите проблеми, които се появяват тук от време на време, не е знак за сериозни проблеми. Сайт smartmontools съдържа голям брой примери за грешка дънер. Те изтъкнаха, общото време с кола, ATA-команда, която е предизвикала грешка и времето на произхода му от момента на задвижването в милисекунди. Можете също така да разберете дали е имало грешка за дълго време, или това е съвсем пресен.

SMART Error Log Версия: 1
Няма грешки са влизали

Петата и последна част от продукцията «smartctl -а» - това е доклад за самостоятелно тестове, които са били осъществени с това устройство. Има 2 варианта, показани самодиагностика - пълни и съкратени. Това самостоятелно тест може да се инициира команди

smartctl -t къса / сътрудничество / HDA

и

smartctl -t дълго / сътрудничество / HDA

Автотест не води до увреждане на данните на диска. Съкратено инспекция обикновено трае няколко минути, пълни - около един час. Тестването не се отрази на работата на диска, така че можете да го започне, когато системата е в ход, когато диска е монтиран. На възлите на нашия клъстер, например, пълната версия на теста се извършва в неделя сутринта от планировчика. По-долу са примери за резултатите от одита, които не съдържат грешки. Живот колона показва времето от момента на диска преди изпитването. Ако проверката установи, че е грешка, Логически Block адреса (LBA) уточнява къде точно е възникнала грешката. Останалите колона показва коя част на теста (в проценти) остава до завършването му в момента на откриване на грешки. Ако подозирате, че един диск, който не е така, бих силно препоръчваме да направите пълно самодиагностика диск за идентифициране на проблема.

SMART Автотест дневник, версия номер 1
Num Test_Description Статус оставащ живот (часа) LBA_of_first_error
# 1 Extended оф-лайн Завършен 00% 3525 -
# 2 Extended оф-лайн Завършен 00% 3357 -
# 3 Кратко оф-лайн Завършен 00% 3059 -

екип

smartctl -t офлайн

дава възможност на оф-лайн тестове. Тези тестове не правят записи в автотеста дневник. Те се използват за актуализиране на стойността на индикаторите за състоянието на задвижване, които не могат да се актуализират по време на нормалното му функциониране. Някои устройства поддържат автоматично изключване линия провеждат тестове на всеки няколко часа. Тя може да бъде активирана отбор

smartctl -o на

SMART предлага самодиагностика на задвижващия механизъм за мониторинг на изпълнението му. Но това не дава възможност за автоматично известяване за проблемите си, и толкова често, SMART-статуса на устройството не се проверява достатъчно често, много проблеми могат да се проявяват само когато те водят до диск недостатъчност. Разбира се, можете да управлявате устройства на регулярна основа, както описах, но това не винаги е удобно.

Поради това, пакетът включва демон smartmontools smartd, който може да изпълнява непрекъснато наблюдение. Той може да бъде конфигуриран да изпраща електронна поща или администратор, за да се стартира скрипт, ако се открие проблем. По подразбиране, той проверява всички системни дискове на всеки 30 минути и прави запис на проблемите, възникнали при използване Syslog в / Var / дневник / съобщения.

ако е установено, че имат проблеми.

Bruce Allen професор по физика в Университета на Уисконсин, Milwaukee. Превод Юрий Левин, [email protected].

Свързани статии

Подкрепете проекта - споделете линка, благодаря!