Моніторинг параметрів надійності жорстких дисків SMART по мережі
У сучасному світі втрата накопиченої в електронному вигляді інформації вважається більш істотною бідою, ніж втрата будь-якого матеріального майна. Що тут говорити, але безповоротна втрата даних може навіть призвести до втрати цілого бізнесу. Основна причина цієї проблеми, як правило, полягає у раптовій поломці накопичувачів, на яких зберігається ця інформація. Однак в цьому твердженні є одна неточність. У більшості випадків жорсткі диски комп'ютерів не виходять з ладу раптово - цьому передує тривалий процес зносу механіки, магнітних дисків і накопичення помилок. Як і людина, жорсткий диск може тривалий час хворіти, перш ніж відбудеться повна відмова його функцій. Завдання системного адміністратора вчасно помітити негативні процеси, які відбуваються всередині пристрою, і замінити його, перенісши найбільш цінну інформацію на "здорові" носії.
На щастя, виробники жорстких дисків самі подбали про засоби самодіагностики стану пристрою. Технологія самотестування, аналізу стану, і накопичення статистичних даних про погіршення власних характеристик отримала назву SMART (Self-Monitoring Analysis and Reporting Technology). Стандарти цієї технології були створені ще в 1995 р спільними зусиллями провідних виробників жорстких дисків (HDD) і продовжують удосконалюватися в даний час. З самого першого моменту запуску HDD постійно відстежує задані параметри свого стану, які носять назву "атрибути". Значення цих параметрів запам'ятовуються в самому накопичувачі, в спеціально виділеній частині дискової поверхні, доступною тільки внутрішньої мікропрограмі. Атрибут представляє собою характеристику певного стану жорсткого диска, яка змінюється в процесі експлуатації, приймаючи числове значення від максимального, встановленого в момент виготовлення даного пристрою, до мінімального, при досягненні якого, працездатність накопичувача не гарантується.
Одне із завдань адміністратора полягає в періодичному спостереженні за критичними атрибутами, не допускаючи переходу їх значень нижче або вище порогових. Існує цілий клас програм, які зчитують таблицю атрибутів SMART і відображають її в зрозумілому для людини вигляді. Але в процесі іншої рутинної роботи можна легко забути про чергову перевірку, тим самим втративши момент початку розвитку ситуації, яка загрожує виходом з ладу носія: лавинний зростання кількості помилок читання / запису, позиціонування головки або числа перераспределённих секторів. Щоб уникнути цього, необхідно використовувати системи моніторингу, які в режимі 24/7/365 відстежуватимуть задані параметри жорстких дисків і негайно сповіщати оператора про нештатних ситуаціях будь-якими доступними способами.
Однією з таких систем моніторингу, яка вміє виконувати моніторинг параметрів SMART HDD, є програма "10-Страйк: Моніторинг Мережі Pro". Все, що вам потрібно зробити, це встановити програму на одному з серверів, і агенти на всіх інших хостах, диски яких потребують уваги. Після установки програма сама сканує мережу, знаходить всі доступні хости і поміщає їх в список моніторингу. Залишається тільки створити для потрібних хостів, де вже встановлено агент (служба), спеціалізовану перевірку "SMART", яка буде запускатися програмою закінченню певного часового періоду (від декількох секунд до годин). Отримані від агента дані аналізуються ядром моніторингу, порівнюються з заданими граничними значеннями, і в разі їх перевищення запускається сигналізація, яка сповіщає про подію по SMS, email і іншими способами.
Створити перевірку SMART для моніторингу будь-якого параметра стану жорсткого диска дуже просто. Потрібно виконати наступні кроки:
• Встановіть програму "10-Страйк: Моніторинг Мережі Pro" з дистрибутива.
• Встановіть на хости службу агента, яка за запитом буде отримувати значення параметрів SMART і передавати їх по мережі службі моніторингу.
• Запустіть програму і проскануйте мережу, або додайте потрібні хости вручну.
• У програмі виділіть хост в дереві зліва і в його меню виберіть «Додати перевірку».
• У вікні параметрів перевірки вкажіть її тип - "SMART", праворуч від поля «Диск» натисніть кнопку «...» і виберіть з наданого списку потрібний диск.
• Виберіть, який параметр ви хочете моніторити. Це може бути температура диска, а може і абсолютне значення будь-якого іншого доступного параметра. Натисніть кнопку «...» праворуч від поля «Значення атрибута (RAW)» і виберіть його ім'я в списку.
• Задайте логіку спрацьовування сигналізації. Наприклад, «перевірка пройшла, якщо значення атрибута менше 50».
• Перейдіть на наступні кроки: змініть параметри запуску перевірки або залиште їх як є. Задайте параметри оповіщення, збережіть зміни.
Після додавання нової перевірки вона відразу починає працювати і збирати дані. Ви можете візуально спостерігати цей процес, якщо переведіть вкладку внизу вікна на «Параметр моніторингу». У цьому розділі буде відображатися графік зміни заданого параметра (температури, наприклад).
Нижче наведено список найбільш важливих атрибутів, значення яких потребують контролю. Зауважте, що не всі атрибути можуть бути присутніми у ваших пристроїв. До того ж, набір HDD і SSD-накопичувачів може сильно відрізнятися.
· # 01 Raw Read Error Rate - частота помилок при читанні даних з диска, походження яких зумовлено апаратною частиною диска.
· # 03 Spin-Up Time - час розкрутки пакета пластин зі стану спокою до робочої швидкості. Зростає при зносі механіки (підвищене тертя в підшипнику і т.п.), також може свідчити про неякісне харчування (наприклад, просідання напруги при старті диска).
· # 05 Reallocated Sectors Count - число операцій перепризначення секторів. Коли диск виявляє помилку читання / запису, він позначає сектор перепризначеним і переносить дані в резервну область. Поле Raw Value атрибута містить загальну кількість перепризначених секторів. Чим воно більше, тим гірше стан поверхні диска.
· # 07 Seek Error Rate - частота помилок при позиціонуванні блоку магнітних головок (БМГ). Зростання цього атрибута свідчить про низьку якість поверхні або про пошкоджену механіці накопичувача. Також може вплинути перегрів і зовнішні вібрації (наприклад, від сусідніх дисків в кошику).
· # 10 Spin-Up Retry Count - число повторних спроб розкрутки дисків до робочої швидкості в разі, якщо перша спроба була невдалою. Якщо значення атрибута зростає, то велика ймовірність проблем з механікою.
· # 196 Reallocation Event Count - число операцій перепризначення. В поле Raw Value атрибута зберігається загальне число спроб перенесення інформації зі збійних секторів в резервну область диска (вона, як правило, не дуже велика - кілька тисяч секторів). Враховуються як успішні, так і невдалі операції.
· # 197 Current Pending Sector Count - поточне число нестабільних секторів. Тут зберігається число секторів, які є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування з них відбувається з труднощами (наприклад, не з першого разу). Якщо «підозрілий» сектор буде надалі зчитуватися успішно, то він виключається з числа кандидатів. У разі ж повторних помилкових читань накопичувач спробує відновити його і виконати ремап.
· # 198 Uncorrectable Sector Count - число секторів, при читанні яких виникають непоправні (внутрішніми засобами) помилки. Зростання цього атрибута вказує на серйозні дефекти поверхні або на проблеми з механікою накопичувача.
· # 220 Disk Shift - зсув пакета пластин відносно осі шпинделя. В основному виникає через сильного удару або падіння диска. При сильному зростанні атрибута диск гарантовано виходить з ладу.
А в цієї статті можна знайти докладний опис кожного з атрибутів.
Моніторинг SMART-параметрів жорсткого диска не варто вважати панацеєю від усіх проблем з ним. Цей механізм дає лише шанс вчасно помітити динаміку погіршення деяких критичних параметрів і прийняти рішення про заміну носія, поки не сталася втрата даних. У сукупності з добре налагодженою схемою резервного копіювання можна мінімізувати втрати в результаті виходу жорсткого диска з ладу в самий невідповідний момент, і уникнути великих витрат на спробу відновлення інформації з нього. І пам'ятайте одне правило: хороші показники атрибутів SMART не гарантують, що з накопичувачем все добре, але погані показники SMART гарантовано свідчать про проблеми.
Програма на 100% розроблена в Росії. Якщо вам потрібна допомога при впровадженні програми, фахівці "10-Strike Software" завжди допоможуть вам у налаштуванні, швидко усунуть недоробки і зауваження. ціни на всі продукти зафіксовані в рублях і їх можна подивитися на сайті.
Скачайте пробну 30-денну версію без обмежень і спробуйте. Всі компоненти встановляться з одного файлу.
завантажити програму
Увага, акція! діє знижка на цю програму до кінця місяця!