« לעמוד בלוג ראשי

זיהוי בעיות בשרת בעזרת ניתוח טרנדים

אחת מהשאלות הראשונות שעליהם חייבים לענות כאשר באים לבצע בדיקה לשרת SQL או למערכת ההפעלה היא מה הפעילות הבסיסית של המערכת – ובקיצור Baseline.

ע”י הבנה ותיעוד של המצב הנורמאלי במערכת יהיה קל לזהות התנהגות לא רגילה בה.
עלינו לדעת כיצד פרמטרים במערכת מתנהגים במשך שעות מסוימות, בימים מיוחדים (ימי שכר או טעינות חודשיות, חגים בהם יש פעילות מוגברת, פעילות חיצונית כמו פסטיבלים או כוננות)
מודעות למערכת מביאה להתנהגות פרואקטיבית בזיהוי התנהלות חריגה של שרת. למשל עלייה בצריכת CPU, צריכה של מקום בכונן, התנפחותשימוש של לוג בסיס נתונים, שגיאות התחברות וכו’.
לאחרונה בעזרת מערכת AimBetter נמנעה תקלה מביכה כאשר אחד המפתחים הריץ דוח שיצר פעילות חריגה ב TEMPDB, בעקבותיה תוך חצי שעה ירדו לכונן GB50 . חוסר מקום בכונן אומר מערכת שעלולה להיעצר, אך לא ניתן להאשים את אנשי ה -IT שלא השאירו מספיק מקום בכונן, אלא שהסיבה לתקלה האפשרית היא שהמפתח פשוט הריץ דוח מורכב שמבצע חישובים צדדים – פונקציות ושכח לתחום בתאריך את הדוח.
תחילה קבלנו התראה במיל .

alert-mail

נכנסנו למערכת והבנו שזה קרה בחצי שעה האחרונה

low-size

תחקרנו את הלוגים וכך עלינו על המפתח

log-list

בסופו של דבר העלנו לתשומת ליבו של המפתח את גודל הטעות – הדוח המורכב שונה להגבלת תאריכים נורמליים, הקטנו את ה TEMPDB ללא השבתה והחזרנו את המערכת לשפיות.
אם לא היה לנו ניתוח טרנדים ותיעוד של מקור הירידה לא היינו יודעים בכזאת מהירות איפה הבעיה, מתי היא החלה, ובעקבות מה, כך שסה”כ חצי שעה של בירור, בדיקה ותיקון מנעו נזק, השבתה והרבה עצבים.