วันเสาร์ที่ 23 พฤษภาคม พ.ศ. 2569

Monitoring vs Observability ตอนที่ 2

      สวัสดีครับทุกท่าน สำหรับบทความนี้จะยังคงเป็นเรื่องราวต่อเนื่องมาจากที่ผมได้นำเสนอไปก่อนหน้านี้ครับ นั่นก็คือเรื่องราวของการ Monitoring และ Observability  โดยในบทความก่อนหน้านี้ผมได้อธิบายถึงที่มาที่ไปรวมถึงความแตกต่างระหว่าง Monitoring และ Observability ซึ่งในความเป็นจริงแล้วจะต้องดำเนินการร่วมกันครับ และที่สำคัญคือเรื่องราวเหล่านี้ที่ผมกำลังนำเสนอทุกท่านอยู่จนถึงบทความนี้จะเป็นการปูทางเข้าสู่การ Monitoring  และ  Observability โดยใช้ Service ตัวหนึ่งใน Microsoft Azure ซึ่งเป็น Service ที่มีความสำคัญตัวนึงที่เกี่ยวข้องกับเรื่องราวของ Cybersecurity โดย Service ดังกล่าวนี้มีความสามารถในการ Monitoring รวมถึง Observability Workloads ต่างๆ ใน IT Environments (Hybrid และ Multi-Cloud)  ขององค์กรครับ แต่ก่อนจะไปถึง Service ดังกล่าวนี้ ผมอยากจะอธิบายเพิ่มเติมเกี่ยวกับคอนเซปและรายละเอียดของ Monitoring และ Observability อีกซักนิดครับ และเพื่อไม่ให้เป็นการเสียเวลาเรามาว่ากันต่อสำหรับเรื่องราวของ Monitoring และ Observability ครับ












โดยเริ่มด้วยส่วนประกอบหลักๆ สำหรับการ Monitoring รวมถึง Observability ครับ นั่นก็คือ การรวบรวมข้อมูลหรือ Collected Data จาก Workloads ต่างๆ ใน IT Environments (ครอบคลุมทั้ง Hybrid และ Multi-Cloud) เช่น VMs, Apps, Networks, และอื่นๆ ครับ ซึ่งจะต้องมีการวางแผนและออกแบบก่อนว่า เรามีความต้องการที่จะทำการรวบรวมข้อมูลดังกล่าวนี้จาก Workloads หรือ IT Assets ใดบ้าง, Workloads หรือ IT Assets ดังกล่าวนั้นอยู่ที่ใด (On-Premise หรือ Cloud), รูปแบบของ Workloads, Roles ของ Workloads ดังกล่าวนั้นคืออะไร เช่น Apps, Databases, และอื่นๆ ครับ


และสำหรับข้อมูลที่ถูกรวบรวมมานั้น (Collected Data) จะเป็นข้อมูลที่เกี่ยวข้องและถูกนำมาใช้ในเรื่องของ Security Operations เท่านั้นนะครับ จะไม่เกี่ยวข้องกับขัอมูลขององค์กรครับ โดยข้อมูลที่ว่านี้โดยหลักๆ จะมีอยู่ด้วยกัน 2 ชนิด คือ:


1. Metric Data คือ ข้อมูลที่เป็นตัวเลข ที่มาจากการใช้งาน System Resources ของ Workloads นั้นๆ ตัวอย่างของ System Resources เช่น Processor, Memory, เป็นต้น เพราะข้อมูลชนิดนี้มีประโยชน์ในการที่นำเอามาตรวจสอบ, วิเคราะห์, และอื่นๆ เพื่อดูรูปแบบการใช้งาน (Usage Patterns), แนวโน้มการใช้งาน System Resources, และอื่นๆ

2. Log Data คือ ข้อมูลที่เป็นการบันทึกเหตุการณ์หรือ Activities ต่างๆ ที่เกี่ยวข้องกับ Workloads หรือ IT Assets นั้น โดยข้อมูลชนิดนี้มีประโยชน์ในการค้นหาหรือติดตามในกรณีที่เราต้องการค้นหาดูว่าช่วงที่ผ่านมานั้นมีเหตุการณ์ใดเกิดขึ้นบ้าง เพื่อนำมาประกอบในการติดตามและวิเคราะห์เพื่อดำเนินการต่อไปครับ

จากนั้นสิ่งที่เราจะต้องวางแผนและออกแบบต่อมาคือ ที่ที่เก็บ Collected Data  หรือที่เราเรียกว่า "Data Repository" ว่าจะเก็บไว้ที่ไหน โดยที่ดังกล่าวนี้จะต้องรองรับการค้นหาข้อมูล (Querying Data), และเรื่องของระยะเวลาในการเก็บรักษาข้อมูล (Data Retention) ครับ รวมถึงการพิจารณาหรือดูว่าจะมี Tools หรือ Solutions ใด ที่จะต้องมา Integrate และใช้งานที่ที่เก็บข้อมูลดังกล่าวนี้ด้วยหรือไม่ครับ

สำหรับในช่วงที่ผ่านมาจนถึงปัจจุบันมี Tools หรือ Solutions สำหรับการทำ Monitoring และ Observability ให้เลือกมากมายครับ แต่โดยหลักๆ ควรจะต้องมีความสามารถเหล่านี้หรือมากกว่านี้ครับ


- Log Management

- Application Performance Monitoring (APM)

- Network Monitoring

- Service Monitoring

- อื่นๆ 


นอกจากนี้ความสามารถข้างต้นแล้ว Tools หรือ Solutions ดังกล่าวนี้ควรจะมีความสามารถในการตรวจสอบและวิเคราะห์เชิงลึกหรือโดยละเอียด (Insights) แบบ Real-Time เพื่อช่วยองค์กรหรือเราในการตรวจสอบ (Monitor) เหตุการณ์หรือ Activities ต่างๆ, สิ่งผิดปรกติหรือสิ่งที่น่าสงสัย, และอื่นๆ ที่อาจส่งผลกระทบกับ Performance และ Availability โดยการตรวจสอบตามคอนเซปดังกล่าวนี้จะเป็นการตรวจสอบแบบเฉพาะเจาะจงกับ Workloads หรือ IT Assets นั้นไม่ได้เป็นการตรวจแบบทั่วๆไป ยกตัวอย่าง เช่น Workloads ที่เป็น Web Apps การตรวจสอบในคอนเซปนี้จะไม่ได้เป็นการตรวจสอบเพียงแค่ Processor, Memory, Disk, เป็นต้น แต่จะเป็นการเข้าไปตรวจสอบและวิเคราะห์เชิงลึก (Insights) ของเฉพาะ Workloads (Specific Workloads) เพื่อทำให้เราเข้าใจถึงการทำงานตลอดจนส่วนประกอบต่างๆ ที่เกี่ยวข้องกับ Apps ว่าทำงานเป็นอย่างไร และมีจุดใดที่มีอาจจะก่อให้เกิดปัญหาและส่งผลกระทบการทำงานและการให้บริการของ Apps ดังกล่าวนี้ ที่มีผู้ใช้งานใช้งานอยู่ครับ โดยความสามารถดังกล่าวนี้ (Real-Time Insights) นี้มีความสำคัญมากในการช่วยองค์กรในการตรวจสอบ Performance, Availability, และ Behavior ของ Workloads ต่างๆ แบบเฉพาะเจาะจงกับ Workloads นั้นๆ ครับ และจากความสามารถและคอนเซปดังกล่าวนี้ส่งผลทำให้การ Monitoring และ Observability สามารถช่วยในการ Detect และ Identify Root Causes, Optimize Performance & Availability, ลดเรื่องของ MTTD (Mean Time To Detect) และ MTTR (Mean Time To Recovery), และอื่นๆ ครับ


ประมาณนี้ครับสำหรับตอนต่อไปผมจะพาทุกท่านไปทำความรู้จักกับ Service ใน Microsoft Azure ที่มีความสามารถในการ Monitoring และ Observability ครับผม.....

ไม่มีความคิดเห็น:

แสดงความคิดเห็น