CEO @CyStack
Ở phần trước chúng ta đã tìm hiểu một số tiêu chuẩn của hệ thống đo lường và cảnh báo, phần 2 sẽ tiếp nối với các thông tin và công cụ mà bạn có thể sử dụng với hệ thống giám sát an toàn thông tin của mình.
Đối sánh mức độ nghiêm trọng với loại cảnh báo
Cảnh báo và thông báo đều nằm trong những phần quan trọng nhất của hệ thống giám sát của bạn. Nếu không có thông báo về những thay đổi quan trọng, nhóm của bạn sẽ không nhận thức được các sự kiện ảnh hưởng đến hệ thống của bạn hoặc sẽ cần thường xuyên chủ động theo dõi các trang tổng quan để nắm được thông tin. Mặt khác, tin nhắn quá tích cực quá nhiều, các sự kiện không khẩn cấp hoặc thông báo mơ hồ có thể gây hại nhiều hơn lợi.
Trong phần này, chúng ta sẽ nói về các mức thông báo khác nhau và cách sử dụng tốt nhất để tối đa hóa hiệu quả của chúng. Sau đó, chúng ta sẽ thảo luận một số tiêu chí để lựa chọn những gì để cảnh báo và những thông báo nên hoàn thành.
Các trang cảnh báo
Bắt đầu với loại cảnh báo ưu tiên cao nhất, các trang là các thông báo cố gắng khẩn cấp chú ý đến một vấn đề quan trọng với hệ thống. Loại cảnh báo này nên được sử dụng cho những tình huống đòi hỏi phải giải quyết ngay lập tức do mức độ nghiêm trọng của chúng.
Các trang nên được dành riêng cho các vấn đề quan trọng với hệ thống của bạn. Do các vấn đề mà chúng đưa ra, chúng là những cảnh báo quan trọng nhất mà hệ thống của bạn gửi. Hệ thống phân trang tốt là đáng tin cậy, bền bỉ, và tích cực đủ để chúng không bao giờ bị bỏ qua. Để đảm bảo phản hồi, các hệ thống phân trang thường bao gồm một tùy chọn để thông báo cho một người hoặc nhóm thứ hai nếu trang đầu tiên không được thừa nhận trong một khoảng thời gian nhất định.
Các trang do bản chất của nó là cực kỳ rắc rối, nên cần hạn chế sử dụng: chỉ khi rõ ràng là có vấn đề không thể chấp nhận được. Thông thường, điều này có nghĩa là các trang được gắn với các dấu hiệu quan sát được trong hệ thống của bạn bằng cách sử dụng các kỹ thuật hộp đen. Trong khi rất khó để có thể xác định được tác động của việc máy chủ web phụ trợ tối đa hóa các kết nối, nhưng việc tên miền của bạn không truy cập được là không rõ ràng và bạn có thể yêu cầu một trang cảnh báo.
Thông báo thứ cấp
Với mức độ ít quan trọng hơn, chúng ta có thể sử dụng thông báo thứ cấp, đó là các thông báo như email và nhãn. Điều này luôn được nhắc nhở rằng các quản trị viên nên nghiên cứu tình huống có thể tiếp diễn trước khi nó có thể xảy ra. Không giống như các trang, các cảnh báo theo kiểu thông báo không có ý chỉ ra hành động tức thì là bắt buộc, do đó thường do nhân viên làm việc quản lý thay vì cảnh báo nhân viên thực hiện cuộc gọi. Nếu doanh nghiệp của bạn không có quản trị viên làm việc bất cứ lúc nào, thông báo phải được đưa ra theo tình huống có thể chờ đến ngày làm việc tiếp theo.
Nhãn và email được tạo ra bằng cách giám sát giúp các nhóm hiểu công việc họ nên tập trung vào thời điểm hoạt động tiếp theo. Vì không được sử dụng các thông báo cho các vấn đề quan trọng hiện đang ảnh hưởng đến sản xuất nên chúng thường dựa vào các chỉ số trên hộp trắng có thể dự đoán hoặc xác định những vấn đề đang nảy sinh cần được giải quyết sớm.
Ngoài ra, cảnh báo thông báo được đặt để theo dõi hành vi tương tự như các cảnh báo phân trang, nhưng sẽ đặt xuống các ngưỡng thấp hơn, ít quan trọng hơn. Ví dụ: bạn có thể xác định cảnh báo thông báo khi ứng dụng của bạn đang tăng độ trễ một chút trong một khoảng thời gian và có trang tương ứng được gửi khi độ trễ tăng lên quá mức cho phép.
Nhìn chung, thông báo là thích hợp nhất trong các tình huống đòi hỏi phải có phản hồi, nhưng không gây ra mối đe dọa trực tiếp đến tính ổn định của hệ thống. Trong những trường hợp này, bạn muốn nâng cao nhận thức về vấn đề để nhóm của bạn có thể điều tra và giảm nhẹ trước khi nó ảnh hưởng đến người dùng hoặc biến đổi thành một vấn đề lớn hơn.
Thông tin đăng nhập
Mặc dù không phải là thông báo kỹ thuật, đôi khi bạn có thể muốn lưu ý hành vi quan sát được cụ thể ở nơi bạn có thể dễ dàng truy cập sau này mà không cần ai chú ý ngay lập tức. Trong những tình huống này, thiết lập các ngưỡng chỉ đơn giản là thông tin đăng nhập có thể sẽ hữu ích. Chúng có thể được ghi vào một tập tin hoặc được sử dụng để gia tăng bộ đếm trên một bảng điều khiển trong hệ thống giám sát của bạn. Mục đích là cung cấp các thông tin đã được biên soạn cho các mục đích điều tra để giảm số lượng truy vấn mà các nhà khai thác phải xây dựng để thu thập thông tin.
Chiến lược này chỉ có ý nghĩa đối với các kịch bản có mức độ ưu tiên rất thấp và không cần phải tự trả lời. Bạn sẽ không có nhiều ứng dụng cho loại này, nhưng loại cảnh báo này có thể hữu ích trong trường hợp bạn thấy cần tìm kiếm cùng một dữ liệu trong mỗi lần phát sinh vấn đề. Ngoài ra, chúng ta có thể kể đến các giải pháp thay thế mà cũng cung cấp một số lợi ích như này như sử dụng các truy vấn đã lưu và bảng điều khiển tùy chỉnh.
Khi nào cần tránh báo động
Điều quan trọng là phải hiểu rõ ràng về những cảnh báo nên được chỉ ra cho nhóm của bạn. Mỗi cảnh báo cần biểu thị rằng một vấn đề đang xảy ra đòi hỏi hành động bằng tay của con người hoặc đưa ra các quyết định. Do trọng tâm này, khi bạn tính đến số liệu để cảnh báo, lưu ý bất kỳ cơ hội nào, nơi các phản ứng có thể được tự động hóa.
Các giải pháp tự động có thể thiết kế trong trường hợp:
- Một chữ ký nhận biết có thể xác định được vấn đề một cách đáng tin cậy
- Phản hồi sẽ luôn giống nhau
- Phản hồi không yêu cầu bất kỳ sự đưa ra hoặc ra quyết định nào của con người
Một số câu trả lời đơn giản hơn để tự động hóa hơn những câu trả lời khác, nhưng nói chung, bất kỳ kịch bản nào phù hợp với các tiêu chí trên đều có thể được viết ra. Phản hồi vẫn có thể được kết hợp với ngưỡng cảnh báo, nhưng thay vì gửi tin nhắn đến một người, trình kích hoạt có thể khởi động sửa chữa kịch bản để giải quyết vấn đề. Việc ghi chép lại mỗi khi điều này xảy ra có thể cung cấp thông tin có giá trị về tình trạng hệ thống của bạn và hiệu quả của ngưỡng số liệu và các biện pháp tự động của bạn.
Điều quan trọng cần lưu ý là quy trình tự động cũng có thể gặp vấn đề. Do vậy, chúng ta cần thêm cảnh báo bổ sung cho các phản ứng với từng kịch bản có thể xảy ra để một nhà quản trị được thông báo khi quá trình tự động hóa không diễn ra thành công. Bằng cách này, phản ứng thay thế sẽ xử lý hầu hết vấn đề và nhóm của bạn sẽ được thông báo về các sự cố cần can thiệp.
Thiết kế ngưỡng và cảnh báo hiệu quả
Chúng ta đã đề cập đến các phương tiện cảnh báo khác nhau và một số kịch bản phù hợp với từng loại. Đến đây, chúng ta có thể nói về các đặc tính của các cảnh báo tốt.
Được kích hoạt bởi các sự kiện có tác động thực sự của người dùng
Như đã đề cập trước đó, cảnh báo dựa trên các kịch bản có tác động thực sự của người dùng là tốt nhất. Điều này có nghĩa là phân tích sự thất bại khác nhau hoặc các kịch bản làm giảm hiệu suất và sự hiểu biết làm thế nào và khi nào chúng có thể làm tăng lên các lớp mà người dùng tương tác.
Điều này đòi hỏi sự hiểu biết về sự dư thừa của cơ sở hạ tầng, mối quan hệ giữa các thành phần khác nhau và mục tiêu của tổ chức về tính sẵn sàng và hiệu năng. Mục đích của bạn là khám phá các chỉ số triệu chứng có thể xác định được một cách đáng tin cậy các vấn đề đang xảy ra hoặc sắp xảy ra với người dùng.
Các ngưỡng với mức độ nghiêm trọng tăng dần
Sau khi bạn đã xác định số liệu về các triệu chứng, thách thức tiếp theo là xác định các giá trị thích hợp để sử dụng làm ngưỡng. Có thể bạn phải dùng thử và sai sót để tìm ra các ngưỡng đúng cho một số chỉ số.
Nếu có, hãy kiểm tra các giá trị lịch sử để xác định xem kịch bản nào cần được khắc phục trong quá khứ. Đối với mỗi số liệu, bạn nên xác định ngưỡng “khẩn cấp” sẽ kích hoạt một trang và một hoặc nhiều ngưỡng được liên kết với tin nhắn ở mức ưu tiên thấp hơn. Sau khi xác định các cảnh báo mới, hãy yêu cầu phản hồi về việc các ngưỡng quá mạnh hay không nhạy cảm để bạn có thể tinh chỉnh hệ thống để phù hợp nhất với mong đợi của cả nhóm.
Chứa bối cảnh phù hợp
Việc hạn chế thối đa thời gian cần thiết cho người phản hồi để bắt đầu điều tra các vấn đề có thể giúp bạn khác phục sự cố nhanh hơn. Để giải quyết vấn đề này, sẽ rất hữu ích nếu bạn có thể cung cấp bối cảnh bên trong văn bản cảnh báo để các nhà khai thác có thể hiểu được tình huống một cách nhanh chóng và tiến hành làm các bước tiếp theo.
Cảnh báo cần chỉ rõ các thành phần và hệ thống bị ảnh hưởng, ngưỡng số liệu đã được kích hoạt, và thời gian mà sự việc bắt đầu. Cảnh báo cũng nên cung cấp liên kết có thể được sử dụng để có thêm thông tin. Đây có thể là các liên kết đến trang tổng quan cụ thể được liên kết với số liệu được kích hoạt, các liên kết tới hệ thống nhãn của bạn nếu phát hành nhãn tự động hoặc cung cấp các liên kết đến trang cảnh báo của hệ thống giám sát của bạn.
Mục đích là cung cấp cho nhà điều hành đủ thông tin để đưa ra hướng dẫn phản hồi ban đầu và giúp họ tập trung vào sự cố đang xảy ra. Cung cấp mọi thông tin bạn có về sự kiện này tuy là không bắt buộc và không được đề xuất nhưng những chi tiết cơ bản với một vài lựa chọn có thể giúp rút ngắn thời gian phản hồi cần thiết.
Gửi đến đúng người
Cảnh báo sẽ không còn hữu ích nếu chúng không thể thực hiện được. Thông thường, dù cảnh báo có được thực hiện hay không thì phụ thuộc vào mức độ hiểu biết, kinh nghiệm và thẩm quyền mà cá nhân đáp ứng được. Đối với các tổ chức có quy mô nhất định, việc quyết định người hoặc nhóm thích hợp để thông báo được chỉ ra rõ ràng trong một số trường hợp nhưng trong hầu hết trường hợp, điều này lại không rõ ràng. Phát triển cơ chế luân phiên trách nhiệm hay còn gọi là thay ca (on-call rotation) cho các nhóm khác nhau và thiết kế một kế hoạch leo thang cụ thể có thể loại bỏ một số sự mơ hồ trong các quyết định này.
Việc thực hiện thay ca phải bao do các cá nhân có đủ khả năng để tránh tình trạng mệt mỏi và chán nản đảm nhận. Tốt nhất là nếu hệ thống cảnh báo của bạn nên bao gồm một cơ chế để lập kế hoạch thay đổi ca, nhưng nếu không có, bạn có thể phát triển cơ chế để thay đổi các địa chỉ liên lạc cảnh báo một cách thủ công dựa trên lịch biểu của bạn. Bạn có thể có nhiều ca luân phiên do các bộ phận cụ thể trong hệ thống của bạn đảm nhận.
Kế hoạch leo thang là công cụ thứ hai để đảm bảo sự cố xảy ra được gửi đến đúng người. Nếu bạn có nhân viên đảm nhận hệ thống của bạn 24 giờ trong ngày, cách tốt nhất là gửi thông báo được tạo ra từ hệ thống giám sát cho nhân viên đang hoạt động thay vì xoay ca. Những người phản hồi sau đó có thể tự mình thực hiện các biện pháp giảm nhẹ hoặc quyết định tự thực hiện luân phiên trách nhiệm theo cách thủ công nếu họ cần thêm trợ giúp hoặc chuyên môn. Có một kế hoạch phác thảo thời gian khi nào và như thế nào các vấn đề xảy ra có thể giúp giảm thiểu các cảnh báo không cần thiết.
Kết luận
Trong hướng dẫn này, chúng ta đã nói về cách giám sát và cảnh báo hoạt động trong các hệ thống thực. Chúng ta bắt đầu bằng cách xem các bộ phận khác nhau của hệ thống giám sát làm việc như thế nào để đáp ứng nhu cầu tổ chức về nhận thức và phản hồi. Chúng ta thảo luận về sự khác biệt giữa giám sát hộp đen và hộp trắng như một khuôn khổ để cân nhắc về các tín hiệu cảnh báo khác nhau. Sau đó, chúng ta đã thảo luận về các loại cảnh báo khác nhau và cách tốt nhất để dựa vào mức độ nghiêm trọng của sự cố để lựa chọn phương tiện thông báo thích hợp. Cuối cùng, chúng ta đã đề cập đến các đặc điểm của quá trình cảnh báo hiệu quả để giúp bạn thiết kế một hệ thống làm tăng mức độ phản hồi xử lý trong nhóm.