Facebook down 4 10

Khoảng 10:30 tối giờ Việt nam thì đồng loạt toàn bộ các sản phẩm facebook bị down.

Khoảng 11h hơn thì có thông báo official từ đại diện Facebook

Nguyên nhân ban đầu dự đoán do DNS không resolve được từ nameserver của Facebook

Tuy nhiên một vài network engineer và CTO Cloudflare monitor thấy routing của toàn bộ Facebook bị withdraw trước thời điểm incident

Nếu nhìn từ fastly thì số route mất peering:

Sau đó trên một thread reddit của r/sysadmin thì có nhân sự tham gia xử lý incident thông báo tình hình xử lý incident, hiện comment và account đã bị xoá: https://www.reddit.com/r/sysadmin/comments/q181fv/looks_like_facebook_is_down/hfd4dyv/?context=3

Do đó ta có thể suy đoán sự cố gián đoạn toàn bộ do hệ thống routers chính của facebook có vấn đề, tuy nhiên do dịch Covid nên nhân sự trực Data center không đủ để xử lý sự cố này. Ngoài ra do sự cố liên quan đến routing nên toàn bộ network connection remote đến các hệ thống để xử lý incidents sẽ down bao gồm cả nameservers của facebook nên hệ thống DNS cũng sẽ không phân giải các hệ thống khác như VPN/ OOB, và do việc quản lý nghiêm ngặt đến các router box config (đa phần đều chạy automation) nên việc xử lý cần phải có nhân sự access local router tại DC gây ra việc xử lý incident kéo dài.

Cho dù thông tin trên không chính thức và không được xác thực rõ ràng tuy nhiên chúng ta có thể hình dung được vấn đề xử lý sự cố tương tự đối với facebook trong khoảng thời gian diễn ra sự cố.

Tuy nhiên theo thông tin New York Times thì có vẻ điều này là đúng.

Cũng theo NYT thì toàn bộ hệ thống nội bộ của Facebook bao gồm hệ thống quẹt thẻ Access control, công cụ nội bộ đều gían đoạn.

Do toàn bộ sản phẩm của facebook gặp sự cố bao gồm messenger hay whatapps nên sau khi xảy ra sự cố traffic đổ về các hệ thống khác đột biến như google dns/ cloudflare hay các platform communication khác.

Trong thread reddit có một comment như sau:

Even in the biggest of organizations, they still have to wait for somebody to race down to the datacenter and plug his laptop into a router.

Nó cho thấy một thực tế rằng mọi hệ thống phức tạp bên trên đều được xây dựng hay quản lý từ những thứ đơn giản bên dưới và hậu quả của Covid nghiêm trọng ra sao cho dù đối với những công ty tầm cỡ như Facebook nơi luôn có những quy trình vận hành và plan BCP được coi là hình mẫu của các công ty internet ultra scale.