У Google пояснили причину глобального збою сервісів

У Google пояснили причину глобального збою сервісів

Google опублікувала роз'яснення з приводу масштабного збою, який спостерігався на YouTube, Gmail і Google Docs 14 грудня. Проблема дійсно ховалася в роботі служби аутентифікації. Раніше стало відомо, що вона пов'язана з переповненням сховища.

Компанія пояснила, що служба ідентифікації користувачів Google підтримує унікальний ідентифікатор для кожного облікового запису і обробляє облікові дані аутентифікації для токенів OAuth і файлів cookie. Вона зберігає дані облікового запису в розподіленій базі даних, яка використовує протоколи Paxos для координації оновлень. З метою безпеки ця служба відхиляє запити при виявленні застарілих даних.

Google використовує постійно оновлюваний набір інструментів автоматизації для управління квотами різних ресурсів, що виділяються для служб. У жовтні службу User ID Service почали переводити на нову систему квот, але з частковим збереженням колишньої системи. Тоді виник перший збій. Справа в тому, що в системі присутні старі компоненти, які помилково використовувалися при відправленні запитів, а потім поверталися з помилкою «про нульове використання».

Коли пільговий період для примусового застосування нових квот закінчився, виник новий, більш масштабний збій. Існуюча система перевірки безпеки не виявила, що стара система видавала сценарій нульового заявленого навантаження. У підсумку це призвело до зміни квоти для великої кількості користувачів, зниження квоти нижче рівня використання, оскільки заявлене було помилково вказано як нуль, надмірне скорочення квоти для систем зберігання.

Масштаби проблеми стали очевидні відразу після вступу в силу дії нових квот. Почали надходити автоматичні попередження про межі ємності сховищ і про помилки служби User ID. Застосовані виправлення призвели до відключення примусового використання квоти в центрах обробки даних.

Компанія ще раз вибачилася перед своїми користувачами. Там пообіцяли працювати над поліпшенням продуктивності та доступності платформи. Зокрема, автоматизація управління квотами буде перевірятися, щоб запобігти швидкому впровадження глобальних змін. Моніторинг та оповіщення покращаться для оперативного виявлення неправильних конфігурацій. Базу даних служби User ID зроблять більш стійкою до помилок запису, так само як і підвищать стійкість сервісів GCP.

Google відзначає, що під час збою були порушені приблизно 15% запитів до Google Cloud Storage, особливо, запити з використанням OAuth, HMAC або аутентифікації по електронній пошті. Тривалу дію збою випробували на собі менше 1% клієнтів.

Під час збою були також порушені внутрішні інструменти служби підтримки Cloud, через що компанія не змогла поділитися інформацією про те, що відбувається з клієнтами на Google Cloud Platform і Google Workspace Status Dashboards.