SRE. Рецепты выживания в продакшене для инженера по надежности. Наталья Савенкова
Чтение книги онлайн.
Читать онлайн книгу SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова страница 18
![SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова](/cover_pre1333357.jpg)
– в пабликах вышла невероятная новость и к вам пришёл трафик
– маркетологи отключили какую-то площадку-лидогенератор
– на странице включился сломанный баннер, который сломал всю вёрстку
Да там куча вариантов.
Проблема в том, что уведомления о срабатывании мониторинга получает дежурный инженер. При этом невозможно обеспечить всю команду дежурных одинаковым сознанием и контекстом. Как-то раз при срабатывании мониторинга диагностика у дежурного заняла два часа, вместо ожидаемых пяти минут, потому что он не знал всей информации и как действовать.
По итогам разбора этого инцидента мы написали себе инструкцию:
Первичные действия при факапе
– Проблема возможно большая? – оповестить руководителя, действовать по плану ниже
– Проблема очевидно небольшая – начать отсчет 15 минут и действовать по плану ниже
– Установить примерное начало проблемы
– Узнать, когда и какие были релизы
– Узнать, что включали маркетологи
– Узнать в центре координации о релизах смежных сервисов
Если в течение 15 минут проблема не локализована, оповестить руководителя (<номер телефона>). Дальше решение принимает руководитель.
Если нет руководителя звонить старшему менеджеру (<номер телефона>).
Если нет старшего менеджера, звонить вышестоящему руководителю (<номер телефона>).
Важно, что проблема сразу получает статус “критичная”, пока не доказано обратное. Это тоже сделано сознательно по итогам инцидентов, когда проблема была сильно недооценена и в итоге размер ущерба сильно вырос.
60. Знать свои деструкторы в состоянии стресса
Пожалуй, это самый важный совет в этой книге. Как ни крути, а сломанный продакшен и непонимание происходящего это стресс. Психология давно разделила реакции на три варианта: бей, беги и замри.
Реакция “бей” во время инцидента может проявлятся как набор хаотичных действий, ведущих к ещё большим разрушениям. Лучше немного подождать, пока отпустит.
В состоянии “беги” человек может начать игнорировать всё происходящее вокруг, отключить телефон и вообще уйти куда-то. В этом случае можно начать работу с инцидентом с каких-то несвязанных действий, типа сходить налить чаю.
Реакция “замри” проявляется оцепенением, пустотой в мыслях и действиях. Здесь помогут чек-листы по первичным действиям в инциденте, чтобы начать делать хоть что-то, вовлекая себя в процесс.
Любой инцидент это стресс. Наблюдайте за собой, изучайте свою реакцию, проводите анализ собственных действий. Сформируйте себе личный чек-лист действий при инциденте, который будет помогать лично вам максимально выйти из автоматической