SRE. Рецепты выживания в продакшене для инженера по надежности. Наталья Савенкова

Чтение книги онлайн.

Читать онлайн книгу SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова страница 15

Жанр:
Серия:
Издательство:
SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова

Скачать книгу

то лучше бы знать заранее её пределы. Иначе оно треснет тогда, когда вы этого не ожидаете. Привожу пример: когда-то давно мы в сервисе из легаси-технологий подключили keep-alive для коннектов со смежными сервисами, из которых постоянно забираем данные, чтобы не тратить время на установку соединения. Этот метод ещё называется "HTTP persistent connection". Ускорились мы тогда прилично и были этому сильно рады!

      Нас было не остановить и мы переводили на этот тип подключения всё больше и больше сервисов, пока оно не взорвалось массовыми обрывами соединений. Мы-то уже привыкли, что keep-alive отлично экономит время запроса, а тут внезапно перестало работать всё. Оказалось, что у библиотеки для сетевого взаимодействия есть ограничение на одновременное удержание коннектов. У нас просто переполнился пул этих коннектов. Уже не помню, как мы это тогда решили, но это уже и неважно.

      Важно, что безлимитного не существует. Если вы не достигли лимита вчера, это не значит, что вы не достигнете его завтра.

      49. Доверяйте интуиции

      Если перед началом каких-то манипуляций вас посещают сомнения "сделать ли бекап или не сделать", "снять трафик или оставить", "отключить или не отключать" – это ваша интуиция постукивает откуда-то снизу и как бы намекает. Не сомневайтесь – "сделайте бекап", "снимите трафик", "отключите".

      Хотя если вы дочитали до этого момента, то таких сомнений уже быть не должно.

      Интуиция часто вмешивается в вашу работу? Следующий совет для вас.

      50. Соблюдайте регламент

      Для всех плановых работ готовятся регламенты. Если регламента нет, то это не плановая работа, а непонятно что. Да, я из тех людей, кто любит надёжную систему больше, чем истории типа “А вот помнишь как мы однажды всё положили?! Да-а-а, было время!”

      Когда вы уже начали свои плановые работы, то тут же находятся предприимчивые коллеги с предложениями "А, давайте сделаем ещё заодно и это".

      Не надо так делать. Регламент составляется для того, чтобы работы шли по какому-то заранее понятному сценарию с заранее оценёнными рисками, заранее планируемой длительности и сопровождались продуманными планами возврата из аварийных ситуаций. Изменение по ходу дела перечня работ с регламентного на внезапно придуманный приводит к полной бессмысленности всех предварительных оценок, увеличению рисков аварии из-за недостаточной подготовки, увеличению времени проведения работ и в целом всё идёт по никому неизвестному сценарию.

      Нужно что-то сделать в системе? Запишитесь в очередь, то есть, возьмите талончик, то есть, заведите тикет. Мы вам перезвоним.

      51. Сокращайте критические секции проводимых работ

      Продолжим тему плановых работ. К этому моменту уже есть регламент работ, в котором описан тайминг и вид выполняемых работ. В основном регламентные работы предполагают отключение чего-либо в системе. Но любой компонент в системе выполняет какую-то задачу и его отключение

Скачать книгу