Отказоустойчивость распределенных вычислений: поменьше проб и ошибок!

Все мы знаем про паттерны проектирования. И убеждены, что это базовое знание для любого программиста. Когда же речь заходит об отказоустойчивости под высокими нагрузками, мы часто ограничиваем себя кластеризацией, шардированием и вот этим всем. А потом начинается реальная жизнь нашего приложения, которая приносит немало сюрпризов. И начинается путь через тернии… к терниям.

После череды ошибок у нас в проекте появляются «переборки», circuit breakers, heartbeat и leak bucket-тесты мониторинга. Но это все тоже известные и довольно фундаментальные паттерны взаимодействия. Они появились не сегодня, пришли к нам из области электроники, прошли закалку в космических проектах и аккуратно изложены на блюдечке во многих полезных как узкоспециальных, так и широко известных книгах.

В своем докладе Артем расскажет, как сам шел к этим знаниям и почему считает, что это часть фундаментальных принципов в нашей отрасли. Расскажет, как все это легко уложить в голове и что следует прочитать, чтобы не идти методом проб и ошибок к заветным 99,999.

Артем Каличкин
Артем Каличкин ЦФТ

Технический директор Faktura.ru
Разработчик нагруженных систем

Технический директор Faktura.ru.

Обеспечивает отказоустойчивость и непрерывность предоставления процессинговых сервисов компании. Успешно запустил ITIL, потом немного пододвинул его и, вовлекая инженеров всех уровней, зажёг луч DevOps, о чём можно узнать из докладов Артёма с конференции RootConf 2015 и 2016 гг.

Активно занимается работой с молодыми специалистами, как Dev, так и Ops. Рассказывает о и старается научить принципам промышленной разработки и эксплуатации ПО. Ведёт профильные спецкурсы в Новосибирском Государственном Университете.