Лекция: Распределённые системы и observability I SRE Week I ШАД

Описание к видео Лекция: Распределённые системы и observability I SRE Week I ШАД

SRE Week 2024 l Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем

Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
На лекции вы узнаете об инфраструктурных компонентах и средствах диагностики распределённых систем.

Скачать презентацию по лекции: https://disk.yandex.ru/d/xEVqraTDN7mJxg
Дополнительные материалы (статьи), о которых говорилось в лекции:
1. Alex Xu. System Design Interview – An insider's guide. Independently published, 2020. https://www.ozon.ru/product/system-de...
2. J. Moore. Stop Rate Limiting! Capacity Management Done Right.    • "Stop Rate Limiting! Capacity Managem...  
3. J. Petoff, N. Murphy, B. Beyer, C. Jones. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. https://www.oreilly.com/library/view/...
4. B. Beyer, N. R. Murphy, D.K. Rensin, K. Kawahara, S. Thorne. The Site Reliability Workbook. O'Relly Media Inc. 2018. https://www.oreilly.com/library/view/...
5. H. Zhou et. 2018. Overload Control for Scaling WeChat Microservices. SoCC '18. https://doi.org/10.1145/3267809.3267823
6. D. Rensin and A. Hilton. Using load shedding to survive a success disaster—CRE life lessons. Google Cloud Blog. 2016. https://cloud.google.com/blog/product...
7. Google Cloud’s Operations. Google Cloud Error Reporting. https://cloud.google.com/error-reporting
8. B.H. Sigelman et al. Dapper, a Large-Scale Distributed Systems Tracing Infrastructure. Google, Inc. 2010. https://research.google/pubs/dapper-a...
9. P. Vijayanathan. How Netflix Builds High Performance Applications at Global Scale. P99 Conf. 2023. https://www.p99conf.io/session/how-ne...

Другие лекции интенсива SRE Week:
Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: https://youtube.com/live/TBr01y66bvo?...
Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: https://youtube.com/live/KHnsyuEqERY?...
Лекция 3: Обзор утилит диагностики в командной строке Linux: https://youtube.com/live/AqDnLf6xf0c?...
Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: https://youtube.com/live/758wXAx-bv8?...
Семинар 6.1: Настройка параметров ядра Linux: https://youtube.com/live/I_mVU41I-YE?...
Семинар 6.2: Performance troubleshooting на практике: https://youtube.com/live/d0SZtSF5m4U?...

Узнать больше о Школе анализа данных можно на сайте: https://shad.yandex.ru/

Комментарии

Информация по комментариям в разработке