Conversations About Running Production Systems at Scale
David N. Blank-Edelman

#SRE
#DevOps
📘 سازمانهای کوچک و بزرگ کمکم متوجه شدن که پایداری سیستمها و اپلیکیشنها چقدر برای کسبوکارشون حیاتی شده. در عین حال فهمیدن حفظ این پایداری، وقتی باید با سرعتی که بازار میخواد توسعه و Iteration انجام بدی، کار خیلی سختیه. مهندسی قابلیت اطمینان سایت (Site Reliability Engineering یا SRE) یک رویکرد اثباتشده برای حل این چالشه.
🧠 SRE موضوعی گسترده و عمیقه. گوگل با کتاب Site Reliability Engineering مسیر رو باز کرد؛ کتاب موفقی از انتشارات O’Reilly که توضیح میداد گوگل چطور این Discipline رو ایجاد کرد و چطور پیادهسازی اون باعث شد سیستمهاش رو در مقیاس سیارهای اجرا کنه.
الهامگرفته از اون اثر اولیه، این کتاب بخش متفاوتی از دنیای SRE رو بررسی میکنه. بیشتر از دو دوجین فصل در Seeking SRE تو رو وارد بعضی از مهمترین بحثهایی میکنن که همین الان داخل دنیای SRE در جریانن.
🎙️ به صحبتهای مهندسها و رهبرهای این حوزه گوش میدی که دربارهی این موضوعات بحث میکنن:
🔹 روشهای مختلف پیادهسازی SRE و اصول اون در محیطها و سازمانهای متفاوت
🔹 اینکه SRE چه ارتباطی با رویکردهایی مثل DevOps داره
🔹 تخصصها و حوزههای لبهمرزی که بهزودی به بخش عادی دنیای SRE تبدیل میشن
🔹 Best Practiceها و تکنولوژیهایی که اجرای SRE رو سادهتر میکنن
🔹 بخش انسانی SRE که اهمیت زیادی داره ولی کمتر دربارهش صحبت میشه
✍️ دیوید اِن. بلنک-ادلمن گردآورنده و ویراستار این کتابه.
📚 فهرست مطالب
بخش اول: پیادهسازی SRE
1. Context در برابر Control در SRE
2. مصاحبه با مهندسهای Site Reliability
3. پس میخواهی یک تیم SRE بسازی؟
4. استفاده از متریکهای Incident برای بهبود SRE در مقیاس بزرگ
5. کار با Third-Partyها نباید عذابآور باشد
6. چطور بدون تیم اختصاصی SRE، اصول SRE را پیادهسازی کنیم
7. SRE بدون SRE: مطالعهی موردی اسپاتیفای
8. معرفی SRE در سازمانهای بزرگ
9. از SysAdmin تا SRE در 8,963 کلمه
10. هموار کردن مسیر SRE در سازمان
11. الگوهای SRE محبوب بین افراد DevOps
12. DevOps و SRE: صداهایی از جامعه
13. مهندسی پروداکشن در فیسبوک
بخش دوم: Near Edge SRE
14. در آغاز، Chaos وجود داشت
15. نقطهی تلاقی پایداری و حریم خصوصی
16. مهندسی پایداری دیتابیس
17. مهندسی برای ماندگاری داده
18. مقدمهای بر یادگیری ماشین برای SRE
بخش سوم: Best Practiceها و تکنولوژیهای SRE
19. مستندسازی بهتر: ادغام Documentation در Workflow مهندسی
20. آموزش و یادگیری فعال
21. هنر و علم Service-Level Objective
22. SRE بهعنوان فرهنگ موفقیت
23. آنتیپترنهای SRE
24. زیرساخت Immutable و SRE
25. Load Balancerهای Scriptable
26. Service Mesh: رامکنندهی Microserviceهای شما؟
بخش چهارم: بخش انسانی SRE
27. امنیت روانی در SRE
28. کار شناختی در SRE
29. فراتر از Burnout
30. علیه On-Call: یک نقد تند
31. مرثیهای برای سیستمهای پیچیده
32. تقاطع عملیات و کنشگری اجتماعی
33. نتیجهگیری
👤 درباره نویسنده
🚀 دیوید اِن. بلنک-ادلمن مدیر فناوری در کالج علوم کامپیوتر و اطلاعات دانشگاه Northeastern University هست. او در ۲۵ سال گذشته بهعنوان ادمین سیستم و شبکه در محیطهای بزرگ و چندپلتفرمی فعالیت کرده؛ از جمله در:
او همچنین رئیس برنامهریزی کنفرانس LISA 2005 و یکی از مدیران بخش سخنرانیهای دعوتی LISA 2006 بوده.
Organizations big and small have started to realize just how crucial system and application reliability is to their business. They’ve also learned just how difficult it is to maintain that reliability while iterating at the speed demanded by the marketplace. Site Reliability Engineering (SRE) is a proven approach to this challenge.
SRE is a large and rich topic to discuss. Google led the way with Site Reliability Engineering, the wildly successful O'Reilly book that described Google’s creation of the discipline and the implementation that’s allowed them to operate at a planetary scale. Inspired by that earlier work, this book explores a very different part of the SRE space. The more than two dozen chapters in Seeking SRE bring you into some of the important conversations going on in the SRE world right now.
Listen as engineers and other leaders in the field discuss:
David N. Blank-Edelman is the book’s curator and editor.
Table of Contents
Part I. SRE Implementation
Chapter 1. Context Versus Control in SRE
Chapter 2. Interviewing Site Reliability Engineers
Chapter 3. So, You Want to Build an SRE Team?
Chapter 4. Using Incident Metrics to Improve SRE at Scale
Chapter 5. Working with Third Parties Shouldn't Suck
Chapter 6. How to Apply SRE Principles Without Dedicated SRE Teams
Chapter 7. SRE Without SRE: The Spotify Case Study
Chapter 8. Introducing SRE in Large Enterprises
Chapter 9. From SysAdmin to SRE in 8,963 Words
Chapter 10. Clearing the Way for SRE in the Enterprise
Chapter 11. SRE Patterns Loved by DevOps People Everywhere
Chapter 12. DevOps and SRE: Voices from the Community
Chapter 13. Production Engineering at Facebook
Part II. Near Edge SRE
Chapter 14. In the Beginning, There Was Chaos
Chapter 15. The Intersection of Reliability and Privacy
Chapter 16. Database Reliability Engineering
Chapter 17. Engineering for Data Durability
Chapter 18. Introduction to Machine Learning for SRE
Part III. SRE Best Practices and Technologies
Chapter 19. Do Docs Better: Integrating Documentation into the Engineering Workflow
Chapter 20. Active Teaching and Learning
Chapter 21. The Art and Science of the Service-Level Objective
Chapter 22. SRE as a Success Culture
Chapter 23. SRE Antipatterns
Chapter 24. Immutable Infrastructure and SRE
Chapter 25. Scriptable Load Balancers
Chapter 26. The Service Mesh: Wrangler of Your Microservices?
Part IV. The Human Side of SRE
Chapter 27. Psychological Safety in SRE
Chapter 28. SRE Cognitive Work
Chapter 29. Beyond Burnout
Chapter 30. Against On-Call: A Polemic
Chapter 31. Elegy for Complex Systems
Chapter 32. Intersections Between Operations and Social Activism
Chapter 33. Conclusion
About the Author
David N. Blank-Edelman is the Director of Technology at the Northeastern University College of Computer and Information Science. He has spent the last 25 years as a system/network administrator in large multi- platform environments, including Brandeis University, Cambridge Technology Group, and the MIT Media Laboratory. He was also the program chair of the LISA 2005 conference and one of the LISA 2006 Invited Talks co-chairs.









