Operationalizing Large Language Models
Roland Huß & Daniele Zonca

#Generative_AI
#Kubernetes
#GenAI
🚀 هوش مصنوعی مولد (GenAI) داره صنایع رو متحول میکنه و در این بین، Kubernetes به سرعت به ستون فقرات استقرار و مدیریت این بارکارهای سنگین و پرمصرف تبدیل شده. این کتاب یک راهنمای کاملاً عملی برای مهندسین MLOps، توسعهدهندگان نرمافزار، ادمینهای کوبرنتیز و متخصصهای هوش مصنوعی هست که آمادهان تا نوآوریهای AI رو با قدرت زیرساختهای Cloud Native ترکیب کنن. نویسندگان کتاب، رولاند هوس و دانیله زونکا، یک نقشه راه شفاف برای استقرار، شخصیسازی (Fine-tuning) و مقیاسپذیری مدلهای بزرگ روی کوبرنتیز ارائه میدن و در طول مسیر به چالشهایی مثل بهینهسازی منابع GPU، پایش (Observability) و امنیت میپردازن.
✨ با استفاده از بینشهای کاربردی و مثالهای واقعی این کتاب، یاد میگیرید چطور با فرصتها و پیچیدگیهای مدیریت اپلیکیشنهای GenAI در محیطهای عملیاتی روبرو بشید. چه در حال آزمایش روی مدلهای زبانی بزرگ (LLM) باشید و چه با جزئیات استقرار AI در مقیاس وسیع سر و کار داشته باشید، تخصص لازم برای عملیاتی کردن موثر این فناوری هیجانانگیز رو به دست میارید.
🌟 «این کتاب با نگاهی وسیع و در عین حال کاربردی به مدیریت سیستمهای GenAI، پلی بین دنیای کوبرنتیز و هوش مصنوعی میزنه.»
— بیلگین ایبریام، نویسنده کتاب Kubernetes Patterns و مدیر محصول ارشد در Diagrid
🌟 «این کتاب منبعی گرانبها برای مهندسین زیرساخت هست؛ چه کسانی که میخوان اپلیکیشنهای هوش مصنوعی مولد رو روی کوبرنتیز مستقر کنن و چه کسانی که قصد دارن با درک عمیق از زیرساختهای مدرن وارد این حوزه بشن.»
— نیکیل دونانی، مهندس ارشد یادگیری ماشین
بخش اول: استنتاج (Inference)
۱. استقرار مدلها
۲. دادههای مدل
بخش دوم: آمادگی برای تولید (Production Readiness)
۳. کوبرنتیز و پردازندههای گرافیکی (GPU)
۴. اجرا در محیط تولید
۵. پایش و مشاهدهپذیری مدل
بخش سوم: تنظیم و بهینهسازی (Tuning)
۶. سفارشیسازی مدل
۷. بهینهسازی زمانبندی کارها (Job Scheduling)
بخش چهارم: اپلیکیشنهای مبتنی بر هوش مصنوعی
۸. اپلیکیشنهای هوش مصنوعیمحور
۹. اجرای اپلیکیشنهای عاملمحور (Agentic) در محیط تولید
👨💻 دکتر رولاند هوس مهندس برجسته در شرکت Red Hat با بیش از ۲۵ سال تجربه در مهندسی نرمافزار هست. تخصص اصلی اون در زیرساختهای اپلیکیشنهای مجهز به AI، معماریهای Serverless و پلتفرمهای Cloud Native هست.
🏗️ دانیله زونکا معمار ارشد در شرکت Red Hat هست که مسئولیت چشمانداز فنی محصولات AI این شرکت روی کوبرنتیز رو بر عهده داره. اون در زمینه پذیرش هوش مصنوعی سازمانی با استفاده از پروژههای متنباز مثل TrustyAI، KServe، vLLM، llm-d و Kubeflow تخصص داره.
Generative AI is revolutionizing industries, and Kubernetes has fast become the backbone for deploying and managing these resource-intensive workloads. This book serves as a practical, hands-on guide for MLOps engineers, software developers, Kubernetes administrators, and AI professionals ready to combine AI innovation with the power of cloud native infrastructure. Authors Roland Huß and Daniele Zonca provide a clear road map for deploying, fine-tuning, and scaling large models on Kubernetes to power AI-driven applications, addressing challenges like GPU resource optimization, observability, and security along the way.
With actionable insights and real-world examples, readers will learn to tackle the opportunities and complexities of managing GenAI applications in production environments. Whether you’re experimenting with large language models (LLMs) or facing the nuances of AI deployment at scale, you’ll uncover expertise you need to operationalize this exciting technology effectively.
“This book bridges the worlds of Kubernetes and AI with a broad yet practical perspective on operating GenAI systems.”
—Bilgin Ibryam, coauthor of Kubernetes Patterns, principal product manager at Diagrid
“This book is an invaluable resource for infrastructure engineers, whether they’re looking to deploy generative AI applications on Kubernetes or break into the field with a strong understanding of modern infrastructure.”
—Nikhil Devnani, senior machine learning engineer
Table of Contents
Part I. Inference
Chapter 1. Deploying Models
Chapter 2. Model Data
Part II. Production Readiness
Chapter 3. Kubernetes and GPUs
Chapter 4. Running in Production
Chapter 5. Model Observability
Part III. Tuning
Chapter 6. Model Customization
Chapter 7. Job Scheduling Optimization
Part IV. AI‑Driven Apps
Chapter 8. AI‑Driven Applications
Chapter 9. Running Agentic Applications in Production
About the Author
Dr. Roland Huß is a distinguished engineer at Red Hat with over 25 years of experience in software engineering, specializing in infrastructure for AI-enabled applications, serverless architectures, and cloud native platforms.
Daniele Zonca is a chief architect at Red Hat, responsible for the technical vision of Red Hat AI offerings on Kubernetes. He specializes in enterprise AI adoption using open source projects including TrustyAI, KServe, vLLM, llm-d, and Kubeflow.









