Efficient AI for local deployment
Guglielmo Iozzia

#SLM
#LLM
#ONNX
💻 وقتی نیاز داری یک مدل زبانی با دقت و سرعت بالا در یک حوزه دانش خاص پاسخگو باشه، ظرفیت گسترده و پراکنده یک مدل زبانی بزرگ (LLM) ممکنه بیشتر از اینکه کمک کنه، آسیبرسان باشه. این کتاب بهت یاد میده چطور مدلهای هوش مصنوعی مولد رو برای حوزههای تخصصی بهینهسازی کنی.
🛠️ مدلهای زبانی کوچک (SLM) که برای محیطهای دارای محدودیت هزینه یا سختافزار ایدهآل هستن، روی دادههای تخصصی یک حوزه خاص آموزش میبینن تا نتایجی با کیفیت بالا در وظایف مشخص ارائه بدن. در این کتاب، مدلهای زبانی کوچکی توسعه میدی که میتونن همهچیز، از کد پایتون گرفته تا ساختارهای پروتئینی و توالیهای آنتیبادی رو روی سختافزارهای معمولی تولید کنن.
📘 در کتاب مدلهای زبانی کوچک تخصصی این موارد رو کشف میکنی:
• بهترین روشهای تعیین سایز مدل
• کتابخانهها، فریمورکها، ابزارها و محیطهای اجرای متنباز
• تکنیکهای Fine-tuning برای مجموعهدادههای سفارشی
• کتابخانههای هاگینگ فیس برای مدلهای زبانی کوچک
• اجرای مدلهای زبانی کوچک روی سختافزارهای معمولی
• بهینهسازی مدل یا کوانتیزاسیون (Quantization)
✍️ پیشگفتار از متیو آر. ورساجی.
🚀 درباره فناوری
🛡️ مدلهای زبانی با حجم کم که روی مجموعهدادههای سفارشی آموزش دیدن و به صورت محلی میزبانی میشن، میتونن از نظر سرعت و دقت به اندازه مدلهای عمومی بزرگ عمل کنن، اون هم اغلب با کسری از هزینه. کتاب مدلهای زبانی کوچک تخصصی بهت نشون میده چطور مدلهای زبانی کوچکی بسازی که حریم خصوصی رو حفظ میکنن و با مقررات سازگار هستن تا در سیستمهای عاملمحور (Agentic Systems)، برنامههای تخصصی و پیادهسازی در لبه شبکه (Edge) استفاده بشن.
📖 درباره کتاب
💡 این یک کتاب کاربردیه که بهت نشون میده چطور با استفاده از یادگیری انتقالی (Transfer Learning) و Fine-tuning کارآمد با پارامتر (PEFT)، مدلهای متنباز پیشآموزشدیده رو با حوزه تخصصی خودت سازگار کنی. یاد میگیری که هزینهها رو از طریق بهینهسازی و کوانتیزاسیون به حداقل برسونی، APIهای امن برای سرویسدهی مدلهای خودت توسعه بدی و مدلهای زبانی کوچک رو روی سختافزارهای معمولی، از جمله دستگاههای کوچک، مستقر کنی. مثالهای عملی کتاب شامل ادغام مدلهای زبانی کوچک در سیستمهای RAG و گردشهای کاری عاملمحور میشه.
🔍 آنچه در داخل کتاب است
• روش ONNX و سایر متدهای کوانتیزاسیون
• ادغام مدلهای زبانی کوچک در برنامههای جامع و پایانی
• مستقر کردن مدلهای زبانی کوچک روی لپتاپها، گوشیهای هوشمند و سایر دستگاهها
📋 فهرست مطالب
بخش 1. قدمهای اول
فصل 1. مدلهای زبانی کوچک
بخش 2. مدلهای زبانی بزرگ اصلی و تخصصی یک حوزه
فصل 2. تنظیم کردن برای یک حوزه مشخص
فصل 3. فاینتیونینگ جامع ترنسفورمر
فصل 4. اجرای اینفرنس
فصل 5. کاوش در ONNX
فصل 6. کوانتیزاسیون برای محیط پروداکشن شما
بخش 3. نمونههای واقعی و کاربردی
فصل 7. تولید کد پایتون
فصل 8. تولید ساختارهای پروتئینی
بخش 4. مفاهیم پیشرفته
فصل 9. تکنیکهای پیشرفته کوانتیزاسیون
فصل 10. بینشهای پروفایلینگ و تحلیل سیستم
فصل 11. دپلوی و سرویسدهی
فصل 12. اجرا روی لپتاپ شما
فصل 13. ساخت برنامههای جامع مدل زبانی بزرگ
فصل 14. کامپوننتهای پیشرفته برای برنامههای مدل زبانی بزرگ
فصل 15. محاسبات زمان تست و مدلهای زبانی کوچک
🎯 درباره مخاطب کتاب
👨💻 برای مهندسان هوش مصنوعی که با پایتون آشنایی دارن.
✍️ درباره نویسنده
👨خوشنام گولیلمو اوزیا مدیر بخش هوش مصنوعی/یادگیری ماشین و ریاضیات کاربردی در شرکت اماسدی است. اون در دانشگاه بولونیا در رشته مهندسی الکترونیک و بیومدیکال تحصیل کرده و سابقه گستردهای در مهندسی نرمافزار و هوش مصنوعی/یادگیری ماشین کاربردی در پروژههای واقعی در صنایع مختلف مثل تولید بیوتکنولوژی، مراقبتهای بهداشتی، عملیات ابری و امنیت سایبری داره.
When you need a language model to respond accurately and quickly about a specific field of knowledge, the sprawling capacity of a LLM may hurt more than it helps. This book teaches you to build generative AI models optimized for specific fields.
Perfect for cost- or hardware-constrained environments, Small Language Models (SLMs) train on domain specific data for high-quality results in specific tasks. In this book you’ll develop SLMs that can generate everything from Python code to protein structures and antibody sequences—all on commodity hardware.
In Domain-Specific Small Language Models you’ll discover:
• Model sizing best practices
• Open source libraries, frameworks, utilities and runtimes
• Fine-tuning techniques for custom datasets
• Hugging Face’s libraries for SLMs
• Running SLMs on commodity hardware
• Model optimization or quantization
Foreword by Matthew R. Versaggi.
About the technology
Small-footprint language models trained on custom data sets and hosted locally can perform as well as large generalist models in speed and accuracy, often at a fraction of the cost. Domain-Specific Small Language Models shows you how to build privacy-preserving and regulation-compliant SLMs for agentic systems, specialist applications, and deployment on the edge.
About the book
This is a practical book that shows you how to adapt pretrained open source models to your domain using transfer learning and parameter-efficient fine-tuning. You’ll learn to minimize cost through optimization and quantization, develop secure APIs to serve your models, and deploy SLMs on commodity hardware—including small devices. The hands-on examples include integrating SLMs into RAG systems and agentic workflows.
What's inside
• ONNX and other quantization methods
• Integrate SLMs into end-to-end applications
• Deploy SLMs on laptops, smartphones, and other devices
Table of Contents
Part 1 First Steps
1. Small language models
Part 2 Core domain-specific LLMs
2. Tuning for a specific domain
3. End-to-end transformer fine-tuning
4. Running inference
5. Exploring ONNX
6. Quantizing for your production environment
Part 3 Real-world use cases
7. Generating Python code
8. Generating protein structures
Part 4 Advanced concepts
9. Advanced quantization techniques
10. Profiling insights
11. Deployment and serving
12. Running on your laptop
13. Creating end-to-end LLM applications
14. Advanced components for LLM applications
15. Test-time compute and small language models
About the reader
For AI engineers familiar with Python.
About the Author
Guglielmo Iozzia is a Director, ML/AI and Applied Mathematics at MSD. He studied Electronic and Biomedical Engineering at the University of Bologna, has an extensive background in Software and ML/AI Engineering applied to real-life use cases across different industries, such as Biotech Manufacturing, Healthcare, Cloud Operations, and Cyber Security.









