Nicole Koenigstein

#Transformers
#LLM
#ChatGPT
#Gemini
#Claude
🤖 درک معماری پشت قدرتمندترین مدلهای هوش مصنوعی امروز، یعنی شناخت ترنسفورمرها – قلب تپندهی مدلهای زبانی بزرگ مثل ChatGPT، Gemini و Claude.
🛠 کتاب Transformers in Action هم بینش عمیق میده، هم تکنیکهای عملی و کلی نمونهکد، تا بتونی مدلهای ترنسفورمر آموزشدیده را برای کارهای جدید و خاص شخصیسازی و سازگار کنی.
🧩 ترنسفورمرها و LLMها چطور کار میکنند
🏛 خانوادههای مدل و نسخههای مختلف معماری
⚡ مدلهای زبانی بزرگ کارآمد و تخصصی
🔄 سازگار کردن مدلهای HuggingFace برای وظایف جدید
🔍 خودکارسازی جستجوی هایپرتیونها با Ray Tune و Optuna
📈 بهینهسازی عملکرد LLMها
✏️ پرامپتنویسی پیشرفته و یادگیری صفر/کمنمونه
🕹 تولید متن با یادگیری تقویتی (Reinforcement Learning)
🛡 ساخت مدلهای مسئولانه و اخلاقی
📚 نویسنده Nicole Koenigstein از پنجرهی ریاضیات و نظریه، معماری ترنسفورمر رو به شکل عملی با نوتبوکهای اجرایی Jupyter آموزش میده. علاوه بر پرامپتانجینیرینگ، روشهای تستشدهی بهینهسازی و تیون LLM را پوشش میده. حتی سراغ موضوعات منحصربهفرد مثل اخلاق در AI، مدلهای کوچک تخصصی و معماری Encoder-Decoder هم میره.
🧠 ترنسفورمرها از مکانیزم Self-Attention استفاده میکنند که به شبکه اجازه میده هر بخش ورودی رو در زمینهی سایر بخشها ارزیابی کنه. خروجی این معماری: درک و تولید زبان طبیعی، ترجمه، خلاصهسازی متن، و حتی نوشتن کد با روانی و انسجام بالاست.
🔍 این کتاب با دقت به طراحی و پایههای ریاضی ترنسفورمر میپردازه. معماری رو از نظر سرعت، مقیاسپذیری و بازیابی اطلاعات بررسی میکنه، به همراه کاربردهایی مثل RAG و مدلهای چندحالته (Multi-modal). یاد میگیری چطور آموزش رو با تکنیکهای نمونهگیری و دیکودینگ پیشرفته بهینه کنی، و با یادگیری تقویتی مدل رو با ترجیحات انسانی هماهنگ کنی. همهچیز با مثالهای واقعی و نوتبوکهای اجرایی پیش میره، تا مبحث رو در عمل ببینی.
بخش ۱ – پایههای مدلهای ترنسفورمر مدرن
بخش ۲ – ترنسفورمرهای مولد
بخش ۳ – مدلهای تخصصی
📍 نیکول کوینگستاین، دانشمند داده و پژوهشگر کمی، مدیر ارشد داده و رئیس بخش AI و تحقیقات کمی در Wyden Capital است؛ تجربهی زیادی در طراحی و اجرای پروژههای دادهمحور و مدلسازی پیشرفته دارد.
Understand the architecture that underpins today’s most powerful AI models.
Transformers are the superpower behind large language models (LLMs) like ChatGPT, Gemini, and Claude. Transformers in Action gives you the insights, practical techniques, and extensive code samples you need to adapt pretrained transformer models to new and exciting tasks.
Inside Transformers in Action you’ll learn:
• How transformers and LLMs work
• Modeling families and architecture variants
• Efficient and specialized large language models
• Adapt HuggingFace models to new tasks
• Automate hyperparameter search with Ray Tune and Optuna
• Optimize LLM model performance
• Advanced prompting and zero/few-shot learning
• Text generation with reinforcement learning
• Responsible LLMs
Transformers in Action takes you from the origins of transformers all the way to fine-tuning an LLM for your own projects. Author Nicole Koenigstein demonstrates the vital mathematical and theoretical background of the transformer architecture practically through executable Jupyter notebooks. You’ll discover advice on prompt engineering, as well as proven-and-tested methods for optimizing and tuning large language models. Plus, you’ll find unique coverage of AI ethics, specialized smaller models, and the decoder encoder architecture.
Foreword by Luis Serrano.
About the technology
Transformers are the beating heart of large language models (LLMs) and other generative AI tools. These powerful neural networks use a mechanism called self-attention, which enables them to dynamically evaluate the relevance of each input element in context. Transformer-based models can understand and generate natural language, translate between languages, summarize text, and even write code—all with impressive fluency and coherence.
About the book
Transformers in Action introduces you to transformers and large language models with careful attention to their design and mathematical underpinnings. You’ll learn why architecture matters for speed, scale, and retrieval as you explore applications including RAG and multi-modal models. Along the way, you’ll discover how to optimize training and performance using advanced sampling and decoding techniques, use reinforcement learning to align models with human preferences, and more. The hands-on Jupyter notebooks and real-world examples ensure you’ll see transformers in action as you go.
What's inside
• Optimizing LLM model performance
• Adapting HuggingFace models to new tasks
• How transformers and LLMs work under the hood
• Mitigating bias and responsible ethics in LLMs
About the reader
For data scientists and machine learning engineers.
About the author
Nicole Koenigstein is the Co-Founder and Chief AI Officer at the fintech company Quantmate.
Table of Contents
Part 1. Foundations of Modern Transformer Models
1. The need for transformers
2. A deeper look into transformers
Part 2. Generative Transformers
3. Model families and architecture variants
4. Text generation strategies and prompting techniques
5. Preference alignment and retrieval-augmented generation
Part 3. Specialized Models
6. Multimodal models
7. Efficient and specialized small language models
8. Training and evaluating large language models
9. Optimizing and scaling large language models
10. Ethical and responsible large language models
About the Author
Nicole Koenigstein is a distinguished Data Scientist and Quantitative Researcher. She is presently the Chief Data Scientist and Head of AI & Quantitative Research at Wyden Capital.






