0
نام کتاب
Build a Text-to-Image Generator (from Scratch)

Mark Liu

Paperback362 Pages
PublisherManning
Edition1
LanguageEnglish
Year2026
ISBN9781633435421
947
A6609
انتخاب نوع چاپ:
جلد سخت
1,012,000ت
0
جلد نرم
882,000ت
0
طلق پاپکو و فنر
902,000ت
0
مجموع:
0تومان
کیفیت متن:اورجینال انتشارات
قطع:B5
رنگ صفحات:دارای متن و کادر رنگی
پشتیبانی در روزهای تعطیل!
ارسال به سراسر کشور

#AI

#Text-to-Image

#LLM

توضیحات

این کتاب دقیقاً همون چیزیه که برای درک عمیق پشت‌صحنه مدل‌های تولید تصویر نیاز داری. قراره از صفر و مرحله‌به‌مرحله یاد بگیری چطور مدل‌هایی بسازی که متن رو میگیرن و تصویر تحویل میدن.


🤖 توی این مسیر با دو تا غول دنیای هوش مصنوعی یعنی Vision Transformers و Diffusion Models دست‌وپنج نرم می‌کنی و یاد می‌گیری چطور این مدل‌ها رو شخصی‌سازی کنی یا توی پروژه‌های مولتی‌مدال ازشون استفاده کنی.


📑 فهرست مطالب

  1. داستان دو مدل: ترنسفورمرها و دیفیوژن‌ها
  2. ساخت یک ترنسفورمر
  3. طبقه‌بندی تصاویر با استفاده از Vision Transformer
  4. اضافه کردن کپشن به تصاویر
  5. تولید تصویر با مدل‌های دیفیوژن
  6. کنترل فرآیند تولید تصویر در مدل‌های دیفیوژن
  7. تولید تصاویر با رزولوشن بالا در مدل‌های دیفیوژن
  8. مدل CLIP: معیاری برای سنجش شباهت تصویر و متن
  9. تولید متن به تصویر با استفاده از Latent Diffusion
  10. عمیق شدن در مدل Stable Diffusion
  11. مدل VQGAN: تبدیل تصاویر به دنباله‌ای از اعداد صحیح
  12. پیاده‌سازی حداقلی مدل DALL-E
  13. چالش‌ها و پیشرفت‌های جدید در حوزه تولید متن به تصویر ضمیمه الف: نصب PyTorch و فعال‌سازی آموزش روی GPU به صورت محلی و در Colab


🌟 ویژگی‌های کلیدی

• ساخت و آموزش مدل‌هایی برای تولید تصاویر با کیفیت بالا بر اساس توضیحات متنی

• ویرایش تصاویر موجود فقط با استفاده از Prompt‌های متنی

• طراحی و آموزش مدلی برای کپشن‌نویسی خودکار روی عکس‌ها

• ساخت یک Vision Transformer برای دسته‌بندی و کلاس‌بندی تصاویر

• فاین‌تیون کردن مدل‌های زبانی بزرگ (LLM) برای کارهایی مثل تولید متن و تصویر

• تشخیص بهتر تصاویر واقعی از فیک (Deepfakes)


🚀 آنچه یاد خواهید گرفت

• درک عمیق معماری ترنسفورمرها و نحوه عملکرد فرآیند Denoising در دیفیوژن

• کار با کتابخانه‌های پایتونی و PyTorch برای پیاده‌سازی مدل‌های سنگین

• نحوه تبدیل تصاویر به توکن (Patch Tokenization) و بازسازی مجدد آن‌ها

• تسلط بر مدل‌هایی مثل Stable Diffusion و DALL-E از نمای نزدیک


👨‍💻 درباره نویسنده

دکتر مارک لیو، استاد دانشگاه کنتاکی و متخصص حوزه مالیه که بیش از 20 سال سابقه کدنویسی حرفه‌ای داره و پیچیده‌ترین مفاهیم هوش مصنوعی رو به زبان ساده و کاربردی توضیح میده.


این کتاب برای کسانی که پایتون بلدن و می‌خوان از لایه "کاربر ساده" فراتر برن و بفهمن زیر کاپوت این مدل‌های خفن چی میگذره، عالیه.


This book takes you step-by-step through creating your own AI models that can generate images from text. You’ll explore two methods of image generation—vision transformers and diffusion models—and learn vital AI development techniques as you go.


Dive into the powerful models behind AI image generators. The best way to learn is to build something from scratch, and in this book you’ll build your very own diffusion model and vision transformer. As you work through each stage of development, you’ll develop an understanding of how these models can be customized, applied, and integrated for impressive multimodal AI.


Build a Text-to-Image Generator (from Scratch) teaches you how to:


• Build and train models to generate high resolution images based on text descriptions

• Edit an existing image based on text prompts

• Build and train a model to add captions to images

• Build and train a vision transformer to classify images

• Fine-tune LLMs for downstream tasks such as classification, text or image generation

• Better differentiate real images from deepfakes


About the technology

AI-generated images appear everywhere from high-end advertising to casual social media feeds. Text-to-image tools like Dall-e, Midjourney, and Flux make it easy to create AI art, but how do they work? In this book, you’ll find out by building your own text-to-image generator!


About the book

Build a Text-to-Image Generator (from Scratch) explores both transformer-based image generation and diffusion models. You’ll work hands-on to build a pair of simple generation models that can classify images, automatically add captions, reconstruct images, and enhance existing graphics. Author Mark Liu guides you every step of the way with clear explanations, informative diagrams, and eye-opening examples you can build on your own laptop.


What's inside

• Build a vision transformer to classify images

• Edit images using text prompts

• Fine-tune image models


About the reader

Requires basic knowledge of generative AI models and intermediate Python skills.


Table of Contents

Part 1. Understanding attention 

1. A tale of two models: Transformers and diffusions

2. Build a transformer

3. Classify images with a vision transformer

4. Add captions to images


Part 2. Introduction to diffusion models

5. Generate images with diffusion models

6. Control what images to generate in diffusion models

7. Generate high-resolution images with diffusion models


Part 3. Text-to-image generation with diffusion models

8. CLIP: A model to measure the similarity between image and text

9. Text-to-image generation with latent diffusion

10. A deep dive into Stable Diffusion


Part 4. Text-to-image generation with transformers

11. VQGAN: Convert images into sequences of integers

12. A minimal implementation of DALL-E


Part 5. New developments and challenges

13. New developments and challenges in text-to-image generation


Appendix A Installing PyTorch and enabling GPU training locally and in Colab


why this book?

Build a Text-to-Image Generator (from Scratch) guides you step-by-step through building your own text-to-image generator - using both transformer-based and diffusion-based approaches - so you learn how modern image-generation systems (like Stable Diffusion or DALL·E) actually work under the hood.


Through practical, runnable examples (in Python/PyTorch), it helps you gain hands-on experience: you’ll build models that can generate images from text prompts, edit existing images based on prompts, caption images, classify images, or even detect deepfakes.


By the end, you’ll not only understand the theory — how vision transformers, patch tokenization, diffusion, and denoising work — but also have the skills to customize, fine-tune, and deploy your own multimodal AI models tailored to your data or creative needs.


About the Author

Dr. Mark Liu is a tenured finance professor and the founding director of the Master of Science in Finance program at the University of Kentucky. He has more than 20 years of coding experience, a Ph.D. in finance from Boston College.

دیدگاه خود را بنویسید
نظرات کاربران (0 دیدگاه)
نظری وجود ندارد.
کتاب های مشابه
Artificial intelligence
824
Building Generative AI Services with FastAPI
1,245,000 تومان
Artificial intelligence
638
The Complete Obsolete Guide to Generative AI
584,000 تومان
Artificial intelligence
1,405
The Midjourney Expedition
722,000 تومان
Artificial intelligence
1,065
Data-Driven HR
586,000 تومان
Artificial intelligence
981
Hugging Face in Action
789,000 تومان
Artificial intelligence
969
The Decision Intelligence Handbook
632,000 تومان
Artificial intelligence
1,024
AI as a Service
725,000 تومان
Artificial intelligence
1,286
Exploring GPT-3
733,000 تومان
Artificial intelligence
740
AI-Driven Cybersecurity and Threat Intelligence
552,000 تومان
Artificial intelligence
567
Artificial Intelligence and Machine Learning Powered Public Service De...
605,000 تومان
قیمت
منصفانه
ارسال به
سراسر کشور
تضمین
کیفیت
پشتیبانی در
روزهای تعطیل
خرید امن
و آسان
آرشیو بزرگ
کتاب‌های تخصصی
هـر روز با بهتــرین و جــدیــدتـرین
کتاب های روز دنیا با ما همراه باشید
آدرس
پشتیبانی
مدیریت
ساعات پاسخگویی
درباره اسکای بوک
دسترسی های سریع
  • راهنمای خرید
  • راهنمای ارسال
  • سوالات متداول
  • قوانین و مقررات
  • وبلاگ
  • درباره ما
چاپ دیجیتال اسکای بوک. 2024-2022 ©