50+ Essential Concepts Using R and Python
Peter Bruce, Andrew Bruce, and Peter Gedeck

#AI
#AI_Assisted
#Data_Scientists
#Python
#Data_Analysis
#Machine_Learning
#Networks
#LLM
#Deep_Learning
#ChatGPT
#Claude
#Gemini
📊 روشهای آماری بخش کلیدی Data Science هستن، اما تعداد کمی از دانشمندهای داده آموزش رسمی آمار دیدهاند. دورهها و کتابهای آمار پایه هم معمولاً این موضوع رو از زاویه Data Science پوشش نمیدن. ویرایش سوم این راهنمای محبوب، پایههای عملی خودش در R و Python رو وارد جعبهابزار مدرن AI میکنه؛ با فصلهای جدید درباره شبکههای عصبی، Deep Learning و مدلهای زبانی بزرگ. Generative AI در سراسر کتاب ادغام شده و نشون میده ابزارهایی مثل ChatGPT، Claude و Gemini چطور کار میکنن و چطور میتونن از ورکفلوهای آماری دنیای واقعی پشتیبانی کنن.
🧠 این کتاب روی کانسپتهایی دست میذاره که وقتی با داده کار میکنی، مدلهای پیشبینیگر میسازی و AI رو مسئولانه دیپلوی میکنی، بیشترین اهمیت رو دارن. اگر با R یا Python راحتی و کمی هم با آمار پایه آشنا شدی، این مرجع جمعوجور سواد آماریات، فهمت از اینکه AI چطور کار میکنه، و اعتمادبهنفست در پروژههای واقعی Data Science و AI رو بالاتر میبره.
🎯 چیزهایی که یاد میگیری
🔍 تحلیل اکتشافی داده انجام میدی تا کیفیت داده و خروجی مدلها بهتر بشه
🧪 از نمونهگیری و طراحی آزمایش استفاده میکنی تا Bias کمتر بشه و سؤالها با شفافیت بیشتری جواب داده بشن
📈 از رگرسیون استفاده میکنی تا فرایندهای تولید داده رو بفهمی و ناهنجاریها رو تشخیص بدی
🤖 مدلهای پیشبینیگر میسازی؛ با استفاده از Classification، Clustering و یادگیری بدونناظر روی دادههای نامتوازن
📖 فهرست مطالب
فصل ۱. تحلیل اکتشافی داده
فصل ۲. داده و توزیعهای نمونهگیری
فصل ۳. آزمایشهای آماری و آزمون معناداری
فصل ۴. رگرسیون و پیشبینی
فصل ۵. طبقهبندی
فصل ۶. یادگیری ماشین آماری
فصل ۷. یادگیری بدونناظر
فصل ۸. شبکههای عصبی
فصل ۹. Deep Learning
فصل ۱۰. Generative AI و مدلهای زبانی بزرگ
فصل ۱۱. هشدارها و دغدغهها
📌 از مقدمه کتاب
📘 این کتاب که با فصلها و مطالب جدید گسترده درباره AI بهروز شده، یعنی شبکههای عصبی، Deep Learning و Generative AI، برای دانشمند داده و مهندس یادگیری ماشین نوشته شده؛ کسی که قبلاً یک آشنایی اولیه، شاید پراکنده یا کمدوام، با آمار داشته. مثالها با زبانهای برنامهنویسی R و/یا Python ارائه شدهاند. آشنایی با این زبانها مفیده، اما با قابلیتهای Vibe Coding در ابزارهای AI مدرن، حتی کسانی که پیشزمینه برنامهنویسی ندارن هم میتونن از این کتاب استفاده کنن.
📊 دو نفر از نویسندهها از دنیای آمار وارد دنیای Data Science شدهاند و قدر سهمی رو که آمار میتونه به هنر Data Science اضافه کنه، میدونن. همزمان، ما کاملاً از محدودیتهای آموزش سنتی آمار هم آگاهیم: آمار بهعنوان یک رشته، حدود یک قرن و نیم قدمت داره، و بیشتر کتابها و دورههای آمار، با وزن و اینرسی یک کشتی اقیانوسپیما جلو میرن. روشهایی که در بخش اول این کتاب میاد، از نظر تاریخی یا متدولوژیک، به رشته آمار وصلن. شبکههای عصبی، یعنی ستون فقرات AI مدرن، بیشتر از دل علوم کامپیوتر رشد کردهاند و در بخشهای پایانی کتاب پوشش داده میشن.
💻 دانشمندهای داده، متخصصهای یادگیری ماشین و مهندسهای نرمافزار، AI رو بهعنوان یک ابزار قدرتمند برای کدنویسی میشناسن. Vibe Coding به توانایی مدلهای AI اشاره داره که بر اساس مشخصاتی که به زبان انگلیسی یا یک زبان طبیعی دیگه نوشته شده، یعنی یک پرامپت، کد تولید میکنن. کانسپت مرتبط دیگه، Agentic Coding، گستردهتره و اجرای خودکار تسکها توسط ایجنتهای AI رو در یک ورکفلو ساختاریافته پوشش میده؛ ورکفلویی که شامل مشخص کردن هدف و تسک، تستینگ، ولیدیشن و نظارت میشه. در این کتاب، مثالهایی با R و Python نشون داده شده، و فصلهای ابتدایی، یعنی فصلهایی که روی آمار تمرکز دارن، بیشتر در پایان فصلها درباره استفاده از Vibe Coding صحبت میکنن. فصلهای بعدی عمیقتر وارد AI میشن و درباره استفاده از اون برای کدنویسی با جزئیات بیشتری حرف میزنن.
❓ چرا باید درباره آمار، کدنویسی و مدلهایی که زیرساخت AI رو میسازن یاد بگیریم، وقتی مدلهای زبانی بزرگ یا LLMها میتونن کار رو برامون انجام بدن؟ اگر میتونی از AI مثل یک ابزار شبهجادویی برای انجام کارت استفاده کنی، چرا واقعاً باید کانسپتهای پشتش رو بفهمی؟
⚠️ چرا هنوز باید مفاهیم پایه رو بفهمی
🔸 AI میتونه اشتباه کنه؛ اشتباههایی که شاید خیلی راحت به چشم نیان.
🔸 اگر AI درست در آمار و Data Science استفاده بشه، ازت سؤال میپرسه و گزینههایی پیشنهاد میده که برای جواب دادن بهشون باید کمی از کانسپتهای آماری پشت ماجرا رو بفهمی.
🔸 اگر تا حدی بفهمی شبکههای عصبی چطور کار میکنن و چطور بر پایه آمار و یادگیری ماشین، Deep Learning و Generative AI رو ممکن میکنن، بهتر میتونی نقطهقوتها و ضعفهاشون رو بشناسی.
🔸 AI در ارائه راهحلهای «کتابی» برای مسئلههای آماری خوشتعریف خیلی مؤثره، اما هنوز توانایی اون نوع تفکر انتقادی و حل مسئلهای رو نداره که برای جلو بردن یک پروژه مبهم Data Science از ابتدا تا انتها لازم میشه.
📊 هدف کتاب درباره آمار
🔹 کانسپتهای کلیدی آمار رو که برای Data Science مهمن، به شکلی قابلهضم، قابلناوبری و راحت برای ارجاع ارائه بده.
🔹 توضیح بده کدوم کانسپتها از زاویه Data Science مهم و مفیدن، کدومها کمتر اهمیت دارن، و چرا.
🤖 هدف کتاب درباره AI
🔹 یک نمای مفهومی سطح بالا و غیرتکنیکال از پایههای آماری و یادگیری ماشین، و الگوریتمهای فعلی شبکههای عصبی، Deep Learning و Generative AI ارائه بده.
🔹 استفاده از Generative AI برای تحلیل آماری رو با مثال نشون بده.
📌 توجه کن که این کتاب قرار نیست یک راهنمای عملی برای متخصصهای Deep Learning و Generative AI باشه.
👤 درباره نویسندگان
✍️ پیتر بروس مؤسسه Institute for Statistics Education را در Statistics.com بنیانگذاری کرد و رشد داد؛ مؤسسهای که حالا حدود صد دوره در زمینه آمار ارائه میده و تقریباً یکسوم اونها برای دانشمندهای داده طراحی شدهاند. پیتر با جذب نویسندههای برتر بهعنوان مدرس و ساختن یک استراتژی مارکتینگ برای رسیدن به دانشمندهای داده حرفهای، هم دید گستردهای نسبت به بازار هدف به دست آورده و هم تخصص خودش رو برای دسترسی به اون بازار توسعه داده.
📊 اندرو بروس بیش از ۳۰ سال تجربه در آمار و Data Science در محیطهای دانشگاهی، دولتی و کسبوکاری داره. او دکترای آمار از University of Washington گرفته و مقالههای زیادی در ژورنالهای داوریشده منتشر کرده. اندرو راهکارهای مبتنی بر آمار برای طیف گستردهای از مسئلهها توسعه داده؛ مسئلههایی که صنایع مختلف باهاشون روبهرو بودن، از شرکتهای مالی جاافتاده گرفته تا استارتاپهای اینترنتی. او درک عمیقی از عمل واقعی Data Science ارائه میده.
🧪 پیتر گدک بیش از ۳۰ سال تجربه در محاسبات علمی و Data Science داره. او بعد از ۲۰ سال کار بهعنوان شیمیدان محاسباتی در Novartis، حالا بهعنوان Senior Data Scientist در Collaborative Drug Discovery کار میکنه. تخصص او توسعه الگوریتمهای یادگیری ماشین برای پیشبینی ویژگیهای زیستی و فیزیکوشیمیایی کاندیداهای دارویی است. او همنویسنده کتاب Machine Learning for Business Analytics است، دکترای شیمی خودش رو از University of Erlangen-Nuernberg در آلمان گرفته و ریاضی رو در Fernuniversitaet Hagen آلمان خوانده.
Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The third edition of this popular guide expands its practical foundations in R and Python into the modern AI toolkit, with new chapters on neural networks, deep learning, and large language models. Generative AI is integrated throughout, showing how tools such as ChatGPT, Claude, and Gemini work, and how they can support real-world statistical workflows.
This book highlights concepts that matter most when working with data, building predictive models, and deploying AI responsibly. If you're comfortable with R or Python and have had some exposure to basic statistics, this concise reference will boost your statistical literacy, your understanding of how AI works, and your confidence in real-world data science and AI projects.
Table of Contents
Chapter 1. Exploratory Data Analysis
Chapter 2. Data and Sampling Distributions
Chapter 3. Statistical Experiments and Significance Testing
Chapter 4. Regression and Prediction
Chapter 5. Classification
Chapter 6. Statistical Machine Learning
Chapter 7. Unsupervised Learning
Chapter 8. Neural Networks
Chapter 9. Deep Learning
Chapter 10. Generative AI and Large Language Models
Chapter 11. Caveats and Concerns
From the Preface
This book, which has been updated with extensive new chapters and material on AI (neural networks, deep learning, and generative AI), is aimed at the data scientist and the machine learning engineer who has some prior (perhaps spotty or ephemeral) exposure to statistics. Illustrations are provided using the R and/or Python programming languages. Some familiarity with those languages is useful, but, with the vibe coding capabilities of modern AI tools, even those with no programming background can benefit from this book.
Two of the authors came to the world of data science from the world of statistics, and have some appreciation of the contribution that statistics can make to the art of data science. At the same time, we are well aware of the limitations of traditional statistics instruction: statistics as a discipline is a century and a half old, and most statistics textbooks and courses are laden with the momentum and inertia of an ocean liner. The methods in the first portion of this book have some connection—historical or methodological—to the discipline of statistics. Neural nets—the underpinning of modern AI—evolved mainly out of computer science and are covered in the latter part of the book.
Data scientists, machine learning practitioners, and software engineers have come to know AI as a powerful coding tool. Vibe coding refers to the ability of AI models to produce code based on specifications (a prompt) written in English or some other natural language. A related concept, agentic coding, is broader, covering autonomous task execution by AI agents within a structured workflow that includes goal and task specification, testing, validation, and oversight. In this book, examples in R and Python are shown, and the initial chapters (the ones that focus on statistics) discuss the use of vibe coding, primarily at the conclusion of the chapters. The latter chapters discuss AI in more depth, and go into more detail on its use for coding.
Why learn about statistics, coding, and the models that underpin AI if large language models (LLMs) can do the work for you? If you can use AI as a quasi-magical tool to do your work, why do you really need to understand the underlying concepts?
With respect to statistics, this book seeks to:
With respect to AI, this book seeks to:
Note that this book is not intended as a practitioners guide to deep learning and generative AI.
Peter Bruce founded and grew the Institute for Statistics Education at Statistics.com, which now offers about one hundred courses in statistics, roughly a third of which are aimed at the data scientist. In recruiting top authors as instructors and forging a marketing strategy to reach professional data scientists, Peter has developed both a broad view of the target market and his own expertise to reach it.
Andrew Bruce has over 30 years of experience in statistics and data science in academia, government, and business. He has a PhD in statistics from the University of Washington and has published numerous papers in refereed journals. He has developed statistical-based solutions to a wide range of problems faced by a variety of industries, from established financial firms to internet startups, and offers a deep understanding of the practice of data science.
Peter Gedeck has over 30 years of experience in scientific computing and data science. After 20 years as a computational chemist at Novartis, he now works as a senior data scientist at Collaborative Drug Discovery. He specializes in the development of machine learning algorithms to predict biological and physicochemical properties of drug candidates. Coauthor of Machine Learning for Business Analytics, he earned a PhD in chemistry from the University of Erlangen-Nuernberg in Germany and studied mathematics at the Fernuniversitaet Hagen, Germany.









