Building Robust, Open, and High-Performing Data Lakehouses
Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro

#Lakehouse
#Apache_Hudi
🛠️ با استفاده از Apache Hudi، بر چالشهای ایجاد تضمینهای تراکنشی روی دادههایی که به سرعت تغییر میکنن، غلبه کن.
🌊 با این راهنمای کاربردی، مهندسان داده، معماران داده و معماران نرمافزار یاد میگیرن که چطور یک لیکهاوس (Lakehouse) تعاملپذیر رو از منابع دادهای پراکنده بسازن و با استفاده از موتور کوئری دلخواهشون، بینشهای سریعتری رو ارائه بدن.
✨ ویژگیهای کلیدی
• درک نیاز به لیکهاوسهای داده تراکنشی و چالشهای مرتبط با ساخت اونها
• بررسی پشتیبانی اکوسیستم داده توسط Apache Hudi برای منابع داده و موتورهای کوئری محبوب
• انجام عملیات مختلف نوشتن و خواندن روی جداول Apache Hudi و استفاده موثر از اونها برای موارد مختلف، شامل اپلیکیشنهای بچ (Batch) و استریم
• اعمال تکنیکها و ملاحظات مختلف ذخیرهسازی مثل ایندکسگذاری و کلاسترینگ (Clustering) برای ماکزیمم کردن کارایی لیکهاوس
• ساخت پایپلاینهای داده افزایشی (Incremental) سرتاسری با استفاده از Apache Hudi برای دریافت سریعتر دادهها و تحلیلهای تازهتر
📚 توضیحات کتاب
👨💻 نویسندگان کتاب، شیان ژو، پراشانت واسون، باوانی سودا ساکتیسواران و ربکا بیلبرو، مثالهای کاربردی و بینشهایی رو ارائه میدن تا بهت کمک کنن پتانسیل کامل لیکهاوسهای داده رو برای سطوح مختلف تحلیل، از بچ گرفته تا تعاملی و استریمینگ، آزاد کنی.
🚀 همچنین یاد میگیری چطور انتخابهای ذخیرهسازی رو ارزیابی کنی و از بهینهسازیهای خودکار جداول (Built-in automated table optimizations) برای ساخت، نگهداری و عملیاتی کردن اپلیکیشنهای داده در محیط پروداکشن (Production) استفاده کنی.
این کتاب بهت نشون میده چطور میتونی با استفاده از Hudi Streamer پایپلاینهای قدرتمند بسازی و چطور کنترل همزمانی (Concurrency Control) رو مدیریت کنی تا دادههات همیشه دقیق و قابل اعتماد باشن.
📑 فهرست مطالب
فصل ۱: آپاچی هودی (Apache Hudi) چیست؟
فصل ۲: شروع کار با هودی
فصل ۳: نوشتن در هودی
فصل ۴: خواندن از هودی
فصل ۵: دستیابی به کارایی با ایندکسگذاری
فصل ۶: نگهداری و بهینهسازی جداول هودی
فصل ۷: کنترل همزمانی (Concurrency Control) در هودی
فصل ۸: ساخت لیکهاوس با استفاده از هودی استریمر (Hudi Streamer)
فصل ۹: اجرای هودی در محیط عملیاتی (Production)
فصل ۱۰: ساخت یک راهکار لیکهاوس سرتاسری (End-to-End)
👨💻 نویسندگان کتاب، شیان ژو، پراشانت واسون، باوانی سودا ساکتیسواران و ربکا بیلبرو، مثالهای کاربردی و بینشهایی رو ارائه میدن تا بهت کمک کنن پتانسیل کامل لیکهاوسهای داده رو برای سطوح مختلف تحلیل، از بچ گرفته تا تعاملی و استریمینگ، آزاد کنی.
🚀 همچنین یاد میگیری چطور انتخابهای ذخیرهسازی رو ارزیابی کنی و از بهینهسازیهای خودکار جداول (Built-in automated table optimizations) برای ساخت، نگهداری و عملیاتی کردن اپلیکیشنهای داده در محیط پروداکشن (Production) استفاده کنی.
این کتاب بهت نشون میده چطور میتونی با استفاده از Hudi Streamer پایپلاینهای قدرتمند بسازی و چطور کنترل همزمانی (Concurrency Control) رو مدیریت کنی تا دادههات همیشه دقیق و قابل اعتماد باشن.
Plaintext
🔹 شیان ژو (Shiyan Xu): مهندس بنیانگذار در Onehouse و در حال حاضر به عنوان مهندس متنباز فعالیت میکنه. او از سال ۲۰۱۹ مشارکتکننده فعال Apache Hudi بوده و از سال ۲۰۲۱ عضو PMC این پروژه است. قبلاً در Zendesk رهبری توسعه پلتفرم دریاچه داده مقیاس بزرگ رو بر عهده داشته.
🔹 پراشانت واسون (Prashant Wason): مهندس ارشد نرمافزار در Uber Technologies و عضو PMC پروژه Apache Hudi. او هم از سال ۲۰۱۹ با ویژگیهایی مثل Metadata Table و Record Index به این پروژه کمک کرده و بیش از ۱۵ سال تجربه در حوزه زیرساخت داده و ذخیرهسازی داره.
🔹 سودا ساکتیسواران (Sudha Saktheeswaran): مهندس نرمافزار در Onehouse و عضو PMC پروژه Apache Hudi. او تجربه گستردهای در سیستمهای داده توزیعشده و بلادرنگ (Real-time) از طریق کار در تیمهای زیرساخت داده Moveworks، Uber و Linkedin داره و یکی از مشارکتکنندگان اصلی در ادغامهای اولیه Presto با Hudi بوده.
🔹 دکتر ربکا بیلبرو (Dr. Rebecca Bilbro): دیتا ساینتیست، برنامهنویس پایتون و نویسنده ساکن واشنگتن دیسی. تخصص او در مصورسازی دادهها برای یادگیری ماشین، از تحلیل ویژگیها تا انتخاب مدل و تنظیم ابرپارامترهاست. او همبنیانگذار و مدیر ارشد فنی Rotational Labs است.
Overcome challenges in building transactional guarantees on rapidly changing data by using Apache Hudi. With this practical guide, data engineers, data architects, and software architects will discover how to seamlessly build an interoperable lakehouse from disparate data sources and deliver faster insights using your query engine of choice.
Authors Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, and Rebecca Bilbro provide practical examples and insights to help you unlock the full potential of data lakehouses for different levels of analytics, from batch to interactive to streaming. You'll also learn how to evaluate storage choices and leverage built-in automated table optimizations to build, maintain, and operate production data applications.
Table of Contents
Chapter 1. What Is Apache Hudi?
Chapter 2. Getting Started with Hudi
Chapter 3. Writing to Hudi
Chapter 4. Reading from Hudi
Chapter 5. Achieving Efficiency with Indexing
Chapter 6. Maintaining and Optimizing Hudi Tables
Chapter 7. Concurrency Control in Hudi
Chapter 8. Building a Lakehouse Using Hudi Streamer
Chapter 9. Running Hudi in Production
Chapter 10. Building an End-to-End Lakehouse Solution
Shiyan Xu is a Founding Engineer at Onehouse and currently working as an Open Source Engineer. He has been an active contributor to Apache Hudi since 2019, and is serving as a PMC member of the project since 2021. Prior to joining Onehouse, Shiyan worked as a tech lead manager at Zendesk, leading the development of a large-scale data lake platform using Apache Hudi. He is passionate about open source development and engaging with community users.
Prashant Wason is a Staff Software Engineer at Uber Technologies and a PMC member of the Apache Hudi project. He has been an active contributor to the Hudi project since 2019 with features like Metadata Table and Record Index. Prashant has been working in the Storage and Data Infrastructure space for over 15 years.
Sudha Saktheeswaran is a Software Engineer at Onehouse and a PMC member of the Apache Hudi project. She comes with vast experience in real-time and distributed data systems through her work at Moveworks, Uber and Linkedin’s data infra teams. Sudha is also a key contributor to the early Presto integrations of Hudi. She is passionate about engaging with and driving the Hudi community.
Dr. Rebecca Bilbro is a data scientist, Python programmer, and author in Washington, DC. She specializes in data visualization for machine learning, from feature analysis to model selection and hyperparameter tuning. Rebecca is an active contributor to the open source community and has conducted research on natural language processing, semantic network extraction, entity resolution, and high dimensional information visualization. She earned her doctorate from the University of Illinois, Urbana-Champaign, where her research centered on communication and visualization practices in engineering. Rebecca is co-founder and CTO of Rotational Labs.









