خلاصه سریع: قیمت‌گذاری Databricks از یک مدل مبتنی بر مصرف استفاده می‌کند که واحدهای Databricks (DBU) را که برای هر نوع بار کاری شارژ می‌شود، با هزینه‌های زیرساخت ابری از AWS، Azure یا GCP ترکیب می‌کند. نرخ‌های DBU بسته به سطح اشتراک (استاندارد، ممتاز، سازمانی) و نوع محاسبات متفاوت است، به طوری که محاسبات وظایف (Jobs) با حدود 0.15 دلار در هر DBU شروع می‌شود و محاسبات همه منظوره (All-Purpose) 2 تا 3 برابر بیشتر هزینه دارد. هزینه‌های ماهانه کل به حجم بار کاری، پیکربندی خوشه و شیوه‌های بهینه‌سازی بستگی دارد.

قیمت‌گذاری Databricks تقریباً همه را گیج می‌کند. یک سوال ساده از هر رهبر مهندسی یا مدیر مالی بپرسید - «هزینه Databricks چقدر برای ما خواهد بود؟» - و پاسخ تقریباً همیشه به شکلی از «بستگی دارد» خواهد بود.

و این واقعاً درست است. این پلتفرم بر اساس یک ساختار هزینه دوگانه عمل می‌کند: واحدهای Databricks (DBU) برای بارهای کاری محاسباتی به علاوه هزینه‌های زیرساخت از هر ارائه‌دهنده ابری که پلتفرم را قدرت می‌دهد. آنچه این موضوع را به‌ویژه چالش‌برانگیز می‌کند این است که نرخ‌های DBU بر اساس سطح اشتراک، نوع بار کاری و منطقه ابری متفاوت است.

اما نکته اینجاست - هنگامی که چارچوب درک شود، قیمت‌گذاری Databricks قابل پیش‌بینی می‌شود. این راهنما دقیقاً توضیح می‌دهد که هزینه‌ها چگونه انباشته می‌شوند، چه چیزی مصرف DBU را هدایت می‌کند و کجا بهینه‌سازی واقعاً تأثیرگذار است.

Databricks چیست؟

Databricks یک پلتفرم مبتنی بر ابر برای تجزیه و تحلیل کلان داده، مهندسی داده و یادگیری ماشین مشارکتی است. این پلتفرم که بر پایه Apache Spark ساخته شده است، با ارائه‌دهندگان ابری اصلی - AWS، Azure و Google Cloud Platform - ادغام می‌شود و محیطی یکپارچه برای کار با Delta Lake و سایر فناوری‌های متن‌باز ارائه می‌دهد.

این پلتفرم خود را به عنوان یک راه‌حل «دریاچه خانه» (lakehouse) معرفی می‌کند که ساختار انبار داده را با انعطاف‌پذیری دریاچه داده ترکیب می‌کند. تیم‌ها از Databricks برای خطوط لوله ETL، تجزیه و تحلیل بی‌درنگ، توسعه مدل‌های یادگیری ماشین و استقرار هوش مصنوعی در محیط تولید استفاده می‌کنند.

آنچه Databricks را از نظر معماری متمایز می‌کند، جداسازی بین محاسبات و ذخیره‌سازی است. داده‌ها در فضای ذخیره‌سازی ابری (S3 در AWS، Blob Storage در Azure، Cloud Storage در GCP) قرار دارند در حالی که خوشه‌های محاسباتی بارهای کاری را بر اساس تقاضا پردازش می‌کنند. این جداسازی به این معنی است که هزینه‌ها به طور مستقل مقیاس می‌شوند - ذخیره‌سازی به صورت خطی رشد می‌کند در حالی که هزینه‌های محاسباتی فقط زمانی اعمال می‌شوند که خوشه‌ها اجرا می‌شوند.

درک مدل قیمت‌گذاری Databricks

بر اساس وب‌سایت رسمی، Databricks یک رویکرد پرداخت به ازای مصرف (pay-as-you-go) را بدون هزینه‌های اولیه ارائه می‌دهد. هزینه‌ها با دقت ثانیه محاسبه می‌شوند، به این معنی که یک خوشه که 10 دقیقه اجرا می‌شود دقیقاً 10 دقیقه هزینه ایجاد می‌کند - نه یک ساعت کامل.

مدل قیمت‌گذاری شامل دو جزء است:

هزینه‌های DBU: واحدهای Databricks ظرفیت محاسباتی نرمال شده را در انواع مختلف نمونه و الگوهای بار کاری اندازه‌گیری می‌کنند.
هزینه‌های زیرساخت ابری: نرخ‌های ساعتی برای ماشین‌های مجازی، ذخیره‌سازی و شبکه‌بندی از AWS، Azure یا GCP.

این هزینه‌ها انباشته می‌شوند. اجرای یک نمونه m5.xlarge در AWS هم نرخ DBU (0.690 DBU در ساعت برای بارهای کاری خاص) و هم هزینه زیرساخت (0.3795 دلار در ساعت برای خود VM) را به همراه دارد.

واقعیت این است: این ساختار دوگانه تیم‌ها را غافلگیر می‌کند. مهندسی بر روی اندازه‌گیری خوشه و انتخاب VM تمرکز می‌کند در حالی که امور مالی صورت‌حساب‌های غیرمنتظره بالایی را مشاهده می‌کند زیرا ضریب DBU در پیش‌بینی‌ها لحاظ نشده است.

واحدهای Databricks (DBU) چیست؟

DBUها واحدی از قابلیت پردازش را نشان می‌دهند. Databricks بسته به موارد زیر، نرخ‌های DBU متفاوتی را شارژ می‌کند:

نوع بار کاری: محاسبات وظایف (Jobs)، محاسبات همه منظوره (All-Purpose)، انبارهای SQL (SQL warehouses)، سرورلس (serverless) و سرویس‌دهی مدل (model serving) هر کدام نرخ‌های متفاوتی دارند.
سطح اشتراک: سطوح استاندارد (Standard)، ممتاز (Premium) و سازمانی (Enterprise) DBUها را متفاوت قیمت‌گذاری می‌کنند.
پیکربندی نمونه: نمونه‌های بزرگتر با vCPU و حافظه بیشتر، DBUهای بیشتری در ساعت مصرف می‌کنند.

تعداد DBUهای مصرف شده در ساعت به مشخصات نمونه بستگی دارد. بر اساس داده‌های موجود، یک نمونه m5.xlarge (4 vCPU، 16 گیگابایت حافظه) دارای نرخ DBU 0.690 برای انواع محاسباتی خاص است.

بنابراین اگر این نمونه به مدت یک ساعت بر روی محاسبات وظایف در سطح استاندارد اجرا شود، محاسبه به این صورت خواهد بود:

مصرف DBU: 0.690 DBU
قیمت DBU (مثال): 0.15 دلار در هر DBU
هزینه DBU: 0.690 × 0.15 دلار = 0.1035 دلار
هزینه زیرساخت: 0.3795 دلار
کل هزینه ساعتی: 0.483 دلار

اما صبر کنید. همین خوشه را به محاسبات همه منظوره تغییر دهید و قیمت DBU به طور قابل توجهی افزایش می‌یابد - اغلب 2 تا 3 برابر بیشتر - زیرا بارهای کاری تعاملی شامل محیط‌های نوت‌بوک و ویژگی‌های همکاری هستند.

هزینه کل Databricks ترکیبی از هزینه‌های DBU و هزینه‌های زیرساخت ارائه‌دهنده ابری است که هر دو به طور مستقل صورت‌حساب می‌شوند

سطوح اشتراک Databricks توضیح داده شده

Databricks سه سطح اشتراک اصلی را ارائه می‌دهد که هر کدام دارای قیمت‌گذاری DBU و مجموعه‌ای از ویژگی‌های متفاوت است. این سطوح نه تنها هزینه، بلکه دسترسی به قابلیت‌های حاکمیت، امنیت و همکاری را نیز تعیین می‌کنند.

سطح استاندارد (Standard Tier)

سطح ورودی، عملکرد اصلی Databricks را بدون ویژگی‌های پیشرفته سازمانی ارائه می‌دهد. سطح استاندارد برای تیم‌هایی که صرفاً بر پردازش داده‌ها بدون نیازهای پیچیده حاکمیت تمرکز دارند، مناسب است.

در Azure، محاسبات وظایف (Jobs compute) در سطح استاندارد، 0.15 دلار در هر DBU هزینه دارد (داده‌های منطقه شرق ایالات متحده). این نشان‌دهنده نرخ پایه DBU قبل از ضریب برای انواع محاسبات یا سطوح دیگر است.

سطح استاندارد فاقد کنترل دسترسی مبتنی بر نقش (RBAC)، ثبت گزارش حسابرسی (audit logging) و ویژگی‌های امنیتی پیشرفته است - که برای محیط‌های توسعه قابل قبول است اما برای بارهای کاری تولیدی که داده‌های حساس را پردازش می‌کنند، محدودکننده است.

سطح ممتاز (Premium Tier) (سازمانی در AWS/GCP)

سطح ممتاز قابلیت‌هایی را برای تیم‌های در حال مقیاس و بهره‌وری عملیاتی طراحی کرده است. ویژگی‌های کلیدی شامل:

کنترل دسترسی مبتنی بر نقش (RBAC) برای مجوزهای دانه‌ریز
گزارش‌های حسابرسی که دسترسی و اقدامات را در سراسر فضاهای کاری ردیابی می‌کنند
کنترل‌های امنیتی و انطباق بهبود یافته
نوت‌بوک‌های مشارکتی با نسخه‌بندی

نرخ‌های DBU در سطح ممتاز نسبت به سطح استاندارد افزایش می‌یابد. ضریب دقیق بسته به نوع بار کاری متفاوت است، اما هزینه سطح ممتاز در هر DBU بیشتر از استاندارد است (ضریب دقیق بسته به نوع بار کاری متفاوت است).

در Azure، سطح ممتاز با آنچه AWS و GCP سطح سازمانی می‌نامند مطابقت دارد - مهم هنگام مقایسه قیمت‌گذاری بین ابری.

سطح سازمانی (Enterprise Tier)

سطح سازمانی حداکثر حاکمیت، انطباق و پشتیبانی را برای استقرارهای تولیدی در مقیاس بزرگ ارائه می‌دهد. ویژگی‌های اضافی فراتر از ممتاز شامل:

حاکمیت داده پیشرفته و ردیابی تبار داده (lineage tracking)
Unity Catalog برای مدیریت متادیتای متمرکز
بهینه‌سازی‌های عملکردی بهبود یافته
پشتیبانی اولویت‌دار و تعهدات SLA

سطح سازمانی بالاترین سطح قیمت‌گذاری DBU را نشان می‌دهد. تیم‌هایی که با داده‌های تحت نظارت کار می‌کنند یا نیاز به کنترل‌های دسترسی پیچیده دارند، معمولاً علی‌رغم حق بیمه هزینه، در این سطح فعالیت می‌کنند.

برای ابزارهای داده در ابتدا هزینه زیادی نپردازید

به قیمت‌گذاری Databricks نگاه می‌کنید؟ چالش به ندرت فقط یک ابزار است - هزینه‌ها در محاسبات، ذخیره‌سازی و ابزارهای پشتیبان هوش مصنوعی جمع می‌شوند.

Get AI Perks به کاهش هزینه‌های کلی قبل از تعهد کمک می‌کند. این سرویس اعتبارها، تخفیف‌ها و پیشنهادات شرکتی را در ابزارهای هوش مصنوعی، ابری و توسعه‌دهندگان جمع‌آوری می‌کند، بنابراین می‌توانید به معاملاتی دسترسی پیدا کنید که معمولاً در برنامه‌های مختلف پراکنده هستند.

با Get AI Perks، شما می‌توانید:

دسترسی به اعتبار برای ابزارهای هوش مصنوعی و زیرساخت داده
کاهش هزینه کلی در کل پشته شما
آزمایش ابزارها قبل از تعهد به قیمت‌گذاری کامل

اگر در حال مقایسه قیمت‌گذاری Databricks هستید، ابتدا هزینه‌های کلی خود را کاهش دهید - Get AI Perks را بررسی کنید.

انواع محاسبات Databricks و قیمت‌گذاری

انتخاب نوع محاسبات، تغییر قابل توجهی در هزینه ایجاد می‌کند. هر الگوی بار کاری دارای قیمت‌گذاری متفاوتی است که برای مورد استفاده آن بهینه شده است.

محاسبات وظایف (Jobs Compute)

محاسبات وظایف، خطوط لوله ETL خودکار و وظایف زمان‌بندی شده را قدرت می‌بخشد. این خوشه‌ها به طور خودکار راه‌اندازی، بار کاری را اجرا و پایان می‌یابند.

مزیت قیمت‌گذاری: پایین‌ترین نرخ‌های DBU (30-50٪ کمتر از همه منظوره). محاسبات وظایف با شروع از 0.15 دلار در هر DBU در سطح استاندارد (Azure US East)، مقرون‌به‌صرفه‌ترین گزینه برای بارهای کاری قابل پیش‌بینی است.

تیم‌هایی که خطوط لوله داده منظم را اجرا می‌کنند، باید به محاسبات وظایف روی بیاورند. صرفه‌جویی در هزینه در مقیاس به سرعت انباشته می‌شود - اجرای همان بار کاری بر روی محاسبات همه منظوره می‌تواند 2 تا 3 برابر بیشتر هزینه داشته باشد بدون اینکه هیچ مزیت عملکردی داشته باشد.

محاسبات همه منظوره (All-Purpose Compute)

خوشه‌های همه منظوره از تجزیه و تحلیل تعاملی، توسعه نوت‌بوک و اکتشاف مشارکتی پشتیبانی می‌کنند. این خوشه‌ها در حالی که کاربران فعالانه کار می‌کنند باقی می‌مانند و امکان اجرای کوئری بی‌درنگ و توسعه تکراری را فراهم می‌کنند.

معامله: نرخ‌های DBU به طور قابل توجهی بالاتر. محاسبات همه منظوره شامل محیط‌های نوت‌بوک، ویژگی‌های همکاری و قابلیت‌های تعاملی است که قیمت‌گذاری ممتاز را توجیه می‌کند.

اشتباه رایج: رها کردن خوشه‌های همه منظوره در حالت بیکار. برخلاف محاسبات وظایف که پس از تکمیل وظیفه پایان می‌یابد، خوشه‌های همه منظوره تا زمانی که به صورت دستی متوقف نشوند یا به طور خودکار پایان نیابند، هزینه‌ها را انباشته می‌کنند. تنظیم خاتمه خودکار تهاجمی (5-10 دقیقه عدم فعالیت) از هزینه‌های سرکش جلوگیری می‌کند.

انبارهای SQL (SQL Warehouses)

انبارهای SQL (که قبلاً به عنوان نقاط پایانی SQL شناخته می‌شدند) کوئری‌های BI و بارهای کاری تجزیه و تحلیل را مدیریت می‌کنند. سه نوع وجود دارد:

سرورلس (Serverless): سریع‌ترین راه‌اندازی، بالاترین عملکرد، زیرساخت مدیریت شده
پرو (Pro): شتاب‌دهنده Photon، بهینه‌سازی Predictive IO
کلاسیک (Classic): قابلیت‌های پایه SQL، هزینه کمتر

انبارهای SQL سرورلس عملکرد برتر را با Photon Engine، Predictive IO و Intelligent Workload Management ارائه می‌دهند - اما با نرخ‌های DBU ممتاز. انبارهای Pro، Photon و Predictive IO را بدون زیرساخت سرورلس کامل ارائه می‌دهند. انبارهای کلاسیک عملکرد پایه را با هزینه کاهش یافته ارائه می‌دهند.

برای تیم‌های BI که کوئری‌های ad-hoc مکرر را اجرا می‌کنند، بهبودهای عملکرد سرورلس اغلب هزینه را از طریق اجرای سریع‌تر کوئری توجیه می‌کند (مجموع DBU-ساعت کمتر علی‌رغم نرخ‌های DBU بالاتر).

سرویس‌دهی مدل (Model Serving)

سرویس‌دهی مدل، مدل‌های یادگیری ماشین را به عنوان APIهای بی‌درنگ مستقر می‌کند. قیمت‌گذاری بسته به اینکه استقرارها از نمونه‌های CPU یا GPU استفاده می‌کنند، متفاوت است.

بر اساس داده‌های قیمت‌گذاری رسمی، نرخ‌های DBU سرویس‌دهی GPU بسته به اندازه نمونه متفاوت است:

اندازه نمونه	پیکربندی GPU	DBU در ساعت
کوچک	T4 یا معادل آن	10.48
متوسط	A10G × 1 GPU	20.00
متوسط 4X	A10G × 4 GPU	112.00
متوسط 8X	A10G × 8 GPU	290.80
بزرگ 8X 40GB	A100 40GB × 8 GPU	538.40
بزرگ 8X 80GB	A100 80GB × 8 GPU	628.00

سرویس‌دهی GPU مصرف DBU به مراتب بالاتری نسبت به محاسبات استاندارد دارد. تیم‌هایی که مدل‌های ML را مستقر می‌کنند نیاز به پیش‌بینی دقیق ترافیک دارند - کم‌تخمین زدن حجم کوئری منجر به افزایش شدید هزینه در این نرخ‌های DBU می‌شود.

محاسبات سرورلس (Serverless Compute)

محاسبات سرورلس مدیریت خوشه را کاملاً حذف می‌کند. Databricks به طور خودکار تخصیص زیرساخت، مقیاس‌بندی و بهینه‌سازی را مدیریت می‌کند.

مزیت قیمت‌گذاری: تقریباً 50٪ از نرخ‌های DBU محاسبات وظایف برای بارهای کاری معادل، بر اساس داده‌های موجود. این کاهش نشان‌دهنده افزایش بهره‌وری زیرساخت از منابع مشترک و بهینه شده است.

نکته: سرورلس نیاز به فعال‌سازی در سطح فضای کاری دارد و در همه مناطق در دسترس نیست. برای بارهای کاری پشتیبانی شده، سرورلس اغلب کمترین هزینه کل را از طریق نرخ‌های DBU کاهش یافته و سربار مدیریت صفر ارائه می‌دهد.

مقایسه هزینه نسبی DBU در انواع محاسبات Databricks نشان می‌دهد که محاسبات سرورلس و وظایف کمترین نرخ را ارائه می‌دهند

قیمت‌گذاری Databricks در سراسر ارائه‌دهندگان ابری

Databricks بر روی AWS، Azure و Google Cloud Platform با ادغام‌های خاص ابری و تغییرات قیمت‌گذاری اجرا می‌شود. چارچوب اصلی DBU ثابت می‌ماند، اما هزینه‌های زیرساخت و در دسترس بودن منطقه‌ای متفاوت است.

قیمت‌گذاری Databricks در AWS

AWS Databricks با S3 برای ذخیره‌سازی، EC2 برای محاسبات و IAM برای امنیت ادغام می‌شود. هزینه‌های زیرساخت از قیمت‌گذاری استاندارد AWS EC2 برای انواع نمونه‌های انتخاب شده پیروی می‌کند.

به عنوان مثال، یک نمونه m5.xlarge در مناطق شرقی ایالات متحده (قیمت‌گذاری در زمان تقاضا) 0.3795 دلار در ساعت هزینه دارد. برای محاسبه هزینه کل، ضریب DBU را بر اساس نوع بار کاری و سطح اشتراک اضافه کنید.

AWS برای زیرساخت EC2، طرح‌های صرفه‌جویی (Savings Plans) و نمونه‌های رزرو شده (Reserved Instances) را ارائه می‌دهد که به طور بالقوه هزینه‌های VM را 30-70٪ کاهش می‌دهد. با این حال، این تعهدات فقط به زیرساخت اعمال می‌شود - نه هزینه‌های DBU.

قیمت‌گذاری Databricks در Azure

Azure Databricks به عنوان یک سرویس درجه اول در Microsoft Azure وجود دارد که صورت‌حساب و پشتیبانی یکپارچه را مستقیماً از مایکروسافت ارائه می‌دهد. سطح ممتاز در Azure با سطح سازمانی در AWS و GCP مطابقت دارد.

بر اساس منابع رسمی، محاسبات وظایف (Jobs compute) سطح استاندارد Azure Databricks در منطقه شرقی ایالات متحده، 0.15 دلار در هر DBU هزینه دارد. هزینه‌های زیرساخت از قیمت‌گذاری Azure VM برای خانواده‌های نمونه انتخابی پیروی می‌کند.

Azure مزایای منحصر به فردی را برای سازمان‌هایی که در حال حاضر به اکوسیستم‌های مایکروسافت متعهد هستند ارائه می‌دهد - صورت‌حساب یکپارچه، هزینه‌های Databricks را با سایر سرویس‌های Azure ادغام می‌کند و ادغام با Azure Active Directory مدیریت هویت را ساده می‌کند.

قیمت‌گذاری Databricks در Google Cloud Platform

GCP Databricks با Cloud Storage، Compute Engine و GCP IAM ادغام می‌شود. این پلتفرم از همان چارچوب DBU پیروی می‌کند اما از انواع نمونه‌ها و زیرساخت منطقه‌ای GCP استفاده می‌کند.

GCP معمولاً پیکربندی‌های نمونه کمی متفاوت نسبت به AWS یا Azure ارائه می‌دهد که هم هزینه‌های زیرساخت و هم نرخ‌های DBU را تحت تأثیر قرار می‌دهد. تیم‌ها باید قیمت‌گذاری را با استفاده از ماشین حساب قیمت‌گذاری Databricks برای مناطق خاص GCP تأیید کنند.

مقایسه قیمت‌گذاری بین ابری

نرخ‌های DBU برای سطوح و انواع محاسبات معادل در سراسر ابری نسبتاً ثابت باقی می‌مانند. تغییر اصلی هزینه از تفاوت‌های قیمت‌گذاری زیرساخت بین AWS، Azure و GCP ناشی می‌شود.

به طور کلی، تیم‌ها باید ارائه‌دهندگان ابری را بر اساس موارد زیر انتخاب کنند:

تعهدات زیرساختی موجود و توافق‌نامه‌های سازمانی
نیازهای مکان داده و الزامات انطباق
ادغام خدمات بومی (S3 در مقابل Blob Storage در مقابل Cloud Storage)
در دسترس بودن منطقه‌ای برای ویژگی‌های لازم Databricks

انتخاب ارائه‌دهنده ابر بیش از هزینه‌های DBU، بر هزینه‌های زیرساخت تأثیر می‌گذارد. سازمانی که دارای AWS Reserved Instances یا تعهدات Azure است، می‌تواند از آنها برای صرفه‌جویی قابل توجه در زیرساخت استفاده کند.

استفاده از ماشین حساب قیمت‌گذاری Databricks

ماشین حساب رسمی قیمت‌گذاری Databricks به تخمین هزینه‌های ماهانه بر اساس مشخصات بار کاری کمک می‌کند. این ماشین حساب که در صفحه قیمت‌گذاری رسمی قرار دارد، به ورودی‌هایی مانند موارد زیر نیاز دارد:

ارائه‌دهنده ابری (AWS، Azure یا GCP)
انتخاب منطقه
سطح اشتراک (استاندارد، ممتاز، سازمانی)
نوع محاسبات (وظایف، همه منظوره، SQL، سرورلس)
نوع نمونه و اندازه خوشه
ساعات زمان اجرا مورد انتظار در ماه

ماشین حساب، مصرف تخمینی DBU و هزینه‌های ماهانه کل را با ترکیب هزینه‌های DBU و هزینه‌های زیرساخت خروجی می‌دهد.

حالا، اینجاست که جالب می‌شود. ماشین حساب تخمین‌هایی را ارائه می‌دهد - هزینه‌های واقعی به الگوهای استفاده واقعی بستگی دارد. تیم‌ها اغلب دست کم می‌گیرند:

زمان بیکاری خوشه قبل از فعال شدن خاتمه خودکار
حجم بار کاری توسعه و تست
نشت از توسعه تعاملی به خوشه‌های تولید

بهترین روش: بارهای کاری آزمایشی را اجرا کنید و استفاده صورت‌حساب شده واقعی را از طریق جداول سیستم نظارت کنید قبل از تعهد به استقرارهای در مقیاس بزرگ. جدول سیستم استفاده صورت‌حساب شده (system.billing.usage) داده‌های مصرفی دانه‌ریز را برای تجزیه و تحلیل هزینه ارائه می‌دهد.

چه چیزی هزینه‌های Databricks را هدایت می‌کند؟

درک محرک‌های هزینه به هدف‌گذاری مؤثر تلاش‌های بهینه‌سازی کمک می‌کند. چندین عامل برای تعیین هزینه‌های ماهانه انباشته می‌شوند.

حجم داده و سرعت بار کاری

داده‌های بیشتر به محاسبات بیشتری برای پردازش نیاز دارند. وظایف دسته‌ای که روزانه ترابایت‌ها را پردازش می‌کنند، به طور قابل توجهی DBU-ساعت بیشتری نسبت به خطوط لوله‌ای که گیگابایت‌ها را مدیریت می‌کنند، مصرف می‌کنند.

سرعت نیز مهم است. بارهای کاری استریمینگ بی‌درنگ نیاز به خوشه‌های همیشه فعال دارند که به طور مداوم هزینه‌ها را انباشته می‌کنند. پردازش دسته‌ای خوشه‌ها را فقط در طول پنجره‌های فعال اجرا می‌کند و زمان اجرای کل را کاهش می‌دهد.

پیکربندی خوشه و انتخاب نمونه

نمونه‌های بزرگتر با vCPU و حافظه بیشتر، نرخ‌های DBU و هزینه‌های زیرساخت بالاتری دارند. یک m5.8xlarge (32 vCPU، 128 گیگابایت) به طور قابل توجهی در ساعت بیشتر از یک m5.xlarge (4 vCPU، 16 گیگابایت) هزینه دارد.

چالش بهینه‌سازی: خوشه‌های بیش از حد بزرگ پول را از طریق ظرفیت غیرضروری هدر می‌دهند، در حالی که خوشه‌های کمتر از حد کافی برای تکمیل بار کاری طولانی‌تر اجرا می‌شوند - که به طور بالقوه در مجموع DBU-ساعت بیشتر هزینه دارد.

توزیع نوع بار کاری

ترکیب انواع محاسبات، میانگین نرخ‌های DBU را تعیین می‌کند. سازمان‌هایی که عمدتاً محاسبات وظایف را اجرا می‌کنند، کمتر از سازمان‌هایی که به شدت از خوشه‌های همه منظوره استفاده می‌کنند، هزینه می‌پردازند.

بارهای کاری مهندسی (ETL) معمولاً کمترین هزینه را دارند، در حالی که بارهای کاری علم داده (توسعه ML) می‌تواند 3-4 برابر بیشتر هزینه داشته باشد به دلیل استفاده از خوشه‌های همه منظوره و چرخه‌های آزمایش طولانی‌تر.

زمان بیکاری خوشه و خاتمه خودکار

خوشه‌های همه منظوره تا زمانی که تنظیمات خاتمه خودکار آنها را متوقف نکند، هزینه را انباشته می‌کنند. خوشه‌ای که یک شب روشن بماند، 8-12 ساعت هزینه غیرضروری را انباشته می‌کند.

تنظیم خاتمه خودکار به 5-10 دقیقه برای خوشه‌های توسعه از هزینه‌های سرکش جلوگیری می‌کند. خوشه‌های وظایف تولیدی باید بلافاصله پس از اتمام وظیفه پایان یابند.

هزینه‌های ذخیره‌سازی

در حالی که هزینه ذخیره‌سازی کمتر از محاسبات در هر گیگابایت است، دریاچه‌های داده بزرگ هزینه‌های ماهانه قابل توجهی را انباشته می‌کنند. قیمت‌گذاری ذخیره‌سازی ابری متفاوت است:

قیمت‌گذاری ذخیره‌سازی استاندارد AWS S3 از 0.023 دلار در هر گیگابایت برای 50 ترابایت اول در ماه در اکثر مناطق شروع می‌شود، اما در شرق ایالات متحده (ویرجینیا) 0.021 دلار در هر گیگابایت است.
Azure Blob Storage: قیمت‌گذاری مشابه با گزینه‌های طبقه‌بندی
GCP Cloud Storage: نرخ‌های قابل مقایسه با تغییرات منطقه‌ای

ویژگی‌های بهینه‌سازی Delta Lake از طریق فشرده‌سازی فایل و طرح‌بندی هوشمند داده به کنترل هزینه‌های ذخیره‌سازی کمک می‌کند.

استراتژی‌های بهینه‌سازی هزینه Databricks

بهینه‌سازی فراتر از بهترین شیوه‌های نظری به تکنیک‌هایی می‌رود که واقعاً صورت‌حساب‌های ماهانه را کاهش می‌دهند. در اینجا آنچه در مقیاس کار می‌کند آورده شده است.

انواع محاسبات را با الگوهای بار کاری مطابقت دهید

از محاسبات وظایف برای خطوط لوله خودکار و وظایف زمان‌بندی شده استفاده کنید. خوشه‌های همه منظوره را منحصراً برای توسعه تعاملی و اکتشاف رزرو کنید.

استفاده از خوشه‌های وظایف با نمونه‌های نقطه (spot instances) می‌تواند هزینه‌های VM را تا 50٪ برای بارهای کاری تحمل‌پذیر خطا کاهش دهد، در حالی که هزینه‌های DBU ثابت می‌ماند. نمونه‌های نقطه قیمت‌گذاری زیرساخت تخفیف‌خورده را در ازای اختلالات احتمالی ارائه می‌دهند.

خاتمه خودکار تهاجمی را پیاده‌سازی کنید

خاتمه خودکار را برای خوشه‌های همه منظوره در 5-10 دقیقه عدم فعالیت تنظیم کنید. خوشه‌های توسعه که بیکار می‌مانند، DBUها را بدون تولید ارزش مصرف می‌کنند.

خوشه‌های وظایف تولیدی باید بلافاصله پس از اتمام بار کاری پایان یابند. Databricks در ثانیه شارژ می‌کند - خوشه‌هایی که بلافاصله پس از اجرای وظیفه متوقف می‌شوند، از هزینه‌های غیرضروری جلوگیری می‌کنند.

اندازه‌بندی خوشه را بهینه کنید

خوشه‌ها را بر اساس نیازهای بار کاری اندازه‌بندی کنید تا به طور پیش‌فرض به نمونه‌های بزرگ متوسل نشوید. با پیکربندی‌های کوچکتر شروع کنید و فقط زمانی که معیارهای عملکرد گلوگاه‌ها را نشان می‌دهند، مقیاس را افزایش دهید.

متریک‌های خوشه را از طریق جدول سیستم استفاده صورت‌حساب شده نظارت کنید. خوشه‌هایی که به طور مداوم از کمبود استفاده CPU یا حافظه نشان می‌دهند، فرصت‌های بیش از حد اندازه‌گیری را نشان می‌دهند.

شتاب‌دهنده Photon را فعال کنید

Photon یک موتور کوئری برداری داخلی است که اجرای کوئری را برای عملیات SQL و DataFrame تسریع می‌کند. اجرای سریع‌تر به معنای مصرف DBU-ساعت کمتر علی‌رغم نرخ‌های DBU یکسان است.

با این حال، Photon برای عملیات SQL و DataFrame بهترین کارایی را دارد. UDFهای پیچیده پایتون یا کد سفارشی ممکن است شتاب محدودی را تجربه کنند.

از سرورلس در صورت امکان استفاده کنید

نرخ‌های DBU محاسبات سرورلس معمولاً بالاتر هستند (به عنوان مثال، 0.35 تا 0.40 دلار در هر DBU) نسبت به نرخ‌های DBU محاسبات وظایف (0.07 تا 0.15 دلار در هر DBU)، اگرچه هزینه‌های زیرساخت را حذف می‌کنند.

سرورلس سربار مدیریت خوشه را حذف می‌کند و به طور خودکار استفاده از زیرساخت را بهینه می‌کند - هر دو هزینه‌های عملیاتی را فراتر از صرفه‌جویی مستقیم DBU کاهش می‌دهند.

از نمونه‌های نقطه برای بارهای کاری تحمل‌پذیر خطا استفاده کنید

AWS Spot Instances و Azure Spot VMs زیرساخت را با تخفیف 60-90٪ در مقایسه با قیمت‌گذاری در زمان تقاضا ارائه می‌دهند. بارهای کاری محاسبات وظایف با منطق تلاش مجدد داخلی می‌توانند از نمونه‌های نقطه برای کاهش قابل توجه هزینه‌های زیرساخت استفاده کنند.

هزینه‌های DBU ثابت می‌ماند - نمونه‌های نقطه فقط بخش زیرساخت را تخفیف می‌دهند. اما آن زیرساخت 40-60٪ از کل هزینه‌ها را برای بسیاری از بار کاری تشکیل می‌دهد.

هزینه‌ها را از طریق جداول سیستم نظارت کنید

جدول سیستم استفاده صورت‌حساب شده (system.billing.usage) داده‌های مصرف را در تمام مناطق فضای کاری متمرکز می‌کند. طبق مستندات رسمی، این جدول به طور منظم با مصرف DBU، جزئیات SKU و فراداده استفاده به‌روز می‌شود.

کوئری‌های نمونه می‌توانند محرک‌های هزینه را شناسایی کنند:

بیشترین فضاهای کاری و خوشه‌های مصرف‌کننده DBU
خوشه‌های همه منظوره با زمان بیکاری بیش از حد
بارهای کاری که بر روی نمونه‌های بیش از حد اندازه‌گیری شده اجرا می‌شوند
افزایش‌های غیرمنتظره استفاده که نیاز به بررسی دارند

نظارت عملیاتی بر هزینه‌ها - به جای بررسی صورت‌حساب‌های ماهانه پس از واقعیت - بهینه‌سازی پیشگیرانه را امکان‌پذیر می‌سازد.

چالش‌ها و مشکلات قیمت‌گذاری Databricks

چندین جنبه از قیمت‌گذاری Databricks تیم‌ها را غافلگیر می‌کند. آگاهی به جلوگیری از شگفتی‌های پرهزینه کمک می‌کند.

هزینه‌های DBU و زیرساخت جداگانه صورت‌حساب می‌شوند

ارائه‌دهندگان ابری هزینه‌های زیرساخت (VM، ذخیره‌سازی، شبکه‌بندی) را صورت‌حساب می‌کنند در حالی که Databricks مصرف DBU را صورت‌حساب می‌کند. تیم‌ها باید هر دو را تطبیق دهند تا هزینه کل مالکیت را درک کنند.

طبق گزارش Field Solution هزینه‌های زیرساخت ابری Databricks، شرکت‌ها می‌توانند داده‌های استفاده Databricks را با هزینه‌های زیرساخت ابری برای نماهای TCO یکپارچه در سطح خوشه و برچسب ترکیب کنند.

گیجی سطح بین Azure و AWS/GCP

سطح ممتاز Azure با سطح سازمانی در AWS و GCP مطابقت دارد. مستندات گاهی اوقات نام‌های سطح متفاوتی را برای عملکرد معادل ذکر می‌کنند و باعث سردرگمی در هنگام مقایسه بین ابری می‌شوند.

همیشه مجموعه‌های ویژگی سطح را تأیید کنید نه اینکه فرض کنید نام‌ها معادل هستند.

هزینه‌های پنهان در کنترل دسترسی دانه‌ریز

کنترل‌های دسترسی دانه‌ریز (فیلترهای ردیف، ماسک ستون، نماهای پویا) بر روی محاسبات اختصاصی اکنون از محاسبات سرورلس برای فیلتر کردن داده استفاده می‌کنند. این نیاز به فعال‌سازی سرورلس در سطح فضای کاری دارد.

در Databricks Runtime 15.4 LTS یا بالاتر، اجرای کنترل دسترسی دانه‌ریز بر روی محاسبات اختصاصی از محاسبات سرورلس برای فیلتر کردن داده استفاده می‌کند - که هزینه‌های سرورلس را حتی زمانی که بارهای کاری اصلی بر روی خوشه‌های اختصاصی اجرا می‌شوند، اضافه می‌کند.

به‌روزرسانی‌های خودکار خوشه هزینه‌های انطباق را اضافه می‌کنند

فعال کردن به‌روزرسانی‌های خودکار خوشه برای وصله‌های امنیتی به طور خودکار هزینه‌های افزونه امنیتی و انطباق پیشرفته (Enhanced Security and Compliance add-on) را اضافه می‌کند. این برای منابع صفحه محاسباتی کلاسیک اعمال می‌شود اما برای سرورلس اعمال نمی‌شود.

این ویژگی ارزش خود را از طریق وصله‌های خودکار ارائه می‌دهد، اما تیم‌ها باید هزینه افزونه را در بودجه لحاظ کنند.

هزینه‌های GPU سرویس‌دهی مدل به سرعت افزایش می‌یابد

سرویس‌دهی GPU بسته به پیکربندی، 10 تا 628 DBU در ساعت مصرف می‌کند. یک نمونه بزرگ 8X 80GB (A100 80GB × 8 GPU) که به طور مداوم اجرا می‌شود، 628 DBU در ساعت هزینه دارد - به علاوه هزینه‌های زیرساخت برای خود نمونه‌های GPU.

با استفاده از 0.15 دلار در هر DBU به عنوان مثال، این مبلغ تقریباً 94.20 دلار در ساعت فقط برای هزینه‌های DBU، یا تقریباً 68,200 دلار در ماه برای عملیات مداوم خواهد بود. با اضافه کردن هزینه‌های زیرساخت، کل مبلغ قابل توجه خواهد بود.

استراتژی‌های بهینه‌سازی هزینه اولویت‌بندی شده بر اساس تلاش پیاده‌سازی و تأثیر صرفه‌جویی بالقوه

تخمین هزینه‌های ماهانه Databricks

تخمین دقیق هزینه نیاز به درک «3 V» بارهای کاری داده دارد: حجم (Volume)، سرعت (Velocity) و تنوع (Variety).

حجم: داده‌های بیشتر به معنای ذخیره‌سازی بیشتر به علاوه محاسبات بیشتر برای پردازش آن است. تیم‌هایی که دریاچه‌های داده در مقیاس پتابایت را پردازش می‌کنند، به طور متناسب DBU بیشتری نسبت به کسانی که با ترابایت‌ها کار می‌کنند، مصرف می‌کنند.

سرعت: استریمینگ بی‌درنگ به معنای خوشه‌های همیشه فعال است. پردازش دسته‌ای خوشه‌ها را به صورت دوره‌ای اجرا می‌کند و زمان کل و هزینه‌های مرتبط را کاهش می‌دهد.

تنوع: داده‌های بدون ساختار (تصاویر، ویدئوها، اسناد) نسبت به جداول SQL ساختاریافته، هزینه بیشتری برای پردازش دارند. تبدیل‌های پیچیده منابع محاسباتی بیشتری را به ازای هر رکورد مصرف می‌کنند.

یک رویکرد عملی برای تخمین:

انواع بار کاری و ساعات زمان اجرای ماهانه مورد انتظار را شناسایی کنید
انواع محاسبات مناسب را انتخاب کنید (وظایف در مقابل همه منظوره در مقابل SQL)
سطح اشتراک را بر اساس نیازهای حاکمیت انتخاب کنید
از ماشین حساب قیمت‌گذاری با انواع نمونه و پیکربندی‌های خوشه خاص استفاده کنید
20-30% بافر برای توسعه، تست و استفاده غیرمنتظره اضافه کنید

سازمان‌هایی که دارای بارهای کاری Spark موجود هستند می‌توانند مصرف DBU را به ازای حجم داده پردازش شده معیار (benchmark) کنند، سپس به استفاده مورد انتظار Databricks برون‌یابی کنند. تیم‌هایی که از Hadoop داخلی مهاجرت می‌کنند باید زمان منحنی یادگیری را هنگام بهینه‌سازی هزینه‌های Databricks در نظر بگیرند.

سوالات متداول

هزینه Databricks در ماه چقدر است؟

هزینه‌های ماهانه به شدت بسته به حجم بار کاری، نوع محاسبات، سطح اشتراک و ارائه‌دهنده ابری متفاوت است. تیم‌های کوچک که بارهای کاری توسعه را اجرا می‌کنند ممکن است صدها دلار در ماه هزینه کنند، در حالی که شرکت‌هایی که داده‌های در مقیاس پتابایت را پردازش می‌کنند می‌توانند صورت‌حساب‌های شش رقمی داشته باشند. بر اساس وب‌سایت رسمی، Databricks قیمت‌گذاری پرداخت به ازای مصرف را بدون هزینه‌های اولیه ارائه می‌دهد - هزینه واقعی به استفاده بستگی دارد. برای تخمین‌های دقیق از ماشین حساب قیمت‌گذاری با پارامترهای بار کاری خاص استفاده کنید.

DBU چیست و چگونه محاسبه می‌شود؟

یک واحد Databricks (DBU) ظرفیت محاسباتی نرمال شده را اندازه‌گیری می‌کند. مصرف DBU به مشخصات نوع نمونه (vCPUs، حافظه) و نوع بار کاری بستگی دارد. به عنوان مثال، یک نمونه m5.xlarge برای انواع محاسباتی خاص، 0.690 DBU در ساعت مصرف می‌کند. محاسبه، مصرف DBU را در قیمت هر DBU (که بسته به سطح اشتراک و نوع محاسبات متفاوت است) ضرب می‌کند تا هزینه‌های DBU را تعیین کند، جدا از هزینه‌های زیرساخت ابری.

آیا Databricks در AWS، Azure یا GCP ارزان‌تر است؟

نرخ‌های DBU برای سطوح و انواع محاسبات معادل در سراسر ارائه‌دهندگان ابری نسبتاً ثابت باقی می‌مانند. هزینه‌های زیرساخت بر اساس قیمت‌گذاری VM هر ارائه‌دهنده و در دسترس بودن منطقه‌ای متفاوت است. سازمان‌هایی که تعهدات ابری موجود، نمونه‌های رزرو شده یا توافق‌نامه‌های سازمانی دارند، می‌توانند از آنها برای صرفه‌جویی در زیرساخت استفاده کنند. به طور کلی، تیم‌ها باید ارائه‌دهندگان ابری را بر اساس زیرساخت موجود، مکان داده و ادغام خدمات بومی انتخاب کنند تا تفاوت‌های جزئی قیمت‌گذاری.

تفاوت بین سطوح استاندارد، ممتاز و سازمانی چیست؟

استاندارد عملکرد اصلی Databricks را بدون ویژگی‌های حاکمیت پیشرفته ارائه می‌دهد. ممتاز کنترل دسترسی مبتنی بر نقش (RBAC)، گزارش‌های حسابرسی، امنیت پیشرفته و ویژگی‌های همکاری را اضافه می‌کند - که معمولاً 30-50٪ در هر DBU بیشتر هزینه دارد. سازمانی حداکثر حاکمیت، Unity Catalog را برای مدیریت متادیتای متمرکز و پشتیبانی اولویت‌دار را با بالاترین نرخ‌های DBU ارائه می‌دهد. در Azure، سطح ممتاز با سطح سازمانی در AWS و GCP مطابقت دارد.

چگونه می‌توانم هزینه‌های Databricks را کاهش دهم؟

از محاسبات وظایف به جای همه منظوره برای بارهای کاری خودکار استفاده کنید (50-70٪ صرفه‌جویی)، خاتمه خودکار تهاجمی (5-10 دقیقه) را برای خوشه‌های توسعه فعال کنید، در صورت امکان به محاسبات سرورلس مهاجرت کنید (کاهش حدود 50٪ DBU)، از نمونه‌های نقطه برای بارهای کاری تحمل‌پذیر خطا استفاده کنید (60-90٪ صرفه‌جویی در زیرساخت)، شتاب‌دهنده Photon را برای اجرای سریع‌تر فعال کنید، خوشه‌ها را بر اساس استفاده واقعی منابع اندازه‌بندی کنید، و هزینه‌ها را از طریق جدول system.billing.usage نظارت کنید تا فرصت‌های بهینه‌سازی را شناسایی کنید.

آیا Databricks هزینه ذخیره‌سازی را جداگانه دریافت می‌کند؟

Databricks برای محاسبات (DBUs به علاوه زیرساخت) هزینه دریافت می‌کند اما مستقیماً برای ذخیره‌سازی هزینه دریافت نمی‌کند. داده‌های ذخیره شده در فضای ذخیره‌سازی ارائه‌دهنده ابری (S3، Blob Storage، Cloud Storage) هزینه‌های استاندارد ذخیره‌سازی ابری را که توسط AWS، Azure یا GCP صورت‌حساب می‌شوند، به همراه دارد - معمولاً حدود 0.023 دلار در هر گیگابایت در ماه برای سطوح استاندارد. ویژگی‌های بهینه‌سازی Delta Lake به کنترل هزینه‌های ذخیره‌سازی از طریق فشرده‌سازی فایل و طرح‌بندی داده کارآمد کمک می‌کند.

هزینه‌های پنهان در قیمت‌گذاری Databricks چیست؟

هزینه‌های پنهان رایج شامل زمان بیکاری خوشه همه منظوره قبل از خاتمه خودکار، نشت بارهای کاری توسعه و تست، هزینه‌های سرورلس برای کنترل دسترسی دانه‌ریز بر روی محاسبات اختصاصی (Runtime 15.4 LTS+)، افزونه امنیتی و انطباق پیشرفته هنگام فعال کردن به‌روزرسانی‌های خودکار خوشه، و هزینه‌های بالای سرویس‌دهی GPU برای استقرارهای مدل ML است. سازمان‌ها باید 20-30٪ بافر بالاتر از تخمین‌های ماشین حساب را برای این احتمالات در نظر بگیرند.

نتیجه‌گیری: مدیریت قیمت‌گذاری Databricks

قیمت‌گذاری Databricks پیچیده به نظر می‌رسد زیرا نشان‌دهنده تنوع واقعی بارهای کاری است - ETL دسته‌ای، تجزیه و تحلیل تعاملی، استریمینگ بی‌درنگ و سرویس‌دهی ML شتاب‌دهنده GPU همگی دارای پروفایل‌های منابع و ساختارهای هزینه متفاوتی هستند.

اما چارچوب زمانی که اجزا درک شوند، قابل مدیریت می‌شود: مصرف DBU بر اساس نوع محاسبات و سطح، به علاوه هزینه‌های زیرساخت از ارائه‌دهندگان ابری، صورت‌حساب به ازای ثانیه برای استفاده واقعی.

کنترل هزینه به تطبیق انواع محاسبات با الگوهای بار کاری، پیاده‌سازی خاتمه خودکار تهاجمی، استفاده از سرورلس در صورت امکان، و نظارت مداوم بر استفاده از طریق جداول سیستم به جای واکنش به صورت‌حساب‌های ماهانه بستگی دارد.

با ماشین حساب قیمت‌گذاری رسمی برای ایجاد تخمین‌های پایه شروع کنید. بارهای کاری آزمایشی را اجرا کنید تا مفروضات را تأیید کنید. داده‌های استفاده صورت‌حساب شده را برای شناسایی فرصت‌های بهینه‌سازی نظارت کنید. و به یاد داشته باشید - هدف حداقل کردن هزینه‌ها در مقادیر مطلق نیست، بلکه به حداکثر رساندن ارزش ارائه شده به ازای هر دلار هزینه شده است.

آماده بهینه‌سازی هزینه‌ها هستید؟ ماشین حساب قیمت‌گذاری Databricks را در وب‌سایت رسمی مشاهده کنید، جدول سیستم استفاده صورت‌حساب شده را برای نظارت فعال کنید و شروع به معیار کردن مصرف واقعی DBU در برابر ارزش بار کاری ارائه شده کنید.