വിശദാംശങ്ങളുടെ സംഗ്രഹം: Databricks വിലനിർണ്ണയം ഒരു ഉപഭോഗത്തെ അടിസ്ഥാനമാക്കിയുള്ള മോഡലാണ്, ഇത് ഡാറ്റാബ്രിക്സ് യൂണിറ്റുകൾ (DBUs) ഓരോ വർക്ക് ലോഡ് തരത്തിനും ഈടാക്കുന്നതും AWS, Azure, അല്ലെങ്കിൽ GCP എന്നിവയിൽ നിന്നുള്ള അടിസ്ഥാന ക്ലൗഡ് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളും സംയോജിപ്പിക്കുന്നു. DBU നിരക്കുകൾ സബ്സ്ക്രിപ്ഷൻ ടയറിന് (Standard, Premium, Enterprise) വ്യത്യാസപ്പെട്ടിരിക്കുന്നു, കൂടാതെ ജോബ്സ് കമ്പ്യൂട്ടിംഗ് ഏകദേശം $0.15/DBU-ൽ ആരംഭിക്കുകയും ഓൾ-പർപ്പസ് കമ്പ്യൂട്ടിംഗ് 2-3 മടങ്ങ് കൂടുതൽ ചെലവാക്കുകയും ചെയ്യുന്നു. മൊത്തത്തിലുള്ള പ്രതിമാസ ചെലവുകൾ വർക്ക് ലോഡ് വോളിയം, ക്ലസ്റ്റർ കോൺഫിഗറേഷൻ, ഒപ്റ്റിമൈസേഷൻ രീതികൾ എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു.
Databricks വിലനിർണ്ണയം എല്ലാവരെയും ആശയക്കുഴപ്പത്തിലാക്കുന്നു. ഏതൊരു എഞ്ചിനീയറിംഗ് ലീഡിനോടും CFOയോടും ഒരു ലളിതമായ ചോദ്യം ചോദിക്കുക - ”Databricks ഞങ്ങൾക്ക് എത്രത്തോളം ചെലവാകും?” - ഉത്തരം എല്ലായ്പ്പോഴും “അത് ആശ്രയിച്ചിരിക്കുന്നു” എന്നതിന്റെ ഏതെങ്കിലും രൂപമായിരിക്കും.
അത് ശരിയാണ്. പ്ലാറ്റ്ഫോം ഒരു ഇരട്ട-വില ഘടനയിൽ പ്രവർത്തിക്കുന്നു: ഡാറ്റാബ്രിക്സ് യൂണിറ്റുകൾ (DBUs) കമ്പ്യൂട്ട് വർക്ക് ലോഡുകൾക്ക് പ്ലസ് പ്ലാറ്റ്ഫോം പ്രവർത്തിപ്പിക്കുന്ന ക്ലൗഡ് പ്രൊവൈഡറിൽ നിന്നുള്ള ഇൻഫ്രാസ്ട്രക്ചർ ചാർജുകൾ. ഇതിനെ സങ്കീർണ്ണമാക്കുന്നത് DBU നിരക്കുകൾ സബ്സ്ക്രിപ്ഷൻ ടയർ, വർക്ക് ലോഡ് തരം, ക്ലൗഡ് റീജിയൻ എന്നിവയെ ആശ്രയിച്ച് വ്യത്യാസപ്പെടുന്നു എന്നതാണ്.
എന്നാൽ ഒരു കാര്യം ശ്രദ്ധിക്കുക - ഫ്രെയിംവർക്ക് മനസ്സിലാക്കിയാൽ, Databricks വിലനിർണ്ണയം പ്രവചനാതീതമാകും. ചെലവുകൾ എങ്ങനെ കൂമ്പുന്നു, DBU ഉപഭോഗം എന്തുചെയ്യുന്നു, ഒപ്റ്റിമൈസേഷൻ യഥാർത്ഥത്തിൽ ഫലമുണ്ടാക്കുന്നതെവിടെയാണ് എന്ന് ഈ ഗൈഡ് വിശദീകരിക്കുന്നു.
എന്താണ് Databricks?
Databricks എന്നത് വലിയ ഡാറ്റാ അനലിറ്റിക്സ്, ഡാറ്റാ എഞ്ചിനിയറിംഗ്, സഹകരണ യന്ത്ര പഠനം എന്നിവയ്ക്കുള്ള ഒരു ക്ലൗഡ് അധിഷ്ഠിത പ്ലാറ്റ്ഫോമാണ്. Apache Spark-ൽ നിർമ്മിച്ചത്, ഇത് പ്രധാന ക്ലൗഡ് പ്രൊവൈഡർമാരായ AWS, Azure, Google Cloud Platform എന്നിവയുമായി സംയോജിച്ച് Delta Lake, മറ്റ് ഓപ്പൺ-സോഴ്സ് ടെക്നോളജികൾ എന്നിവയുമായി പ്രവർത്തിക്കാൻ ഒരു ഏകീകൃത അന്തരീക്ഷം നൽകുന്നു.
ഡാറ്റാ വെയർഹൗസ് ഘടനയും ഡാറ്റാ ലേക്ക് സൗകര്യവും സംയോജിപ്പിച്ച് ഈ പ്ലാറ്റ്ഫോം സ്വയം ഒരു “ലേക്ഹൗസ്” പരിഹാരമായി സ്ഥാപിക്കുന്നു. ETL പൈപ്പ്ലൈനുകൾ, റിയൽ-ടൈം അനലിറ്റിക്സ്, മെഷീൻ ലേണിംഗ് മോഡൽ വികസനം, പ്രൊഡക്ഷൻ AI ഡിപ്ലോയ്മെന്റുകൾ എന്നിവയ്ക്കായി ടീമുകൾ Databricks ഉപയോഗിക്കുന്നു.
Databricks-നെ വാസ്തുവിദ്യാപരമായി വ്യത്യസ്തമാക്കുന്നത് കമ്പ്യൂട്ടും സ്റ്റോറേജും തമ്മിലുള്ള വേർതിരിവാണ്. ഡാറ്റ ക്ലൗഡ് സ്റ്റോറേജിൽ (AWS-ൽ S3, Azure-ൽ Blob Storage, GCP-ൽ Cloud Storage) ജീവിക്കുന്നു, അതേസമയം കമ്പ്യൂട്ട് ക്ലസ്റ്ററുകൾ ആവശ്യമനുസരിച്ച് വർക്ക് ലോഡുകൾ പ്രോസസ്സ് ചെയ്യുന്നു. ഈ വേർതിരിവ് ചെലവുകൾ സ്വതന്ത്രമായി സ്കെയിൽ ചെയ്യാൻ അനുവദിക്കുന്നു - സ്റ്റോറേജ് ലീനിയർ ആയി വളരുന്നു, അതേസമയം ക്ലസ്റ്ററുകൾ പ്രവർത്തിക്കുമ്പോൾ മാത്രമേ കമ്പ്യൂട്ട് ചാർജുകൾ ബാധകമാകൂ.
Databricks വിലനിർണ്ണയ മോഡൽ മനസ്സിലാക്കുന്നു
ഔദ്യോഗിക വെബ്സൈറ്റ് അനുസരിച്ച്, Databricks മുൻകൂട്ടി പണം നൽകാതെ പേ-ആസ്-യു-ഗോ സമീപനം വാഗ്ദാനം ചെയ്യുന്നു. സെക്കൻഡ് ഗ്രാനുലാരിറ്റിയിൽ ചാർജുകൾ വർദ്ധിപ്പിക്കുന്നു, അതായത് 10 മിനിറ്റ് പ്രവർത്തിക്കുന്ന ഒരു ക്ലസ്റ്റർ കൃത്യം 10 മിനിറ്റ് ചാർജുകൾ ഉണ്ടാക്കുന്നു - ഒരു മണിക്കൂർ പോലും ഇല്ല.
വിലനിർണ്ണയ മോഡൽ രണ്ട് ഘടകങ്ങൾ ഉൾക്കൊള്ളുന്നു:
- DBU ചാർജുകൾ: ഡാറ്റാബ്രിക്സ് യൂണിറ്റുകൾ വിവിധ ഇൻസ്റ്റൻസ് തരങ്ങളിലും വർക്ക് ലോഡ് പാറ്റേണുകളിലുമുള്ള സാധാരണ കമ്പ്യൂട്ട് ശേഷിയെ അളക്കുന്നു
- ക്ലൗഡ് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ: AWS, Azure, അല്ലെങ്കിൽ GCP എന്നിവയിൽ നിന്നുള്ള വെർച്വൽ മെഷീനുകൾ, സ്റ്റോറേജ്, നെറ്റ്വർക്കിംഗ് എന്നിവയ്ക്കുള്ള മണിക്കൂർ നിരക്കുകൾ
ഈ ചാർജുകൾ കൂടിച്ചേരുന്നു. AWS-ൽ ഒരു m5.xlarge ഇൻസ്റ്റൻസ് പ്രവർത്തിപ്പിക്കുന്നത് DBU നിരക്കും (ചില വർക്ക് ലോഡുകൾക്ക് മണിക്കൂറിന് 0.690 DBU) ഇൻഫ്രാസ്ട്രക്ചർ ചെലവും (VM-ന് മണിക്കൂറിന് $0.3795) ഉണ്ടാക്കുന്നു.
യഥാർത്ഥത്തിൽ: ഈ ഇരട്ട ഘടന ടീമുകളെ അപ്രതീക്ഷിതമായി പിടികൂടുന്നു. എഞ്ചിനിയറിംഗ് ക്ലസ്റ്റർ സൈസിംഗിലും VM തിരഞ്ഞെടുപ്പിലും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു, അതേസമയം ധനകാര്യ വിഭാഗം DBU ഗുണിതങ്ങൾ പ്രൊജക്ഷനുകളിൽ ഉൾപ്പെടുത്തിയിട്ടില്ലാത്തതിനാൽ അപ്രതീക്ഷിതമായി ഉയർന്ന ബില്ലുകൾ കാണുന്നു.
എന്താണ് Databricks യൂണിറ്റുകൾ (DBUs)?
DBUs പ്രോസസ്സിംഗ് കഴിവിന്റെ ഒരു യൂണിറ്റിനെ പ്രതിനിധീകരിക്കുന്നു. Databricks വിവിധ DBU നിരക്കുകൾ ഈടാക്കുന്നു, ഇത് ആശ്രയിച്ചിരിക്കുന്നു:
- വർക്ക് ലോഡ് തരം: ജോബ്സ് കമ്പ്യൂട്ട്, ഓൾ-പർപ്പസ് കമ്പ്യൂട്ട്, SQL വെയർഹൗസുകൾ, സെർവർലെസ്, മോഡൽ സെർവിംഗ് എന്നിവ ഓരോന്നിനും വ്യത്യസ്ത നിരക്കുകൾ ഉണ്ട്
- സബ്സ്ക്രിപ്ഷൻ ടയർ: സ്റ്റാൻഡേർഡ്, പ്രീമിയം, എന്റർപ്രൈസ് ടയറുകൾ DBUs വ്യത്യസ്തമായി വിലയിരുത്തുന്നു
- ഇൻസ്റ്റൻസ് കോൺഫിഗറേഷൻ: കൂടുതൽ vCPUs, മെമ്മറി എന്നിവയുള്ള വലിയ ഇൻസ്റ്റൻസുകൾ മണിക്കൂറിന് കൂടുതൽ DBUs ഉപഭോഗിക്കുന്നു
മണിക്കൂറിന് ഉപഭോഗിക്കുന്ന DBUs-ന്റെ എണ്ണം ഇൻസ്റ്റൻസ് സ്പെസിഫിക്കേഷനുകളെ ആശ്രയിച്ചിരിക്കുന്നു. ലഭ്യമായ ഡാറ്റ അനുസരിച്ച്, ഒരു m5.xlarge ഇൻസ്റ്റൻസിന് (4 vCPUs, 16 GB മെമ്മറി) ചില കമ്പ്യൂട്ട് തരങ്ങൾക്ക് 0.690 DBU നിരക്ക് ഉണ്ട്.
അതുകൊണ്ട് ആ ഇൻസ്റ്റൻസ് സ്റ്റാൻഡേർഡ് ടയറിലെ ജോബ്സ് കമ്പ്യൂട്ടിൽ ഒരു മണിക്കൂർ പ്രവർത്തിക്കുന്നുണ്ടെങ്കിൽ, കണക്കുകൂട്ടൽ ഇങ്ങനെയായിരിക്കും:
- DBU ഉപഭോഗം: 0.690 DBU
- DBU വില (ഉദാഹരണം): $0.15 प्रति DBU
- DBU ചെലവ്: 0.690 × $0.15 = $0.1035
- ഇൻഫ്രാസ്ട്രക്ചർ ചെലവ്: $0.3795
- മൊത്തം മണിക്കൂർ ചെലവ്: $0.483
എന്നാൽ കാത്തിരിക്കൂ. അതേ ക്ലസ്റ്റർ ഓൾ-പർപ്പസ് കമ്പ്യൂട്ടിലേക്ക് മാറ്റുകയാണെങ്കിൽ DBU വില ഗണ്യമായി വർധിക്കുന്നു - പലപ്പോഴും 2-3 മടങ്ങ് കൂടുതൽ - കാരണം സംവേദനാത്മക വർക്ക് ലോഡുകളിൽ നോട്ട്ബുക്ക് എൻവയോൺമെന്റുകളും സഹകരണ സവിശേഷതകളും ഉൾപ്പെടുന്നു.

Databricks സബ്സ്ക്രിപ്ഷൻ ടയറുകൾ വിശദീകരിച്ചു
Databricks മൂന്ന് പ്രധാന സബ്സ്ക്രിപ്ഷൻ ടയറുകൾ വാഗ്ദാനം ചെയ്യുന്നു, ഓരോന്നിനും വ്യത്യസ്ത DBU വിലനിർണ്ണയവും സവിശേഷതകളും ഉണ്ട്. ഈ ടയറുകൾ ചെലവ് മാത്രമല്ല, ഗവേണൻസ്, സുരക്ഷ, സഹകരണ കഴിവുകൾ എന്നിവയിലേക്കുള്ള പ്രവേശനവും നിർണ്ണയിക്കുന്നു.
Standard Tier
പ്രവേശന തലത്തിലുള്ള ടയർ, സങ്കീർണ്ണമായ ഗവേണൻസ് ആവശ്യകതകളില്ലാതെ ഡാറ്റാ പ്രോസസ്സിംഗിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ടീമുകൾക്ക് സ്റ്റാൻഡേർഡ് ടയർ അനുയോജ്യമാണ്.
Azure-ൽ, സ്റ്റാൻഡേർഡ് ടയർ ജോബ്സ് കമ്പ്യൂട്ടിംഗ് ഒരു DBU-ന് $0.15 ഈടാക്കുന്നു (US East റീജിയൻ ഡാറ്റ). ഇത് മറ്റ് കമ്പ്യൂട്ട് തരങ്ങൾക്കോ ടയറുകൾക്കോ ഉള്ള ഗുണിതങ്ങൾക്ക് മുമ്പുള്ള അടിസ്ഥാന DBU നിരക്കിനെ പ്രതിനിധീകരിക്കുന്നു.
സ്റ്റാൻഡേർഡ് ടയറിന് റോൾ-ബേസ്ഡ് ആക്സസ് കൺട്രോൾ (RBAC), ഓഡിറ്റ് ലോഗിംഗ്, നൂതന സുരക്ഷാ സവിശേഷതകൾ എന്നിവ ഇല്ല - ഡെവലപ്മെന്റ് എൻവയോൺമെന്റുകൾക്ക് സ്വീകാര്യമാണെങ്കിലും സെൻസിറ്റീവ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്ന പ്രൊഡക്ഷൻ വർക്ക് ലോഡുകൾക്ക് പരിമിതമാണ്.
Premium Tier (AWS/GCP-ൽ Enterprise)
പ്രീമിയം, വികസിച്ചുവരുന്ന ടീമുകൾക്കും പ്രവർത്തനപരമായ കാര്യക്ഷമതയ്ക്കുമായി രൂപകൽപ്പന ചെയ്ത കഴിവുകൾ ചേർക്കുന്നു. പ്രധാന സവിശേഷതകളിൽ ഇവ ഉൾപ്പെടുന്നു:
- ഗ്രാനുലാർ അനുമതികൾക്കായി റോൾ-ബേസ്ഡ് ആക്സസ് കൺട്രോൾ (RBAC)
- വർക്ക്സ്പേസുകളിലുടനീളമുള്ള ആക്സസ്, പ്രവർത്തനങ്ങൾ എന്നിവ ട്രാക്ക് ചെയ്യുന്ന ഓഡിറ്റ് ലോഗുകൾ
- മെച്ചപ്പെട്ട സുരക്ഷയും അനുവർത്തന നിയന്ത്രണങ്ങളും
- പതിപ്പുകളുള്ള സഹകരണ നോട്ട്ബുക്കുകൾ
സ്റ്റാൻഡേർഡ് ടയറിനേക്കാൾ പ്രീമിയം ടയറിൽ DBU നിരക്കുകൾ വർദ്ധിക്കുന്നു. കൃത്യമായ ഗുണിതം വർക്ക് ലോഡ് തരത്തെ ആശ്രയിച്ചിരിക്കുന്നു, എന്നാൽ പ്രീമിയം ടയർ സ്റ്റാൻഡേർഡിനേക്കാൾ प्रति DBU കൂടുതൽ ചിലവാകും (കൃത്യമായ ഗുണിതം വർക്ക് ലോഡ് തരത്തെ ആശ്രയിച്ചിരിക്കുന്നു).
Azure-ൽ, പ്രീമിയം ടയർ AWS, GCP എന്നിവയുടെ എന്റർപ്രൈസ് ടയറിന് തുല്യമാണ് - ക്ലൗഡ് വിലകൾ താരതമ്യം ചെയ്യുമ്പോൾ ഇത് പ്രധാനമാണ്.
Enterprise Tier
എന്റർപ്രൈസ് ടയർ വലിയ തോതിലുള്ള പ്രൊഡക്ഷൻ ഡിപ്ലോയ്മെന്റുകൾക്ക് പരമാവധി ഗവേണൻസ്, അനുവർത്തനം, പിന്തുണ എന്നിവ നൽകുന്നു. പ്രീമിയത്തെക്കാൾ അധിക സവിശേഷതകളിൽ ഇവ ഉൾപ്പെടുന്നു:
- നൂതന ഡാറ്റാ ഗവേണൻസ്, ലിനിയേജ് ട്രാക്കിംഗ്
- കേന്ദ്രീകൃത മെറ്റാഡാറ്റാ മാനേജ്മെന്റിനായി Unity Catalog
- മെച്ചപ്പെട്ട പ്രകടന ഒപ്റ്റിമൈസേഷനുകൾ
- മുൻഗണനാ പിന്തുണയും SLA പ്രതിബദ്ധതകളും
എന്റർപ്രൈസ് ഏറ്റവും ഉയർന്ന DBU വിലനിർണ്ണയ ടയറിനെ പ്രതിനിധീകരിക്കുന്നു. നിയന്ത്രിത ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതോ സങ്കീർണ്ണമായ ആക്സസ് നിയന്ത്രണങ്ങൾ ആവശ്യമുള്ളതോ ആയ ടീമുകൾ സാധാരണയായി ഉയർന്ന വിലയാണെങ്കിലും ഈ തലത്തിൽ പ്രവർത്തിക്കുന്നു.

ഡാറ്റാ ടൂളുകൾക്ക് മുൻകൂട്ടി പണം നൽകുന്നത് ഒഴിവാക്കുക
Databricks വിലനിർണ്ണയം പരിശോധിക്കുന്നുണ്ടോ? ഒരു ഉപകരണം മാത്രമല്ല പ്രശ്നം - കമ്പ്യൂട്ട്, സ്റ്റോറേജ്, സപ്പോർട്ടിംഗ് AI ടൂളുകൾ എന്നിവയിലുടനീളം ചെലവുകൾ കൂടുന്നു.
Get AI Perks, നിങ്ങൾ പ്രതിജ്ഞയെടുക്കുന്നതിന് മുമ്പ് ആ മൊത്തത്തിലുള്ള ചെലവ് കുറയ്ക്കാൻ സഹായിക്കുന്നു. ഇത് AI, ക്ലൗഡ്, ഡെവലപ്പർ ടൂളുകൾ എന്നിവയിലുടനീളമുള്ള ക്രെഡിറ്റുകൾ, ഡിസ്കൗണ്ടുകൾ, പങ്കാളി ഓഫറുകൾ എന്നിവയെ ശേഖരിക്കുന്നു, അതിനാൽ വ്യത്യസ്ത പ്രോഗ്രാമുകളിൽ ചിതറിക്കിടക്കുന്ന ഡീലുകൾ നിങ്ങൾക്ക് ലഭ്യമാകും.
Get AI Perks ഉപയോഗിച്ച് നിങ്ങൾക്ക് കഴിയും:
- AI, ഡാറ്റാ ഇൻഫ്രാസ്ട്രക്ചർ ടൂളുകൾക്ക് ക്രെഡിറ്റുകൾ ലഭ്യമാക്കുക
- നിങ്ങളുടെ സ്റ്റാക്ക് മുഴുവനായും ചെലവ് കുറയ്ക്കുക
- പൂർണ്ണമായ വിലയ്ക്ക് പ്രതിജ്ഞയെടുക്കുന്നതിന് മുമ്പ് ടൂളുകൾ പരിശോധിക്കുക
നിങ്ങൾ Databricks വിലനിർണ്ണയം താരതമ്യം ചെയ്യുകയാണെങ്കിൽ, ആദ്യം നിങ്ങളുടെ മൊത്തത്തിലുള്ള ചെലവുകൾ കുറയ്ക്കുക - Get AI Perks പരിശോധിക്കുക.
Databricks കമ്പ്യൂട്ട് തരങ്ങളും വിലനിർണ്ണയവും
കമ്പ്യൂട്ട് തരം തിരഞ്ഞെടുപ്പ് കാര്യമായ ചെലവ് വ്യത്യാസങ്ങൾക്ക് കാരണമാകുന്നു. ഓരോ വർക്ക് ലോഡ് പാറ്റേണിനും അതിൻ്റെ ഉപയോഗ കേസിന് അനുയോജ്യമായ വ്യത്യസ്ത വിലനിർണ്ണയം ഉണ്ട്.
Jobs Compute
Jobs compute, ഓട്ടോമേറ്റഡ്, പ്രൊഡക്ഷൻ ETL വർക്ക്ഫ്ലോകളും ഷെഡ്യൂൾ ചെയ്ത ജോലികളും പ്രവർത്തിപ്പിക്കുന്നു. ഈ ക്ലസ്റ്ററുകൾ സ്വയം ആരംഭിക്കുന്നു, വർക്ക് ലോഡുകൾ പ്രവർത്തിപ്പിക്കുന്നു, അവസാനം അവ ശൂന്യമാകുന്നു.
വിലനിർണ്ണയ ലാഭം: ഏറ്റവും കുറഞ്ഞ DBU നിരക്കുകൾ (All-Purpose-നെക്കാൾ 30-50% കുറവ്). സ്റ്റാൻഡേർഡ് ടയറിൽ (Azure US East) ഒരു DBU-ന് $0.15-ൽ നിന്ന് ആരംഭിക്കുന്നു, Jobs compute, പ്രവചനാത്മക വർക്ക് ലോഡുകൾക്ക് ഏറ്റവും ലാഭകരമായ ഓപ്ഷൻ നൽകുന്നു.
സ്ഥിരമായ ഡാറ്റാ പൈപ്പ്ലൈനുകൾ പ്രവർത്തിപ്പിക്കുന്ന ടീമുകൾ Jobs compute തിരഞ്ഞെടുക്കണം. All-Purpose compute-ൽ സമാനമായ വർക്ക് ലോഡ് പ്രവർത്തിപ്പിക്കുന്നത് യാതൊരു പ്രവർത്തനപരമായ നേട്ടവുമില്ലാതെ 2-3 മടങ്ങ് കൂടുതൽ ചെലവാകും.
All-Purpose Compute
All-Purpose ക്ലസ്റ്ററുകൾ സംവേദനാത്മക അനലിറ്റിക്സ്, നോട്ട്ബുക്ക് വികസനം, സഹകരണപരമായ കണ്ടെത്തൽ എന്നിവയെ പിന്തുണയ്ക്കുന്നു. ഈ ക്ലസ്റ്ററുകൾ ഉപയോക്താക്കൾ സജീവമായി പ്രവർത്തിക്കുമ്പോൾ നിലനിൽക്കുന്നു, റിയൽ-ടൈം ക്വറി എക്സിക്യൂഷനും ആവർത്തന വികസനത്തിനും ഇത് അനുവദിക്കുന്നു.
വിലയുടെ വ്യത്യാസം: ഗണ്യമായി ഉയർന്ന DBU നിരക്കുകൾ. All-Purpose compute, നോട്ട്ബുക്ക് എൻവയോൺമെന്റുകൾ, സഹകരണ സവിശേഷതകൾ, സംവേദനാത്മക കഴിവുകൾ എന്നിവ ഉൾക്കൊള്ളുന്നു, ഇത് പ്രീമിയം വിലനിർണ്ണയത്തെ ന്യായീകരിക്കുന്നു.
സാധാരണ തെറ്റ്: All-Purpose ക്ലസ്റ്ററുകൾ പ്രവർത്തനരഹിതമായി പ്രവർത്തിപ്പിക്കുന്നത്. ജോബ്സ് കമ്പ്യൂട്ട് ടാസ്ക് പൂർത്തിയായതിന് ശേഷം ശൂന്യമാകുന്നത് പോലെ ഇത് പ്രവർത്തിക്കില്ല, All-Purpose ക്ലസ്റ്ററുകൾ മാനുവലായി നിർത്തുകയോ ഓട്ടോ-ടെർമിനേറ്റ് ചെയ്യുകയോ ചെയ്യുന്നതുവരെ ചാർജുകൾ തുടർച്ചയായി വർദ്ധിപ്പിക്കുന്നു. ആക്രമണാത്മക ഓട്ടോ-ടെർമിനേഷൻ (5-10 മിനിറ്റ് നിഷ്ക്രിയത്വം) ക്രമാതീതമായ ചെലവുകൾ തടയുന്നു.
SQL Warehouses
SQL വെയർഹൗസുകൾ (മുമ്പ് SQL എൻഡ്പോയിന്റുകൾ) BI ക്വറികളും അനലിറ്റിക്സ് വർക്ക് ലോഡുകളും കൈകാര്യം ചെയ്യുന്നു. മൂന്ന് തരം നിലവിലുണ്ട്:
- Serverless: വേഗതയേറിയ സ്റ്റാർട്ടപ്പ്, ഉയർന്ന പ്രകടനം, മാനേജ്ഡ് ഇൻഫ്രാസ്ട്രക്ചർ
- Pro: Photon ആക്സലറേഷൻ, പ്രെഡിക്റ്റീവ് IO ഒപ്റ്റിമൈസേഷൻ
- Classic: അടിസ്ഥാന SQL കഴിവുകൾ, കുറഞ്ഞ ചെലവ്
Serverless SQL വെയർഹൗസുകൾ Photon Engine, Predictive IO, Intelligent Workload Management എന്നിവയുള്ള മികച്ച പ്രകടനം നൽകുന്നു - എന്നാൽ പ്രീമിയം DBU നിരക്കുകളിൽ. Pro വെയർഹൗസുകൾ പൂർണ്ണ സെർവർലെസ് ഇൻഫ്രാസ്ട്രക്ചർ ഇല്ലാതെ Photon, Predictive IO എന്നിവ നൽകുന്നു. ക്ലാസിക് വെയർഹൗസുകൾ കുറഞ്ഞ ചെലവിൽ അടിസ്ഥാന പ്രവർത്തനക്ഷമത നൽകുന്നു.
സ്ഥിരമായി ഇടപഴകുന്ന അഡ്-ഹോക് ക്വറികൾ പ്രവർത്തിപ്പിക്കുന്ന BI ടീമുകൾക്ക്, സെർവർലെസ് പ്രകടന മെച്ചപ്പെടുത്തലുകൾ ഉയർന്ന DBU നിരക്കുകളിൽ പോലും വേഗതയേറിയ ക്വറി എക്സിക്യൂഷനിലൂടെ ചെലവിനെ ന്യായീകരിക്കുന്നു (മൊത്തം കുറഞ്ഞ DBU-മണിക്കൂറുകൾ).
Model Serving
മോഡൽ സെർവിംഗ് മെഷീൻ ലേണിംഗ് മോഡലുകളെ റിയൽ-ടൈം API-കളായി വിന്യസിക്കുന്നു. ഡെപ്ലോയ്മെന്റുകൾ CPU അല്ലെങ്കിൽ GPU ഇൻസ്റ്റൻസുകൾ ഉപയോഗിക്കുന്നുണ്ടോ എന്നതിനെ ആശ്രയിച്ചിരിക്കും വിലനിർണ്ണയം.
ഔദ്യോഗിക വിലനിർണ്ണയ ഡാറ്റ അനുസരിച്ച്, GPU സെർവിംഗ് DBU നിരക്കുകൾ ഇൻസ്റ്റൻസ് വലുപ്പത്തെ ആശ്രയിച്ച് വ്യത്യാസപ്പെടുന്നു:
| Instance Size | GPU Configuration | DBUs per Hour |
|---|---|---|
| Small | T4 or equivalent | 10.48 |
| Medium | A10G × 1 GPU | 20.00 |
| Medium 4X | A10G × 4 GPU | 112.00 |
| Medium 8X | A10G × 8 GPU | 290.80 |
| Large 8X 40GB | A100 40GB × 8 GPU | 538.40 |
| Large 8X 80GB | A100 80GB × 8 GPU | 628.00 |
GPU സെർവിംഗ് സാധാരണ കമ്പ്യൂട്ടിംഗിനേക്കാൾ ഗണ്യമായി ഉയർന്ന DBU ഉപഭോഗം ഉൾക്കൊള്ളുന്നു. ML മോഡലുകൾ വിന്യസിക്കുന്ന ടീമുകൾക്ക് കൃത്യമായ ട്രാഫിക് പ്രൊജക്ഷനുകൾ ആവശ്യമാണ് - ക്വറി വോളിയം കുറച്ചുകാണിക്കുന്നത് ഈ DBU നിരക്കുകളിൽ കടുത്ത ചെലവ് വർദ്ധിപ്പിക്കാൻ ഇടയാക്കും.
Serverless Compute
Serverless compute, ക്ലസ്റ്റർ മാനേജ്മെൻ്റ് പൂർണ്ണമായും ഒഴിവാക്കുന്നു. Databricks ഇൻഫ്രാസ്ട്രക്ചർ പ്രൊവിഷനിംഗ്, സ്കെയിലിംഗ്, ഒപ്റ്റിമൈസേഷൻ എന്നിവ സ്വയം കൈകാര്യം ചെയ്യുന്നു.
വിലനിർണ്ണയ ലാഭം: ലഭ്യമായ ഡാറ്റ അനുസരിച്ച്, തുല്യമായ വർക്ക് ലോഡുകൾക്ക് ജോബ്സ് കമ്പ്യൂട്ട് DBU നിരക്കിൻ്റെ ഏകദേശം 50% ആണ്. പങ്കിട്ട, ഒപ്റ്റിമൈസ് ചെയ്ത വിഭവങ്ങളിൽ നിന്നുള്ള ഇൻഫ്രാസ്ട്രക്ചർ കാര്യക്ഷമത വർദ്ധനവ് ഈ കുറവ് പ്രതിഫലിപ്പിക്കുന്നു.
പ്രശ്നം: സെർവർലെസ്സിന് വർക്ക്സ്പേസ് തലത്തിലുള്ള പ്രവർത്തനക്ഷമത ആവശ്യമാണ്, എല്ലാ റീജിയനുകളിലും ലഭ്യമല്ല. പിന്തുണയുള്ള വർക്ക് ലോഡുകൾക്ക്, സെർവർലെസ് പലപ്പോഴും കുറഞ്ഞ DBU നിരക്കുകളും പൂജ്യം മാനേജ്മെൻ്റ് ഓവർഹെഡും കാരണം ഏറ്റവും കുറഞ്ഞ മൊത്തത്തിലുള്ള ചെലവ് നൽകുന്നു.

ക്ലൗഡ് പ്രൊവൈഡർമാർക്കിടയിൽ Databricks വിലനിർണ്ണയം
Databricks AWS, Azure, Google Cloud Platform എന്നിവയിൽ ക്ലൗഡ്-നിർദ്ദിഷ്ട സംയോജനങ്ങളും വിലനിർണ്ണയ വ്യതിയാനങ്ങളും ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നു. പ്രധാന DBU ചട്ടക്കൂട് സ്ഥിരമായി തുടരുന്നു, എന്നാൽ ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളും റീജിയണൽ ലഭ്യതയും വ്യത്യാസപ്പെടുന്നു.
AWS-ലെ Databricks വിലനിർണ്ണയം
AWS Databricks സ്റ്റോറേജിനായി S3, കമ്പ്യൂട്ടിനായി EC2, സുരക്ഷയ്ക്കായി IAM എന്നിവയുമായി സംയോജിപ്പിക്കുന്നു. തിരഞ്ഞെടുത്ത ഇൻസ്റ്റൻസ് തരങ്ങൾക്കായി സ്റ്റാൻഡേർഡ് AWS EC2 വിലനിർണ്ണയം അനുസരിച്ച് ഇൻഫ്രാസ്ട്രക്ചർ ചാർജുകൾ ഈടാക്കുന്നു.
ഉദാഹരണത്തിന്, ഒരു m5.xlarge ഇൻസ്റ്റൻസിന് US East റീജിയണുകളിൽ (ഓൺ-ഡിമാൻഡ് വിലനിർണ്ണയം) മണിക്കൂറിന് $0.3795 ചെലവാകും. മൊത്തം ചെലവ് കണക്കാക്കാൻ വർക്ക് ലോഡ് തരം, സബ്സ്ക്രിപ്ഷൻ ടയർ എന്നിവ അടിസ്ഥാനമാക്കിയുള്ള DBU ഗുണിതം ചേർക്കുക.
AWS, EC2 ഇൻഫ്രാസ്ട്രക്ചറിനായി സേവിംഗ്സ് പ്ലാനുകളും റിസർവ്ഡ് ഇൻസ്റ്റൻസുകളും വാഗ്ദാനം ചെയ്യുന്നു, ഇത് VM ചെലവ് 30-70% വരെ കുറയ്ക്കാൻ സാധ്യതയുണ്ട്. എന്നിരുന്നാലും, ഈ പ്രതിജ്ഞകൾ ഇൻഫ്രാസ്ട്രക്ചറിന് മാത്രമേ ബാധകമാകൂ - DBU ചാർജുകൾക്കല്ല.
Azure-ലെ Databricks വിലനിർണ്ണയം
Microsoft Azure-ൽ ഒരു ഫസ്റ്റ്-പാർട്ടി സേവനമായി Azure Databricks നിലവിലുണ്ട്, ഇത് മൈക്രോസോഫ്റ്റിൽ നിന്ന് നേരിട്ട് ഏകീകൃത ബില്ലിംഗും പിന്തുണയും നൽകുന്നു. Azure-ലെ പ്രീമിയം ടയർ AWS, GCP എന്നിവയിലെ എന്റർപ്രൈസ് ടയറിന് തുല്യമാണ്.
ഔദ്യോഗിക ഉറവിടങ്ങൾ അനുസരിച്ച്, Azure Databricks സ്റ്റാൻഡേർഡ് ടയർ ജോബ്സ് കമ്പ്യൂട്ടിംഗ് US East റീജിയണിൽ ഒരു DBU-ന് $0.15 ഈടാക്കുന്നു. തിരഞ്ഞെടുത്ത ഇൻസ്റ്റൻസ് ഫാമിലികൾക്കായി Azure VM വിലനിർണ്ണയം അനുസരിച്ച് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ പിന്തുടരുന്നു.
ഇതിനകം Microsoft ഇക്കോസിസ്റ്റവുമായി പ്രതിജ്ഞാബദ്ധരായ ഓർഗനൈസേഷനുകൾക്ക് Azure, അതുല്യമായ പ്രയോജനങ്ങൾ നൽകുന്നു - ഏകീകൃത ബില്ലിംഗ്, Databricks ചാർജുകൾ മറ്റ് Azure സേവനങ്ങളുമായി സംയോജിപ്പിക്കുന്നു, കൂടാതെ Azure Active Directoryയുമായുള്ള സംയോജനം ഐഡൻ്റിറ്റി മാനേജ്മെൻ്റ് ലളിതമാക്കുന്നു.
Google Cloud Platform-ലെ Databricks വിലനിർണ്ണയം
GCP Databricks, Cloud Storage, Compute Engine, GCP IAM എന്നിവയുമായി സംയോജിപ്പിക്കുന്നു. പ്ലാറ്റ്ഫോം സമാന DBU ചട്ടക്കൂട് പിന്തുടരുന്നു, എന്നാൽ GCP-യുടെ ഇൻസ്റ്റൻസ് തരങ്ങളും റീജിയണൽ ഇൻഫ്രാസ്ട്രക്ചറും ഉപയോഗിക്കുന്നു.
GCP സാധാരണയായി AWS അല്ലെങ്കിൽ Azure-ൽ നിന്ന് വ്യത്യസ്ത ഇൻസ്റ്റൻസ് കോൺഫിഗറേഷനുകൾ വാഗ്ദാനം ചെയ്യുന്നു, ഇത് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളെയും DBU നിരക്കുകളെയും ബാധിക്കുന്നു. പ്രത്യേക GCP റീജിയണുകൾക്കായി Databricks വിലനിർണ്ണയ കാൽക്കുലേറ്റർ ഉപയോഗിച്ച് ടീമുകൾ വിലനിർണ്ണയം സാധൂകരിക്കണം.
ക്ലൗഡ് വിലനിർണ്ണയ താരതമ്യം
തുല്യമായ ടയറുകൾക്കും കമ്പ്യൂട്ട് തരങ്ങൾക്കും ക്ലൗഡുകൾക്കിടയിൽ DBU നിരക്കുകൾ താരതമ്യേന സ്ഥിരമായി തുടരുന്നു. പ്രാഥമിക ചെലവ് വ്യത്യാസം, AWS, Azure, GCP എന്നിവയ്ക്കിടയിലുള്ള ഇൻഫ്രാസ്ട്രക്ചർ വിലനിർണ്ണയ വ്യത്യാസങ്ങളിൽ നിന്നാണ് വരുന്നത്.
സാധാരണയായി, ടീമുകൾ ക്ലൗഡ് പ്രൊവൈഡർമാരെ തിരഞ്ഞെടുക്കേണ്ടത് ഇതിനെ അടിസ്ഥാനമാക്കിയാണ്:
- നിലവിലുള്ള ഇൻഫ്രാസ്ട്രക്ചർ പ്രതിജ്ഞകളും എന്റർപ്രൈസ് കരാറുകളും
- ഡാറ്റാ ലൊക്കാലിറ്റി ആവശ്യകതകളും അനുവർത്തന ആവശ്യകതകളും
- സ്വതസിദ്ധമായ സേവന സംയോജനങ്ങൾ (S3 vs Blob Storage vs Cloud Storage)
- ആവശ്യമുള്ള Databricks സവിശേഷതകൾക്കുള്ള റീജിയണൽ ലഭ്യത
ക്ലൗഡ് പ്രൊവൈഡർ തിരഞ്ഞെടുപ്പ് DBU ചാർജുകളേക്കാൾ ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളെ കൂടുതൽ ബാധിക്കുന്നു. നിലവിലുള്ള AWS റിസർവ്ഡ് ഇൻസ്റ്റൻസുകളോ Azure പ്രതിജ്ഞകളോ ഉള്ള ഒരു ഓർഗനൈസേഷന് ഗണ്യമായ ഇൻഫ്രാസ്ട്രക്ചർ ലാഭത്തിനായി അവ പ്രയോജനപ്പെടുത്താൻ കഴിയും.
Databricks വിലനിർണ്ണയ കാൽക്കുലേറ്റർ ഉപയോഗിക്കുന്നു
ഔദ്യോഗിക Databricks വിലനിർണ്ണയ കാൽക്കുലേറ്റർ, വർക്ക് ലോഡ് സ്പെസിഫിക്കേഷനുകളെ അടിസ്ഥാനമാക്കി പ്രതിമാസ ചെലവുകൾ കണക്കാക്കാൻ സഹായിക്കുന്നു. ഔദ്യോഗിക വിലനിർണ്ണയ പേജിൽ സ്ഥിതിചെയ്യുന്ന കാൽക്കുലേറ്ററിന് താഴെ പറയുന്ന ഇൻപുട്ടുകൾ ആവശ്യമാണ്:
- ക്ലൗഡ് പ്രൊവൈഡർ (AWS, Azure, അല്ലെങ്കിൽ GCP)
- റീജിയൻ തിരഞ്ഞെടുപ്പ്
- സബ്സ്ക്രിപ്ഷൻ ടയർ (Standard, Premium, Enterprise)
- കമ്പ്യൂട്ട് തരം (Jobs, All-Purpose, SQL, Serverless)
- ഇൻസ്റ്റൻസ് തരം, ക്ലസ്റ്റർ വലുപ്പം
- പ്രതിമാസം പ്രതീക്ഷിക്കുന്ന റൺടൈം മണിക്കൂറുകൾ
കാൽക്കുലേറ്റർ കണക്കാക്കിയ DBU ഉപഭോഗവും DBU ചാർജുകളും ഇൻഫ്രാസ്ട്രക്ചർ ഫീസും സംയോജിപ്പിച്ച് മൊത്തത്തിലുള്ള പ്രതിമാസ ചെലവുകൾ നൽകുന്നു.
ഇവിടെയാണ് കാര്യങ്ങൾ രസകരമാകുന്നത്. കാൽക്കുലേറ്റർ കണക്കുകൾ നൽകുന്നു - യഥാർത്ഥ ചെലവുകൾ യഥാർത്ഥ ഉപയോഗ പാറ്റേണുകളെ ആശ്രയിച്ചിരിക്കുന്നു. ടീമുകൾ പലപ്പോഴും കുറച്ചുകാണിക്കുന്നു:
- ഓട്ടോ-ടെർമിനേഷൻ പ്രവർത്തനക്ഷമമാകുന്നതിന് മുമ്പുള്ള ക്ലസ്റ്റർ നിഷ്ക്രിയ സമയം
- വികസന, പരിശോധന വർക്ക് ലോഡ് വോളിയം
- ഇന്ററാക്റ്റീവ് വികസനത്തിൽ നിന്ന് പ്രൊഡക്ഷൻ ക്ലസ്റ്ററുകളിലേക്ക് വ്യാപിക്കുന്നത്
മികച്ച രീതി: പൈലറ്റ് വർക്ക് ലോഡുകൾ പ്രവർത്തിപ്പിക്കുക, സിസ്റ്റം ടേബിളുകളിലൂടെ യഥാർത്ഥ ബില്ലബിൾ ഉപയോഗം നിരീക്ഷിക്കുക, വലിയ തോതിലുള്ള ഡിപ്ലോയ്മെന്റുകൾക്ക് പ്രതിജ്ഞയെടുക്കുന്നതിന് മുമ്പ്. ബില്ലബിൾ ഉപയോഗ സിസ്റ്റം ടേബിൾ (system.billing.usage) ചെലവ് വിശകലനത്തിനായി ഗ്രാനുലാർ ഉപഭോഗ ഡാറ്റ നൽകുന്നു.
Databricks ചെലവുകൾ എന്താണ് നിശ്ചയിക്കുന്നത്?
ചെലവ് ഡ്രൈവറുകൾ മനസ്സിലാക്കുന്നത് ഒപ്റ്റിമൈസേഷൻ ശ്രമങ്ങളെ ഫലപ്രദമായി ലക്ഷ്യമിടാൻ സഹായിക്കുന്നു. പ്രതിമാസ ചെലവ് നിർണ്ണയിക്കുന്നതിന് നിരവധി ഘടകങ്ങൾ കൂടിച്ചേരുന്നു.
ഡാറ്റാ വോളിയവും വർക്ക് ലോഡ് വേഗതയും
കൂടുതൽ ഡാറ്റ പ്രോസസ്സ് ചെയ്യാൻ കൂടുതൽ കമ്പ്യൂട്ട് ആവശ്യപ്പെടുന്നു. പ്രതിദിനം ടെറാബൈറ്റുകൾ പ്രോസസ്സ് ചെയ്യുന്ന ബാച്ച് ജോലികൾ ഗിഗാബൈറ്റുകൾ കൈകാര്യം ചെയ്യുന്ന പൈപ്പ്ലൈനുകളേക്കാൾ ഗണ്യമായി കൂടുതൽ DBU-മണിക്കൂറുകൾ ഉപഭോഗിക്കുന്നു.
വേഗതയും പ്രധാനമാണ്. റിയൽ-ടൈം സ്ട്രീമിംഗ് വർക്ക് ലോഡുകൾക്ക് എപ്പോഴും പ്രവർത്തിക്കുന്ന ക്ലസ്റ്ററുകൾ ആവശ്യമാണ്, ഇത് നിരന്തരം ചാർജുകൾ വർദ്ധിപ്പിക്കുന്നു. ബാച്ച് പ്രോസസ്സിംഗ് ക്ലസ്റ്ററുകൾ സജീവ വിൻഡോകളിൽ മാത്രമേ പ്രവർത്തിക്കൂ, മൊത്തം റൺടൈം കുറയ്ക്കുന്നു.
ക്ലസ്റ്റർ കോൺഫിഗറേഷനും ഇൻസ്റ്റൻസ് തിരഞ്ഞെടുപ്പും
കൂടുതൽ vCPUs, മെമ്മറി എന്നിവയുള്ള വലിയ ഇൻസ്റ്റൻസുകൾക്ക് ഉയർന്ന DBU നിരക്കുകളും ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളും ഉണ്ട്. ഒരു m5.8xlarge (32 vCPUs, 128 GB) ഒരു m5.xlarge (4 vCPUs, 16 GB) നേക്കാൾ മണിക്കൂറിന് ഗണ്യമായി കൂടുതൽ ചിലവാകും.
ഒപ്റ്റിമൈസേഷൻ വെല്ലുവിളി: ഓവർസൈസ്ഡ് ക്ലസ്റ്ററുകൾ അനാവശ്യമായ കപ്പാസിറ്റി കാരണം പണം പാഴാക്കുന്നു, അതേസമയം അണ്ടർസൈസ്ഡ് ക്ലസ്റ്ററുകൾ വർക്ക് ലോഡുകൾ പൂർത്തിയാക്കാൻ കൂടുതൽ സമയം എടുക്കും - മൊത്തം DBU-മണിക്കൂറുകളിൽ കൂടുതൽ ചെലവാകാം.
വർക്ക് ലോഡ് തരം വിതരണം
കമ്പ്യൂട്ട് തരങ്ങളുടെ മിശ്രിതം ശരാശരി DBU നിരക്കുകൾ നിർണ്ണയിക്കുന്നു. പ്രധാനമായും Jobs compute പ്രവർത്തിപ്പിക്കുന്ന ഓർഗനൈസേഷനുകൾ, ഓൾ-പർപ്പസ് ക്ലസ്റ്ററുകൾ വളരെയധികം ഉപയോഗിക്കുന്നവരെക്കാൾ കുറവ് പണം നൽകുന്നു.
എഞ്ചിനീയറിംഗ് വർക്ക് ലോഡുകൾ (ETL) സാധാരണയായി ഏറ്റവും കുറഞ്ഞ ചെലവ് നൽകുന്നു, അതേസമയം ഡാറ്റാ സയൻസ് വർക്ക് ലോഡുകൾ (ML വികസനം) ഓൾ-പർപ്പസ് ക്ലസ്റ്റർ ഉപയോഗം കാരണം 3-4 മടങ്ങ് കൂടുതൽ ചെലവാകും.
ക്ലസ്റ്റർ നിഷ്ക്രിയ സമയവും ഓട്ടോ-ടെർമിനേഷനും
ഓട്ടോ-ടെർമിനേഷൻ ക്രമീകരണങ്ങൾ അവയെ നിർത്തുന്നില്ലെങ്കിൽ, All-Purpose ക്ലസ്റ്ററുകൾ നിഷ്ക്രിയമായിരിക്കുമ്പോൾ ചാർജുകൾ വർദ്ധിപ്പിക്കുന്നത് തുടരുന്നു. രാത്രി മുഴുവൻ പ്രവർത്തിക്കുന്ന ഒരു ക്ലസ്റ്റർ 8-12 മണിക്കൂർ അനാവശ്യ ചാർജുകൾ വർദ്ധിപ്പിക്കുന്നു.
വികസന ക്ലസ്റ്ററുകൾക്ക് 5-10 മിനിറ്റ് ഓട്ടോ-ടെർമിനേഷൻ ക്രമീകരിക്കുന്നത് ക്രമാതീതമായ ചെലവുകൾ തടയുന്നു. പ്രൊഡക്ഷൻ ജോബ്സ് ക്ലസ്റ്ററുകൾ ടാസ്ക് പൂർത്തിയായതിന് ശേഷം ഉടൻ തന്നെ ശൂന്യമാകണം.
സ്റ്റോറേജ് ചെലവുകൾ
GB-ന് സ്റ്റോറേജ് ചെലവ് കമ്പ്യൂട്ടിംഗിനേക്കാൾ കുറവാണെങ്കിലും, വലിയ ഡാറ്റാ ലേക്കുകൾ ഗണ്യമായ പ്രതിമാസ ചാർജുകൾ വർദ്ധിപ്പിക്കുന്നു. ക്ലൗഡ് സ്റ്റോറേജ് വിലനിർണ്ണയം വ്യത്യാസപ്പെടുന്നു:
- AWS S3 സ്റ്റാൻഡേർഡ് സ്റ്റോറേജ് വിലനിർണ്ണയം, മിക്ക റീജിയണുകളിലും ആദ്യത്തെ 50 TB/മാസത്തിന് $0.023-ൽ നിന്ന് ആരംഭിക്കുന്നു, എന്നാൽ US East (N. Virginia) യിൽ $0.021 प्रति GB ആണ്
- Azure Blob Storage: ടയറിംഗ് ഓപ്ഷനുകളുള്ള സമാന വിലനിർണ്ണയം
- GCP Cloud Storage: റീജിയണൽ വ്യതിയാനങ്ങളുള്ള താരതമ്യപ്പെടുത്താവുന്ന നിരക്കുകൾ
Delta Lake-ന്റെ ഒപ്റ്റിമൈസേഷൻ സവിശേഷതകൾ ഫയൽ കോമ്പാക്ഷൻ, ഇൻ്റലിജൻ്റ് ഡാറ്റാ ലേഔട്ട് എന്നിവയിലൂടെ സ്റ്റോറേജ് ചെലവുകൾ നിയന്ത്രിക്കാൻ സഹായിക്കുന്നു.
Databricks ചെലവ് ഒപ്റ്റിമൈസേഷൻ തന്ത്രങ്ങൾ
ഒപ്റ്റിമൈസേഷൻ, യഥാർത്ഥത്തിൽ പ്രതിമാസ ബില്ലുകൾ കുറയ്ക്കുന്ന രീതികളിലേക്ക് സൈദ്ധാന്തിക മികച്ച രീതികളിൽ നിന്ന് മുന്നോട്ട് പോകുന്നു. വലിയ തോതിൽ പ്രവർത്തിക്കുന്നത് ഇവയാണ്.
കമ്പ്യൂട്ട് തരങ്ങൾ വർക്ക് ലോഡ് പാറ്റേണുകളുമായി പൊരുത്തപ്പെടുത്തുക
ഓട്ടോമേറ്റഡ് പൈപ്പ്ലൈനുകൾക്കും ഷെഡ്യൂൾ ചെയ്ത ജോലികൾക്കും Jobs compute ഉപയോഗിക്കുക. സംവേദനാത്മക വികസനത്തിനും കണ്ടെത്തലിനും വേണ്ടി മാത്രം All-Purpose ക്ലസ്റ്ററുകൾ നീക്കിവയ്ക്കുക.
സ്പോട്ട് ഇൻസ്റ്റൻസുകളുള്ള ജോബ് ക്ലസ്റ്ററുകൾ ഉപയോഗിക്കുന്നത് തകരാറില്ലാത്ത വർക്ക് ലോഡുകൾക്ക് VM ചെലവ് 50% വരെ കുറയ്ക്കാൻ കഴിയും, DBU ചാർജുകൾ സ്ഥിരമായി തുടരുന്നു. സ്പോട്ട് ഇൻസ്റ്റൻസുകൾ സാധ്യതയുള്ള തടസ്സങ്ങൾക്ക് പകരം ഡിസ്കൗണ്ടഡ് ഇൻഫ്രാസ്ട്രക്ചർ വിലനിർണ്ണയം നൽകുന്നു.
അഗ്രസീവ് ഓട്ടോ-ടെർമിനേഷൻ നടപ്പിലാക്കുക
5-10 മിനിറ്റ് പ്രവർത്തനരഹിതമായ നിഷ്ക്രിയത്വത്തിനായി All-Purpose ക്ലസ്റ്ററുകൾക്ക് ഓട്ടോ-ടെർമിനേഷൻ ക്രമീകരിക്കുക. ഡെവലപ്മെൻ്റ് ക്ലസ്റ്ററുകൾ നിഷ്ക്രിയമായിരിക്കുന്നത് യാതൊരു മൂല്യവും സൃഷ്ടിക്കാതെ DBUs ഉപഭോഗിക്കുന്നു.
പ്രൊഡക്ഷൻ ജോബ്സ് ക്ലസ്റ്ററുകൾ വർക്ക് ലോഡ് പൂർത്തിയായതിന് ശേഷം ഉടൻ തന്നെ ശൂന്യമാകണം. Databricks സെക്കൻഡ് പ്രതി ചാർജ് ഈടാക്കുന്നു - ടാസ്ക് പ്രവർത്തിപ്പിച്ച് ഉടൻ നിർത്തിയ ക്ലസ്റ്ററുകൾ അനാവശ്യ ചാർജുകൾ ഒഴിവാക്കുന്നു.
ക്ലസ്റ്റർ സൈസിംഗ് ഒപ്റ്റിമൈസ് ചെയ്യുക
വലിയ ഇൻസ്റ്റൻസുകളിലേക്ക് ഡിഫോൾട്ട് ചെയ്യുന്നതിനു പകരം വർക്ക് ലോഡ് ആവശ്യകതകളെ അടിസ്ഥാനമാക്കി ക്ലസ്റ്ററുകൾ ശരിയായ വലുപ്പത്തിൽ ക്രമീകരിക്കുക. ചെറിയ കോൺഫിഗറേഷനുകളിൽ നിന്ന് ആരംഭിക്കുക, പ്രകടന അളവുകൾ തടസ്സങ്ങൾ സൂചിപ്പിക്കുമ്പോൾ മാത്രം വലുതാക്കുക.
ബില്ലബിൾ ഉപയോഗ സിസ്റ്റം ടേബിളിലൂടെ ക്ലസ്റ്റർ അളവുകൾ നിരീക്ഷിക്കുക. സ്ഥിരമായി കുറഞ്ഞ CPU അല്ലെങ്കിൽ മെമ്മറി ഉപയോഗം കാണിക്കുന്ന ക്ലസ്റ്ററുകൾ ഓവർസൈസിംഗ് അവസരങ്ങൾ സൂചിപ്പിക്കുന്നു.
Photon ആക്സലറേഷൻ പ്രവർത്തനക്ഷമമാക്കുക
Photon ഒരു ബിൽറ്റ്-ഇൻ വെക്ടറൈസ്ഡ് ക്വറി എഞ്ചിനാണ്, ഇത് SQL, DataFrame പ്രവർത്തനങ്ങൾക്കുള്ള ക്വറി എക്സിക്യൂഷൻ വേഗത്തിലാക്കുന്നു. സമാന DBU നിരക്കുകളിൽ പോലും വേഗതയേറിയ എക്സിക്യൂഷൻ കുറഞ്ഞ DBU-മണിക്കൂറുകൾ ഉപഭോഗിക്കുന്നു.
എങ്കിലും, Photon SQL, DataFrame പ്രവർത്തനങ്ങൾക്ക് മികച്ചതാണ്. സങ്കീർണ്ണമായ Python UDFs അല്ലെങ്കിൽ ഇഷ്ടാനുസൃത കോഡിന് പരിമിതമായ ആക്സലറേഷൻ ലഭിച്ചേക്കാം.
ലഭ്യമാകുമ്പോൾ Serverless ഉപയോഗിക്കുക
Serverless compute DBU നിരക്കുകൾ സാധാരണയായി ഉയർന്നതാണ് (ഉദാഹരണത്തിന്, $0.35 – $0.40 प्रति DBU), ജോബ്സ് കമ്പ്യൂട്ട് DBU നിരക്കുകളെക്കാൾ ($0.07 – $0.15 प्रति DBU), എന്നിരുന്നാലും അവ ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ ഒഴിവാക്കുന്നു.
Serverless, ക്ലസ്റ്റർ മാനേജ്മെൻ്റ് ഓവർഹെഡ് ഒഴിവാക്കുകയും ഇൻഫ്രാസ്ട്രക്ചർ ഉപയോഗം സ്വയം ഒപ്റ്റിമൈസ് ചെയ്യുകയും ചെയ്യുന്നു - രണ്ടും നേരിട്ടുള്ള DBU ലാഭത്തിനപ്പുറം പ്രവർത്തനച്ചെലവുകൾ കുറയ്ക്കുന്നു.
തകരാറില്ലാത്ത വർക്ക് ലോഡുകൾക്ക് Spot Instances ഉപയോഗിക്കുക
AWS Spot Instances, Azure Spot VMs എന്നിവ ഓൺ-ഡിമാൻഡ് വിലനിർണ്ണയവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ 60-90% ഡിസ്കൗണ്ടിൽ ഇൻഫ്രാസ്ട്രക്ചർ നൽകുന്നു. മെച്ചപ്പെട്ട റീട്രൈ ലോജിക് ഉള്ള ജോബ്സ് കമ്പ്യൂട്ട് വർക്ക് ലോഡുകൾക്ക് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ ഗണ്യമായി കുറയ്ക്കാൻ സ്പോട്ട് ഇൻസ്റ്റൻസുകൾ പ്രയോജനപ്പെടുത്താൻ കഴിയും.
DBU ചാർജുകൾ സ്ഥിരമായി തുടരുന്നു - സ്പോട്ട് ഇൻസ്റ്റൻസുകൾ ഇൻഫ്രാസ്ട്രക്ചർ ഘടകത്തെ മാത്രം ഡിസ്കൗണ്ട് ചെയ്യുന്നു. എന്നാൽ പല വർക്ക് ലോഡുകൾക്കും ആ ഇൻഫ്രാസ്ട്രക്ചർ മൊത്തം ചെലവിൻ്റെ 40-60% പ്രതിനിധീകരിക്കുന്നു.
System Tables വഴി ചെലവുകൾ നിരീക്ഷിക്കുക
ബില്ലബിൾ ഉപയോഗ സിസ്റ്റം ടേബിൾ (system.billing.usage) എല്ലാ വർക്ക്സ്പേസ് റീജിയണുകളിലും ഉപഭോഗ ഡാറ്റ കേന്ദ്രീകരിക്കുന്നു. ഔദ്യോഗിക ഡോക്യുമെൻ്റേഷൻ അനുസരിച്ച്, ഈ ടേബിൾ DBU ഉപഭോഗം, SKU വിശദാംശങ്ങൾ, ഉപയോഗ മെറ്റാഡാറ്റ എന്നിവയുമായി പതിവായി അപ്ഡേറ്റ് ചെയ്യുന്നു.
മാതൃകാ ക്വറികൾക്ക് ചെലവ് ഡ്രൈവറുകൾ തിരിച്ചറിയാൻ കഴിയും:
- ഏറ്റവും ഉയർന്ന DBU ഉപഭോഗം നടത്തുന്ന വർക്ക്സ്പേസുകളും ക്ലസ്റ്ററുകളും
- അമിതമായ നിഷ്ക്രിയ സമയം ഉള്ള All-Purpose ക്ലസ്റ്ററുകൾ
- വലിയ ഇൻസ്റ്റൻസുകളിൽ പ്രവർത്തിക്കുന്ന വർക്ക് ലോഡുകൾ
- പരിശോധന ആവശ്യമായ അപ്രതീക്ഷിതമായ ഉപയോഗ സ്പൈക്കുകൾ
പ്രവർത്തനപരമായി ചെലവുകൾ നിരീക്ഷിക്കുന്നത് - പ്രതിമാസ ഇൻവോയിസുകൾ അവലോകനം ചെയ്യുന്നതിന് പകരം - മുൻകരുതൽ ഒപ്റ്റിമൈസേഷൻ സാധ്യമാക്കുന്നു.
Databricks വിലനിർണ്ണയത്തിലെ വെല്ലുവിളികളും ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങളും
Databricks വിലനിർണ്ണയത്തിൻ്റെ പല വശങ്ങളും ടീമുകളെ തയ്യാറെടുക്കാതെ പിടികൂടുന്നു. അവബോധം ചെലവേറിയ അപ്രതീക്ഷിത സാഹചര്യങ്ങൾ ഒഴിവാക്കാൻ സഹായിക്കും.
DBU, ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ പ്രത്യേകം ബിൽ ചെയ്യും
ക്ലൗഡ് പ്രൊവൈഡർമാർ ഇൻഫ്രാസ്ട്രക്ചർ ചാർജുകൾ (VMs, സ്റ്റോറേജ്, നെറ്റ്വർക്കിംഗ്) ബിൽ ചെയ്യുന്നു, അതേസമയം Databricks DBU ഉപഭോഗം ബിൽ ചെയ്യുന്നു. മൊത്തം ഉടമസ്ഥാവകാശ ചെലവ് മനസ്സിലാക്കാൻ ടീമുകൾ രണ്ടും ഒത്തുനോക്കണം.
Databricks-ൻ്റെ Cloud Infra Cost Field Solution അനുസരിച്ച്, കമ്പനികൾക്ക് ക്ലസ്റ്റർ, ടാഗ് തലത്തിൽ ഏകീകൃത TCO കാഴ്ചകൾക്കായി Databricks ഉപയോഗ ഡാറ്റ ക്ലൗഡ് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളുമായി ബന്ധിപ്പിക്കാൻ കഴിയും.
Azure, AWS/GCP എന്നിവയ്ക്കിടയിലുള്ള ടയർ ആശയക്കുഴപ്പം
Azure-ൻ്റെ പ്രീമിയം ടയർ AWS, GCP എന്നിവയിലെ എന്റർപ്രൈസ് ടയറിന് തുല്യമാണ്. ഡോക്യുമെൻ്റേഷൻ ചിലപ്പോൾ തുല്യമായ പ്രവർത്തനക്ഷമതയ്ക്ക് വ്യത്യസ്ത ടയർ പേരുകൾ പരാമർശിക്കുന്നു, ക്ലൗഡ് താരതമ്യ വേളയിൽ ആശയക്കുഴപ്പമുണ്ടാക്കുന്നു.
പേര് തുല്യതയെ ഊഹിക്കുന്നതിനു പകരം എല്ലായ്പ്പോഴും ടയർ ഫീച്ചർ സെറ്റുകൾ പരിശോധിക്കുക.
ഫൈൻ-ഗ്രെയ്ൻഡ് ആക്സസ് കൺട്രോളിലെ മറഞ്ഞിരിക്കുന്ന ചെലവുകൾ
പ്രത്യേക കമ്പ്യൂട്ടിലുള്ള ഫൈൻ-ഗ്രെയ്ൻഡ് ആക്സസ് നിയന്ത്രണങ്ങൾ (റോ ഫിൽട്ടറുകൾ, കോളം മാസ്കുകൾ, ഡൈനാമിക് വ്യൂകൾ) ഡാറ്റ ഫിൽട്ടറിംഗിനായി സെർവർലെസ് കമ്പ്യൂട്ട് ഉപയോഗിക്കുന്നു. ഇതിന് വർക്ക്സ്പേസ് തലത്തിലുള്ള സെർവർലെസ് പ്രവർത്തനക്ഷമത ആവശ്യമാണ്.
Databricks Runtime 15.4 LTS അല്ലെങ്കിൽ അതിൽ കൂടുതൽ, ഡെഡിക്കേറ്റഡ് കമ്പ്യൂട്ടിലെ ഫൈൻ-ഗ്രെയ്ൻഡ് ആക്സസ് കൺട്രോൾ എൻഫോഴ്സ്മെൻ്റ് ഡാറ്റ ഫിൽട്ടറിംഗിനായി സെർവർലെസ് കമ്പ്യൂട്ട് ഉപയോഗിക്കുന്നു - പ്രാഥമിക വർക്ക് ലോഡുകൾ ഡെഡിക്കേറ്റഡ് ക്ലസ്റ്ററുകളിൽ പ്രവർത്തിക്കുമ്പോൾ പോലും സെർവർലെസ് ചാർജുകൾ ചേർക്കുന്നു.
ഓട്ടോമാറ്റിക് ക്ലസ്റ്റർ അപ്ഡേറ്റുകൾ കോംപ്ലയൻസ് ചെലവുകൾ വർദ്ധിപ്പിക്കുന്നു
സുരക്ഷാ പാച്ചിംഗിനായുള്ള ഓട്ടോമാറ്റിക് ക്ലസ്റ്റർ അപ്ഡേറ്റുകൾ പ്രവർത്തനക്ഷമമാക്കുന്നത് ഓട്ടോമാറ്റിക്കായി എൻഹാൻസ്ഡ് സെക്യൂരിറ്റി ആൻഡ് കോംപ്ലയൻസ് ആഡ്-ഓൺ ചാർജുകൾ ചേർക്കുന്നു. ഇത് ക്ലാസിക് കമ്പ്യൂട്ട് പ്ലെയിൻ റിസോഴ്സുകൾക്ക് ബാധകമാണ്, എന്നാൽ സെർവർലെസിന് അല്ല.
ഈ സവിശേഷത ഓട്ടോമേറ്റഡ് പാച്ചിംഗിലൂടെ മൂല്യം നൽകുന്നു, എന്നാൽ ടീമുകൾ ബഡ്ജറ്റുകളിൽ ആഡ്-ഓൺ ചെലവ് ചേർക്കേണ്ടതുണ്ട്.
മോഡൽ സെർവിംഗ് GPU ചെലവുകൾ വേഗത്തിൽ വർദ്ധിക്കുന്നു
GPU സെർവിംഗ് കോൺഫിഗറേഷനെ ആശ്രയിച്ച് മണിക്കൂറിന് 10-628 DBUs ഉപഭോഗിക്കുന്നു. ഒരു Large 8X 80GB ഇൻസ്റ്റൻസ് (A100 80GB × 8 GPU) നിരന്തരം പ്രവർത്തിക്കുന്നത് മണിക്കൂറിന് 628 DBUs ഈടാക്കുന്നു - GPU ഇൻസ്റ്റൻസുകൾക്ക് തന്നെ ഇൻഫ്രാസ്ട്രക്ചർ ചാർജുകൾ പുറമെ.
ഒരു DBU-ന് $0.15 ഒരു ഉദാഹരണമായി ഉപയോഗിച്ചാൽ, അത് DBU ചാർജുകളിൽ മാത്രം ഏകദേശം $94.20 പ്രതി മണിക്കൂർ, അല്ലെങ്കിൽ നിരന്തരമായ പ്രവർത്തനത്തിന് പ്രതിമാസം ഏകദേശം $68,200 ആയിരിക്കും. ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ ചേർക്കുക, മൊത്തം ഗണ്യമാകും.

പ്രതിമാസ Databricks ചെലവുകൾ കണക്കാക്കുന്നു
കൃത്യമായ ചെലവ് കണക്കാക്കാൻ ഡാറ്റാ വർക്ക് ലോഡുകളുടെ “3 V-കൾ” മനസ്സിലാക്കേണ്ടതുണ്ട്: വോളിയം, വേഗത, വൈവിധ്യം.
വോളിയം: കൂടുതൽ ഡാറ്റയ്ക്ക് കൂടുതൽ സ്റ്റോറേജ് ആവശ്യമാണ്, കൂടാതെ പ്രോസസ്സ് ചെയ്യാൻ കൂടുതൽ കമ്പ്യൂട്ടും. പ്രതിദിനം പെറ്റാബൈറ്റ് തോതിലുള്ള ഡാറ്റാ ലേക്കുകൾ പ്രോസസ്സ് ചെയ്യുന്ന ടീമുകൾ ടെറാബൈറ്റുകളുമായി പ്രവർത്തിക്കുന്നവരെ അപേക്ഷിച്ച് ആനുപാതികമായി കൂടുതൽ DBUs ഉപഭോഗിക്കുന്നു.
വേഗത: റിയൽ-ടൈം സ്ട്രീമിംഗ് എന്നാൽ എപ്പോഴും പ്രവർത്തിക്കുന്ന ക്ലസ്റ്ററുകൾ. ബാച്ച് പ്രോസസ്സിംഗ് ക്ലസ്റ്ററുകൾ കാലാകാലങ്ങളിൽ പ്രവർത്തിപ്പിക്കുന്നു, മൊത്തം പ്രവർത്തനസമയം, അതുമായി ബന്ധപ്പെട്ട ചാർജുകൾ എന്നിവ കുറയ്ക്കുന്നു.
വൈവിധ്യം: ഘടനയില്ലാത്ത ഡാറ്റ (ചിത്രങ്ങൾ, വീഡിയോകൾ, ഡോക്യുമെന്റുകൾ) ഘടനാപരമായ SQL ടേബിളുകളെക്കാൾ പ്രോസസ്സ് ചെയ്യാൻ കൂടുതൽ ചിലവേറിയതാണ്. സങ്കീർണ്ണമായ ട്രാൻസ്ഫോർമേഷനുകൾ ഓരോ റെക്കോർഡിനും കൂടുതൽ കമ്പ്യൂട്ട് റിസോഴ്സുകൾ ഉപഭോഗിക്കുന്നു.
ഒരു പ്രായോഗിക കണക്കാക്കൽ സമീപനം:
- വർക്ക് ലോഡ് തരങ്ങളും പ്രതീക്ഷിക്കുന്ന പ്രതിമാസ റൺടൈം മണിക്കൂറുകളും തിരിച്ചറിയുക
- ഉചിതമായ കമ്പ്യൂട്ട് തരങ്ങൾ തിരഞ്ഞെടുക്കുക (Jobs vs All-Purpose vs SQL)
- ഗവേണൻസ് ആവശ്യകതകളെ അടിസ്ഥാനമാക്കി സബ്സ്ക്രിപ്ഷൻ ടയർ തിരഞ്ഞെടുക്കുക
- നിർദ്ദിഷ്ട ഇൻസ്റ്റൻസ് തരങ്ങളും ക്ലസ്റ്റർ കോൺഫിഗറേഷനുകളും ഉപയോഗിച്ച് വിലനിർണ്ണയ കാൽക്കുലേറ്റർ ഉപയോഗിക്കുക
- ഡെവലപ്മെൻ്റ്, ടെസ്റ്റിംഗ്, അപ്രതീക്ഷിതമായ ഉപയോഗം എന്നിവയ്ക്കായി 20-30% ബഫർ ചേർക്കുക
ഇതിനകം Spark വർക്ക് ലോഡുകൾ ഉള്ള ഓർഗനൈസേഷനുകൾക്ക് പ്രോസസ്സ് ചെയ്ത ഡാറ്റാ വോളിയത്തിന് प्रति DBU ഉപഭോഗം ബെഞ്ച്മാർക്ക് ചെയ്യാനും തുടർന്ന് പ്രതീക്ഷിക്കുന്ന Databricks ഉപയോഗത്തിലേക്ക് എക്സ്ട്രാപോളേറ്റ് ചെയ്യാനും കഴിയും. ഓൺ-പ്രേമിസസ് Hadoop-ൽ നിന്ന് മാറുന്ന ടീമുകൾ Databricks ചെലവുകൾ ഒപ്റ്റിമൈസ് ചെയ്യുമ്പോൾ ലേണിംഗ് കർവ് സമയം പരിഗണിക്കണം.
പതിവായി ചോദിക്കുന്ന ചോദ്യങ്ങൾ
ഒരു മാസത്തേക്ക് Databricks എത്രയാണ് ചെലവാകുന്നത്?
പ്രതിമാസ ചെലവുകൾ വർക്ക് ലോഡ് വോളിയം, കമ്പ്യൂട്ട് തരം, സബ്സ്ക്രിപ്ഷൻ ടയർ, ക്ലൗഡ് പ്രൊവൈഡർ എന്നിവയെ ആശ്രയിച്ച് നാടകീയമായി വ്യത്യാസപ്പെട്ടിരിക്കുന്നു. ഡെവലപ്മെൻ്റ് വർക്ക് ലോഡുകൾ പ്രവർത്തിപ്പിക്കുന്ന ചെറിയ ടീമുകൾക്ക് പ്രതിമാസം നൂറുകണക്കിന് ഡോളർ ചെലവാകാം, അതേസമയം പെറ്റാബൈറ്റ് സ്കെയിൽ ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്ന എന്റർപ്രൈസുകൾക്ക് ആറ് ഫിഗർ ബില്ലുകൾ ഉണ്ടാകാം. ഔദ്യോഗിക വെബ്സൈറ്റ് അനുസരിച്ച്, Databricks മുൻകൂട്ടി പണം നൽകാതെ പേ-ആസ്-യു-ഗോ വിലനിർണ്ണയം വാഗ്ദാനം ചെയ്യുന്നു - യഥാർത്ഥ ചെലവ് ഉപയോഗത്തെ ആശ്രയിച്ചിരിക്കുന്നു. കൃത്യമായ കണക്കുകൾക്കായി നിർദ്ദിഷ്ട വർക്ക് ലോഡ് പാരാമീറ്ററുകളോടെ വിലനിർണ്ണയ കാൽക്കുലേറ്റർ ഉപയോഗിക്കുക.
ഒരു DBU എന്താണ്, അത് എങ്ങനെ കണക്കാക്കുന്നു?
Databricks Unit (DBU) ഒരു സാധാരണ കമ്പ്യൂട്ട് ശേഷിയെ അളക്കുന്നു. DBU ഉപഭോഗം ഇൻസ്റ്റൻസ് തരം സ്പെസിഫിക്കേഷനുകൾ (vCPUs, മെമ്മറി) വർക്ക് ലോഡ് തരത്തെ ആശ്രയിച്ചിരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു m5.xlarge ഇൻസ്റ്റൻസ് ചില കമ്പ്യൂട്ട് തരങ്ങൾക്ക് മണിക്കൂറിന് 0.690 DBU ഉപഭോഗിക്കുന്നു. കണക്കുകൂട്ടൽ DBU ഉപഭോഗത്തെ प्रति-DBU വില (സബ്സ്ക്രിപ്ഷൻ ടയർ, കമ്പ്യൂട്ട് തരം എന്നിവ അനുസരിച്ച് വ്യത്യാസപ്പെടുന്നു) ഗുണിക്കുന്നതിലൂടെ DBU ചാർജുകൾ നിർണ്ണയിക്കുന്നു, ക്ലൗഡ് ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകളിൽ നിന്ന് വേറിട്ട്.
AWS, Azure, അല്ലെങ്കിൽ GCP എന്നിവയിൽ Databricks കൂടുതൽ ലാഭകരമാണോ?
തുല്യമായ ടയറുകൾക്കും കമ്പ്യൂട്ട് തരങ്ങൾക്കും ക്ലൗഡ് പ്രൊവൈഡർമാർക്കിടയിൽ DBU നിരക്കുകൾ താരതമ്യേന സ്ഥിരമായി തുടരുന്നു. ഓരോ പ്രൊവൈഡറുടെയും VM വിലനിർണ്ണയം, റീജിയണൽ ലഭ്യത എന്നിവയെ ആശ്രയിച്ചിരിക്കും ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ. നിലവിലുള്ള ക്ലൗഡ് പ്രതിജ്ഞകൾ, റിസർവ്ഡ് ഇൻസ്റ്റൻസുകൾ, അല്ലെങ്കിൽ എന്റർപ്രൈസ് കരാറുകൾ എന്നിവയുള്ള ഓർഗനൈസേഷനുകൾക്ക് ഇൻഫ്രാസ്ട്രക്ചർ ലാഭത്തിനായി അവ പ്രയോജനപ്പെടുത്താൻ കഴിയും. സാധാരണയായി, ടീമുകൾ ചെറിയ വില വ്യത്യാസങ്ങളെക്കാൾ നിലവിലുള്ള ഇൻഫ്രാസ്ട്രക്ചർ, ഡാറ്റാ ലൊക്കാലിറ്റി, നേറ്റീവ് സേവന സംയോജനങ്ങൾ എന്നിവയെ അടിസ്ഥാനമാക്കി ക്ലൗഡ് പ്രൊവൈഡർമാരെ തിരഞ്ഞെടുക്കണം.
Standard, Premium, Enterprise ടയറുകൾ തമ്മിൽ എന്താണ് വ്യത്യാസം?
Standard, നൂതന ഗവേണൻസ് സവിശേഷതകളില്ലാതെ പ്രധാന Databricks പ്രവർത്തനക്ഷമത നൽകുന്നു. Premium, റോൾ-ബേസ്ഡ് ആക്സസ് കൺട്രോൾ (RBAC), ഓഡിറ്റ് ലോഗുകൾ, മെച്ചപ്പെട്ട സുരക്ഷ, സഹകരണ സവിശേഷതകൾ എന്നിവ ചേർക്കുന്നു - സാധാരണയായി प्रति DBU 30-50% കൂടുതൽ ചെലവാക്കുന്നു. Enterprise, പരമാവധി ഗവേണൻസ്, കേന്ദ്രീകൃത മെറ്റാഡാറ്റാ മാനേജ്മെന്റിനായി Unity Catalog, ഏറ്റവും ഉയർന്ന DBU നിരക്കുകളിൽ മുൻഗണനാ പിന്തുണ എന്നിവ നൽകുന്നു. Azure-ൽ, Premium ടയർ AWS, GCP എന്നിവയിലെ Enterprise ടയറിന് തുല്യമാണ്.
Databricks ചെലവുകൾ എങ്ങനെ കുറയ്ക്കാം?
ഓട്ടോമേറ്റഡ് വർക്ക് ലോഡുകൾക്ക് (50-70% ലാഭം) Jobs compute ഉപയോഗിക്കുക, ഡെവലപ്മെൻ്റ് ക്ലസ്റ്ററുകൾക്കായി ആക്രമണാത്മക ഓട്ടോ-ടെർമിനേഷൻ (5-10 മിനിറ്റ്) പ്രവർത്തനക്ഷമമാക്കുക, ലഭ്യമായ സ്ഥലങ്ങളിൽ serverless compute-ലേക്ക് മാറുന്നത് (ഏകദേശം 50% DBU കുറവ്), തകരാറില്ലാത്ത വർക്ക് ലോഡുകൾക്ക് സ്പോട്ട് ഇൻസ്റ്റൻസുകൾ പ്രയോജനപ്പെടുത്തുക (60-90% ഇൻഫ്രാസ്ട്രക്ചർ ലാഭം), വേഗതയേറിയ എക്സിക്യൂഷനായി Photon ആക്സലറേഷൻ പ്രവർത്തനക്ഷമമാക്കുക, യഥാർത്ഥ റിസോഴ്സ് ഉപയോഗത്തെ അടിസ്ഥാനമാക്കി ക്ലസ്റ്ററുകൾ ശരിയായ വലുപ്പത്തിൽ ക്രമീകരിക്കുക, കൂടാതെ system.billing.usage ടേബിളിലൂടെ ചെലവുകൾ നിരീക്ഷിക്കുക.
Databricks സംഭരണത്തിന് പ്രത്യേകം ഈടാക്കുമോ?
Databricks, കമ്പ്യൂട്ടിന് (DBUs പ്ലസ് ഇൻഫ്രാസ്ട്രക്ചർ) ഈടാക്കുന്നു, എന്നാൽ സ്റ്റോറേജിന് നേരിട്ട് ഈടാക്കുന്നില്ല. ക്ലൗഡ് പ്രൊവൈഡർ സ്റ്റോറേജിൽ (S3, Blob Storage, Cloud Storage) സൂക്ഷിച്ചിരിക്കുന്ന ഡാറ്റ AWS, Azure, അല്ലെങ്കിൽ GCP എന്നിവ മുഖേന ബിൽ ചെയ്യുന്ന സ്റ്റാൻഡേർഡ് ക്ലൗഡ് സ്റ്റോറേജ് ഫീസുകൾക്ക് വിധേയമാണ് - സാധാരണയായി സ്റ്റാൻഡേർഡ് ടയറുകൾക്ക് പ്രതിമാസം $0.023 प्रति GB വരെ. Delta Lake ഒപ്റ്റിമൈസേഷൻ സവിശേഷതകൾ ഫയൽ കോമ്പാക്ഷനും കാര്യക്ഷമമായ ഡാറ്റാ ലേഔട്ടും വഴി സ്റ്റോറേജ് ചെലവുകൾ നിയന്ത്രിക്കാൻ സഹായിക്കുന്നു.
Databricks വിലനിർണ്ണയത്തിലെ മറഞ്ഞിരിക്കുന്ന ചെലവുകൾ എന്തൊക്കെയാണ്?
സാധാരണ മറഞ്ഞിരിക്കുന്ന ചെലവുകളിൽ ഓട്ടോ-ടെർമിനേഷന് മുമ്പുള്ള All-Purpose ക്ലസ്റ്റർ നിഷ്ക്രിയ സമയം, ഡെവലപ്മെൻ്റ്, ടെസ്റ്റിംഗ് വർക്ക് ലോഡ് സ്പിൽഓവർ, ഡെഡിക്കേറ്റഡ് കമ്പ്യൂട്ടിലെ ഫൈൻ-ഗ്രെയ്ൻഡ് ആക്സസ് കൺട്രോളുകൾക്കുള്ള സെർവർലെസ് ചാർജുകൾ (Runtime 15.4 LTS+), ഓട്ടോമാറ്റിക് ക്ലസ്റ്റർ അപ്ഡേറ്റുകൾ പ്രവർത്തനക്ഷമമാക്കുമ്പോൾ എൻഹാൻസ്ഡ് സെക്യൂരിറ്റി ആൻഡ് കോംപ്ലയൻസ് ആഡ്-ഓൺ, ML മോഡൽ ഡിപ്ലോയ്മെന്റുകൾക്കായി അപ്രതീക്ഷിതമായി ഉയർന്ന GPU സെർവിംഗ് ചെലവുകൾ എന്നിവ ഉൾപ്പെടുന്നു. ഓർഗനൈസേഷനുകൾ ഈ ആകസ്മിക ചെലവുകൾക്കായി കാൽക്കുലേറ്ററിൻ്റെ കണക്കുകൾക്ക് മുകളിൽ 20-30% ബഫർ ചേർക്കണം.
ഉപസംഹാരം: Databricks വിലനിർണ്ണയം ഫലപ്രദമാക്കുന്നു
Databricks വിലനിർണ്ണയം സങ്കീർണ്ണമായി തോന്നുന്നു, കാരണം അത് യഥാർത്ഥ വർക്ക് ലോഡ് വൈവിധ്യത്തെ പ്രതിഫലിപ്പിക്കുന്നു - ബാച്ച് ETL, സംവേദനാത്മക അനലിറ്റിക്സ്, റിയൽ-ടൈം സ്ട്രീമിംഗ്, GPU-ആക്സിലറേറ്റഡ് ML സെർവിംഗ് എന്നിവയെല്ലാം വ്യത്യസ്ത റിസോഴ്സ് പ്രൊഫൈലുകളും കോസ്റ്റ് ഘടനകളും ഉണ്ട്.
എന്നാൽ ഘടകങ്ങൾ മനസ്സിലാക്കിയാൽ ചട്ടക്കൂട് കൈകാര്യം ചെയ്യാൻ കഴിയും: കമ്പ്യൂട്ട് തരം, ടയർ എന്നിവയെ അടിസ്ഥാനമാക്കിയുള്ള DBU ഉപഭോഗം, ക്ലൗഡ് പ്രൊവൈഡർമാരിൽ നിന്നുള്ള ഇൻഫ്രാസ്ട്രക്ചർ ചെലവുകൾ, യഥാർത്ഥ ഉപയോഗത്തിനായി സെക്കൻഡ് പ്രതി ബിൽ ചെയ്യുന്നത്.
ചെലവ് നിയന്ത്രണം, വർക്ക് ലോഡ് പാറ്റേണുകളുമായി കമ്പ്യൂട്ട് തരങ്ങൾ പൊരുത്തപ്പെടുത്തുന്നത്, ആക്രമണാത്മക ഓട്ടോ-ടെർമിനേഷൻ നടപ്പിലാക്കുന്നത്, ലഭ്യമായ സ്ഥലങ്ങളിൽ സെർവർലെസ് പ്രയോജനപ്പെടുത്തുന്നത്, പ്രതിമാസ ഇൻവോയിസുകൾക്ക് പ്രതികരിക്കുന്നതിനു പകരം സിസ്റ്റം ടേബിളുകളിലൂടെ ഉപയോഗം നിരന്തരം നിരീക്ഷിക്കുന്നത് എന്നിവയിലേക്ക് വരുന്നു.
അടിസ്ഥാന കണക്കുകൾ സ്ഥാപിക്കാൻ ഔദ്യോഗിക വിലനിർണ്ണയ കാൽക്കുലേറ്ററിൽ നിന്ന് ആരംഭിക്കുക. അനുമാനങ്ങൾ സാധൂകരിക്കാൻ പൈലറ്റ് വർക്ക് ലോഡുകൾ പ്രവർത്തിപ്പിക്കുക. ഒപ്റ്റിമൈസേഷൻ അവസരങ്ങൾ തിരിച്ചറിയാൻ ബില്ലബിൾ ഉപയോഗ ഡാറ്റ നിരീക്ഷിക്കുക. ഓർക്കുക - ലക്ഷ്യം അബ്സൊല്യൂട്ട് ടേംസിൽ ചെലവുകൾ കുറയ്ക്കുക എന്നതല്ല, മറിച്ച് ചെലവഴിച്ച ഓരോ ഡോളറിനും ലഭിക്കുന്ന മൂല്യം വർദ്ധിപ്പിക്കുക എന്നതാണ്.
ചെലവ് ഒപ്റ്റിമൈസ് ചെയ്യാൻ തയ്യാറാണോ? ഔദ്യോഗിക വെബ്സൈറ്റിലെ Databricks വിലനിർണ്ണയ കാൽക്കുലേറ്റർ ലഭ്യമാക്കുക, നിരീക്ഷണത്തിനായി ബില്ലബിൾ ഉപയോഗ സിസ്റ്റം ടേബിൾ പ്രവർത്തനക്ഷമമാക്കുക, ഡെലിവറി ചെയ്ത വർക്ക് ലോഡ് മൂല്യത്തിനെതിരെ യഥാർത്ഥ DBU ഉപഭോഗം ബെഞ്ച്മാർക്ക് ചെയ്യാൻ ആരംഭിക്കുക.

