간단 요약: Databricks 가격은 워크로드 유형별로 부과되는 Databricks 단위(DBU)와 AWS, Azure 또는 GCP의 기본 클라우드 인프라 비용을 결합한 사용량 기반 모델을 사용합니다. DBU 요율은 구독 계층(Standard, Premium, Enterprise) 및 컴퓨팅 유형에 따라 다르며, Jobs 컴퓨팅은 DBU당 약 $0.15부터 시작하고 All-Purpose 컴퓨팅은 2-3배 더 비쌉니다. 월간 총 비용은 워크로드 볼륨, 클러스터 구성 및 최적화 관행에 따라 달라집니다.

Databricks 가격은 거의 모든 사람을 혼란스럽게 합니다. 엔지니어링 리더나 CFO에게 간단한 질문을 던져보세요. "Databricks 비용이 얼마나 들까요?"라고요. 답변은 거의 항상 "상황에 따라 다릅니다."입니다.

그리고 그것은 사실입니다. 이 플랫폼은 이중 비용 구조로 운영됩니다. 즉, Databricks 단위(DBU)는 컴퓨팅 워크로드에 대한 비용이고, 플랫폼을 구동하는 클라우드 공급업체의 인프라 요금입니다. 이로 인해 특히 어려운 점은 DBU 요율이 구독 계층, 워크로드 유형 및 클라우드 리전에 따라 변동한다는 것입니다.

하지만 이것이 핵심입니다. 프레임워크가 이해되면 Databricks 가격은 예측 가능해집니다. 이 가이드에서는 비용이 정확히 어떻게 축적되는지, DBU 사용을 유발하는 요인은 무엇인지, 그리고 최적화가 실제로 어떤 변화를 가져오는지 자세히 설명합니다.

Databricks란 무엇인가요?

Databricks는 빅데이터 분석, 데이터 엔지니어링 및 협업 머신러닝을 위한 클라우드 기반 플랫폼입니다. Apache Spark를 기반으로 구축되어 AWS, Azure, Google Cloud Platform과 같은 주요 클라우드 공급업체와 통합되어 Delta Lake 및 기타 오픈 소스 기술을 작업할 수 있는 통합 환경을 제공합니다.

이 플랫폼은 데이터 웨어하우스 구조와 데이터 레이크의 유연성을 결합한 "레이크하우스" 솔루션으로 자리매김하고 있습니다. 팀은 Databricks를 ETL 파이프라인, 실시간 분석, 머신러닝 모델 개발 및 프로덕션 AI 배포에 사용합니다.

Databricks를 아키텍처적으로 차별화하는 것은 컴퓨팅과 스토리지가 분리되어 있다는 점입니다. 데이터는 클라우드 스토리지(AWS의 S3, Azure의 Blob Storage, GCP의 Cloud Storage)에 저장되고, 컴퓨팅 클러스터는 주문형으로 워크로드를 처리합니다. 이 분리로 인해 비용이 독립적으로 확장됩니다. 스토리지는 선형적으로 증가하는 반면 컴퓨팅 요금은 클러스터가 실행될 때만 적용됩니다.

Databricks 가격 모델 이해

공식 웹사이트에 따르면 Databricks는 선결제 없이 종량제 방식을 제공합니다. 요금은 1초 단위로 누적되므로 10분 동안 실행된 클러스터는 1시간이 아닌 정확히 10분 분량의 요금이 발생합니다.

가격 모델은 두 가지 구성 요소로 이루어집니다:

DBU 요금: Databricks 단위는 다양한 인스턴스 유형 및 워크로드 패턴에 걸쳐 정규화된 컴퓨팅 용량을 측정합니다.
클라우드 인프라 비용: AWS, Azure 또는 GCP의 가상 머신, 스토리지 및 네트워킹에 대한 시간당 요금

이러한 요금은 중복됩니다. AWS에서 m5.xlarge 인스턴스를 실행하면 DBU 요율(특정 워크로드의 경우 시간당 0.690 DBU)과 인프라 비용(VM 자체의 경우 시간당 $0.3795)이 모두 발생합니다.

솔직히 말하면, 이 이중 구조는 팀에게 예상치 못한 부담을 줍니다. 엔지니어링 팀은 클러스터 크기 조정 및 VM 선택에 집중하지만, 재무팀은 DBU 배수가 예상치에 반영되지 않아 예상보다 높은 청구서를 받게 됩니다.

Databricks 단위(DBU)란 무엇인가요?

DBU는 처리 능력의 단위를 나타냅니다. Databricks는 다음과 같은 요인에 따라 DBU 요율을 다르게 청구합니다:

워크로드 유형: Jobs 컴퓨팅, All-Purpose 컴퓨팅, SQL 웨어하우스, 서버리스 및 모델 서빙 각각 다른 요율이 적용됩니다.
구독 계층: Standard, Premium 및 Enterprise 계층은 DBU에 다르게 가격을 책정합니다.
인스턴스 구성: 더 많은 vCPU와 메모리를 갖춘 대형 인스턴스는 시간당 더 많은 DBU를 소비합니다.

시간당 소비되는 DBU 수는 인스턴스 사양에 따라 달라집니다. 사용 가능한 데이터에 따르면 m5.xlarge 인스턴스(4 vCPU, 16GB 메모리)는 특정 컴퓨팅 유형의 경우 DBU 요율이 0.690입니다.

따라서 해당 인스턴스가 Standard 계층에서 Jobs 컴퓨팅으로 한 시간 실행된다면 계산은 다음과 같습니다:

DBU 소비량: 0.690 DBU
DBU 가격 (예시): DBU당 $0.15
DBU 비용: 0.690 × $0.15 = $0.1035
인프라 비용: $0.3795
시간당 총 비용: $0.483

하지만 잠깐만요. 동일한 클러스터를 All-Purpose 컴퓨팅으로 전환하면 DBU 가격이 상당히 상승합니다. 대화형 워크로드에는 노트북 환경 및 협업 기능이 포함되기 때문에 종종 2-3배 더 비쌉니다.

Databricks 총 비용은 DBU 요금과 클라우드 공급업체 인프라 수수료를 모두 합한 금액이며, 둘 다 별도로 청구됩니다.

Databricks 구독 계층 설명

Databricks는 세 가지 주요 구독 계층을 제공하며, 각 계층마다 DBU 가격 및 기능 세트가 다릅니다. 이러한 계층은 비용뿐만 아니라 거버넌스, 보안 및 협업 기능에 대한 액세스도 결정합니다.

Standard 계층

기본 계층은 복잡한 거버넌스 요구 사항에 집중하는 팀을 위해 고급 엔터프라이즈 기능 없이 핵심 Databricks 기능을 제공합니다.

Azure에서는 Standard 계층 Jobs 컴퓨팅 비용이 DBU당 $0.15(US East 지역 데이터)입니다. 이는 다른 컴퓨팅 유형 또는 계층에 대한 배수를 고려하기 전의 기준 DBU 요율을 나타냅니다.

Standard 계층은 역할 기반 액세스 제어(RBAC), 감사 로깅 및 고급 보안 기능이 부족합니다. 이는 개발 환경에는 적합하지만 민감한 데이터를 처리하는 프로덕션 워크로드에는 제한적입니다.

Premium 계층 (AWS/GCP의 Enterprise)

Premium은 확장되는 팀과 운영 효율성을 위해 설계된 기능을 추가합니다. 주요 기능은 다음과 같습니다:

세분화된 권한을 위한 역할 기반 액세스 제어(RBAC)
워크스페이스 전체의 액세스 및 작업을 추적하는 감사 로그
향상된 보안 및 규정 준수 제어
버전 관리가 포함된 협업 노트북

DBU 요율은 Premium 계층에서 Standard 계층보다 증가합니다. 정확한 배율은 워크로드 유형에 따라 다르지만 Premium 계층은 Standard보다 DBU당 비용이 더 많이 듭니다(정확한 배율은 워크로드 유형에 따라 다름).

Azure에서는 Premium 계층이 AWS 및 GCP의 Enterprise 계층과 일치하므로 클라우드 간 가격을 비교할 때 중요합니다.

Enterprise 계층

Enterprise 계층은 대규모 프로덕션 배포를 위한 최대 거버넌스, 규정 준수 및 지원을 제공합니다. Premium 외 추가 기능은 다음과 같습니다:

고급 데이터 거버넌스 및 계보 추적
중앙 집중식 메타데이터 관리를 위한 Unity Catalog
향상된 성능 최적화
우선 지원 및 SLA 약속

Enterprise는 DBU 가격 책정 계층 중 최고입니다. 규제된 데이터를 처리하거나 정교한 액세스 제어가 필요한 팀은 비용 프리미엄에도 불구하고 일반적으로 이 수준에서 운영됩니다.

데이터 도구에 선결제 과다 지출하지 마세요

Databricks 가격을 알아보고 계신가요? 문제는 단순히 도구 하나가 아닙니다. 컴퓨팅, 스토리지 및 지원 AI 도구 전반에 걸쳐 비용이 증가합니다.

Get AI Perks는 약정 전에 총 지출을 줄이는 데 도움이 됩니다. AI, 클라우드 및 개발자 도구 전반의 크레딧, 할인 및 파트너 제안을 통합하여 일반적으로 다른 프로그램에 흩어져 있는 거래에 액세스할 수 있습니다.

Get AI Perks를 사용하면 다음을 수행할 수 있습니다:

AI 및 데이터 인프라 도구에 대한 크레딧 액세스
스택 전반의 총 비용 절감
전체 가격 책정에 약정하기 전에 도구 테스트

Databricks 가격을 비교하고 있다면 총 비용을 줄이는 것부터 시작하세요. Get AI Perks를 확인하세요.

Databricks 컴퓨팅 유형 및 가격

컴퓨팅 유형 선택은 상당한 비용 변동을 유발합니다. 각 워크로드 패턴은 사용 사례에 맞게 최적화된 다른 가격을 가지고 있습니다.

Jobs 컴퓨팅

Jobs 컴퓨팅은 자동화된 프로덕션 ETL 워크플로 및 예약된 작업을 지원합니다. 이러한 클러스터는 시작, 워크로드 실행 및 자동 종료됩니다.

가격 이점: 최저 DBU 요율(All-Purpose보다 30-50% 저렴). Standard 계층(Azure US East)에서 DBU당 $0.15부터 시작하는 Jobs 컴퓨팅은 예측 가능한 워크로드에 가장 경제적인 옵션을 제공합니다.

정기적인 데이터 파이프라인을 실행하는 팀은 Jobs 컴퓨팅을 기본으로 사용해야 합니다. All-Purpose 컴퓨팅에서 동일한 워크로드를 실행하면 기능적 이점 없이 2-3배 더 비쌀 수 있으며, 규모가 커질수록 비용 절감 효과가 빠르게 누적됩니다.

All-Purpose 컴퓨팅

All-Purpose 클러스터는 대화형 분석, 노트북 개발 및 협업 탐색을 지원합니다. 이러한 클러스터는 사용자가 활발하게 작업하는 동안 유지되어 실시간 쿼리 실행 및 반복 개발을 가능하게 합니다.

트레이드오프: 상당히 높은 DBU 요율. All-Purpose 컴퓨팅에는 노트북 환경, 협업 기능 및 프리미엄 가격 책정을 정당화하는 대화형 기능이 포함됩니다.

흔한 실수: All-Purpose 클러스터를 유휴 상태로 두는 것. 작업 완료 후 종료되는 Jobs 컴퓨팅과 달리 All-Purpose 클러스터는 수동으로 중지하거나 자동 종료될 때까지 요금이 계속 누적됩니다. 공격적인 자동 종료(5-10분 비활성)를 설정하면 비용 폭주를 방지할 수 있습니다.

SQL 웨어하우스

SQL 웨어하우스(이전의 SQL 엔드포인트)는 BI 쿼리 및 분석 워크로드를 처리합니다. 세 가지 유형이 있습니다:

Serverless: 가장 빠른 시작, 최고의 성능, 관리되는 인프라
Pro: Photon 가속, Predictive IO 최적화
Classic: 기본 SQL 기능, 낮은 비용

Serverless SQL 웨어하우스는 Photon Engine, Predictive IO 및 Intelligent Workload Management를 통해 우수한 성능을 제공하지만 프리미엄 DBU 요율이 적용됩니다. Pro 웨어하우스는 완전한 서버리스 인프라 없이 Photon 및 Predictive IO를 제공합니다. Classic 웨어하우스는 저렴한 비용으로 기본 기능을 제공합니다.

자주 즉석 쿼리를 실행하는 BI 팀의 경우, Serverless 성능 향상은 더 빠른 쿼리 실행(더 높은 DBU 요율에도 불구하고 총 DBU-시간이 적음)을 통해 비용을 정당화하는 경우가 많습니다.

모델 서빙

Model Serving은 머신러닝 모델을 실시간 API로 배포합니다. 가격은 배포에 CPU 또는 GPU 인스턴스를 사용하는지에 따라 달라집니다.

공식 가격 데이터에 따르면 GPU 서빙 DBU 요율은 인스턴스 크기에 따라 다릅니다:

인스턴스 크기	GPU 구성	시간당 DBU
Small	T4 또는 동급	10.48
Medium	A10G × 1 GPU	20.00
Medium 4X	A10G × 4 GPU	112.00
Medium 8X	A10G × 8 GPU	290.80
Large 8X 40GB	A100 40GB × 8 GPU	538.40
Large 8X 80GB	A100 80GB × 8 GPU	628.00

GPU 서빙은 표준 컴퓨팅보다 훨씬 높은 DBU 소비량을 요구합니다. ML 모델을 배포하는 팀은 정확한 트래픽 예측이 필요합니다. 쿼리 볼륨을 과소평가하면 이러한 DBU 요율에서 심각한 비용 초과를 초래합니다.

Serverless 컴퓨팅

Serverless 컴퓨팅은 클러스터 관리를 완전히 제거합니다. Databricks는 인프라 프로비저닝, 확장 및 최적화를 자동으로 처리합니다.

가격 이점: 사용 가능한 데이터에 따르면 동등한 워크로드에 대해 Jobs 컴퓨팅 DBU 요율의 약 50%입니다. 이 감소는 공유되고 최적화된 리소스에서 오는 인프라 효율성 증가를 반영합니다.

주의할 점: 서버리스는 워크스페이스 수준 활성화가 필요하며 모든 리전에서 사용할 수 있는 것은 아닙니다. 지원되는 워크로드의 경우, 서버리스는 DBU 요율 감소 및 관리 오버헤드 제거를 통해 종종 가장 낮은 총 비용을 제공합니다.

Databricks 컴퓨팅 유형 간의 상대 DBU 비용 비교는 서버리스 및 Jobs 컴퓨팅이 가장 낮은 요금을 제공함을 보여줍니다.

클라우드 공급업체별 Databricks 가격

Databricks는 AWS, Azure 및 Google Cloud Platform에서 클라우드별 통합 및 가격 변동과 함께 실행됩니다. 핵심 DBU 프레임워크는 일관되게 유지되지만, 인프라 비용 및 지역별 가용성은 다릅니다.

AWS의 Databricks 가격

AWS Databricks는 스토리지에 S3, 컴퓨팅에 EC2, 보안에 IAM과 통합됩니다. 인프라 요금은 선택한 인스턴스 유형에 대한 표준 AWS EC2 가격을 따릅니다.

예를 들어, m5.xlarge 인스턴스는 US East 리전에서 시간당 $0.3795(온디맨드 가격)입니다. 워크로드 유형 및 구독 계층에 따른 DBU 배율을 더하여 총 비용을 계산합니다.

AWS는 EC2 인프라에 대한 Savings Plans 및 Reserved Instances를 제공하여 VM 비용을 30-70%까지 줄일 수 있습니다. 그러나 이러한 약정은 인프라에만 적용되며 DBU 요금에는 적용되지 않습니다.

Azure의 Databricks 가격

Azure Databricks는 Microsoft Azure에서 퍼스트 파티 서비스로 존재하며, Microsoft로부터 직접 통합된 결제 및 지원을 제공합니다. Azure의 Premium 계층은 AWS 및 GCP의 Enterprise 계층에 해당합니다.

공식 소스에 따르면, Azure Databricks Standard 계층 Jobs 컴퓨팅 비용은 US East 리전에서 DBU당 $0.15입니다. 인프라 비용은 선택한 인스턴스 제품군의 Azure VM 가격을 따릅니다.

Azure는 이미 Microsoft 생태계에 투자한 조직에게 고유한 이점을 제공합니다. 통합 결제로 Databricks 요금이 다른 Azure 서비스와 통합되며, Azure Active Directory와의 통합으로 ID 관리가 간소화됩니다.

Google Cloud Platform의 Databricks 가격

GCP Databricks는 Cloud Storage, Compute Engine 및 GCP IAM과 통합됩니다. 이 플랫폼은 동일한 DBU 프레임워크를 따르지만 GCP의 인스턴스 유형 및 지역 인프라를 활용합니다.

GCP는 일반적으로 AWS 또는 Azure와 약간 다른 인스턴스 구성을 제공하여 인프라 비용과 DBU 요율에 모두 영향을 미칩니다. 팀은 특정 GCP 리전에 대한 Databricks 가격 계산기를 사용하여 가격을 검증해야 합니다.

클라우드 간 가격 비교

동일한 계층 및 컴퓨팅 유형에 대해 DBU 요율은 클라우드 전반에 걸쳐 비교적 일관되게 유지됩니다. 주요 비용 변동은 AWS, Azure 및 GCP 간의 인프라 가격 차이에서 비롯됩니다.

일반적으로 팀은 다음을 기준으로 클라우드 공급업체를 선택해야 합니다:

기존 인프라 약정 및 엔터프라이즈 계약
데이터 지역 요구 사항 및 규정 준수 요구 사항
기본 서비스 통합(S3 대 Blob Storage 대 Cloud Storage)
필요한 Databricks 기능의 지역별 가용성

클라우드 공급업체 선택은 DBU 요금보다는 인프라 비용에 더 큰 영향을 미칩니다. 기존 AWS Reserved Instances 또는 Azure 약정이 있는 조직은 상당한 인프라 비용 절감을 위해 이를 활용할 수 있습니다.

Databricks 가격 계산기 사용

공식 Databricks 가격 계산기는 워크로드 사양을 기반으로 월간 비용을 추정하는 데 도움이 됩니다. 공식 가격 페이지에 있는 계산기는 다음과 같은 입력을 요구합니다:

클라우드 공급업체 (AWS, Azure 또는 GCP)
리전 선택
구독 계층 (Standard, Premium, Enterprise)
컴퓨팅 유형 (Jobs, All-Purpose, SQL, Serverless)
인스턴스 유형 및 클러스터 크기
월별 예상 실행 시간

계산기는 DBU 소비량 및 DBU 요금과 인프라 수수료를 결합한 총 월간 비용을 예상하여 출력합니다.

이제 흥미로운 점이 나옵니다. 계산기는 추정치를 제공하며, 실제 비용은 실제 사용 패턴에 따라 달라집니다. 팀은 종종 다음을 과소평가합니다:

자동 종료가 적용되기 전 클러스터의 유휴 시간
개발 및 테스트 워크로드 볼륨
대화형 개발에서 프로덕션 클러스터로의 스필오버

모범 사례: 파일럿 워크로드를 실행하고 시스템 테이블을 통해 실제 청구 가능한 사용량을 모니터링한 후 대규모 배포를 약정합니다. 청구 가능한 사용량 시스템 테이블(system.billing.usage)은 비용 분석을 위한 세분화된 소비량 데이터를 제공합니다.

Databricks 비용을 유발하는 요인은 무엇인가요?

비용 동인을 이해하면 최적화 노력을 효과적으로 타겟팅할 수 있습니다. 여러 요인이 결합되어 월별 지출을 결정합니다.

데이터 볼륨 및 워크로드 속도

데이터 양이 많을수록 처리하는 데 더 많은 컴퓨팅이 필요합니다. 매일 테라바이트를 처리하는 배치 작업은 기가바이트를 처리하는 파이프라인보다 훨씬 더 많은 DBU-시간을 소비합니다.

속도도 중요합니다. 실시간 스트리밍 워크로드는 항상 켜져 있는 클러스터를 필요로 하며 지속적으로 요금을 누적합니다. 배치 처리는 활성 창 중에만 클러스터를 실행하여 총 실행 시간을 줄입니다.

클러스터 구성 및 인스턴스 선택

더 많은 vCPU와 메모리를 갖춘 대형 인스턴스는 DBU 요율과 인프라 비용이 더 높습니다. m5.8xlarge(32 vCPU, 128GB)는 m5.xlarge(4 vCPU, 16GB)보다 시간당 비용이 훨씬 더 많이 듭니다.

최적화 과제: 과도하게 구성된 클러스터는 불필요한 용량으로 인해 돈을 낭비하고, 부적절하게 구성된 클러스터는 워크로드를 완료하는 데 더 오래 걸려 총 DBU-시간이 더 많이 들 수 있습니다.

워크로드 유형 분포

컴퓨팅 유형의 혼합은 평균 DBU 요율을 결정합니다. 주로 Jobs 컴퓨팅을 실행하는 조직은 All-Purpose 클러스터를 많이 사용하는 조직보다 비용이 적게 듭니다.

엔지니어링 워크로드(ETL)는 일반적으로 비용이 가장 적게 들지만, 데이터 과학 워크로드(ML 개발)는 All-Purpose 클러스터 사용 및 더 긴 실험 주기 때문에 3-4배 더 비쌀 수 있습니다.

클러스터 유휴 시간 및 자동 종료

All-Purpose 클러스터는 자동 종료 설정으로 중지되지 않는 한 유휴 상태에서도 계속 요금이 누적됩니다. 밤새도록 실행되는 클러스터는 불필요한 요금으로 8-12시간이 누적됩니다.

개발 클러스터의 경우 5-10분 동안 자동 종료를 설정하면 비용 폭주를 방지할 수 있습니다. 프로덕션 Jobs 클러스터는 작업 완료 후 즉시 종료해야 합니다.

스토리지 비용

스토리지 비용은 GB당 컴퓨팅보다 저렴하지만, 대규모 데이터 레이크는 상당한 월별 요금을 축적합니다. 클라우드 스토리지 가격은 다양합니다:

AWS S3 Standard 스토리지 가격은 대부분 리전에서 월 50TB까지 GB당 $0.023부터 시작하지만, US East (N. Virginia)에서는 GB당 $0.021입니다.
Azure Blob Storage: 계층 옵션이 있는 유사한 가격
GCP Cloud Storage: 지역별 변동이 있는 유사한 요율

Delta Lake의 최적화 기능은 파일 압축 및 지능적인 데이터 레이아웃을 통해 스토리지 비용을 제어하는 데 도움이 됩니다.

Databricks 비용 최적화 전략

최적화는 이론적인 모범 사례를 넘어 월별 청구서를 실제로 줄이는 기법으로 이동합니다. 다음은 규모에 맞게 작동하는 것입니다.

컴퓨팅 유형과 워크로드 패턴 일치

자동화된 파이프라인 및 예약된 작업에는 Jobs 컴퓨팅을 사용하세요. All-Purpose 클러스터는 대화형 개발 및 탐색 전용으로 예약하세요.

스팟 인스턴스를 사용하는 Job 클러스터를 사용하면 내결함성 워크로드의 VM 비용을 최대 50%까지 줄일 수 있으며, DBU 요금은 동일하게 유지됩니다. 스팟 인스턴스는 중단 가능성을 감수하고 할인된 인프라 가격을 제공합니다.

공격적인 자동 종료 구현

All-Purpose 클러스터의 자동 종료를 비활성 상태 5-10분으로 설정하세요. 유휴 상태의 개발 클러스터는 가치 창출 없이 DBU를 소비합니다.

프로덕션 Jobs 클러스터는 작업 완료 후 즉시 종료해야 합니다. Databricks는 초 단위로 요금을 부과하므로, 작업 실행 직후 중지된 클러스터는 불필요한 요금을 피할 수 있습니다.

클러스터 크기 최적화

기본적으로 대형 인스턴스를 사용하지 말고 워크로드 요구 사항에 맞게 클러스터 크기를 조정하세요. 작은 구성으로 시작하여 성능 메트릭이 병목 현상을 나타낼 때만 확장하세요.

청구 가능한 사용량 시스템 테이블을 통해 클러스터 메트릭을 모니터링하세요. 지속적으로 낮은 CPU 또는 메모리 사용률을 보이는 클러스터는 크기 조정 기회를 나타냅니다.

Photon 가속 활성화

Photon은 SQL 및 DataFrame 작업에 대한 쿼리 실행을 가속하는 내장 벡터화 쿼리 엔진입니다. 더 빠른 실행은 동일한 DBU 요율에도 불구하고 더 적은 DBU-시간이 소비됨을 의미합니다.

하지만 Photon은 SQL 및 DataFrame 작업에 가장 적합합니다. 복잡한 Python UDF 또는 사용자 지정 코드는 제한적인 가속을 볼 수 있습니다.

Serverless를 사용할 수 있을 때 활용

Serverless 컴퓨팅 DBU 요율은 일반적으로 Jobs 컴퓨팅 DBU 요율($0.07 ~ $0.15/DBU)보다 높지만(예: $0.35 ~ $0.40/DBU), 인프라 비용을 제거합니다.

Serverless는 클러스터 관리 오버헤드를 제거하고 인프라 활용도를 자동으로 최적화합니다. 둘 다 직접적인 DBU 절감 이상의 운영 비용을 절감합니다.

내결함성 워크로드에 스팟 인스턴스 사용

AWS Spot Instances 및 Azure Spot VMs는 온디맨드 가격 대비 60-90% 할인된 가격으로 인프라를 제공합니다. 내장된 재시도 로직을 갖춘 Jobs 컴퓨팅 워크로드는 스팟 인스턴스를 활용하여 인프라 비용을 크게 줄일 수 있습니다.

DBU 요금은 일정하게 유지됩니다. 스팟 인스턴스는 인프라 구성 요소만 할인합니다. 그러나 해당 인프라는 많은 워크로드에 대한 총 비용의 40-60%를 차지합니다.

시스템 테이블을 통해 비용 모니터링

청구 가능한 사용량 시스템 테이블(system.billing.usage)은 모든 워크스페이스 리전의 소비량 데이터를 중앙 집중화합니다. 공식 설명서에 따르면 이 테이블은 DBU 소비량, SKU 세부 정보 및 사용량 메타데이터를 정기적으로 업데이트합니다.

샘플 쿼리는 비용 동인을 식별할 수 있습니다:

가장 많은 DBU를 소비하는 워크스페이스 및 클러스터
과도한 유휴 시간이 있는 All-Purpose 클러스터
과도하게 구성된 인스턴스에서 실행되는 워크로드
조사가 필요한 예상치 못한 사용량 급증

월별 청구서를 사후에 검토하는 대신 운영상으로 비용을 모니터링하면 사전 최적화가 가능합니다.

Databricks 가격 책정의 과제 및 함정

Databricks 가격의 여러 측면은 팀을 준비 없이 맞이합니다. 인식을 통해 비용이 많이 드는 놀라움을 피할 수 있습니다.

DBU 및 인프라 비용은 별도로 청구됩니다

클라우드 공급업체는 인프라 요금(VM, 스토리지, 네트워킹)을 청구하고 Databricks는 DBU 소비량을 청구합니다. 팀은 총 소유 비용을 이해하기 위해 두 가지 모두를 조정해야 합니다.

Databricks의 Cloud Infra Cost Field Solution에 따르면, 기업은 Databricks 사용량 데이터와 클라우드 인프라 비용을 결합하여 클러스터 및 태그 수준에서 통합된 TCO 보기를 얻을 수 있습니다.

Azure와 AWS/GCP 간의 계층 혼동

Azure의 Premium 계층은 AWS 및 GCP의 Enterprise 계층에 해당합니다. 문서에는 때때로 동등한 기능에 대해 다른 계층 이름을 참조하여 클라우드 간 비교 중에 혼란을 야기합니다.

이름 동등성을 가정하기보다는 항상 계층 기능 세트를 확인하세요.

세분화된 액세스 제어의 숨겨진 비용

전용 컴퓨팅의 세분화된 액세스 제어(행 필터, 열 마스크, 동적 보기)는 이제 데이터 필터링을 위해 서버리스 컴퓨팅을 활용합니다. 이를 위해서는 워크스페이스 수준의 서버리스 활성화가 필요합니다.

Databricks Runtime 15.4 LTS 이상에서는 전용 컴퓨팅에서의 세분화된 액세스 제어 적용이 데이터 필터링을 위해 서버리스 컴퓨팅을 활용합니다. 이는 기본 워크로드가 전용 클러스터에서 실행되더라도 서버리스 요금이 추가됩니다.

자동 클러스터 업데이트는 규정 준수 비용을 증가시킵니다

보안 패치를 위한 자동 클러스터 업데이트를 활성화하면 Enhanced Security and Compliance 추가 기능 요금이 자동으로 추가됩니다. 이는 Classic 컴퓨팅 평면 리소스에 적용되지만 서버리스에는 적용되지 않습니다.

이 기능은 자동 패치를 통해 가치를 제공하지만, 팀은 예산에 추가 기능 비용을 포함해야 합니다.

모델 서빙 GPU 비용은 빠르게 증가합니다

GPU 서빙은 구성에 따라 시간당 10-628 DBU를 소비합니다. Large 8X 40GB 인스턴스(A100 40GB × 8 GPU)를 지속적으로 실행하면 시간당 538.4 DBU가 발생합니다. GPU 인스턴스 자체에 대한 인프라 요금은 별도입니다.

DBU당 $0.15를 예시로 들면, 이는 DBU 요금만으로도 시간당 약 $80.76 또는 지속적인 실행에 대해 월 약 $58,000이 됩니다. 인프라 비용을 더하면 총액은 상당해집니다.

실행 노력 및 잠재적 절감 효과에 따라 우선 순위가 지정된 비용 최적화 전략

월간 Databricks 비용 추정

정확한 비용 추정에는 데이터 워크로드의 "3V"를 이해해야 합니다: Volume, Velocity 및 Variety.

Volume: 데이터가 많을수록 더 많은 스토리지가 필요하며, 이를 처리하는 데 더 많은 컴퓨팅이 필요합니다. 페타바이트 규모의 데이터 레이크를 처리하는 팀은 테라바이트로 작업하는 팀보다 비례적으로 더 많은 DBU를 소비합니다.

Velocity: 실시간 스트리밍은 항상 켜져 있는 클러스터를 의미합니다. 배치 처리는 주기적으로 클러스터를 실행하여 총 가동 시간 및 관련 요금을 줄입니다.

Variety: 비정형 데이터(이미지, 동영상, 문서)는 정형 SQL 테이블보다 처리하는 데 비용이 더 많이 듭니다. 복잡한 변환은 레코드당 더 많은 컴퓨팅 리소스를 소비합니다.

실제적인 추정 접근 방식:

워크로드 유형 및 예상 월별 실행 시간 식별
적절한 컴퓨팅 유형 선택 (Jobs 대 All-Purpose 대 SQL)
거버넌스 요구 사항에 따라 구독 계층 선택
특정 인스턴스 유형 및 클러스터 구성을 사용하여 가격 계산기 사용
개발, 테스트 및 예상치 못한 사용량을 위해 20-30%의 버퍼 추가

기존 Spark 워크로드가 있는 조직은 처리된 데이터 볼륨당 DBU 소비량을 벤치마킹한 다음 Databricks 예상 사용량으로 외삽할 수 있습니다. 온프레미스 Hadoop에서 마이그레이션하는 팀은 Databricks 비용 최적화 시 학습 곡선 시간을 고려해야 합니다.

자주 묻는 질문

Databricks는 월별 비용이 얼마인가요?

월별 비용은 워크로드 볼륨, 컴퓨팅 유형, 구독 계층 및 클라우드 공급업체에 따라 크게 달라집니다. 개발 워크로드를 실행하는 소규모 팀은 월 수백 달러를 지출할 수 있지만, 페타바이트 규모의 데이터를 처리하는 기업은 6자리 수의 청구서를 받을 수 있습니다. 공식 웹사이트에 따르면 Databricks는 선결제 없이 종량제 가격을 제공하며, 실제 지출은 사용량에 따라 달라집니다. 정확한 추정을 위해 특정 워크로드 매개변수로 가격 계산기를 사용하십시오.

DBU는 무엇이며 어떻게 계산되나요?

Databricks 단위(DBU)는 정규화된 컴퓨팅 용량을 측정합니다. DBU 소비량은 인스턴스 유형 사양(vCPU, 메모리) 및 워크로드 유형에 따라 달라집니다. 예를 들어, m5.xlarge 인스턴스는 특정 컴퓨팅 유형의 경우 시간당 0.690 DBU를 소비합니다. 계산은 DBU 소비량에 DBU당 가격(구독 계층 및 컴퓨팅 유형에 따라 다름)을 곱하여 DBU 요금을 결정하며, 이는 클라우드 인프라 비용과 별개입니다.

AWS, Azure 또는 GCP 중 어느 곳이 Databricks가 더 저렴한가요?

DBU 요율은 동일한 계층 및 컴퓨팅 유형에 대해 클라우드 공급업체 전반에 걸쳐 비교적 일관되게 유지됩니다. 인프라 비용은 각 공급업체의 VM 가격 및 지역별 가용성에 따라 달라집니다. 기존 클라우드 약정, Reserved Instances 또는 엔터프라이즈 계약이 있는 조직은 인프라 절감을 위해 이를 활용할 수 있습니다. 일반적으로 팀은 사소한 가격 차이보다는 기존 인프라, 데이터 지역 및 기본 서비스 통합을 기준으로 클라우드 공급업체를 선택해야 합니다.

Standard, Premium 및 Enterprise 계층의 차이점은 무엇인가요?

Standard는 고급 거버넌스 기능 없이 핵심 Databricks 기능을 제공합니다. Premium은 역할 기반 액세스 제어(RBAC), 감사 로그, 향상된 보안 및 협업 기능을 추가합니다. 이는 일반적으로 DBU당 30-50% 더 비쌉니다. Enterprise는 최대 거버넌스, 중앙 집중식 메타데이터 관리를 위한 Unity Catalog 및 최고 DBU 요율에서의 우선 지원을 제공합니다. Azure에서는 Premium 계층이 AWS 및 GCP의 Enterprise 계층에 해당합니다.

Databricks 비용을 어떻게 줄일 수 있나요?

자동화된 워크로드에 대해 All-Purpose 대신 Jobs 컴퓨팅을 사용합니다(50-70% 절감). 개발 클러스터에 대해 공격적인 자동 종료(5-10분)를 활성화합니다. 가능한 경우 서버리스 컴퓨팅으로 마이그레이션합니다(~50% DBU 감소). 내결함성 워크로드에 스팟 인스턴스를 활용합니다(60-90% 인프라 절감). 더 빠른 실행을 위해 Photon 가속을 활성화합니다. 실제 리소스 사용량에 따라 클러스터 크기를 조정하고 system.billing.usage 테이블을 통해 비용을 모니터링하여 최적화 기회를 식별합니다.

Databricks는 스토리지를 별도로 청구하나요?

Databricks는 컴퓨팅(DBU + 인프라)에 대해 요금을 부과하지만 스토리지에는 직접 요금을 부과하지 않습니다. 클라우드 공급업체 스토리지(S3, Blob Storage, Cloud Storage)에 저장된 데이터는 AWS, Azure 또는 GCP에서 청구하는 표준 클라우드 스토리지 요금이 발생하며, 일반 계층의 경우 월 GB당 약 $0.023입니다. Delta Lake 최적화 기능은 파일 압축 및 효율적인 데이터 레이아웃을 통해 스토리지 비용을 제어하는 데 도움이 됩니다.

Databricks 가격의 숨겨진 비용은 무엇인가요?

일반적인 숨겨진 비용에는 자동 종료 전에 All-Purpose 클러스터의 유휴 시간, 개발 및 테스트 워크로드의 스필오버, 전용 컴퓨팅에 대한 세분화된 액세스 제어(Runtime 15.4 LTS 이상)에 대한 서버리스 요금, 자동 클러스터 업데이트 활성화 시 Enhanced Security and Compliance 추가 기능, ML 모델 배포에 대한 예상보다 높은 GPU 서빙 비용이 포함됩니다. 조직은 이러한 예외 상황에 대해 계산기 추정치보다 20-30%의 버퍼를 고려해야 합니다.

결론: Databricks 가격 책정을 성공적으로 활용하기

Databricks 가격 책정이 복잡해 보이는 이유는 배치 ETL, 대화형 분석, 실시간 스트리밍 및 GPU 가속 ML 서빙과 같이 실제 워크로드의 다양성을 반영하기 때문입니다. 이러한 모든 것은 다른 리소스 프로필과 비용 구조를 가지고 있습니다.

하지만 구성 요소가 이해되면 프레임워크는 관리 가능해집니다. 컴퓨팅 유형 및 계층에 따른 DBU 소비량과 클라우드 공급업체의 인프라 비용이 실제 사용량에 대해 초 단위로 청구됩니다.

비용 제어는 컴퓨팅 유형을 워크로드 패턴에 맞추고, 공격적인 자동 종료를 구현하고, 가능한 경우 서버리스를 활용하고, 월별 청구서에 반응하기보다는 시스템 테이블을 통해 사용량을 지속적으로 모니터링하는 데 달려 있습니다.

기본 추정치를 설정하기 위해 공식 가격 계산기로 시작하세요. 파일럿 워크로드를 실행하여 가정을 검증하세요. 청구 가능한 사용량 데이터를 모니터링하여 최적화 기회를 식별하세요. 그리고 기억하세요. 목표는 절대적인 비용을 최소화하는 것이 아니라 지출하는 달러당 제공되는 가치를 극대화하는 것입니다.

지출 최적화를 준비하시겠습니까? 공식 웹사이트에서 Databricks 가격 계산기를 액세스하고, 모니터링을 위해 청구 가능한 사용량 시스템 테이블을 활성화하고, 워크로드 가치에 비해 실제 DBU 소비량을 벤치마킹하기 시작하세요.