Списком
Обсяг даних, що генеруються людством, подвоюється приблизно кожні два роки. До 2025 року очікується, що щороку генеруватиметься понад 175 зетабайт (175×10²¹ байт). Ці масиви даних містять безцінні знання для прийняття рішень, але традиційні реляційні СУБД не здатні їх обробити. Хмарні Big Data платформи демократизували доступ до аналітики надвеликих масивів даних, надавши інструменти, що раніше були доступні лише технологічним гігантам.
Volume (Обсяг): терабайти, петабайти, зетабайти даних.
Velocity (Швидкість): дані генеруються та надходять із високою швидкістю.
Variety (Різноманітність): структуровані (таблиці), напівструктуровані (JSON/XML), неструктуровані (відео, аудіо, текст).
Veracity (Достовірність): якість та надійність даних. Не всі «big data» є точними — пропущені значення, дублікати, протиріччя.
Value (Цінність): здатність витягти бізнес-інсайти з великих масивів даних.
Lambda-архітектура (Nathan Marz) — класична архітектура для обробки великих даних із двома шляхами:
Дані → ┌──────────── Batch Layer (Швидко, великий обсяг) ──────────────┐ → Batch View
│ Hadoop / Spark / EMR │
│ │
└──────────── Speed Layer (Реалтайм, малий обсяг) ──────────────┘ → Speed View
Kinesis / Kafka / Flink │
▼
Query (Serving) Layer
Redshift / BigQuery
| Характеристика | Data Lake | Data Warehouse |
|---|---|---|
| Дані | Сирі, нетрансформовані | Очищені, структуровані |
| Схема | Schema-on-read | Schema-on-write |
| Формат | Будь-який (CSV, JSON, Parquet, відео) | Таблиці (рядки/стовпці) |
| Вартість | Дешевше (S3: $0.023/ГБ) | Дорожче (Redshift: $0.25/ГБ) |
| Гнучкість | Висока (зберігаємо все) | Менша |
| Запити | Складніші (потребують ETL) | Простіші (SQL) |
| Користувачі | Data scientists | Business analysts |
| AWS | S3 Data Lake | Redshift |
| Azure | Azure Data Lake Storage Gen2 | Azure Synapse Analytics |
| GCP | Google Cloud Storage | BigQuery |
Data Lakehouse = Data Lake + Data Warehouse можливості на одному сховищі:
Переваги Lakehouse:
AWS Glue — повністю кероване ETL-сервіс та Metadata Catalog:
AWS Lake Formation: Спрощене створення та управління Data Lake: доступ, шифрування, Row/Column-level security.
Apache Spark — розподілена обчислювальна система для обробки великих даних, що стала стандартом галузі:
# PySpark приклад: підрахунок продажів за категоріями
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, avg
spark = SparkSession.builder.appName("SalesAnalysis").getOrCreate()
# Зчитати Parquet з S3
df = spark.read.parquet("s3://my-data-lake/sales/2024/")
# Агрегація
result = df.groupBy("category") \
.agg(
sum("amount").alias("total_sales"),
avg("amount").alias("avg_order")
) \
.orderBy("total_sales", ascending=False)
# Записати результат
result.write.mode("overwrite").parquet("s3://my-data-lake/processed/sales_by_category/")
Amazon EMR (Elastic MapReduce): Керований кластер для Apache Spark, Hadoop, Hive, Presto тощо:
Google Dataproc: Аналог EMR від GCP — керований Spark/Hadoop. Відрізняється швидким створенням кластера (90 секунд) та глибокою інтеграцією з BigQuery та GCS.
Databricks — комерційна платформа на базі Apache Spark + Delta Lake, доступна як Marketplace SaaS на AWS, Azure та GCP:
| Характеристика | Batch | Streaming |
|---|---|---|
| Дані | Накопичені за період | Безперервний потік |
| Затримка | Хвилини–години | Мілісекунди–секунди |
| Складність | Простіша | Складніша |
| Застосування | ETL, звіти | Fraud detection, IoT alerts |
Amazon Kinesis — сімейство сервісів стрімінгу AWS:
Kinesis Data Streams:
Kinesis Data Firehose:
Kinesis Data Analytics:
Apache Kafka — розподілений журнал подій (event log), стандарт для enterprise streaming:
Amazon MSK (Managed Streaming for Apache Kafka): Повністю кероване Kafka від AWS: автоматичний failover брокерів, інтеграція з IAM.
Google Pub/Sub: хмарна черга повідомлень/streaming від GCP; масштабується автоматично.
Google Dataflow: управляємий Apache Beam; уніфікований batch та streaming пайплайн. Ідеально для складних трансформацій.
Amazon QuickSight — хмарний BI-сервіс AWS:
Microsoft Power BI — найпопулярніший BI-інструмент для Microsoft-екосистеми:
Google Looker — enterprise BI-платформа:
Big Data характеризується 5V: Volume, Velocity, Variety, Veracity, Value. Хмарні платформи вирішили проблему доступності надвеликих обчислювальних ресурсів для обробки таких даних.
Data Lake (S3/GCS) + Data Warehouse (BigQuery/Redshift) — стандартний двошаровий підхід. Data Lakehouse (Delta Lake/Iceberg) поєднує переваги обох.
Apache Spark (EMR/Dataproc/Databricks) є стандартом для batch-обробки великих даних. PySpark — найпопулярніший API.
Kinesis/Kafka (MSK) вирішують задачу стрімінгової обробки в реальному часі. Kafka є відчутно потужнішим і гнучкішим, але потребує більшого операційного досвіду.
BI-інструменти (QuickSight/Power BI/Looker) демократизують доступ до аналітики: менеджери отримують дашборди в реальному часі без знань SQL.