medalliondata-lakearchitecturedatabricksdata-engineeringtutorial

Construyendo un Data Lake con Arquitectura Medallion usando DataSpoc

Michael San Martim · 2026-04-29

La arquitectura medallion (Bronze → Silver → Gold) es el patrón mas popular para organizar data lakes. Databricks lo popularizo, pero no necesitas Databricks para implementarlo.

Con DataSpoc Pipe y Lens, puedes construir un lake medallion completo en S3 usando solo pip install — sin Spark, sin cluster, sin licencia de $50k/ano.

Que es la arquitectura medallion?

Tres capas, cada una con un proposito claro:

┌─────────────────────────────────────────────────────────────┐
│                                                             │
│   Sources ──→ Bronze ──→ Silver ──→ Gold                    │
│   (raw)       (ingested)  (cleaned)  (business-ready)       │
│                                                             │
│   Pipe writes  Pipe writes  Lens transforms  Lens transforms│
│                                                             │
└─────────────────────────────────────────────────────────────┘

Capa	También llamada	Quien escribe	Quien lee	Calidad
Bronze	Raw	Pipe (ingesta)	Data Engineers	Tal cual de la fuente
Silver	Curated / Clean	Pipe (transforms)	Analistas, Ingenieros	Limpia, tipada, deduplicada
Gold	Aggregated / Business	Lens (SQL transforms)	Todos, agentes de IA	Metricas de negocio, lista para consultar

La estructura del bucket

La convencion de bucket de DataSpoc se mapea directamente a medallion:

s3://company-lake/
  .dataspoc/
    manifest.json                        # Catalog (auto-updated)
    state/<pipeline>/state.json          # Incremental bookmarks
    logs/<pipeline>/<timestamp>.json     # Execution logs

  raw/                                   # ← BRONZE
    postgres/
      orders/dt=2026-04-28/orders_0000.parquet
      customers/dt=2026-04-28/customers_0000.parquet
    stripe/
      payments/dt=2026-04-28/payments_0000.parquet
    hubspot/
      contacts/dt=2026-04-28/contacts_0000.parquet

  curated/                               # ← SILVER
    finance/
      clean_orders/dt=2026-04-28/clean_orders_0000.parquet
      clean_customers/dt=2026-04-28/clean_customers_0000.parquet
    marketing/
      clean_contacts/dt=2026-04-28/clean_contacts_0000.parquet

  gold/                                  # ← GOLD
    finance/
      monthly_revenue/monthly_revenue_0000.parquet
      customer_360/customer_360_0000.parquet
    executive/
      kpi_dashboard/kpi_dashboard_0000.parquet

Paso 1: Capa Bronze — Ingesta con Pipe

Bronze son datos crudos, tal cual de la fuente. Pipe maneja esto sin ninguna transformacion.

pip install dataspoc-pipe[s3]
dataspoc-pipe init

Agrega tus fuentes

# PostgreSQL production database
dataspoc-pipe add postgres-prod

# Stripe payments
dataspoc-pipe add stripe-payments

# HubSpot CRM
dataspoc-pipe add hubspot-crm

Configuraciones de pipeline

~/.dataspoc-pipe/pipelines/postgres-prod.yaml:

source:
  tap: tap-postgres
  config: ~/.dataspoc-pipe/sources/postgres-prod.json
  streams:
    - orders
    - customers
    - products

destination:
  bucket: s3://company-lake
  path: raw
  compression: zstd

incremental:
  enabled: true

schedule:
  cron: "0 */6 * * *"

~/.dataspoc-pipe/sources/postgres-prod.json:

{
  "host": "db.company.com",
  "port": 5432,
  "user": "dataspoc_reader",
  "dbname": "production",
  "filter_schemas": ["public"]
}

Ejecutar y programar

# Run all pipelines
dataspoc-pipe run _ --all

# Install cron schedules
dataspoc-pipe schedule install

# Check status
dataspoc-pipe status

Resultado: Los datos crudos llegan a s3://company-lake/raw/<source>/<table>/ cómo Parquet. Esta es tu capa Bronze.

Paso 2: Capa Silver — Limpiar con Pipe Transforms

Silver son datos limpios, tipados y deduplicados. Los transforms basados en convenciones de Pipe manejan esto durante la ingesta.

Crear archivos de transformacion

~/.dataspoc-pipe/transforms/postgres-prod.py:

"""Transform raw Postgres data during ingestion."""

def transform(df):
    """Called per batch during extraction. Receives a pandas DataFrame."""

    # Standardize email to lowercase
    if "email" in df.columns:
        df["email"] = df["email"].str.lower().str.strip()

    # Remove test/internal records
    if "email" in df.columns:
        df = df[~df["email"].str.endswith("@test.com")]

    # Parse dates (some come as strings)
    for col in ["created_at", "updated_at"]:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], errors="coerce")

    # Drop duplicates by primary key
    if "id" in df.columns:
        df = df.drop_duplicates(subset=["id"], keep="last")

    # Remove null IDs
    if "id" in df.columns:
        df = df.dropna(subset=["id"])

    return df

Ahora cambia el destino a curated para datos limpios:

~/.dataspoc-pipe/pipelines/postgres-prod-clean.yaml:

source:
  tap: tap-postgres
  config: ~/.dataspoc-pipe/sources/postgres-prod.json
  streams:
    - orders
    - customers

destination:
  bucket: s3://company-lake
  path: curated/finance
  compression: zstd

incremental:
  enabled: true

schedule:
  cron: "30 */6 * * *"  # 30 min after bronze

dataspoc-pipe run postgres-prod-clean

Resultado: Los datos limpios llegan a s3://company-lake/curated/finance/<table>/. Esta es tu capa Silver.

Alternativa: Silver via SQL Transforms de Lens

Si prefieres SQL sobre Python para la limpieza:

~/.dataspoc-lens/transforms/001_clean_orders.sql:

CREATE OR REPLACE TABLE clean_orders AS
SELECT
    id,
    customer_id,
    CAST(total AS DOUBLE) AS total,
    LOWER(TRIM(status)) AS status,
    created_at,
    updated_at
FROM orders
WHERE id IS NOT NULL
  AND total > 0
  AND status IN ('pending', 'shipped', 'canceled');

~/.dataspoc-lens/transforms/002_clean_customers.sql:

CREATE OR REPLACE TABLE clean_customers AS
SELECT
    id,
    COALESCE(name, 'Unknown') AS name,
    LOWER(TRIM(email)) AS email,
    country,
    created_at
FROM customers
WHERE id IS NOT NULL
  AND email NOT LIKE '%@test.com';

dataspoc-lens transform run

Paso 3: Capa Gold — Agregar con Lens

Gold son datos listos para el negocio: agregaciones, joins, KPIs. Los SQL transforms de Lens manejan esto.

~/.dataspoc-lens/transforms/003_customer_360.sql:

CREATE OR REPLACE TABLE customer_360 AS
SELECT
    c.id AS customer_id,
    c.name,
    c.email,
    c.country,
    COUNT(o.id) AS total_orders,
    COALESCE(SUM(o.total), 0) AS lifetime_value,
    MIN(o.created_at) AS first_order,
    MAX(o.created_at) AS last_order,
    DATEDIFF('day', MAX(o.created_at), CURRENT_DATE) AS days_since_last_order,
    CASE
        WHEN DATEDIFF('day', MAX(o.created_at), CURRENT_DATE) > 90 THEN 'at_risk'
        WHEN DATEDIFF('day', MAX(o.created_at), CURRENT_DATE) > 30 THEN 'cooling'
        ELSE 'active'
    END AS status
FROM clean_customers c
LEFT JOIN clean_orders o ON c.id = o.customer_id
GROUP BY c.id, c.name, c.email, c.country;

~/.dataspoc-lens/transforms/004_monthly_revenue.sql:

CREATE OR REPLACE TABLE monthly_revenue AS
SELECT
    DATE_TRUNC('month', created_at) AS month,
    COUNT(*) AS order_count,
    SUM(total) AS revenue,
    COUNT(DISTINCT customer_id) AS unique_customers,
    SUM(total) / COUNT(DISTINCT customer_id) AS revenue_per_customer
FROM clean_orders
WHERE status != 'canceled'
GROUP BY 1
ORDER BY 1;

~/.dataspoc-lens/transforms/005_kpi_dashboard.sql:

CREATE OR REPLACE TABLE kpi_dashboard AS
SELECT
    (SELECT COUNT(*) FROM clean_customers) AS total_customers,
    (SELECT COUNT(*) FROM clean_customers WHERE status = 'active') AS active_customers,
    (SELECT SUM(total) FROM clean_orders WHERE created_at >= DATE_TRUNC('month', CURRENT_DATE)) AS mtd_revenue,
    (SELECT COUNT(*) FROM clean_orders WHERE created_at >= DATE_TRUNC('month', CURRENT_DATE)) AS mtd_orders,
    (SELECT AVG(lifetime_value) FROM customer_360) AS avg_ltv,
    (SELECT COUNT(*) FROM customer_360 WHERE status = 'at_risk') AS at_risk_customers;

dataspoc-lens transform list
dataspoc-lens transform run

Resultado: Tablas listas para el negocio en Gold. Consultalas al instante:

dataspoc-lens query "SELECT * FROM kpi_dashboard"
dataspoc-lens query "SELECT * FROM monthly_revenue ORDER BY month DESC LIMIT 12"
dataspoc-lens ask "which customers are at risk of churning?"

El pipeline completo: Bronze → Silver → Gold

Every 6 hours (cron):

1. dataspoc-pipe run _ --all          # Bronze: ingest raw data
2. dataspoc-pipe run _ --all          # Silver: ingest with transforms
3. dataspoc-lens transform run        # Gold: SQL aggregations

Or automate with a simple script:

#!/bin/bash
dataspoc-pipe run postgres-prod
dataspoc-pipe run postgres-prod-clean
dataspoc-pipe run stripe-payments
dataspoc-lens transform run
echo "Medallion refresh complete at $(date)"

Programa el script:

# Run every 6 hours
crontab -e
0 */6 * * * /path/to/refresh-lake.sh >> /var/log/lake-refresh.log 2>&1

Consultar cada capa

Con Lens, las tres capas son consultables:

dataspoc-lens add-bucket s3://company-lake
dataspoc-lens shell

-- Bronze: raw data (debug, audit)
lens> SELECT * FROM orders LIMIT 5;

-- Silver: clean data (analysis)
lens> SELECT * FROM clean_orders WHERE status = 'shipped' LIMIT 5;

-- Gold: business metrics (dashboards, reports)
lens> SELECT * FROM monthly_revenue ORDER BY month DESC LIMIT 12;
lens> SELECT * FROM customer_360 WHERE status = 'at_risk';
lens> SELECT * FROM kpi_dashboard;

O pregunta en lenguaje natural:

dataspoc-lens ask "monthly revenue trend for the last year"
dataspoc-lens ask "top 10 customers by lifetime value"
dataspoc-lens ask "how many customers are at risk of churning?"

Permitir que agentes de IA consulten la capa Gold

Conecta Claude, Cursor o cualquier agente MCP a la capa Gold:

dataspoc-lens mcp

User: "Give me a summary of this month's KPIs."

Agent: [MCP] query("SELECT * FROM kpi_dashboard")

Agent: "Here's this month's performance:
  - 12,847 total customers (9,231 active)
  - $487k MTD revenue from 3,241 orders
  - Average LTV: $1,247
  - 847 customers flagged as at-risk (no order in 90+ days)"

Medallion vs nomenclatura Raw/Clean/Curated

Dos convenciones de nomenclatura comunes — mismo concepto:

Medallion	Alternativa	Ruta en DataSpoc	Quien escribe
Bronze	Raw	`raw/<source>/<table>/`	Pipe
Silver	Clean / Curated	`curated/<domain>/<table>/`	Pipe transforms o Lens transforms
Gold	Aggregated / Business	`gold/<domain>/<table>/`	Lens transforms

La convencion por defecto de DataSpoc usa raw/curated/gold que se mapea a ambos estilos de nomenclatura. Usa el que prefiera tu equipo.

Comparación: Medallion en Databricks vs DataSpoc

	Databricks	DataSpoc
Configuracion	Cluster + workspace + notebooks	`pip install dataspoc-pipe dataspoc-lens`
Bronze	Auto Loader + Delta Live Tables	`dataspoc-pipe run`
Silver	Transformaciones Spark	Pipe transforms (Python) o Lens transforms (SQL)
Gold	Spark SQL + vistas materializadas	Lens SQL transforms (CTAS)
Costo	$3k-10k/mes	$0 (+ almacenamiento S3)
Formato	Delta Lake	Parquet (abierto, sin vendor lock-in)
Agentes de IA	No nativo	MCP + SDK integrados
Escala	Petabytes	Hasta ~100GB por consulta (DuckDB)

Cuando usar Databricks en su lugar

Datos a escala de petabytes
Streaming en tiempo real (Structured Streaming)
Equipo ya invertido en Spark
Necesidad de transacciones ACID en el lake (Delta Lake)
Pipelines complejos de ML con MLflow

Cuando DataSpoc es suficiente

Datos menores a 100GB por tabla
Equipo de 1-20 personas
Consciente del presupuesto (startup, empresa pequena)
Quiere integración con agentes de IA
Prefiere CLI sobre notebooks
No quiere vendor lock-in

Ejemplo completo funciónal

Aqui esta la configuración completa de cero a medallion:

# Install
pip install dataspoc-pipe[s3] dataspoc-lens[s3,ai]

# Bronze: ingest
dataspoc-pipe init
dataspoc-pipe add postgres-prod
dataspoc-pipe run postgres-prod

# Silver: clean (via Lens SQL)
dataspoc-lens init
dataspoc-lens add-bucket s3://company-lake

cat > ~/.dataspoc-lens/transforms/001_clean_orders.sql << 'EOF'
CREATE OR REPLACE TABLE clean_orders AS
SELECT id, customer_id, CAST(total AS DOUBLE) AS total,
       LOWER(TRIM(status)) AS status, created_at
FROM orders WHERE id IS NOT NULL AND total > 0;
EOF

cat > ~/.dataspoc-lens/transforms/002_clean_customers.sql << 'EOF'
CREATE OR REPLACE TABLE clean_customers AS
SELECT id, COALESCE(name, 'Unknown') AS name,
       LOWER(TRIM(email)) AS email, created_at
FROM customers WHERE id IS NOT NULL;
EOF

# Gold: aggregate
cat > ~/.dataspoc-lens/transforms/003_customer_360.sql << 'EOF'
CREATE OR REPLACE TABLE customer_360 AS
SELECT c.id, c.name, c.email,
       COUNT(o.id) AS orders, COALESCE(SUM(o.total), 0) AS ltv
FROM clean_customers c
LEFT JOIN clean_orders o ON c.id = o.customer_id
GROUP BY c.id, c.name, c.email;
EOF

# Run transforms
dataspoc-lens transform run

# Query Gold
dataspoc-lens ask "top customers by lifetime value"

# Connect AI agent
dataspoc-lens mcp

Tiempo total: 30 minutos. Costo total: $0.

La arquitectura medallion no se trata de Databricks. Se trata de organizar datos en capas. DataSpoc te da el mismo patrón — a una fraccion del costo y la complejidad.

← Volver al blog