Inicio Rapido

Esta guia te lleva de cero a consultar tu data lake en cinco minutos.

1. Instalar

pip install dataspoc-pipe dataspoc-lens

2. Inicializar un proyecto Pipe

dataspoc-pipe init

Esto crea un directorio .dataspoc/ en tu bucket con el manifiesto y el seguimiento de estado.

3. Agregar una fuente de datos

dataspoc-pipe add my-source

El asistente interactivo te guia a traves de:

Tipo de fuente (base de datos, API, archivo, etc.)
Detalles de conexion (host, credenciales via variables de entorno)
Tablas o endpoints a extraer
Ruta del bucket de destino
Modo de sincronizacion (completo o incremental)

4. Ejecutar el pipeline

dataspoc-pipe run my-source

Pipe extrae datos de tu fuente, los convierte a Parquet y los escribe en tu bucket bajo raw/my-source/<table>/.

5. Conectar Lens al bucket

dataspoc-lens add-bucket s3://my-data

Lens lee el manifiesto y descubre todas las tablas que Pipe ha escrito.

6. Consultar con SQL

dataspoc-lens shell

SELECT customer_name, SUM(revenue) as total
FROM raw.my_source.orders
GROUP BY customer_name
ORDER BY total DESC
LIMIT 10;

7. Preguntar en lenguaje natural

dataspoc-lens ask "top customers by revenue"

Lens traduce tu pregunta a SQL, la ejecuta y devuelve el resultado.

Pruebas Locales con CSV

No necesitas un bucket en la nube para comenzar. Usa archivos locales con URIs file://:

# Create a sample CSV
mkdir -p /tmp/my-lake
cat > /tmp/sales.csv << 'EOF'
date,customer,product,revenue
2025-01-15,Acme Corp,Widget Pro,15000
2025-01-15,Globex Inc,Widget Basic,8500
2025-01-16,Acme Corp,Widget Basic,4200
2025-01-16,Initech,Widget Pro,12000
2025-01-17,Globex Inc,Widget Pro,19500
EOF

# Initialize and ingest
dataspoc-pipe init --bucket file:///tmp/my-lake
dataspoc-pipe add local-csv --source-type file --path /tmp/sales.csv
dataspoc-pipe run local-csv

# Query
dataspoc-lens add-bucket file:///tmp/my-lake
dataspoc-lens shell

SELECT customer, SUM(revenue) as total_revenue
FROM raw.local_csv.sales
GROUP BY customer
ORDER BY total_revenue DESC;

Siguientes Pasos

Arquitectura --- Entender el contrato del bucket
Integracion con Agentes de IA --- Conectar tu agente de IA al data lake
Configuracion MCP --- Usar DataSpoc desde Claude o Cursor