Ir al contenido

Inicio Rapido

Esta guia te lleva de cero a consultar tu data lake en cinco minutos.

Ventana de terminal
pip install dataspoc-pipe dataspoc-lens
Ventana de terminal
dataspoc-pipe init

Esto crea un directorio .dataspoc/ en tu bucket con el manifiesto y el seguimiento de estado.

Ventana de terminal
dataspoc-pipe add my-source

El asistente interactivo te guia a traves de:

  • Tipo de fuente (base de datos, API, archivo, etc.)
  • Detalles de conexion (host, credenciales via variables de entorno)
  • Tablas o endpoints a extraer
  • Ruta del bucket de destino
  • Modo de sincronizacion (completo o incremental)
Ventana de terminal
dataspoc-pipe run my-source

Pipe extrae datos de tu fuente, los convierte a Parquet y los escribe en tu bucket bajo raw/my-source/<table>/.

Ventana de terminal
dataspoc-lens add-bucket s3://my-data

Lens lee el manifiesto y descubre todas las tablas que Pipe ha escrito.

Ventana de terminal
dataspoc-lens shell
SELECT customer_name, SUM(revenue) as total
FROM raw.my_source.orders
GROUP BY customer_name
ORDER BY total DESC
LIMIT 10;
Ventana de terminal
dataspoc-lens ask "top customers by revenue"

Lens traduce tu pregunta a SQL, la ejecuta y devuelve el resultado.

No necesitas un bucket en la nube para comenzar. Usa archivos locales con URIs file://:

Ventana de terminal
# Create a sample CSV
mkdir -p /tmp/my-lake
cat > /tmp/sales.csv << 'EOF'
date,customer,product,revenue
2025-01-15,Acme Corp,Widget Pro,15000
2025-01-15,Globex Inc,Widget Basic,8500
2025-01-16,Acme Corp,Widget Basic,4200
2025-01-16,Initech,Widget Pro,12000
2025-01-17,Globex Inc,Widget Pro,19500
EOF
# Initialize and ingest
dataspoc-pipe init --bucket file:///tmp/my-lake
dataspoc-pipe add local-csv --source-type file --path /tmp/sales.csv
dataspoc-pipe run local-csv
# Query
dataspoc-lens add-bucket file:///tmp/my-lake
dataspoc-lens shell
SELECT customer, SUM(revenue) as total_revenue
FROM raw.local_csv.sales
GROUP BY customer
ORDER BY total_revenue DESC;