Inicio Rapido
Esta guia te lleva de cero a consultar tu data lake en cinco minutos.
1. Instalar
Sección titulada «1. Instalar»pip install dataspoc-pipe dataspoc-lens2. Inicializar un proyecto Pipe
Sección titulada «2. Inicializar un proyecto Pipe»dataspoc-pipe initEsto crea un directorio .dataspoc/ en tu bucket con el manifiesto y el seguimiento de estado.
3. Agregar una fuente de datos
Sección titulada «3. Agregar una fuente de datos»dataspoc-pipe add my-sourceEl asistente interactivo te guia a traves de:
- Tipo de fuente (base de datos, API, archivo, etc.)
- Detalles de conexion (host, credenciales via variables de entorno)
- Tablas o endpoints a extraer
- Ruta del bucket de destino
- Modo de sincronizacion (completo o incremental)
4. Ejecutar el pipeline
Sección titulada «4. Ejecutar el pipeline»dataspoc-pipe run my-sourcePipe extrae datos de tu fuente, los convierte a Parquet y los escribe en tu bucket bajo raw/my-source/<table>/.
5. Conectar Lens al bucket
Sección titulada «5. Conectar Lens al bucket»dataspoc-lens add-bucket s3://my-dataLens lee el manifiesto y descubre todas las tablas que Pipe ha escrito.
6. Consultar con SQL
Sección titulada «6. Consultar con SQL»dataspoc-lens shellSELECT customer_name, SUM(revenue) as totalFROM raw.my_source.ordersGROUP BY customer_nameORDER BY total DESCLIMIT 10;7. Preguntar en lenguaje natural
Sección titulada «7. Preguntar en lenguaje natural»dataspoc-lens ask "top customers by revenue"Lens traduce tu pregunta a SQL, la ejecuta y devuelve el resultado.
Pruebas Locales con CSV
Sección titulada «Pruebas Locales con CSV»No necesitas un bucket en la nube para comenzar. Usa archivos locales con URIs file://:
# Create a sample CSVmkdir -p /tmp/my-lakecat > /tmp/sales.csv << 'EOF'date,customer,product,revenue2025-01-15,Acme Corp,Widget Pro,150002025-01-15,Globex Inc,Widget Basic,85002025-01-16,Acme Corp,Widget Basic,42002025-01-16,Initech,Widget Pro,120002025-01-17,Globex Inc,Widget Pro,19500EOF
# Initialize and ingestdataspoc-pipe init --bucket file:///tmp/my-lakedataspoc-pipe add local-csv --source-type file --path /tmp/sales.csvdataspoc-pipe run local-csv
# Querydataspoc-lens add-bucket file:///tmp/my-lakedataspoc-lens shellSELECT customer, SUM(revenue) as total_revenueFROM raw.local_csv.salesGROUP BY customerORDER BY total_revenue DESC;Siguientes Pasos
Sección titulada «Siguientes Pasos»- Arquitectura --- Entender el contrato del bucket
- Integracion con Agentes de IA --- Conectar tu agente de IA al data lake
- Configuracion MCP --- Usar DataSpoc desde Claude o Cursor