Deja de construir pipelines. Empieza a ejecutarlos.
Airflow, Meltano, scripts personalizados — la ingesta de datos no deberia tomar semanas. Pipe conecta cualquiera de 400+ fuentes a Parquet en tu bucket con un comando. Sin DAGs. Sin infraestructura. Sin doctorado en YAML.
$ pip install dataspoc-pipe $ dataspoc-pipe add my-postgres $ dataspoc-pipe run my-postgres
Tu Agente DE esta listo.
Pipe incluye AGENT.md — un archivo de habilidades que le ensena a cualquier agente de IA como gestionar tus pipelines. Conectalo via MCP o el SDK de Python y tu agente puede agregar fuentes, ejecutar extracciones, monitorear estado, leer logs y corregir fallos. De forma autonoma.
Sin ingenieria de prompts. Sin wrappers personalizados. El agente lee el archivo de habilidades, descubre lo que Pipe puede hacer y empieza a trabajar. Es como contratar un ingeniero de datos que ya leyo la documentacion.
Claude via MCP → Pipe
Tu: "El pipeline de ventas fallo anoche. Que paso?" [MCP] pipeline_logs("sales") [MCP] validate_pipeline("sales") Agente: "La fuente Postgres devolvio un timeout de conexion. El host de la BD no es alcanzable. Cuando vuelva, puedo re-ejecutar con --full para recuperar los datos perdidos."
Ya pasaste por esto
Tu DAG de Airflow tiene 47 tareas solo para mover datos de Postgres a S3. La mitad son reintentos.
El nuevo empleado paso 2 semanas entendiendo el pipeline de ingesta. Todavia no puede agregar una nueva fuente.
Tu agente de IA necesita datos frescos pero no puede ejecutar un pipeline sin que un humano haga clic en botones.
Antes y despues
Lo que cambia cuando pasas a Pipe.
200 lineas de Python en un DAG de Airflow
5 lineas de YAML
pip install apache-airflow + 47 dependencias
pip install dataspoc-pipe
3 semanas hasta el primer pipeline
15 minutos
Como funciona
De la fuente a Parquet consultable en un comando.
Singer Tap Tu fuente (Postgres, Stripe, REST API, etc.)
|
v
stdout (JSON) Protocolo Singer — flujo estructurado de registros
|
v
Pipe (transform) Transformaciones Python opcionales (transforms/<pipeline>.py)
|
v
Parquet Archivos columnares, comprimidos, con particiones
|
v
Bucket S3, GCS, Azure, o sistema de archivos local Hecho para los trabajos que realmente tienes
Cuando necesito agregar una nueva fuente
El asistente CLI te guia paso a paso. Elige entre 400+ taps de Singer, configura credenciales, ejecuta. Sin boilerplate, sin copiar y pegar de StackOverflow.
$ dataspoc-pipe add tap-postgres Source added. Configure in dataspoc-pipe.yaml $ dataspoc-pipe run tap-postgres
Cuando solo necesito datos nuevos
Extraccion incremental con bookmarks. Pipe recuerda donde se quedo y solo trae lo que cambio. Ahorra tiempo, ahorra costos de egress.
$ dataspoc-pipe run tap-postgres Resuming from bookmark: 2026-04-14T08:00:00Z Extracted 1,247 new records (3 tables)
Cuando necesito limpiar datos durante la ingesta
Coloca un archivo Python en transforms/<pipeline>.py y Pipe lo ejecuta en cada registro. Renombra columnas, enmascara PII, convierte tipos — sin un paso ETL separado.
# transforms/my-postgres.py
def transform(record, stream):
record['email'] = mask_pii(record['email'])
return record Cuando mi agente de IA necesita ejecutar una ingesta
Pipe funciona como servidor MCP. Tu agente de IA puede descubrir fuentes, ejecutar pipelines y verificar estado — todo mediante llamadas de herramientas. Tambien funciona como SDK de Python.
$ dataspoc-pipe mcp MCP server running on stdio # Agent: "ingest fresh data from postgres" # Pipe: running tap-postgres... done. 12 tables.
Lo que obtienes
Cada ejecucion de Pipe produce una estructura de bucket limpia y estandarizada que Lens puede consultar inmediatamente.
raw/
<source>/
<table>/
dt=2026-04-15/
data_001.parquet
data_002.parquet
.dataspoc/
manifest.json # Catalogo — Lens lee esto para descubrir tus tablas
state/
<pipeline>/
state.json # Bookmarks incrementales — nunca re-extraigas datos viejos
logs/
<pipeline>/
2026-04-15T...json # Logs de ejecucion — depura cualquier ejecucion Tu primer pipeline en 15 minutos.
$ pip install dataspoc-pipe
$ dataspoc-pipe add tap-postgres
$ dataspoc-pipe run tap-postgres