Open-Source · Apache 2.0

Deja de construir pipelines. Empieza a ejecutarlos.

Airflow, Meltano, scripts personalizados — la ingesta de datos no deberia tomar semanas. Pipe conecta cualquiera de 400+ fuentes a Parquet en tu bucket con un comando. Sin DAGs. Sin infraestructura. Sin doctorado en YAML.

$ pip install dataspoc-pipe
$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres

Tu Agente DE esta listo.

Pipe incluye AGENT.md — un archivo de habilidades que le ensena a cualquier agente de IA como gestionar tus pipelines. Conectalo via MCP o el SDK de Python y tu agente puede agregar fuentes, ejecutar extracciones, monitorear estado, leer logs y corregir fallos. De forma autonoma.

Sin ingenieria de prompts. Sin wrappers personalizados. El agente lee el archivo de habilidades, descubre lo que Pipe puede hacer y empieza a trabajar. Es como contratar un ingeniero de datos que ya leyo la documentacion.

Agrega nuevas fuentes Ejecuta pipelines Monitorea fallos Valida conexiones Lee logs

Claude via MCP → Pipe

Tu: "El pipeline de ventas fallo
      anoche. Que paso?"

[MCP] pipeline_logs("sales")
[MCP] validate_pipeline("sales")

Agente: "La fuente Postgres devolvio
un timeout de conexion. El host de
la BD no es alcanzable. Cuando vuelva,
puedo re-ejecutar con --full para
recuperar los datos perdidos."

Ya pasaste por esto

47 tareas

Tu DAG de Airflow tiene 47 tareas solo para mover datos de Postgres a S3. La mitad son reintentos.

2 semanas

El nuevo empleado paso 2 semanas entendiendo el pipeline de ingesta. Todavia no puede agregar una nueva fuente.

Requiere humano

Tu agente de IA necesita datos frescos pero no puede ejecutar un pipeline sin que un humano haga clic en botones.

Antes y despues

Lo que cambia cuando pasas a Pipe.

Antes

200 lineas de Python en un DAG de Airflow

Despues

5 lineas de YAML

Antes

pip install apache-airflow + 47 dependencias

Despues

pip install dataspoc-pipe

Antes

3 semanas hasta el primer pipeline

Despues

15 minutos

Como funciona

De la fuente a Parquet consultable en un comando.

Singer Tap          Tu fuente (Postgres, Stripe, REST API, etc.)
    |
    v
stdout (JSON)        Protocolo Singer — flujo estructurado de registros
    |
    v
Pipe (transform)     Transformaciones Python opcionales (transforms/<pipeline>.py)
    |
    v
Parquet              Archivos columnares, comprimidos, con particiones
    |
    v
Bucket               S3, GCS, Azure, o sistema de archivos local

Hecho para los trabajos que realmente tienes

Cuando necesito agregar una nueva fuente

El asistente CLI te guia paso a paso. Elige entre 400+ taps de Singer, configura credenciales, ejecuta. Sin boilerplate, sin copiar y pegar de StackOverflow.

$ dataspoc-pipe add tap-postgres
  Source added. Configure in dataspoc-pipe.yaml
$ dataspoc-pipe run tap-postgres

Cuando solo necesito datos nuevos

Extraccion incremental con bookmarks. Pipe recuerda donde se quedo y solo trae lo que cambio. Ahorra tiempo, ahorra costos de egress.

$ dataspoc-pipe run tap-postgres
  Resuming from bookmark: 2026-04-14T08:00:00Z
  Extracted 1,247 new records (3 tables)

Cuando necesito limpiar datos durante la ingesta

Coloca un archivo Python en transforms/<pipeline>.py y Pipe lo ejecuta en cada registro. Renombra columnas, enmascara PII, convierte tipos — sin un paso ETL separado.

# transforms/my-postgres.py
def transform(record, stream):
    record['email'] = mask_pii(record['email'])
    return record

Cuando mi agente de IA necesita ejecutar una ingesta

Pipe funciona como servidor MCP. Tu agente de IA puede descubrir fuentes, ejecutar pipelines y verificar estado — todo mediante llamadas de herramientas. Tambien funciona como SDK de Python.

$ dataspoc-pipe mcp
  MCP server running on stdio

# Agent: "ingest fresh data from postgres"
# Pipe: running tap-postgres... done. 12 tables.

Lo que obtienes

Cada ejecucion de Pipe produce una estructura de bucket limpia y estandarizada que Lens puede consultar inmediatamente.

raw/
  <source>/
    <table>/
      dt=2026-04-15/
        data_001.parquet
        data_002.parquet

.dataspoc/
  manifest.json          # Catalogo — Lens lee esto para descubrir tus tablas
  state/
    <pipeline>/
      state.json         # Bookmarks incrementales — nunca re-extraigas datos viejos
  logs/
    <pipeline>/
      2026-04-15T...json # Logs de ejecucion — depura cualquier ejecucion

Tu primer pipeline en 15 minutos.

$ pip install dataspoc-pipe
$ dataspoc-pipe add tap-postgres
$ dataspoc-pipe run tap-postgres