Open Source — Apache 2.0

La plataforma de datos para humanos y agentes de IA.

Todos los equipos de datos empiezan igual: 3 meses configurando Airflow, dbt y un warehouse antes de que alguien ejecute una consulta. DataSpoc es el atajo. Tres herramientas CLI. Un pip install. Tus datos se quedan en tu bucket. Tu agente de IA los consulta via MCP.

pip install dataspoc-pipe dataspoc-lens

Empezar Ver en GitHub

Un agente de IA para cada rol.

DataSpoc incluye AGENT.md — un archivo de habilidades que le ensena a los agentes de IA como usar tu plataforma de datos. Colocalo en Claude, Cursor o cualquier cliente MCP y observa como tu equipo acelera.

⚙

Agente DE

Agente de Ingenieria de Datos

Ingesta datos de cualquier fuente. Monitorea pipelines. Detecta fallos y reintenta. Agrega nuevas fuentes cuando lo pides. Tu ingeniero de datos siempre activo que nunca toma vacaciones.

# El agente lee AGENT.md, se conecta via MCP
"Agrega nuestra API de Stripe como
 fuente y programala cada 6 horas"
→ dataspoc-pipe add stripe
→ dataspoc-pipe run stripe
→ dataspoc-pipe schedule install

MCP SDK AGENT.md

📊

Agente DA

Agente de Analisis de Datos

Explora tu data lake. Responde preguntas de negocio en lenguaje natural. Crea reportes. Refresca el cache antes de consultar. Tu analista que trabaja a las 3am sin quejarse.

# El agente lee AGENT.md, se conecta via MCP
"Que clientes estan en riesgo de
 churn? Exporta la lista como CSV"
→ cache_refresh_stale()
→ ask("clientes con riesgo de churn")
→ query("SELECT ...") → export

MCP SDK AGENT.md

🧠

Agente ML

Agente de Ingenieria ML

Entrena modelos con los datos de tu lake. Genera predicciones. Explica resultados. Monitorea drift. Tu ingeniero ML que convierte "podemos predecir X?" en un modelo en minutos.

# El agente lee AGENT.md, se conecta via MCP
"Entrena un modelo de churn con
 nuestros datos de clientes y explicalo"
→ ml train --target churn --from customers
→ ml explain --model churn
→ ml predict --model churn --from new

MCP SDK AGENT.md

AGENT.md + MCP + SDK

Cada repositorio de DataSpoc incluye un AGENT.md — un archivo de habilidades que documenta cada funcion, patron y restriccion. Los agentes de IA lo leen y saben exactamente que hacer. Sin codigo de integracion personalizado. Sin ingenieria de prompts. Solo coloca el archivo y listo.

Te suena familiar?

Estas son las historias que escuchamos cada semana de equipos de datos.

"2 meses solo para mover CSVs"

Pasaste 2 meses configurando Airflow, depurando contenedores Docker y escribiendo DAGs — solo para mover archivos CSV a S3. El negocio todavia no tiene un dashboard.

"El warehouse cuesta mas que los insights"

La factura de tu data warehouse llego a $4k/mes. El CFO pregunta que produce. Miras los dashboards. Tres personas los usan.

"Cada herramienta de IA necesita un wrapper personalizado"

Quieres que Claude consulte tus datos. Entonces construyes una API personalizada, un vector store, un pipeline de recuperacion... solo para responder "cuales fueron las ventas del mes pasado?"

"Los analistas esperan dias por una consulta"

Tu analista tiene una pregunta. Crea un ticket. El ingeniero de datos escribe una consulta. Tres dias despues, la respuesta es "42." El momento ya paso.

Y si tu plataforma de datos fuera solo pip install?

La forma antigua es cara, lenta y fragil. Hay un camino mas simple.

ANTES

Airflow

+ dbt

+ Snowflake

+ Looker

+ API personalizada para agentes de IA

6 meses + $50k/ano

DESPUES

pip install dataspoc-pipe

pip install dataspoc-lens

Ingesta, consulta, IA — listo.

15 minutos + $0

Como funciona

Tres pasos. Sin infraestructura que aprovisionar, sin cuentas que crear, sin YAML que depurar.

Pipe ingesta

Conecta cualquier fuente. Los datos llegan como Parquet a tu bucket.

$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres
# → Archivos Parquet en s3://bucket/raw/

Lens consulta

Haz preguntas en SQL o en lenguaje natural. Resultados instantaneos.

$ dataspoc-lens ask "top 10 customers by revenue"
# → SQL generado, resultados mostrados

Agentes se conectan

Un comando convierte tu data lake en un servidor MCP para IA.

$ dataspoc-lens mcp
# → Claude, Cursor, cualquier agente consulta tus datos

Tres herramientas. Un bucket.

Cada herramienta hace un trabajo bien. Se conectan a traves de archivos Parquet en tu almacenamiento en la nube.

Pipe

Ingesta de Datos

"Cuando necesito datos de una fuente, los quiero en mi bucket como Parquet — sin gestionar infraestructura."

400+ fuentes Singer. Streaming e incremental. Auto-catalogo. S3, GCS, Azure.

$ pip install dataspoc-pipe

Lens

Motor de Consultas

"Cuando tengo una pregunta sobre mis datos, quiero hacerla en SQL o en lenguaje natural — sin levantar un warehouse."

Potenciado por DuckDB. Shell interactivo, Jupyter, Marimo. Consultas con IA en lenguaje natural. Servidor MCP.

$ pip install dataspoc-lens

ML

AutoML

"Cuando necesito predicciones, quiero entrenar un modelo con los datos de mi lake — sin ser data scientist."

Ingenieria de features automatizada, seleccion de modelos, entrenamiento y prediccion sobre datos Parquet.

$ dataspoc-lens ml train

Hecho para tu equipo

Desde el ingeniero de datos que construye pipelines hasta el CTO que aprueba el presupuesto.

Ingeniero de Datos

Deja de escribir DAGs de Airflow

Un comando para ingestar desde cualquier fuente. Sin contenedores, sin schedulers, sin YAML. Solo pipe run.

Analista de Datos

Haz preguntas en espanol

Escribe tu pregunta. Obtiene SQL + resultados. Sin tickets, sin esperas, sin cambio de contexto. Solo lens ask.

Equipo de Plataforma

Una herramienta para humanos e IA

Mismo CLI, mismos datos, para analistas y agentes de IA. Nativo MCP. Sin infraestructura que gestionar, sin capa API que construir.

Fundador / CTO

Plataforma de datos en 15 minutos

$0 para empezar. Open source. Sin dependencia de proveedor. Tus datos se quedan en tu bucket. Escala cuando estes listo.

400+

Fuentes de datos Singer

DuckDB

Motor de consultas

Apache 2.0

Licencia open source

MCP

Nativo para agentes de IA

PyPI

pip install y listo

Empieza en 5 minutos.
No en 5 meses.

Cuatro comandos. Eso es todo. Tus datos van de la fuente a un lake consultable — para humanos y agentes de IA — en el tiempo que toma preparar un cafe.

$ pip install dataspoc-pipe dataspoc-lens
$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres
$ dataspoc-lens ask "top customers by revenue"

Empezar Ver en GitHub

La plataforma de datos para humanos y agentes de IA.

Un agente de IA para cada rol.

Agente DE

Agente DA

Agente ML

Te suena familiar?

Y si tu plataforma de datos fuera solo pip install?

Como funciona

Pipe ingesta

Lens consulta

Agentes se conectan

Tres herramientas. Un bucket.

Pipe

Lens

ML

Hecho para tu equipo

Deja de escribir DAGs de Airflow

Haz preguntas en espanol

Una herramienta para humanos e IA

Plataforma de datos en 15 minutos

Empieza en 5 minutos.No en 5 meses.

Empieza en 5 minutos.
No en 5 meses.