Plataforma DataSpoc

DataSpoc es una plataforma de datos construida tanto para humanos como para agentes de IA. Convierte cualquier fuente de datos en un data lake consultable usando tres herramientas CLI conectadas por archivos Parquet en tu bucket en la nube.

Tres Productos, Una Plataforma

Pipe --- Ingesta (Open-Source)

Pipe se conecta a 400+ fuentes de datos y escribe archivos Parquet en tu bucket. Maneja la extraccion incremental, deteccion de esquema y particionamiento de forma automatica.

Licencia Apache 2.0
github.com/dataspoclab/dataspoc-pipe

Lens --- Consulta (Open-Source)

Lens monta tu bucket como una base de datos SQL. Consulta con SQL, explora en notebooks Jupyter o Marimo, o haz preguntas en lenguaje natural con IA.

Licencia Apache 2.0
github.com/dataspoclab/dataspoc-lens

ML --- AutoML (Comercial)

ML lee Parquet del bucket, ejecuta feature engineering automatizado, entrena modelos y escribe predicciones de vuelta como Parquet para que Lens las consulte.

Como se Conectan

Source ──► [Pipe] ──► Parquet in Bucket ──► [Lens] ──► SQL / Jupyter / AI
                                              │
                                           [ML] ──► train / predict
                                              │
                                           [MCP] ──► Claude / Cursor / Windsurf

Toda la comunicacion entre productos ocurre a traves de archivos Parquet en un bucket compartido. Pipe escribe, Lens lee, ML lee y escribe. Ningun producto importa codigo de otro.

Metricas Clave

Metrica	Valor
Fuentes de datos soportadas	400+
Tiempo hasta la primera consulta	15 minutos
Costo para comenzar	$0

Tres Formas de Usarlo

Terminal --- dataspoc-pipe run y dataspoc-lens shell desde cualquier shell
Python --- Importa LensClient o PipeClient en tus scripts y agentes
MCP para agentes de IA --- Conecta Claude Desktop, Claude Code, Cursor o Windsurf directamente a tu data lake

GitHub

dataspoc-pipe --- CLI de ingesta
dataspoc-lens --- CLI de consulta