Plataforma DataSpoc
DataSpoc es una plataforma de datos construida tanto para humanos como para agentes de IA. Convierte cualquier fuente de datos en un data lake consultable usando tres herramientas CLI conectadas por archivos Parquet en tu bucket en la nube.
Tres Productos, Una Plataforma
Sección titulada «Tres Productos, Una Plataforma»Pipe --- Ingesta (Open-Source)
Sección titulada «Pipe --- Ingesta (Open-Source)»Pipe se conecta a 400+ fuentes de datos y escribe archivos Parquet en tu bucket. Maneja la extraccion incremental, deteccion de esquema y particionamiento de forma automatica.
- Licencia Apache 2.0
- github.com/dataspoclab/dataspoc-pipe
Lens --- Consulta (Open-Source)
Sección titulada «Lens --- Consulta (Open-Source)»Lens monta tu bucket como una base de datos SQL. Consulta con SQL, explora en notebooks Jupyter o Marimo, o haz preguntas en lenguaje natural con IA.
- Licencia Apache 2.0
- github.com/dataspoclab/dataspoc-lens
ML --- AutoML (Comercial)
Sección titulada «ML --- AutoML (Comercial)»ML lee Parquet del bucket, ejecuta feature engineering automatizado, entrena modelos y escribe predicciones de vuelta como Parquet para que Lens las consulte.
Como se Conectan
Sección titulada «Como se Conectan»Source ──► [Pipe] ──► Parquet in Bucket ──► [Lens] ──► SQL / Jupyter / AI │ [ML] ──► train / predict │ [MCP] ──► Claude / Cursor / WindsurfToda la comunicacion entre productos ocurre a traves de archivos Parquet en un bucket compartido. Pipe escribe, Lens lee, ML lee y escribe. Ningun producto importa codigo de otro.
Metricas Clave
Sección titulada «Metricas Clave»| Metrica | Valor |
|---|---|
| Fuentes de datos soportadas | 400+ |
| Tiempo hasta la primera consulta | 15 minutos |
| Costo para comenzar | $0 |
Tres Formas de Usarlo
Sección titulada «Tres Formas de Usarlo»- Terminal ---
dataspoc-pipe runydataspoc-lens shelldesde cualquier shell - Python --- Importa
LensClientoPipeClienten tus scripts y agentes - MCP para agentes de IA --- Conecta Claude Desktop, Claude Code, Cursor o Windsurf directamente a tu data lake
- dataspoc-pipe --- CLI de ingesta
- dataspoc-lens --- CLI de consulta