DataSpoc ML

DataSpoc ML te permite entrenar, predecir y explicar modelos de machine learning directamente sobre datos Parquet almacenados en buckets en la nube. Sin mover datos, sin infraestructura de ML separada — tus modelos se ejecutan donde tus datos ya viven.

Que hace

Feature engineering automatizado — detecta tipos de columnas, genera features significativos, maneja valores faltantes.
Seleccion de modelos — evalua multiples algoritmos y elige el mejor para tus datos.
Optimizacion de hiperparametros — optimiza los parametros del modelo automaticamente.
Monitoreo de drift — rastrea el rendimiento del modelo a lo largo del tiempo y alerta cuando las predicciones se degradan.

Producto comercial

DataSpoc ML es un producto comercial integrado con Lens. Se accede completamente a traves de los comandos dataspoc-lens ml — no hay un CLI separado que instalar.

Para comenzar, contacta a ml@dataspoc.com.

Como se conecta

ML lee del mismo bucket al que Pipe escribe y que Lens consulta. El flujo de datos es:

Pipe (ingest) → bucket/raw/ and bucket/curated/
                        ↓
                   ML (train) → bucket/ml/models/<model>/
                   ML (predict) → bucket/ml/predictions/<model>/
                        ↓
                   Lens (query) → predictions appear as SQL tables

Artefactos en el bucket

ML escribe en dos directorios del bucket:

Ruta	Contenido
`ml/models/<model>/model.pkl`	Modelo entrenado serializado
`ml/models/<model>/features.json`	Definiciones de features y transformaciones
`ml/models/<model>/metrics.json`	Metricas de entrenamiento (accuracy, AUC, RMSE, etc.)
`ml/predictions/<model>/*.parquet`	Salida de predicciones como archivos Parquet

Las predicciones guardadas como Parquet son automaticamente descubribles por Lens y aparecen como tablas SQL consultables.