Ir al contenido

DataSpoc ML

DataSpoc ML te permite entrenar, predecir y explicar modelos de machine learning directamente sobre datos Parquet almacenados en buckets en la nube. Sin mover datos, sin infraestructura de ML separada — tus modelos se ejecutan donde tus datos ya viven.

  • Feature engineering automatizado — detecta tipos de columnas, genera features significativos, maneja valores faltantes.
  • Seleccion de modelos — evalua multiples algoritmos y elige el mejor para tus datos.
  • Optimizacion de hiperparametros — optimiza los parametros del modelo automaticamente.
  • Monitoreo de drift — rastrea el rendimiento del modelo a lo largo del tiempo y alerta cuando las predicciones se degradan.

DataSpoc ML es un producto comercial integrado con Lens. Se accede completamente a traves de los comandos dataspoc-lens ml — no hay un CLI separado que instalar.

Para comenzar, contacta a ml@dataspoc.com.

ML lee del mismo bucket al que Pipe escribe y que Lens consulta. El flujo de datos es:

Pipe (ingest) → bucket/raw/ and bucket/curated/
ML (train) → bucket/ml/models/<model>/
ML (predict) → bucket/ml/predictions/<model>/
Lens (query) → predictions appear as SQL tables

ML escribe en dos directorios del bucket:

RutaContenido
ml/models/<model>/model.pklModelo entrenado serializado
ml/models/<model>/features.jsonDefiniciones de features y transformaciones
ml/models/<model>/metrics.jsonMetricas de entrenamiento (accuracy, AUC, RMSE, etc.)
ml/predictions/<model>/*.parquetSalida de predicciones como archivos Parquet

Las predicciones guardadas como Parquet son automaticamente descubribles por Lens y aparecen como tablas SQL consultables.