DataSpoc ML
DataSpoc ML te permite entrenar, predecir y explicar modelos de machine learning directamente sobre datos Parquet almacenados en buckets en la nube. Sin mover datos, sin infraestructura de ML separada — tus modelos se ejecutan donde tus datos ya viven.
Que hace
Sección titulada «Que hace»- Feature engineering automatizado — detecta tipos de columnas, genera features significativos, maneja valores faltantes.
- Seleccion de modelos — evalua multiples algoritmos y elige el mejor para tus datos.
- Optimizacion de hiperparametros — optimiza los parametros del modelo automaticamente.
- Monitoreo de drift — rastrea el rendimiento del modelo a lo largo del tiempo y alerta cuando las predicciones se degradan.
Producto comercial
Sección titulada «Producto comercial»DataSpoc ML es un producto comercial integrado con Lens. Se accede completamente a traves de los comandos dataspoc-lens ml — no hay un CLI separado que instalar.
Para comenzar, contacta a ml@dataspoc.com.
Como se conecta
Sección titulada «Como se conecta»ML lee del mismo bucket al que Pipe escribe y que Lens consulta. El flujo de datos es:
Pipe (ingest) → bucket/raw/ and bucket/curated/ ↓ ML (train) → bucket/ml/models/<model>/ ML (predict) → bucket/ml/predictions/<model>/ ↓ Lens (query) → predictions appear as SQL tablesArtefactos en el bucket
Sección titulada «Artefactos en el bucket»ML escribe en dos directorios del bucket:
| Ruta | Contenido |
|---|---|
ml/models/<model>/model.pkl | Modelo entrenado serializado |
ml/models/<model>/features.json | Definiciones de features y transformaciones |
ml/models/<model>/metrics.json | Metricas de entrenamiento (accuracy, AUC, RMSE, etc.) |
ml/predictions/<model>/*.parquet | Salida de predicciones como archivos Parquet |
Las predicciones guardadas como Parquet son automaticamente descubribles por Lens y aparecen como tablas SQL consultables.