Entrenamiento de Modelos
Entrena un modelo de machine learning desde cualquier tabla en tu data lake con un solo comando.
dataspoc-lens ml train --target <column> --from <table>| Flag | Descripcion |
|---|---|
--target | La columna que quieres predecir |
--from | La tabla fuente (capa raw, curated o gold) |
Que sucede
Sección titulada «Que sucede»- Lee Parquet — carga la tabla fuente desde tu bucket.
- Feature engineering — detecta automaticamente tipos de columnas, codifica categoricos, genera features de interaccion y maneja valores faltantes.
- Seleccion de modelo — evalua multiples algoritmos (gradient boosting, random forest, logistic regression, etc.) y selecciona el de mejor rendimiento.
- Entrenamiento — entrena el modelo seleccionado con hiperparametros optimizados.
- Guarda en el bucket — escribe los artefactos en
bucket/ml/models/<model>/.
Artefactos de salida
Sección titulada «Artefactos de salida»Despues de completar el entrenamiento, tres archivos se guardan en el bucket:
| Archivo | Descripcion |
|---|---|
model.pkl | El modelo entrenado serializado |
features.json | Definiciones de features, transformaciones y mapeos de columnas |
metrics.json | Metricas de evaluacion (accuracy, precision, recall, AUC, RMSE, etc.) |
Estos archivos se almacenan en:
bucket/ ml/ models/ <model>/ model.pkl features.json metrics.jsonEjemplo: entrenar un modelo de churn
Sección titulada «Ejemplo: entrenar un modelo de churn»Supongamos que tienes una tabla curated/customers/activity con una columna churned (1 = abandono, 0 = activo):
dataspoc-lens ml train --target churned --from curated/customers/activitySalida:
[ML] Loading table curated/customers/activity...[ML] 45,231 rows, 18 columns[ML] Feature engineering: 42 features generated[ML] Evaluating models...[ML] Best model: GradientBoosting (AUC=0.91)[ML] Training final model...[ML] Saved to ml/models/churned_activity/[ML] Done.Luego puedes inspeccionar el modelo con dataspoc-lens ml explain --model churned_activity o generar predicciones con dataspoc-lens ml predict.