Entrenamiento de Modelos

Entrena un modelo de machine learning desde cualquier tabla en tu data lake con un solo comando.

Uso

dataspoc-lens ml train --target <column> --from <table>

Flag	Descripcion
`--target`	La columna que quieres predecir
`--from`	La tabla fuente (capa raw, curated o gold)

Que sucede

Lee Parquet — carga la tabla fuente desde tu bucket.
Feature engineering — detecta automaticamente tipos de columnas, codifica categoricos, genera features de interaccion y maneja valores faltantes.
Seleccion de modelo — evalua multiples algoritmos (gradient boosting, random forest, logistic regression, etc.) y selecciona el de mejor rendimiento.
Entrenamiento — entrena el modelo seleccionado con hiperparametros optimizados.
Guarda en el bucket — escribe los artefactos en bucket/ml/models/<model>/.

Artefactos de salida

Despues de completar el entrenamiento, tres archivos se guardan en el bucket:

Archivo	Descripcion
`model.pkl`	El modelo entrenado serializado
`features.json`	Definiciones de features, transformaciones y mapeos de columnas
`metrics.json`	Metricas de evaluacion (accuracy, precision, recall, AUC, RMSE, etc.)

Estos archivos se almacenan en:

bucket/
  ml/
    models/
      <model>/
        model.pkl
        features.json
        metrics.json

Ejemplo: entrenar un modelo de churn

Supongamos que tienes una tabla curated/customers/activity con una columna churned (1 = abandono, 0 = activo):

dataspoc-lens ml train --target churned --from curated/customers/activity

Salida:

[ML] Loading table curated/customers/activity...
[ML] 45,231 rows, 18 columns
[ML] Feature engineering: 42 features generated
[ML] Evaluating models...
[ML] Best model: GradientBoosting (AUC=0.91)
[ML] Training final model...
[ML] Saved to ml/models/churned_activity/
[ML] Done.

Luego puedes inspeccionar el modelo con dataspoc-lens ml explain --model churned_activity o generar predicciones con dataspoc-lens ml predict.