Treinando Modelos

Treine um modelo de machine learning a partir de qualquer tabela do seu data lake com um único comando.

Uso

dataspoc-lens ml train --target <column> --from <table>

Flag	Descrição
`--target`	A coluna que você quer prever
`--from`	A tabela de origem (camada raw, curated ou gold)

O que acontece

Lê Parquet — carrega a tabela de origem do seu bucket.
Feature engineering — detecta automaticamente os tipos de colunas, codifica categorias, gera features de interação e trata valores ausentes.
Seleção de modelo — avalia múltiplos algoritmos (gradient boosting, random forest, logistic regression, etc.) e seleciona o de melhor performance.
Treinamento — treina o modelo selecionado com hiperparâmetros otimizados.
Salva no bucket — grava artefatos em bucket/ml/models/<model>/.

Artefatos de saída

Após o treinamento, três arquivos são salvos no bucket:

Arquivo	Descrição
`model.pkl`	O modelo treinado serializado
`features.json`	Definições de features, transformações e mapeamentos de colunas
`metrics.json`	Métricas de avaliação (accuracy, precision, recall, AUC, RMSE, etc.)

Esses arquivos ficam em:

bucket/
  ml/
    models/
      <model>/
        model.pkl
        features.json
        metrics.json

Exemplo: treinando um modelo de churn

Suponha que você tem uma tabela curated/customers/activity com uma coluna churned (1 = churned, 0 = ativo):

dataspoc-lens ml train --target churned --from curated/customers/activity

Saída:

[ML] Loading table curated/customers/activity...
[ML] 45,231 rows, 18 columns
[ML] Feature engineering: 42 features generated
[ML] Evaluating models...
[ML] Best model: GradientBoosting (AUC=0.91)
[ML] Training final model...
[ML] Saved to ml/models/churned_activity/
[ML] Done.

Você pode então inspecionar o modelo com dataspoc-lens ml explain --model churned_activity ou gerar predições com dataspoc-lens ml predict.