Treinando Modelos
Treine um modelo de machine learning a partir de qualquer tabela do seu data lake com um único comando.
dataspoc-lens ml train --target <column> --from <table>| Flag | Descrição |
|---|---|
--target | A coluna que você quer prever |
--from | A tabela de origem (camada raw, curated ou gold) |
O que acontece
Seção intitulada “O que acontece”- Lê Parquet — carrega a tabela de origem do seu bucket.
- Feature engineering — detecta automaticamente os tipos de colunas, codifica categorias, gera features de interação e trata valores ausentes.
- Seleção de modelo — avalia múltiplos algoritmos (gradient boosting, random forest, logistic regression, etc.) e seleciona o de melhor performance.
- Treinamento — treina o modelo selecionado com hiperparâmetros otimizados.
- Salva no bucket — grava artefatos em
bucket/ml/models/<model>/.
Artefatos de saída
Seção intitulada “Artefatos de saída”Após o treinamento, três arquivos são salvos no bucket:
| Arquivo | Descrição |
|---|---|
model.pkl | O modelo treinado serializado |
features.json | Definições de features, transformações e mapeamentos de colunas |
metrics.json | Métricas de avaliação (accuracy, precision, recall, AUC, RMSE, etc.) |
Esses arquivos ficam em:
bucket/ ml/ models/ <model>/ model.pkl features.json metrics.jsonExemplo: treinando um modelo de churn
Seção intitulada “Exemplo: treinando um modelo de churn”Suponha que você tem uma tabela curated/customers/activity com uma coluna churned (1 = churned, 0 = ativo):
dataspoc-lens ml train --target churned --from curated/customers/activitySaída:
[ML] Loading table curated/customers/activity...[ML] 45,231 rows, 18 columns[ML] Feature engineering: 42 features generated[ML] Evaluating models...[ML] Best model: GradientBoosting (AUC=0.91)[ML] Training final model...[ML] Saved to ml/models/churned_activity/[ML] Done.Você pode então inspecionar o modelo com dataspoc-lens ml explain --model churned_activity ou gerar predições com dataspoc-lens ml predict.