DataSpoc ML
O DataSpoc ML permite treinar, prever e explicar modelos de machine learning diretamente sobre dados Parquet armazenados em buckets na nuvem. Sem movimentação de dados, sem infraestrutura de ML separada — seus modelos rodam onde seus dados já estão.
O que ele faz
Seção intitulada “O que ele faz”- Feature engineering automatizado — detecta tipos de colunas, gera features relevantes, trata valores ausentes.
- Seleção de modelo — avalia múltiplos algoritmos e escolhe o melhor para seus dados.
- Tuning de hiperparâmetros — otimiza parâmetros do modelo automaticamente.
- Monitoramento de drift — acompanha a performance do modelo ao longo do tempo e alerta quando as predições se degradam.
Produto comercial
Seção intitulada “Produto comercial”O DataSpoc ML é um produto comercial integrado ao Lens. Ele é acessado inteiramente pelos comandos dataspoc-lens ml — não há uma CLI separada para instalar.
Para começar, entre em contato com ml@dataspoc.com.
Como se conecta
Seção intitulada “Como se conecta”O ML lê do mesmo bucket que o Pipe escreve e o Lens consulta. O fluxo de dados é:
Pipe (ingest) → bucket/raw/ and bucket/curated/ ↓ ML (train) → bucket/ml/models/<model>/ ML (predict) → bucket/ml/predictions/<model>/ ↓ Lens (query) → predictions appear as SQL tablesArtefatos no bucket
Seção intitulada “Artefatos no bucket”O ML escreve em dois diretórios no bucket:
| Caminho | Conteúdo |
|---|---|
ml/models/<model>/model.pkl | Modelo treinado serializado |
ml/models/<model>/features.json | Definições de features e transformações |
ml/models/<model>/metrics.json | Métricas de treino (accuracy, AUC, RMSE, etc.) |
ml/predictions/<model>/*.parquet | Saída de predições como arquivos Parquet |
Predições salvas como Parquet são automaticamente descobertas pelo Lens e aparecem como tabelas SQL consultáveis.