DataSpoc ML

O DataSpoc ML permite treinar, prever e explicar modelos de machine learning diretamente sobre dados Parquet armazenados em buckets na nuvem. Sem movimentação de dados, sem infraestrutura de ML separada — seus modelos rodam onde seus dados já estão.

O que ele faz

Feature engineering automatizado — detecta tipos de colunas, gera features relevantes, trata valores ausentes.
Seleção de modelo — avalia múltiplos algoritmos e escolhe o melhor para seus dados.
Tuning de hiperparâmetros — otimiza parâmetros do modelo automaticamente.
Monitoramento de drift — acompanha a performance do modelo ao longo do tempo e alerta quando as predições se degradam.

Produto comercial

O DataSpoc ML é um produto comercial integrado ao Lens. Ele é acessado inteiramente pelos comandos dataspoc-lens ml — não há uma CLI separada para instalar.

Para começar, entre em contato com ml@dataspoc.com.

Como se conecta

O ML lê do mesmo bucket que o Pipe escreve e o Lens consulta. O fluxo de dados é:

Pipe (ingest) → bucket/raw/ and bucket/curated/
                        ↓
                   ML (train) → bucket/ml/models/<model>/
                   ML (predict) → bucket/ml/predictions/<model>/
                        ↓
                   Lens (query) → predictions appear as SQL tables

Artefatos no bucket

O ML escreve em dois diretórios no bucket:

Caminho	Conteúdo
`ml/models/<model>/model.pkl`	Modelo treinado serializado
`ml/models/<model>/features.json`	Definições de features e transformações
`ml/models/<model>/metrics.json`	Métricas de treino (accuracy, AUC, RMSE, etc.)
`ml/predictions/<model>/*.parquet`	Saída de predições como arquivos Parquet

Predições salvas como Parquet são automaticamente descobertas pelo Lens e aparecem como tabelas SQL consultáveis.