Pular para o conteúdo

DataSpoc ML

O DataSpoc ML permite treinar, prever e explicar modelos de machine learning diretamente sobre dados Parquet armazenados em buckets na nuvem. Sem movimentação de dados, sem infraestrutura de ML separada — seus modelos rodam onde seus dados já estão.

  • Feature engineering automatizado — detecta tipos de colunas, gera features relevantes, trata valores ausentes.
  • Seleção de modelo — avalia múltiplos algoritmos e escolhe o melhor para seus dados.
  • Tuning de hiperparâmetros — otimiza parâmetros do modelo automaticamente.
  • Monitoramento de drift — acompanha a performance do modelo ao longo do tempo e alerta quando as predições se degradam.

O DataSpoc ML é um produto comercial integrado ao Lens. Ele é acessado inteiramente pelos comandos dataspoc-lens ml — não há uma CLI separada para instalar.

Para começar, entre em contato com ml@dataspoc.com.

O ML lê do mesmo bucket que o Pipe escreve e o Lens consulta. O fluxo de dados é:

Pipe (ingest) → bucket/raw/ and bucket/curated/
ML (train) → bucket/ml/models/<model>/
ML (predict) → bucket/ml/predictions/<model>/
Lens (query) → predictions appear as SQL tables

O ML escreve em dois diretórios no bucket:

CaminhoConteúdo
ml/models/<model>/model.pklModelo treinado serializado
ml/models/<model>/features.jsonDefinições de features e transformações
ml/models/<model>/metrics.jsonMétricas de treino (accuracy, AUC, RMSE, etc.)
ml/predictions/<model>/*.parquetSaída de predições como arquivos Parquet

Predições salvas como Parquet são automaticamente descobertas pelo Lens e aparecem como tabelas SQL consultáveis.