Pular para o conteúdo

DataSpoc Pipe

DataSpoc Pipe é um motor de ingestão de dados que conecta mais de 400 Singer taps a arquivos Parquet em armazenamento na nuvem. Ele cuida da primeira milha da sua plataforma de dados: tirar os dados das fontes e organizá-los em um data lake consultável.

  • Lê de qualquer tap compatível com Singer (bancos de dados, APIs, ferramentas SaaS, arquivos)
  • Converte registros para Apache Parquet com detecção automática de schema
  • Grava em S3, GCS, Azure Blob ou filesystem local
  • Mantém um catálogo automático (manifest.json) para que ferramentas downstream descubram as tabelas
  • Suporta extração incremental via bookmarks Singer
  • Processa dados em lotes via streaming para baixo uso de memória em datasets grandes
InterfaceCaso de uso
CLIUso interativo, cron jobs, pipelines de CI/CD
Python SDKIntegrar em scripts, notebooks ou aplicações
MCP ServerPermitir que agentes de IA (Claude, etc.) gerenciem pipelines
Terminal window
pip install dataspoc-pipe
Terminal window
# Initialize config directory
dataspoc-pipe init
# Create a pipeline with interactive wizard
dataspoc-pipe add my-pipeline
# Run it
dataspoc-pipe run my-pipeline
# Check results
dataspoc-pipe status
[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket]
|
manifest.json
state.json
logs/

Pipe executa Singer taps como subprocessos, lê a saída JSON via stdout, acumula registros em lotes, opcionalmente aplica uma transformação Python, converte para tabelas PyArrow e grava arquivos Parquet no bucket de destino.

DataSpoc Pipe é licenciado sob Apache 2.0. Livre para usar, modificar e distribuir.