DataSpoc Pipe
DataSpoc Pipe é um motor de ingestão de dados que conecta mais de 400 Singer taps a arquivos Parquet em armazenamento na nuvem. Ele cuida da primeira milha da sua plataforma de dados: tirar os dados das fontes e organizá-los em um data lake consultável.
O que ele faz
Seção intitulada “O que ele faz”- Lê de qualquer tap compatível com Singer (bancos de dados, APIs, ferramentas SaaS, arquivos)
- Converte registros para Apache Parquet com detecção automática de schema
- Grava em S3, GCS, Azure Blob ou filesystem local
- Mantém um catálogo automático (
manifest.json) para que ferramentas downstream descubram as tabelas - Suporta extração incremental via bookmarks Singer
- Processa dados em lotes via streaming para baixo uso de memória em datasets grandes
Como você pode usar
Seção intitulada “Como você pode usar”| Interface | Caso de uso |
|---|---|
| CLI | Uso interativo, cron jobs, pipelines de CI/CD |
| Python SDK | Integrar em scripts, notebooks ou aplicações |
| MCP Server | Permitir que agentes de IA (Claude, etc.) gerenciem pipelines |
Instalar
Seção intitulada “Instalar”pip install dataspoc-pipeExemplo rápido
Seção intitulada “Exemplo rápido”# Initialize config directorydataspoc-pipe init
# Create a pipeline with interactive wizarddataspoc-pipe add my-pipeline
# Run itdataspoc-pipe run my-pipeline
# Check resultsdataspoc-pipe statusArquitetura
Seção intitulada “Arquitetura”[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket] | manifest.json state.json logs/Pipe executa Singer taps como subprocessos, lê a saída JSON via stdout, acumula registros em lotes, opcionalmente aplica uma transformação Python, converte para tabelas PyArrow e grava arquivos Parquet no bucket de destino.
Open source
Seção intitulada “Open source”DataSpoc Pipe é licenciado sob Apache 2.0. Livre para usar, modificar e distribuir.