DataSpoc Pipe

DataSpoc Pipe é um motor de ingestão de dados que conecta mais de 400 Singer taps a arquivos Parquet em armazenamento na nuvem. Ele cuida da primeira milha da sua plataforma de dados: tirar os dados das fontes e organizá-los em um data lake consultável.

O que ele faz

Lê de qualquer tap compatível com Singer (bancos de dados, APIs, ferramentas SaaS, arquivos)
Converte registros para Apache Parquet com detecção automática de schema
Grava em S3, GCS, Azure Blob ou filesystem local
Mantém um catálogo automático (manifest.json) para que ferramentas downstream descubram as tabelas
Suporta extração incremental via bookmarks Singer
Processa dados em lotes via streaming para baixo uso de memória em datasets grandes

Como você pode usar

Interface	Caso de uso
CLI	Uso interativo, cron jobs, pipelines de CI/CD
Python SDK	Integrar em scripts, notebooks ou aplicações
MCP Server	Permitir que agentes de IA (Claude, etc.) gerenciem pipelines

Instalar

pip install dataspoc-pipe

Exemplo rápido

# Initialize config directory
dataspoc-pipe init

# Create a pipeline with interactive wizard
dataspoc-pipe add my-pipeline

# Run it
dataspoc-pipe run my-pipeline

# Check results
dataspoc-pipe status

Arquitetura

[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket]
                                                  |
                                            manifest.json
                                            state.json
                                            logs/

Pipe executa Singer taps como subprocessos, lê a saída JSON via stdout, acumula registros em lotes, opcionalmente aplica uma transformação Python, converte para tabelas PyArrow e grava arquivos Parquet no bucket de destino.

Open source

DataSpoc Pipe é licenciado sob Apache 2.0. Livre para usar, modificar e distribuir.

GitHub: github.com/dataspoclab/dataspoc-pipe
PyPI: pypi.org/project/dataspoc-pipe