DataSpoc Pipe

DataSpoc Pipe es un motor de ingesta de datos que conecta 400+ Singer taps a archivos Parquet en almacenamiento en la nube. Maneja el primer tramo de tu plataforma de datos: llevar los datos desde las fuentes a un data lake organizado y consultable.

Que hace

Lee desde cualquier tap compatible con Singer (bases de datos, APIs, herramientas SaaS, archivos)
Convierte registros a Apache Parquet con deteccion automatica de esquema
Escribe en S3, GCS, Azure Blob o sistema de archivos local
Mantiene un catalogo automatico (manifest.json) para que las herramientas posteriores descubran las tablas
Soporta extraccion incremental via bookmarks de Singer
Transmite datos en lotes para bajo uso de memoria en datasets grandes

Como puedes usarlo

Interfaz	Caso de uso
CLI	Uso interactivo, cron jobs, pipelines de CI/CD
Python SDK	Integrar en scripts, notebooks o aplicaciones
MCP Server	Permitir que agentes de IA (Claude, etc.) gestionen pipelines

Instalar

pip install dataspoc-pipe

Ejemplo rapido

# Initialize config directory
dataspoc-pipe init

# Create a pipeline with interactive wizard
dataspoc-pipe add my-pipeline

# Run it
dataspoc-pipe run my-pipeline

# Check results
dataspoc-pipe status

Arquitectura

[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket]
                                                  |
                                            manifest.json
                                            state.json
                                            logs/

Pipe ejecuta Singer taps como subprocesos, lee su salida JSON via stdout, almacena registros en lotes, opcionalmente aplica una transformacion Python, convierte a tablas PyArrow y escribe archivos Parquet en el bucket de destino.

Open source

DataSpoc Pipe esta licenciado bajo Apache 2.0. Libre para usar, modificar y distribuir.

GitHub: github.com/dataspoclab/dataspoc-pipe
PyPI: pypi.org/project/dataspoc-pipe