DataSpoc Pipe
DataSpoc Pipe es un motor de ingesta de datos que conecta 400+ Singer taps a archivos Parquet en almacenamiento en la nube. Maneja el primer tramo de tu plataforma de datos: llevar los datos desde las fuentes a un data lake organizado y consultable.
Que hace
Sección titulada «Que hace»- Lee desde cualquier tap compatible con Singer (bases de datos, APIs, herramientas SaaS, archivos)
- Convierte registros a Apache Parquet con deteccion automatica de esquema
- Escribe en S3, GCS, Azure Blob o sistema de archivos local
- Mantiene un catalogo automatico (
manifest.json) para que las herramientas posteriores descubran las tablas - Soporta extraccion incremental via bookmarks de Singer
- Transmite datos en lotes para bajo uso de memoria en datasets grandes
Como puedes usarlo
Sección titulada «Como puedes usarlo»| Interfaz | Caso de uso |
|---|---|
| CLI | Uso interactivo, cron jobs, pipelines de CI/CD |
| Python SDK | Integrar en scripts, notebooks o aplicaciones |
| MCP Server | Permitir que agentes de IA (Claude, etc.) gestionen pipelines |
Instalar
Sección titulada «Instalar»pip install dataspoc-pipeEjemplo rapido
Sección titulada «Ejemplo rapido»# Initialize config directorydataspoc-pipe init
# Create a pipeline with interactive wizarddataspoc-pipe add my-pipeline
# Run itdataspoc-pipe run my-pipeline
# Check resultsdataspoc-pipe statusArquitectura
Sección titulada «Arquitectura»[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket] | manifest.json state.json logs/Pipe ejecuta Singer taps como subprocesos, lee su salida JSON via stdout, almacena registros en lotes, opcionalmente aplica una transformacion Python, convierte a tablas PyArrow y escribe archivos Parquet en el bucket de destino.
Open source
Sección titulada «Open source»DataSpoc Pipe esta licenciado bajo Apache 2.0. Libre para usar, modificar y distribuir.