Ir al contenido

DataSpoc Pipe

DataSpoc Pipe es un motor de ingesta de datos que conecta 400+ Singer taps a archivos Parquet en almacenamiento en la nube. Maneja el primer tramo de tu plataforma de datos: llevar los datos desde las fuentes a un data lake organizado y consultable.

  • Lee desde cualquier tap compatible con Singer (bases de datos, APIs, herramientas SaaS, archivos)
  • Convierte registros a Apache Parquet con deteccion automatica de esquema
  • Escribe en S3, GCS, Azure Blob o sistema de archivos local
  • Mantiene un catalogo automatico (manifest.json) para que las herramientas posteriores descubran las tablas
  • Soporta extraccion incremental via bookmarks de Singer
  • Transmite datos en lotes para bajo uso de memoria en datasets grandes
InterfazCaso de uso
CLIUso interactivo, cron jobs, pipelines de CI/CD
Python SDKIntegrar en scripts, notebooks o aplicaciones
MCP ServerPermitir que agentes de IA (Claude, etc.) gestionen pipelines
Ventana de terminal
pip install dataspoc-pipe
Ventana de terminal
# Initialize config directory
dataspoc-pipe init
# Create a pipeline with interactive wizard
dataspoc-pipe add my-pipeline
# Run it
dataspoc-pipe run my-pipeline
# Check results
dataspoc-pipe status
[Data Source] --> [Singer Tap] --> stdout --> [Pipe Engine] --> Parquet --> [Cloud Bucket]
|
manifest.json
state.json
logs/

Pipe ejecuta Singer taps como subprocesos, lee su salida JSON via stdout, almacena registros en lotes, opcionalmente aplica una transformacion Python, convierte a tablas PyArrow y escribe archivos Parquet en el bucket de destino.

DataSpoc Pipe esta licenciado bajo Apache 2.0. Libre para usar, modificar y distribuir.