Referencia de Comandos
Referencia completa de todos los comandos CLI de dataspoc-pipe.
dataspoc-pipe init
Sección titulada «dataspoc-pipe init»Inicializa la estructura del directorio de configuracion.
dataspoc-pipe initCrea lo siguiente en ~/.dataspoc-pipe/:
| Ruta | Proposito |
|---|---|
config.yaml | Valores por defecto globales (compresion, particion) |
sources/ | Archivos JSON de configuracion de taps |
pipelines/ | Definiciones YAML de pipelines |
transforms/ | Scripts opcionales de transformacion Python |
Si la estructura ya existe, el comando no hace nada.
dataspoc-pipe add
Sección titulada «dataspoc-pipe add»Crea un nuevo pipeline a traves del asistente interactivo.
dataspoc-pipe add <name>| Argumento | Descripcion |
|---|---|
name | Nombre del pipeline (usado como nombre de archivo e identificador) |
El asistente solicita:
- Singer tap — el comando tap a usar (ej.,
tap-csv,tap-postgres) - Bucket de destino — URI como
s3://my-bucket,gs://my-bucketofile:///tmp/lake - Ruta base — subdirectorio en el bucket (por defecto:
raw) - Compresion —
zstd(por defecto),snappy,gziponone - Extraccion incremental — habilitar incremental basado en bookmarks de Singer
- Expresion cron — programacion para ejecuciones automatizadas (opcional)
Salidas:
~/.dataspoc-pipe/sources/<name>.json— configuracion del tap (desde template o auto-discovery)~/.dataspoc-pipe/pipelines/<name>.yaml— definicion del pipeline
Ejemplo:
dataspoc-pipe add ordersdataspoc-pipe run
Sección titulada «dataspoc-pipe run»Ejecuta un pipeline de extraccion.
dataspoc-pipe run <name> [--full] [--all]| Argumento/Opcion | Descripcion |
|---|---|
name | Nombre del pipeline |
--full | Forzar extraccion completa, ignorando el estado incremental |
--all | Ejecutar todos los pipelines configurados secuencialmente |
Cuando se usa --all, el argumento name se ignora y todos los pipelines en ~/.dataspoc-pipe/pipelines/ se ejecutan. Se muestra un resumen al final.
Ejemplos:
# Run a single pipelinedataspoc-pipe run orders
# Force full re-extractiondataspoc-pipe run orders --full
# Run all pipelinesdataspoc-pipe run _ --alldataspoc-pipe status
Sección titulada «dataspoc-pipe status»Muestra el estado de todos los pipelines configurados.
dataspoc-pipe status [--output table|json]| Opcion | Descripcion |
|---|---|
--output | Formato de salida: table (por defecto) o json |
Muestra una tabla con columnas: Pipeline, Last Run, Status, Duration, Records. El estado se lee del log de ejecucion mas reciente en el bucket de cada pipeline.
Ejemplos:
# Table output (default)dataspoc-pipe status
# Machine-readable JSONdataspoc-pipe status --output jsondataspoc-pipe logs
Sección titulada «dataspoc-pipe logs»Muestra los logs de la ultima ejecucion del pipeline.
dataspoc-pipe logs <name> [--output table|json]| Argumento/Opcion | Descripcion |
|---|---|
name | Nombre del pipeline |
--output | Formato de salida: table (por defecto) o json |
Lee el archivo de log mas reciente de <bucket>/.dataspoc/logs/<name>/.
Ejemplo:
dataspoc-pipe logs ordersdataspoc-pipe logs orders --output jsondataspoc-pipe validate
Sección titulada «dataspoc-pipe validate»Prueba las conexiones a fuentes y buckets.
dataspoc-pipe validate [<name>] [--output table|json]| Argumento/Opcion | Descripcion |
|---|---|
name | Nombre del pipeline (omitir para validar todos) |
--output | Formato de salida: table (por defecto) o json |
Verificaciones:
- Bucket — escribe un archivo de prueba, verifica que existe, lo elimina
- Tap — verifica si el comando tap esta disponible en el
PATH
Ejemplos:
# Validate one pipelinedataspoc-pipe validate orders
# Validate all pipelinesdataspoc-pipe validate
# JSON output for scriptingdataspoc-pipe validate --output jsondataspoc-pipe manifest
Sección titulada «dataspoc-pipe manifest»Muestra el manifiesto (catalogo) de un bucket.
dataspoc-pipe manifest <bucket> [--output table|json]| Argumento/Opcion | Descripcion |
|---|---|
bucket | URI del bucket (ej., s3://my-bucket, file:///tmp/lake) |
--output | Formato de salida: table (por defecto) o json |
El manifiesto es el catalogo JSON en <bucket>/.dataspoc/manifest.json que registra todas las tablas, esquemas, marcas de tiempo y conteos de filas.
Ejemplo:
dataspoc-pipe manifest s3://my-datalakedataspoc-pipe manifest file:///tmp/lake --output jsondataspoc-pipe schedule install
Sección titulada «dataspoc-pipe schedule install»Instala los schedules cron para todos los pipelines que tienen schedule.cron configurado.
dataspoc-pipe schedule installPara cada pipeline con una expresion cron, crea una entrada en crontab usando flock para prevenir ejecuciones simultaneas. Las entradas anteriores para el mismo pipeline se reemplazan.
Ejemplo de entrada crontab creada:
# dataspoc-pipe:orders0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run ordersdataspoc-pipe schedule remove
Sección titulada «dataspoc-pipe schedule remove»Elimina todos los schedules de dataspoc-pipe del crontab del usuario.
dataspoc-pipe schedule removeElimina cualquier entrada de crontab cuyo comentario comience con dataspoc-pipe:.
dataspoc-pipe mcp
Sección titulada «dataspoc-pipe mcp»Inicia el MCP (Model Context Protocol) server para integracion con agentes de IA.
dataspoc-pipe mcpRequiere el extra mcp: pip install dataspoc-pipe[mcp]. Ve la pagina del MCP Server para detalles de configuracion.
dataspoc-pipe --version
Sección titulada «dataspoc-pipe --version»Muestra la version instalada.
dataspoc-pipe --versiondataspoc-pipe 0.2.0Tambien disponible como -v:
dataspoc-pipe -v