Referencia de Comandos

Referencia completa de todos los comandos CLI de dataspoc-pipe.

`dataspoc-pipe init`

Inicializa la estructura del directorio de configuracion.

dataspoc-pipe init

Crea lo siguiente en ~/.dataspoc-pipe/:

Ruta	Proposito
`config.yaml`	Valores por defecto globales (compresion, particion)
`sources/`	Archivos JSON de configuracion de taps
`pipelines/`	Definiciones YAML de pipelines
`transforms/`	Scripts opcionales de transformacion Python

Si la estructura ya existe, el comando no hace nada.

`dataspoc-pipe add`

Crea un nuevo pipeline a traves del asistente interactivo.

dataspoc-pipe add <name>

Argumento	Descripcion
`name`	Nombre del pipeline (usado como nombre de archivo e identificador)

El asistente solicita:

Singer tap — el comando tap a usar (ej., tap-csv, tap-postgres)
Bucket de destino — URI como s3://my-bucket, gs://my-bucket o file:///tmp/lake
Ruta base — subdirectorio en el bucket (por defecto: raw)
Compresion — zstd (por defecto), snappy, gzip o none
Extraccion incremental — habilitar incremental basado en bookmarks de Singer
Expresion cron — programacion para ejecuciones automatizadas (opcional)

Salidas:

~/.dataspoc-pipe/sources/<name>.json — configuracion del tap (desde template o auto-discovery)
~/.dataspoc-pipe/pipelines/<name>.yaml — definicion del pipeline

Ejemplo:

dataspoc-pipe add orders

`dataspoc-pipe run`

Ejecuta un pipeline de extraccion.

dataspoc-pipe run <name> [--full] [--all]

Argumento/Opcion	Descripcion
`name`	Nombre del pipeline
`--full`	Forzar extraccion completa, ignorando el estado incremental
`--all`	Ejecutar todos los pipelines configurados secuencialmente

Cuando se usa --all, el argumento name se ignora y todos los pipelines en ~/.dataspoc-pipe/pipelines/ se ejecutan. Se muestra un resumen al final.

Ejemplos:

# Run a single pipeline
dataspoc-pipe run orders

# Force full re-extraction
dataspoc-pipe run orders --full

# Run all pipelines
dataspoc-pipe run _ --all

`dataspoc-pipe status`

Muestra el estado de todos los pipelines configurados.

dataspoc-pipe status [--output table|json]

Opcion	Descripcion
`--output`	Formato de salida: `table` (por defecto) o `json`

Muestra una tabla con columnas: Pipeline, Last Run, Status, Duration, Records. El estado se lee del log de ejecucion mas reciente en el bucket de cada pipeline.

Ejemplos:

# Table output (default)
dataspoc-pipe status

# Machine-readable JSON
dataspoc-pipe status --output json

`dataspoc-pipe logs`

Muestra los logs de la ultima ejecucion del pipeline.

dataspoc-pipe logs <name> [--output table|json]

Argumento/Opcion	Descripcion
`name`	Nombre del pipeline
`--output`	Formato de salida: `table` (por defecto) o `json`

Lee el archivo de log mas reciente de <bucket>/.dataspoc/logs/<name>/.

Ejemplo:

dataspoc-pipe logs orders
dataspoc-pipe logs orders --output json

`dataspoc-pipe validate`

Prueba las conexiones a fuentes y buckets.

dataspoc-pipe validate [<name>] [--output table|json]

Argumento/Opcion	Descripcion
`name`	Nombre del pipeline (omitir para validar todos)
`--output`	Formato de salida: `table` (por defecto) o `json`

Verificaciones:

Bucket — escribe un archivo de prueba, verifica que existe, lo elimina
Tap — verifica si el comando tap esta disponible en el PATH

Ejemplos:

# Validate one pipeline
dataspoc-pipe validate orders

# Validate all pipelines
dataspoc-pipe validate

# JSON output for scripting
dataspoc-pipe validate --output json

`dataspoc-pipe manifest`

Muestra el manifiesto (catalogo) de un bucket.

dataspoc-pipe manifest <bucket> [--output table|json]

Argumento/Opcion	Descripcion
`bucket`	URI del bucket (ej., `s3://my-bucket`, `file:///tmp/lake`)
`--output`	Formato de salida: `table` (por defecto) o `json`

El manifiesto es el catalogo JSON en <bucket>/.dataspoc/manifest.json que registra todas las tablas, esquemas, marcas de tiempo y conteos de filas.

Ejemplo:

dataspoc-pipe manifest s3://my-datalake
dataspoc-pipe manifest file:///tmp/lake --output json

`dataspoc-pipe schedule install`

Instala los schedules cron para todos los pipelines que tienen schedule.cron configurado.

dataspoc-pipe schedule install

Para cada pipeline con una expresion cron, crea una entrada en crontab usando flock para prevenir ejecuciones simultaneas. Las entradas anteriores para el mismo pipeline se reemplazan.

Ejemplo de entrada crontab creada:

# dataspoc-pipe:orders
0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run orders

`dataspoc-pipe schedule remove`

Elimina todos los schedules de dataspoc-pipe del crontab del usuario.

dataspoc-pipe schedule remove

Elimina cualquier entrada de crontab cuyo comentario comience con dataspoc-pipe:.

`dataspoc-pipe mcp`

Inicia el MCP (Model Context Protocol) server para integracion con agentes de IA.

dataspoc-pipe mcp

Requiere el extra mcp: pip install dataspoc-pipe[mcp]. Ve la pagina del MCP Server para detalles de configuracion.

`dataspoc-pipe --version`

Muestra la version instalada.

dataspoc-pipe --version

dataspoc-pipe 0.2.0

Tambien disponible como -v:

dataspoc-pipe -v