Ir al contenido

Referencia de Comandos

Referencia completa de todos los comandos CLI de dataspoc-pipe.

Inicializa la estructura del directorio de configuracion.

Ventana de terminal
dataspoc-pipe init

Crea lo siguiente en ~/.dataspoc-pipe/:

RutaProposito
config.yamlValores por defecto globales (compresion, particion)
sources/Archivos JSON de configuracion de taps
pipelines/Definiciones YAML de pipelines
transforms/Scripts opcionales de transformacion Python

Si la estructura ya existe, el comando no hace nada.


Crea un nuevo pipeline a traves del asistente interactivo.

Ventana de terminal
dataspoc-pipe add <name>
ArgumentoDescripcion
nameNombre del pipeline (usado como nombre de archivo e identificador)

El asistente solicita:

  1. Singer tap — el comando tap a usar (ej., tap-csv, tap-postgres)
  2. Bucket de destino — URI como s3://my-bucket, gs://my-bucket o file:///tmp/lake
  3. Ruta base — subdirectorio en el bucket (por defecto: raw)
  4. Compresionzstd (por defecto), snappy, gzip o none
  5. Extraccion incremental — habilitar incremental basado en bookmarks de Singer
  6. Expresion cron — programacion para ejecuciones automatizadas (opcional)

Salidas:

  • ~/.dataspoc-pipe/sources/<name>.json — configuracion del tap (desde template o auto-discovery)
  • ~/.dataspoc-pipe/pipelines/<name>.yaml — definicion del pipeline

Ejemplo:

Ventana de terminal
dataspoc-pipe add orders

Ejecuta un pipeline de extraccion.

Ventana de terminal
dataspoc-pipe run <name> [--full] [--all]
Argumento/OpcionDescripcion
nameNombre del pipeline
--fullForzar extraccion completa, ignorando el estado incremental
--allEjecutar todos los pipelines configurados secuencialmente

Cuando se usa --all, el argumento name se ignora y todos los pipelines en ~/.dataspoc-pipe/pipelines/ se ejecutan. Se muestra un resumen al final.

Ejemplos:

Ventana de terminal
# Run a single pipeline
dataspoc-pipe run orders
# Force full re-extraction
dataspoc-pipe run orders --full
# Run all pipelines
dataspoc-pipe run _ --all

Muestra el estado de todos los pipelines configurados.

Ventana de terminal
dataspoc-pipe status [--output table|json]
OpcionDescripcion
--outputFormato de salida: table (por defecto) o json

Muestra una tabla con columnas: Pipeline, Last Run, Status, Duration, Records. El estado se lee del log de ejecucion mas reciente en el bucket de cada pipeline.

Ejemplos:

Ventana de terminal
# Table output (default)
dataspoc-pipe status
# Machine-readable JSON
dataspoc-pipe status --output json

Muestra los logs de la ultima ejecucion del pipeline.

Ventana de terminal
dataspoc-pipe logs <name> [--output table|json]
Argumento/OpcionDescripcion
nameNombre del pipeline
--outputFormato de salida: table (por defecto) o json

Lee el archivo de log mas reciente de <bucket>/.dataspoc/logs/<name>/.

Ejemplo:

Ventana de terminal
dataspoc-pipe logs orders
dataspoc-pipe logs orders --output json

Prueba las conexiones a fuentes y buckets.

Ventana de terminal
dataspoc-pipe validate [<name>] [--output table|json]
Argumento/OpcionDescripcion
nameNombre del pipeline (omitir para validar todos)
--outputFormato de salida: table (por defecto) o json

Verificaciones:

  1. Bucket — escribe un archivo de prueba, verifica que existe, lo elimina
  2. Tap — verifica si el comando tap esta disponible en el PATH

Ejemplos:

Ventana de terminal
# Validate one pipeline
dataspoc-pipe validate orders
# Validate all pipelines
dataspoc-pipe validate
# JSON output for scripting
dataspoc-pipe validate --output json

Muestra el manifiesto (catalogo) de un bucket.

Ventana de terminal
dataspoc-pipe manifest <bucket> [--output table|json]
Argumento/OpcionDescripcion
bucketURI del bucket (ej., s3://my-bucket, file:///tmp/lake)
--outputFormato de salida: table (por defecto) o json

El manifiesto es el catalogo JSON en <bucket>/.dataspoc/manifest.json que registra todas las tablas, esquemas, marcas de tiempo y conteos de filas.

Ejemplo:

Ventana de terminal
dataspoc-pipe manifest s3://my-datalake
dataspoc-pipe manifest file:///tmp/lake --output json

Instala los schedules cron para todos los pipelines que tienen schedule.cron configurado.

Ventana de terminal
dataspoc-pipe schedule install

Para cada pipeline con una expresion cron, crea una entrada en crontab usando flock para prevenir ejecuciones simultaneas. Las entradas anteriores para el mismo pipeline se reemplazan.

Ejemplo de entrada crontab creada:

# dataspoc-pipe:orders
0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run orders

Elimina todos los schedules de dataspoc-pipe del crontab del usuario.

Ventana de terminal
dataspoc-pipe schedule remove

Elimina cualquier entrada de crontab cuyo comentario comience con dataspoc-pipe:.


Inicia el MCP (Model Context Protocol) server para integracion con agentes de IA.

Ventana de terminal
dataspoc-pipe mcp

Requiere el extra mcp: pip install dataspoc-pipe[mcp]. Ve la pagina del MCP Server para detalles de configuracion.


Muestra la version instalada.

Ventana de terminal
dataspoc-pipe --version
dataspoc-pipe 0.2.0

Tambien disponible como -v:

Ventana de terminal
dataspoc-pipe -v