Pular para o conteúdo

Referência de Comandos

Referência completa de todos os comandos da CLI dataspoc-pipe.

Inicializa a estrutura do diretório de configuração.

Terminal window
dataspoc-pipe init

Cria o seguinte em ~/.dataspoc-pipe/:

CaminhoFinalidade
config.yamlPadrões globais (compressão, partição)
sources/Arquivos JSON de configuração dos taps
pipelines/Definições YAML dos pipelines
transforms/Scripts de transformação Python (opcional)

Se a estrutura já existir, o comando não faz nada.


Cria um novo pipeline via assistente interativo.

Terminal window
dataspoc-pipe add <name>
ArgumentoDescrição
nameNome do pipeline (usado como nome de arquivo e identificador)

O assistente solicita:

  1. Singer tap — o comando do tap a usar (ex.: tap-csv, tap-postgres)
  2. Bucket de destino — URI como s3://my-bucket, gs://my-bucket ou file:///tmp/lake
  3. Caminho base — subdiretório no bucket (padrão: raw)
  4. Compressãozstd (padrão), snappy, gzip ou none
  5. Extração incremental — habilitar incremental baseado em bookmarks Singer
  6. Expressão cron — agendamento para execuções automatizadas (opcional)

Gera:

  • ~/.dataspoc-pipe/sources/<name>.json — configuração do tap (a partir de template ou auto-discovery)
  • ~/.dataspoc-pipe/pipelines/<name>.yaml — definição do pipeline

Exemplo:

Terminal window
dataspoc-pipe add orders

Executa um pipeline de extração.

Terminal window
dataspoc-pipe run <name> [--full] [--all]
Argumento/OpçãoDescrição
nameNome do pipeline
--fullForçar extração completa, ignorando o estado incremental
--allExecutar todos os pipelines configurados sequencialmente

Quando --all é usado, o argumento name é ignorado e todos os pipelines em ~/.dataspoc-pipe/pipelines/ são executados. Um resumo é exibido ao final.

Exemplos:

Terminal window
# Run a single pipeline
dataspoc-pipe run orders
# Force full re-extraction
dataspoc-pipe run orders --full
# Run all pipelines
dataspoc-pipe run _ --all

Mostra o status de todos os pipelines configurados.

Terminal window
dataspoc-pipe status [--output table|json]
OpçãoDescrição
--outputFormato de saída: table (padrão) ou json

Exibe uma tabela com colunas: Pipeline, Last Run, Status, Duration, Records. O status é lido do log de execução mais recente no bucket de cada pipeline.

Exemplos:

Terminal window
# Table output (default)
dataspoc-pipe status
# Machine-readable JSON
dataspoc-pipe status --output json

Mostra os logs da última execução do pipeline.

Terminal window
dataspoc-pipe logs <name> [--output table|json]
Argumento/OpçãoDescrição
nameNome do pipeline
--outputFormato de saída: table (padrão) ou json

Lê o arquivo de log mais recente de <bucket>/.dataspoc/logs/<name>/.

Exemplo:

Terminal window
dataspoc-pipe logs orders
dataspoc-pipe logs orders --output json

Testa as conexões com fontes e buckets.

Terminal window
dataspoc-pipe validate [<name>] [--output table|json]
Argumento/OpçãoDescrição
nameNome do pipeline (omita para validar todos)
--outputFormato de saída: table (padrão) ou json

Verificações:

  1. Bucket — grava um arquivo de teste, verifica se existe e apaga
  2. Tap — verifica se o comando do tap está disponível no PATH

Exemplos:

Terminal window
# Validate one pipeline
dataspoc-pipe validate orders
# Validate all pipelines
dataspoc-pipe validate
# JSON output for scripting
dataspoc-pipe validate --output json

Mostra o manifest (catálogo) de um bucket.

Terminal window
dataspoc-pipe manifest <bucket> [--output table|json]
Argumento/OpçãoDescrição
bucketURI do bucket (ex.: s3://my-bucket, file:///tmp/lake)
--outputFormato de saída: table (padrão) ou json

O manifest é o catálogo JSON em <bucket>/.dataspoc/manifest.json que rastreia todas as tabelas, schemas, timestamps e contagens de linhas.

Exemplo:

Terminal window
dataspoc-pipe manifest s3://my-datalake
dataspoc-pipe manifest file:///tmp/lake --output json

Instala agendamentos cron para todos os pipelines que possuem schedule.cron configurado.

Terminal window
dataspoc-pipe schedule install

Para cada pipeline com uma expressão cron, cria uma entrada no crontab usando flock para evitar execuções simultâneas. Entradas anteriores para o mesmo pipeline são substituídas.

Exemplo de entrada no crontab criada:

# dataspoc-pipe:orders
0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run orders

Remove todos os agendamentos do dataspoc-pipe do crontab do usuário.

Terminal window
dataspoc-pipe schedule remove

Remove qualquer entrada no crontab cujo comentário comece com dataspoc-pipe:.


Inicia o servidor MCP (Model Context Protocol) para integração com agentes de IA.

Terminal window
dataspoc-pipe mcp

Requer o extra mcp: pip install dataspoc-pipe[mcp]. Veja a página MCP Server para detalhes de configuração.


Mostra a versão instalada.

Terminal window
dataspoc-pipe --version
dataspoc-pipe 0.2.0

Também disponível como -v:

Terminal window
dataspoc-pipe -v