Referência de Comandos

Referência completa de todos os comandos da CLI dataspoc-pipe.

`dataspoc-pipe init`

Inicializa a estrutura do diretório de configuração.

dataspoc-pipe init

Cria o seguinte em ~/.dataspoc-pipe/:

Caminho	Finalidade
`config.yaml`	Padrões globais (compressão, partição)
`sources/`	Arquivos JSON de configuração dos taps
`pipelines/`	Definições YAML dos pipelines
`transforms/`	Scripts de transformação Python (opcional)

Se a estrutura já existir, o comando não faz nada.

`dataspoc-pipe add`

Cria um novo pipeline via assistente interativo.

dataspoc-pipe add <name>

Argumento	Descrição
`name`	Nome do pipeline (usado como nome de arquivo e identificador)

O assistente solicita:

Singer tap — o comando do tap a usar (ex.: tap-csv, tap-postgres)
Bucket de destino — URI como s3://my-bucket, gs://my-bucket ou file:///tmp/lake
Caminho base — subdiretório no bucket (padrão: raw)
Compressão — zstd (padrão), snappy, gzip ou none
Extração incremental — habilitar incremental baseado em bookmarks Singer
Expressão cron — agendamento para execuções automatizadas (opcional)

Gera:

~/.dataspoc-pipe/sources/<name>.json — configuração do tap (a partir de template ou auto-discovery)
~/.dataspoc-pipe/pipelines/<name>.yaml — definição do pipeline

Exemplo:

dataspoc-pipe add orders

`dataspoc-pipe run`

Executa um pipeline de extração.

dataspoc-pipe run <name> [--full] [--all]

Argumento/Opção	Descrição
`name`	Nome do pipeline
`--full`	Forçar extração completa, ignorando o estado incremental
`--all`	Executar todos os pipelines configurados sequencialmente

Quando --all é usado, o argumento name é ignorado e todos os pipelines em ~/.dataspoc-pipe/pipelines/ são executados. Um resumo é exibido ao final.

Exemplos:

# Run a single pipeline
dataspoc-pipe run orders

# Force full re-extraction
dataspoc-pipe run orders --full

# Run all pipelines
dataspoc-pipe run _ --all

`dataspoc-pipe status`

Mostra o status de todos os pipelines configurados.

dataspoc-pipe status [--output table|json]

Opção	Descrição
`--output`	Formato de saída: `table` (padrão) ou `json`

Exibe uma tabela com colunas: Pipeline, Last Run, Status, Duration, Records. O status é lido do log de execução mais recente no bucket de cada pipeline.

Exemplos:

# Table output (default)
dataspoc-pipe status

# Machine-readable JSON
dataspoc-pipe status --output json

`dataspoc-pipe logs`

Mostra os logs da última execução do pipeline.

dataspoc-pipe logs <name> [--output table|json]

Argumento/Opção	Descrição
`name`	Nome do pipeline
`--output`	Formato de saída: `table` (padrão) ou `json`

Lê o arquivo de log mais recente de <bucket>/.dataspoc/logs/<name>/.

Exemplo:

dataspoc-pipe logs orders
dataspoc-pipe logs orders --output json

`dataspoc-pipe validate`

Testa as conexões com fontes e buckets.

dataspoc-pipe validate [<name>] [--output table|json]

Argumento/Opção	Descrição
`name`	Nome do pipeline (omita para validar todos)
`--output`	Formato de saída: `table` (padrão) ou `json`

Verificações:

Bucket — grava um arquivo de teste, verifica se existe e apaga
Tap — verifica se o comando do tap está disponível no PATH

Exemplos:

# Validate one pipeline
dataspoc-pipe validate orders

# Validate all pipelines
dataspoc-pipe validate

# JSON output for scripting
dataspoc-pipe validate --output json

`dataspoc-pipe manifest`

Mostra o manifest (catálogo) de um bucket.

dataspoc-pipe manifest <bucket> [--output table|json]

Argumento/Opção	Descrição
`bucket`	URI do bucket (ex.: `s3://my-bucket`, `file:///tmp/lake`)
`--output`	Formato de saída: `table` (padrão) ou `json`

O manifest é o catálogo JSON em <bucket>/.dataspoc/manifest.json que rastreia todas as tabelas, schemas, timestamps e contagens de linhas.

Exemplo:

dataspoc-pipe manifest s3://my-datalake
dataspoc-pipe manifest file:///tmp/lake --output json

`dataspoc-pipe schedule install`

Instala agendamentos cron para todos os pipelines que possuem schedule.cron configurado.

dataspoc-pipe schedule install

Para cada pipeline com uma expressão cron, cria uma entrada no crontab usando flock para evitar execuções simultâneas. Entradas anteriores para o mesmo pipeline são substituídas.

Exemplo de entrada no crontab criada:

# dataspoc-pipe:orders
0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run orders

`dataspoc-pipe schedule remove`

Remove todos os agendamentos do dataspoc-pipe do crontab do usuário.

dataspoc-pipe schedule remove

Remove qualquer entrada no crontab cujo comentário comece com dataspoc-pipe:.

`dataspoc-pipe mcp`

Inicia o servidor MCP (Model Context Protocol) para integração com agentes de IA.

dataspoc-pipe mcp

Requer o extra mcp: pip install dataspoc-pipe[mcp]. Veja a página MCP Server para detalhes de configuração.

`dataspoc-pipe --version`

Mostra a versão instalada.

dataspoc-pipe --version

dataspoc-pipe 0.2.0

Também disponível como -v:

dataspoc-pipe -v