Referência de Comandos
Referência completa de todos os comandos da CLI dataspoc-pipe.
dataspoc-pipe init
Seção intitulada “dataspoc-pipe init”Inicializa a estrutura do diretório de configuração.
dataspoc-pipe initCria o seguinte em ~/.dataspoc-pipe/:
| Caminho | Finalidade |
|---|---|
config.yaml | Padrões globais (compressão, partição) |
sources/ | Arquivos JSON de configuração dos taps |
pipelines/ | Definições YAML dos pipelines |
transforms/ | Scripts de transformação Python (opcional) |
Se a estrutura já existir, o comando não faz nada.
dataspoc-pipe add
Seção intitulada “dataspoc-pipe add”Cria um novo pipeline via assistente interativo.
dataspoc-pipe add <name>| Argumento | Descrição |
|---|---|
name | Nome do pipeline (usado como nome de arquivo e identificador) |
O assistente solicita:
- Singer tap — o comando do tap a usar (ex.:
tap-csv,tap-postgres) - Bucket de destino — URI como
s3://my-bucket,gs://my-bucketoufile:///tmp/lake - Caminho base — subdiretório no bucket (padrão:
raw) - Compressão —
zstd(padrão),snappy,gzipounone - Extração incremental — habilitar incremental baseado em bookmarks Singer
- Expressão cron — agendamento para execuções automatizadas (opcional)
Gera:
~/.dataspoc-pipe/sources/<name>.json— configuração do tap (a partir de template ou auto-discovery)~/.dataspoc-pipe/pipelines/<name>.yaml— definição do pipeline
Exemplo:
dataspoc-pipe add ordersdataspoc-pipe run
Seção intitulada “dataspoc-pipe run”Executa um pipeline de extração.
dataspoc-pipe run <name> [--full] [--all]| Argumento/Opção | Descrição |
|---|---|
name | Nome do pipeline |
--full | Forçar extração completa, ignorando o estado incremental |
--all | Executar todos os pipelines configurados sequencialmente |
Quando --all é usado, o argumento name é ignorado e todos os pipelines em ~/.dataspoc-pipe/pipelines/ são executados. Um resumo é exibido ao final.
Exemplos:
# Run a single pipelinedataspoc-pipe run orders
# Force full re-extractiondataspoc-pipe run orders --full
# Run all pipelinesdataspoc-pipe run _ --alldataspoc-pipe status
Seção intitulada “dataspoc-pipe status”Mostra o status de todos os pipelines configurados.
dataspoc-pipe status [--output table|json]| Opção | Descrição |
|---|---|
--output | Formato de saída: table (padrão) ou json |
Exibe uma tabela com colunas: Pipeline, Last Run, Status, Duration, Records. O status é lido do log de execução mais recente no bucket de cada pipeline.
Exemplos:
# Table output (default)dataspoc-pipe status
# Machine-readable JSONdataspoc-pipe status --output jsondataspoc-pipe logs
Seção intitulada “dataspoc-pipe logs”Mostra os logs da última execução do pipeline.
dataspoc-pipe logs <name> [--output table|json]| Argumento/Opção | Descrição |
|---|---|
name | Nome do pipeline |
--output | Formato de saída: table (padrão) ou json |
Lê o arquivo de log mais recente de <bucket>/.dataspoc/logs/<name>/.
Exemplo:
dataspoc-pipe logs ordersdataspoc-pipe logs orders --output jsondataspoc-pipe validate
Seção intitulada “dataspoc-pipe validate”Testa as conexões com fontes e buckets.
dataspoc-pipe validate [<name>] [--output table|json]| Argumento/Opção | Descrição |
|---|---|
name | Nome do pipeline (omita para validar todos) |
--output | Formato de saída: table (padrão) ou json |
Verificações:
- Bucket — grava um arquivo de teste, verifica se existe e apaga
- Tap — verifica se o comando do tap está disponível no
PATH
Exemplos:
# Validate one pipelinedataspoc-pipe validate orders
# Validate all pipelinesdataspoc-pipe validate
# JSON output for scriptingdataspoc-pipe validate --output jsondataspoc-pipe manifest
Seção intitulada “dataspoc-pipe manifest”Mostra o manifest (catálogo) de um bucket.
dataspoc-pipe manifest <bucket> [--output table|json]| Argumento/Opção | Descrição |
|---|---|
bucket | URI do bucket (ex.: s3://my-bucket, file:///tmp/lake) |
--output | Formato de saída: table (padrão) ou json |
O manifest é o catálogo JSON em <bucket>/.dataspoc/manifest.json que rastreia todas as tabelas, schemas, timestamps e contagens de linhas.
Exemplo:
dataspoc-pipe manifest s3://my-datalakedataspoc-pipe manifest file:///tmp/lake --output jsondataspoc-pipe schedule install
Seção intitulada “dataspoc-pipe schedule install”Instala agendamentos cron para todos os pipelines que possuem schedule.cron configurado.
dataspoc-pipe schedule installPara cada pipeline com uma expressão cron, cria uma entrada no crontab usando flock para evitar execuções simultâneas. Entradas anteriores para o mesmo pipeline são substituídas.
Exemplo de entrada no crontab criada:
# dataspoc-pipe:orders0 */2 * * * flock -n /tmp/dataspoc-pipe-orders.lock /usr/local/bin/dataspoc-pipe run ordersdataspoc-pipe schedule remove
Seção intitulada “dataspoc-pipe schedule remove”Remove todos os agendamentos do dataspoc-pipe do crontab do usuário.
dataspoc-pipe schedule removeRemove qualquer entrada no crontab cujo comentário comece com dataspoc-pipe:.
dataspoc-pipe mcp
Seção intitulada “dataspoc-pipe mcp”Inicia o servidor MCP (Model Context Protocol) para integração com agentes de IA.
dataspoc-pipe mcpRequer o extra mcp: pip install dataspoc-pipe[mcp]. Veja a página MCP Server para detalhes de configuração.
dataspoc-pipe --version
Seção intitulada “dataspoc-pipe --version”Mostra a versão instalada.
dataspoc-pipe --versiondataspoc-pipe 0.2.0Também disponível como -v:
dataspoc-pipe -v