Pular para o conteúdo

Quickstart

Este guia leva você do zero a consultando seu data lake em cinco minutos.

Terminal window
pip install dataspoc-pipe dataspoc-lens
Terminal window
dataspoc-pipe init

Isso cria um diretório .dataspoc/ no seu bucket com o manifest e o controle de estado.

Terminal window
dataspoc-pipe add my-source

O assistente interativo guia você por:

  • Tipo da fonte (banco de dados, API, arquivo, etc.)
  • Detalhes de conexão (host, credenciais via variáveis de ambiente)
  • Tabelas ou endpoints para extrair
  • Caminho do bucket de destino
  • Modo de sincronização (full ou incremental)
Terminal window
dataspoc-pipe run my-source

Pipe extrai os dados da fonte, converte para Parquet e grava no bucket em raw/my-source/<table>/.

Terminal window
dataspoc-lens add-bucket s3://my-data

Lens lê o manifest e descobre todas as tabelas que o Pipe gravou.

Terminal window
dataspoc-lens shell
SELECT customer_name, SUM(revenue) as total
FROM raw.my_source.orders
GROUP BY customer_name
ORDER BY total DESC
LIMIT 10;
Terminal window
dataspoc-lens ask "top customers by revenue"

Lens traduz sua pergunta para SQL, executa e retorna o resultado.

Você não precisa de um bucket na nuvem para começar. Use arquivos locais com URIs file://:

Terminal window
# Create a sample CSV
mkdir -p /tmp/my-lake
cat > /tmp/sales.csv << 'EOF'
date,customer,product,revenue
2025-01-15,Acme Corp,Widget Pro,15000
2025-01-15,Globex Inc,Widget Basic,8500
2025-01-16,Acme Corp,Widget Basic,4200
2025-01-16,Initech,Widget Pro,12000
2025-01-17,Globex Inc,Widget Pro,19500
EOF
# Initialize and ingest
dataspoc-pipe init --bucket file:///tmp/my-lake
dataspoc-pipe add local-csv --source-type file --path /tmp/sales.csv
dataspoc-pipe run local-csv
# Query
dataspoc-lens add-bucket file:///tmp/my-lake
dataspoc-lens shell
SELECT customer, SUM(revenue) as total_revenue
FROM raw.local_csv.sales
GROUP BY customer
ORDER BY total_revenue DESC;