Quickstart

Este guia leva você do zero a consultando seu data lake em cinco minutos.

1. Instalar

pip install dataspoc-pipe dataspoc-lens

2. Inicializar um projeto Pipe

dataspoc-pipe init

Isso cria um diretório .dataspoc/ no seu bucket com o manifest e o controle de estado.

3. Adicionar uma fonte de dados

dataspoc-pipe add my-source

O assistente interativo guia você por:

Tipo da fonte (banco de dados, API, arquivo, etc.)
Detalhes de conexão (host, credenciais via variáveis de ambiente)
Tabelas ou endpoints para extrair
Caminho do bucket de destino
Modo de sincronização (full ou incremental)

4. Executar o pipeline

dataspoc-pipe run my-source

Pipe extrai os dados da fonte, converte para Parquet e grava no bucket em raw/my-source/<table>/.

5. Conectar o Lens ao bucket

dataspoc-lens add-bucket s3://my-data

Lens lê o manifest e descobre todas as tabelas que o Pipe gravou.

6. Consultar com SQL

dataspoc-lens shell

SELECT customer_name, SUM(revenue) as total
FROM raw.my_source.orders
GROUP BY customer_name
ORDER BY total DESC
LIMIT 10;

7. Perguntar em linguagem natural

dataspoc-lens ask "top customers by revenue"

Lens traduz sua pergunta para SQL, executa e retorna o resultado.

Teste Local com CSV

Você não precisa de um bucket na nuvem para começar. Use arquivos locais com URIs file://:

# Create a sample CSV
mkdir -p /tmp/my-lake
cat > /tmp/sales.csv << 'EOF'
date,customer,product,revenue
2025-01-15,Acme Corp,Widget Pro,15000
2025-01-15,Globex Inc,Widget Basic,8500
2025-01-16,Acme Corp,Widget Basic,4200
2025-01-16,Initech,Widget Pro,12000
2025-01-17,Globex Inc,Widget Pro,19500
EOF

# Initialize and ingest
dataspoc-pipe init --bucket file:///tmp/my-lake
dataspoc-pipe add local-csv --source-type file --path /tmp/sales.csv
dataspoc-pipe run local-csv

# Query
dataspoc-lens add-bucket file:///tmp/my-lake
dataspoc-lens shell

SELECT customer, SUM(revenue) as total_revenue
FROM raw.local_csv.sales
GROUP BY customer
ORDER BY total_revenue DESC;

Próximos Passos

Arquitetura --- Entenda o contrato do bucket
Integração com Agentes de IA --- Conecte seu agente de IA ao data lake
Configuração MCP --- Use o DataSpoc com Claude ou Cursor