Quickstart
Este guia leva você do zero a consultando seu data lake em cinco minutos.
1. Instalar
Seção intitulada “1. Instalar”pip install dataspoc-pipe dataspoc-lens2. Inicializar um projeto Pipe
Seção intitulada “2. Inicializar um projeto Pipe”dataspoc-pipe initIsso cria um diretório .dataspoc/ no seu bucket com o manifest e o controle de estado.
3. Adicionar uma fonte de dados
Seção intitulada “3. Adicionar uma fonte de dados”dataspoc-pipe add my-sourceO assistente interativo guia você por:
- Tipo da fonte (banco de dados, API, arquivo, etc.)
- Detalhes de conexão (host, credenciais via variáveis de ambiente)
- Tabelas ou endpoints para extrair
- Caminho do bucket de destino
- Modo de sincronização (full ou incremental)
4. Executar o pipeline
Seção intitulada “4. Executar o pipeline”dataspoc-pipe run my-sourcePipe extrai os dados da fonte, converte para Parquet e grava no bucket em raw/my-source/<table>/.
5. Conectar o Lens ao bucket
Seção intitulada “5. Conectar o Lens ao bucket”dataspoc-lens add-bucket s3://my-dataLens lê o manifest e descobre todas as tabelas que o Pipe gravou.
6. Consultar com SQL
Seção intitulada “6. Consultar com SQL”dataspoc-lens shellSELECT customer_name, SUM(revenue) as totalFROM raw.my_source.ordersGROUP BY customer_nameORDER BY total DESCLIMIT 10;7. Perguntar em linguagem natural
Seção intitulada “7. Perguntar em linguagem natural”dataspoc-lens ask "top customers by revenue"Lens traduz sua pergunta para SQL, executa e retorna o resultado.
Teste Local com CSV
Seção intitulada “Teste Local com CSV”Você não precisa de um bucket na nuvem para começar. Use arquivos locais com URIs file://:
# Create a sample CSVmkdir -p /tmp/my-lakecat > /tmp/sales.csv << 'EOF'date,customer,product,revenue2025-01-15,Acme Corp,Widget Pro,150002025-01-15,Globex Inc,Widget Basic,85002025-01-16,Acme Corp,Widget Basic,42002025-01-16,Initech,Widget Pro,120002025-01-17,Globex Inc,Widget Pro,19500EOF
# Initialize and ingestdataspoc-pipe init --bucket file:///tmp/my-lakedataspoc-pipe add local-csv --source-type file --path /tmp/sales.csvdataspoc-pipe run local-csv
# Querydataspoc-lens add-bucket file:///tmp/my-lakedataspoc-lens shellSELECT customer, SUM(revenue) as total_revenueFROM raw.local_csv.salesGROUP BY customerORDER BY total_revenue DESC;Próximos Passos
Seção intitulada “Próximos Passos”- Arquitetura --- Entenda o contrato do bucket
- Integração com Agentes de IA --- Conecte seu agente de IA ao data lake
- Configuração MCP --- Use o DataSpoc com Claude ou Cursor