A plataforma de dados para humanos e agentes de IA.
Todo time de dados começa da mesma forma: 3 meses configurando Airflow, dbt e um warehouse antes de alguém rodar uma query. DataSpoc é o atalho. Três ferramentas CLI. Um pip install. Seus dados ficam no seu bucket. Seu agente de IA consulta via MCP.
pip install dataspoc-pipe dataspoc-lens
Um agente de IA para cada função.
DataSpoc vem com AGENT.md — um arquivo de habilidades que ensina agentes de IA a usar sua plataforma de dados. Coloque-o no Claude, Cursor ou qualquer cliente MCP e veja seu time acelerar.
Agente DE
Agente de Engenharia de Dados
Ingere dados de qualquer fonte. Monitora pipelines. Detecta falhas e faz retentativas. Adiciona novas fontes quando você pede. Seu engenheiro de dados sempre disponível que nunca tira férias.
# Agent lê AGENT.md, conecta via MCP "Adicione nossa API do Stripe como fonte e agende a cada 6 horas" → dataspoc-pipe add stripe → dataspoc-pipe run stripe → dataspoc-pipe schedule install
Agente DA
Agente de Análise de Dados
Explora seu data lake. Responde perguntas de negócio em linguagem natural. Cria relatórios. Atualiza o cache antes de consultar. Seu analista que trabalha às 3 da manhã sem reclamar.
# Agent lê AGENT.md, conecta via MCP "Quais clientes estão em risco de churn? Exporte a lista como CSV" → cache_refresh_stale() → ask("clientes com risco de churn") → query("SELECT ...") → export
Agente ML
Agente de Machine Learning
Treina modelos nos dados do seu lake. Gera previsões. Explica resultados. Monitora drift. Seu engenheiro de ML que transforma "dá pra prever X?" em um modelo em minutos.
# Agent lê AGENT.md, conecta via MCP "Treine um modelo de churn nos dados de clientes e explique" → ml train --target churn --from customers → ml explain --model churn → ml predict --model churn --from new
Todo repositório DataSpoc vem com um AGENT.md — um arquivo de habilidades que documenta cada função, padrão e restrição. Agentes de IA leem o arquivo e sabem exatamente o que fazer. Sem código de integração customizado. Sem engenharia de prompt. Só coloque o arquivo e pronto.
Parece familiar?
Essas são as histórias que ouvimos toda semana de times de dados.
"2 meses só pra mover CSVs"
Você gastou 2 meses configurando Airflow, debugando containers Docker e escrevendo DAGs — só pra mover arquivos CSV pro S3. O negócio ainda não tem nenhum dashboard.
"O warehouse custa mais que os insights"
A conta do seu data warehouse bateu R$20k/mês. O CFO pergunta o que ele produz. Você olha os dashboards. Três pessoas usam.
"Toda ferramenta de IA precisa de um wrapper customizado"
Você quer que o Claude consulte seus dados. Então você constrói uma API customizada, um vector store, um pipeline de retrieval... só pra responder "quais foram as vendas do mês passado?"
"Analistas esperam dias por uma query"
Seu analista tem uma pergunta. Ele abre um ticket. O engenheiro de dados escreve uma query. Três dias depois, a resposta é "42." O momento já passou.
E se sua plataforma de dados fosse só um pip install?
O jeito antigo é caro, lento e frágil. Existe um caminho mais simples.
Airflow
+ dbt
+ Snowflake
+ Looker
+ API customizada para agentes de IA
6 meses + $50k/ano
pip install dataspoc-pipe
pip install dataspoc-lens
Ingestão, consulta, IA — pronto.
15 minutos + $0
Como funciona
Três passos. Sem infraestrutura para provisionar, sem contas para criar, sem YAML para debugar.
Pipe ingere
Conecte qualquer fonte. Os dados chegam como Parquet no seu bucket.
$ dataspoc-pipe add my-postgres $ dataspoc-pipe run my-postgres # → Arquivos Parquet em s3://bucket/raw/
Lens consulta
Faça perguntas em SQL ou linguagem natural. Resultados instantâneos.
$ dataspoc-lens ask "top 10 clientes por receita" # → SQL gerado, resultados exibidos
Agentes conectam
Um comando transforma seu data lake em um servidor MCP para IA.
$ dataspoc-lens mcp # → Claude, Cursor, qualquer agente consulta seus dados
Três ferramentas. Um bucket.
Cada ferramenta faz um trabalho bem feito. Elas se conectam através de arquivos Parquet no seu armazenamento na nuvem.
Pipe
Ingestão de Dados
"Quando preciso de dados de uma fonte, quero que eles estejam no meu bucket como Parquet — sem gerenciar infraestrutura."
400+ fontes Singer. Streaming e incremental. Auto-catálogo. S3, GCS, Azure.
$ pip install dataspoc-pipe Lens
Motor de Consulta
"Quando tenho uma pergunta sobre meus dados, quero fazer em SQL ou linguagem natural — sem subir um warehouse."
Powered by DuckDB. Shell interativo, Jupyter, Marimo. Consultas com IA via linguagem natural. Servidor MCP.
$ pip install dataspoc-lens ML
AutoML
"Quando preciso de previsões, quero treinar um modelo nos dados do meu lake — sem ser um cientista de dados."
Feature engineering automatizado, seleção de modelo, treinamento e previsão em dados Parquet.
$ dataspoc-lens ml train Feito para seu time
Do engenheiro de dados que constrói pipelines ao CTO que aprova o orçamento.
Engenheiro de Dados
Pare de escrever DAGs do Airflow
Um comando para ingerir de qualquer fonte. Sem containers, sem schedulers, sem YAML. Só pipe run.
Analista de Dados
Faça perguntas em português
Digite sua pergunta. Receba SQL + resultados. Sem ticket, sem espera, sem troca de contexto. Só lens ask.
Time de Plataforma
Uma ferramenta para humanos e IA
Mesmo CLI, mesmos dados, para analistas e agentes de IA. Nativo MCP. Sem infraestrutura para gerenciar, sem camada de API para construir.
Founder / CTO
Plataforma de dados em 15 minutos
$0 para começar. Open source. Sem lock-in de fornecedor. Seus dados ficam no seu bucket. Escale quando estiver pronto.
400+
Fontes de dados Singer
Apache 2.0
Licença open source
MCP
Nativo para agentes de IA
PyPI
pip install e pronto
Comece em 5 minutos.
Não em 5 meses.
Quatro comandos. Só isso. Seus dados vão da fonte para um lake consultável — para humanos e agentes de IA — no tempo de fazer um café.
$ pip install dataspoc-pipe dataspoc-lens
$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres
$ dataspoc-lens ask "top clientes por receita"