Open Source — Apache 2.0

A plataforma de dados para humanos e agentes de IA.

Todo time de dados começa da mesma forma: 3 meses configurando Airflow, dbt e um warehouse antes de alguém rodar uma query. DataSpoc é o atalho. Três ferramentas CLI. Um pip install. Seus dados ficam no seu bucket. Seu agente de IA consulta via MCP.

pip install dataspoc-pipe dataspoc-lens

Um agente de IA para cada função.

DataSpoc vem com AGENT.md — um arquivo de habilidades que ensina agentes de IA a usar sua plataforma de dados. Coloque-o no Claude, Cursor ou qualquer cliente MCP e veja seu time acelerar.

Agente DE

Agente de Engenharia de Dados

Ingere dados de qualquer fonte. Monitora pipelines. Detecta falhas e faz retentativas. Adiciona novas fontes quando você pede. Seu engenheiro de dados sempre disponível que nunca tira férias.

# Agent lê AGENT.md, conecta via MCP
"Adicione nossa API do Stripe como
 fonte e agende a cada 6 horas"
→ dataspoc-pipe add stripe
→ dataspoc-pipe run stripe
→ dataspoc-pipe schedule install
MCP SDK AGENT.md
📊

Agente DA

Agente de Análise de Dados

Explora seu data lake. Responde perguntas de negócio em linguagem natural. Cria relatórios. Atualiza o cache antes de consultar. Seu analista que trabalha às 3 da manhã sem reclamar.

# Agent lê AGENT.md, conecta via MCP
"Quais clientes estão em risco de
 churn? Exporte a lista como CSV"
→ cache_refresh_stale()
→ ask("clientes com risco de churn")
→ query("SELECT ...") → export
MCP SDK AGENT.md
🧠

Agente ML

Agente de Machine Learning

Treina modelos nos dados do seu lake. Gera previsões. Explica resultados. Monitora drift. Seu engenheiro de ML que transforma "dá pra prever X?" em um modelo em minutos.

# Agent lê AGENT.md, conecta via MCP
"Treine um modelo de churn nos
 dados de clientes e explique"
→ ml train --target churn --from customers
→ ml explain --model churn
→ ml predict --model churn --from new
MCP SDK AGENT.md
AGENT.md + MCP + SDK

Todo repositório DataSpoc vem com um AGENT.md — um arquivo de habilidades que documenta cada função, padrão e restrição. Agentes de IA leem o arquivo e sabem exatamente o que fazer. Sem código de integração customizado. Sem engenharia de prompt. Só coloque o arquivo e pronto.

Parece familiar?

Essas são as histórias que ouvimos toda semana de times de dados.

"2 meses só pra mover CSVs"

Você gastou 2 meses configurando Airflow, debugando containers Docker e escrevendo DAGs — só pra mover arquivos CSV pro S3. O negócio ainda não tem nenhum dashboard.

"O warehouse custa mais que os insights"

A conta do seu data warehouse bateu R$20k/mês. O CFO pergunta o que ele produz. Você olha os dashboards. Três pessoas usam.

"Toda ferramenta de IA precisa de um wrapper customizado"

Você quer que o Claude consulte seus dados. Então você constrói uma API customizada, um vector store, um pipeline de retrieval... só pra responder "quais foram as vendas do mês passado?"

"Analistas esperam dias por uma query"

Seu analista tem uma pergunta. Ele abre um ticket. O engenheiro de dados escreve uma query. Três dias depois, a resposta é "42." O momento já passou.

E se sua plataforma de dados fosse só um pip install?

O jeito antigo é caro, lento e frágil. Existe um caminho mais simples.

ANTES

Airflow

+ dbt

+ Snowflake

+ Looker

+ API customizada para agentes de IA

6 meses + $50k/ano

DEPOIS

pip install dataspoc-pipe

pip install dataspoc-lens

Ingestão, consulta, IA — pronto.

 

 

15 minutos + $0

Como funciona

Três passos. Sem infraestrutura para provisionar, sem contas para criar, sem YAML para debugar.

1

Pipe ingere

Conecte qualquer fonte. Os dados chegam como Parquet no seu bucket.

$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres
# → Arquivos Parquet em s3://bucket/raw/
2

Lens consulta

Faça perguntas em SQL ou linguagem natural. Resultados instantâneos.

$ dataspoc-lens ask "top 10 clientes por receita"
# → SQL gerado, resultados exibidos
3

Agentes conectam

Um comando transforma seu data lake em um servidor MCP para IA.

$ dataspoc-lens mcp
# → Claude, Cursor, qualquer agente consulta seus dados

Três ferramentas. Um bucket.

Cada ferramenta faz um trabalho bem feito. Elas se conectam através de arquivos Parquet no seu armazenamento na nuvem.

P

Pipe

Ingestão de Dados

"Quando preciso de dados de uma fonte, quero que eles estejam no meu bucket como Parquet — sem gerenciar infraestrutura."

400+ fontes Singer. Streaming e incremental. Auto-catálogo. S3, GCS, Azure.

$ pip install dataspoc-pipe
L

Lens

Motor de Consulta

"Quando tenho uma pergunta sobre meus dados, quero fazer em SQL ou linguagem natural — sem subir um warehouse."

Powered by DuckDB. Shell interativo, Jupyter, Marimo. Consultas com IA via linguagem natural. Servidor MCP.

$ pip install dataspoc-lens
M

ML

AutoML

"Quando preciso de previsões, quero treinar um modelo nos dados do meu lake — sem ser um cientista de dados."

Feature engineering automatizado, seleção de modelo, treinamento e previsão em dados Parquet.

$ dataspoc-lens ml train

Feito para seu time

Do engenheiro de dados que constrói pipelines ao CTO que aprova o orçamento.

Engenheiro de Dados

Pare de escrever DAGs do Airflow

Um comando para ingerir de qualquer fonte. Sem containers, sem schedulers, sem YAML. Só pipe run.

Analista de Dados

Faça perguntas em português

Digite sua pergunta. Receba SQL + resultados. Sem ticket, sem espera, sem troca de contexto. Só lens ask.

Time de Plataforma

Uma ferramenta para humanos e IA

Mesmo CLI, mesmos dados, para analistas e agentes de IA. Nativo MCP. Sem infraestrutura para gerenciar, sem camada de API para construir.

Founder / CTO

Plataforma de dados em 15 minutos

$0 para começar. Open source. Sem lock-in de fornecedor. Seus dados ficam no seu bucket. Escale quando estiver pronto.

400+

Fontes de dados Singer

DuckDB

Motor de consulta

Apache 2.0

Licença open source

MCP

Nativo para agentes de IA

PyPI

pip install e pronto

Comece em 5 minutos.
Não em 5 meses.

Quatro comandos. Só isso. Seus dados vão da fonte para um lake consultável — para humanos e agentes de IA — no tempo de fazer um café.

$ pip install dataspoc-pipe dataspoc-lens
$ dataspoc-pipe add my-postgres
$ dataspoc-pipe run my-postgres
$ dataspoc-lens ask "top clientes por receita"