Plataforma DataSpoc

DataSpoc é uma plataforma de dados feita para humanos e agentes de IA. Ela transforma qualquer fonte de dados em um data lake consultável usando três ferramentas CLI conectadas por arquivos Parquet no seu bucket na nuvem.

Três Produtos, Uma Plataforma

Pipe --- Ingestão (Open-Source)

Pipe conecta a mais de 400 fontes de dados e grava arquivos Parquet no seu bucket. Ele cuida de extração incremental, detecção de schema e particionamento de forma automática.

Licença Apache 2.0
github.com/dataspoclab/dataspoc-pipe

Lens --- Consulta (Open-Source)

Lens monta seu bucket como um banco de dados SQL. Consulte com SQL, explore em notebooks Jupyter ou Marimo, ou faça perguntas em linguagem natural com IA.

Licença Apache 2.0
github.com/dataspoclab/dataspoc-lens

ML --- AutoML (Comercial)

ML lê Parquet do bucket, faz feature engineering automatizada, treina modelos e grava as predições de volta como Parquet para o Lens consultar.

Como Eles se Conectam

Source ──► [Pipe] ──► Parquet in Bucket ──► [Lens] ──► SQL / Jupyter / AI
                                              │
                                           [ML] ──► train / predict
                                              │
                                           [MCP] ──► Claude / Cursor / Windsurf

Toda a comunicação entre os produtos acontece por meio de arquivos Parquet em um bucket compartilhado. Pipe escreve, Lens lê, ML lê e escreve. Nenhum produto importa código de outro.

Métricas Principais

Métrica	Valor
Fontes de dados suportadas	400+
Tempo até a primeira consulta	15 minutos
Custo para começar	$0

Três Formas de Usar

Terminal --- dataspoc-pipe run e dataspoc-lens shell em qualquer shell
Python --- Importe LensClient ou PipeClient nos seus scripts e agentes
MCP para agentes de IA --- Conecte Claude Desktop, Claude Code, Cursor ou Windsurf diretamente ao seu data lake

GitHub

dataspoc-pipe --- CLI de ingestão
dataspoc-lens --- CLI de consulta