Step 04 · Data layer · Data layer · Ingestão e ETL ENPT
Alembic Complete Visual Course

Ingestão e ETL

Puxe fontes brutas para pacotes wiki e destile-as através de T0–T3.

Read the plain version, or open the technical layer on any section.
1

De fontes para sinais


@alembic/ingestion transforma arquivos, snapshots de browser ou exportações de API em pacotes wiki append-only: uma pasta padrão com source.md, understanding.md, research-index.md, qa.md, metadata.json, chunks.jsonl, media_manifest.json e raw.pointer.json.

@alembic/etl então executa um pipeline tiered sobre esses pacotes: T0 pontua e deduplica deterministicamente; T1–T3 extraem, selecionam e verificam sinais de negócio com modelos cada vez mais poderosos.

Pense assim… uma refinaria de ouro: minério (arquivos brutos) é triturado, avaliado e fundido em barras (sinais verificados).

Under the hood

O contrato de collector tem oito fases: preflight → read cursor → select work → capture → materialize → reindex → validate → audit. Cursors garantem reexecuções idempotentes. ETL usa dedupe SHA-256, pontuação de pacote em seis eixos (completude, precisão, clareza, acionabilidade, novidade, proveniência), budget guard fail-closed e redação de PII antes de emitir sinais de canais privados.

2

In one picture


T0 ETLscore / dedupe T1 Extractlocal model T2 Shortlistfrontier model T3 Verifycouncil + verifier GO
Pacotes wiki brutos movem-se por pontuação T0, extração T1, seleção T2 e verificação T3.
3

In the code


# ingira uma pasta de notas
alembic ingest ./notes

# execute o funil de destilação completo
alembic distill ./corpus --from discover --to review

Implementation notes

runT0Pipeline é o substrato determinístico. Ele emite pacotes pontuados e um _alembic-residue.jsonl para itens que precisam de tiers mais altos. O funil em @alembic/harness orquestra T1–T3, usando gates de council e verifier antes de anexar sinais verified-GO ao grafo de oportunidades.

4

Try it


Crie um arquivo Markdown com uma ideia de negócio e execute alembic ingest. Inspecione a estrutura do pacote wiki gerado.

Observe: O que acontece na saída quando você ingere o mesmo arquivo duas vezes?
5

Quick check


O que o T0 no pipeline ETL faz?