Edite vídeos com
Claude Code
Sem Premiere. Sem Final Cut. Só o terminal aberto e duas skills open-source. Pipeline completo de edição via conversa: corte automático, motion graphics em HTML e captions palavra por palavra.
01O que muda
Editar vídeo era trabalho braçal. Hoje o agente faz o tedioso, eu fico no estratégico.
Antes
- Premiere/Final Cut aberto por horas
- Cortar "ééé", "hum", retakes manualmente
- Animar cards um por um na timeline
- Sincronizar legendas no editor
- Render lento, exportar, repetir
Agora
- Joga arquivo numa pasta
- Conversa com Claude Code
- Skill transcreve com word-level boundaries
- Skill anima motion graphics em HTML+GSAP
- Devolve
final.mp4pronto
02As 2 skills
Open-source, instalação em 1 comando.
video-use
Browser-UseEdita vídeo via conversa. Transcreve com ElevenLabs Scribe, identifica filler words, retakes e silêncios, e devolve corte limpo com cuts em word-boundary. Color grade por segmento, fades 30ms, legendas burned-in customizáveis.
# instalar como skill no Claude Code git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use brew install ffmpeg # obrigatório echo "ELEVENLABS_API_KEY=sk_..." > ~/Developer/video-use/.env
HyperFrames
HeyGenRenderiza motion graphics em HTML + CSS + GSAP. Sem React, sem build, sem timeline manual. Cards liquid glass, transições WebGL, data viz — tudo determinístico, pixel-perfect, sincronizado palavra por palavra com a fala.
# instalar skills oficiais (Claude Code, Cursor, Codex, Gemini CLI) npx skills add heygen-com/hyperframes -y -g # slash commands disponíveis /hyperframes # compor /hyperframes-cli # init/preview/render /gsap # animações
03Pipeline em 4 passos
Do raw take ao reel publicado, conversando.
Drop do arquivo
Joga teu raw .mp4 numa pasta qualquer. Pode ser screen recording, talking head, montagem — qualquer coisa.
Conversa com o agente
Abre Claude Code na pasta e diz: "edita pra um Reel de 30 segundos com motion graphics liquid glass." O agente inventaria, transcreve, propõe estratégia. Tu aprova.
Cortes + animações em paralelo
video-use corta filler words com word-boundary precision. HyperFrames compõe cards animados em HTML/GSAP sincronizados ao transcript. Sub-agents paralelos renderizam cada beat.
Render + iterar
Recebe edit/final.mp4 com captions burned-in. Não gostou? "deixa o card de pricing 2s mais longo." Re-renderiza só o que mudou.
04Stack que junta tudo
Claude Code é o orquestrador. Skills são as ferramentas. Em conjunto viram um time de edição inteiro dentro do terminal.
Por que HTML em vez de Premiere
LLMs foram treinados em milhões de páginas web. Animar em HTML+GSAP é o formato natural pra eles. Determinístico, versionável, copiável. Mesmo input gera output idêntico.
Por que ElevenLabs Scribe vs Whisper
Scribe entrega word-level timestamps com diarização e audio events (laughter, applause, sigh). Cuts em word-boundary precisam disso. Whisper SRT/phrase-level perde sub-second gaps.
Por que conversacional vs visual editor
Eu fico no estratégico — direção, narrativa, brand voice. A IA executa o tedioso — cortes, color, subtitles, render. Resultado: edição que levava horas sai em minutos.
Repos pra clonar
Open source, gratuitos, ativamente mantidos.