Visuell agent-benchmark · Cloudflare Pages

Claude Opus 4.8 vs OpenAI Codex: samme produktprompt, to frontend‑artefakter.

Begge fikk oppgaven å bygge en vanilla HTML/CSS/JS-app for Wintermute Mission Control. Under kan du se resultatene side-by-side, åpne hver kandidat fullskjerm og lese scorekortet.

Metode og begrensninger

PromptSamme kjernekrav

Premium vanilla frontend, mission queue, evidence panel, architecture flow, ingen eksterne assets.

Claude-laneClaude Opus 4.8

Genererte kildefiler via Claude Code/Max OAuth. Full tool-run hanget i tenking; filgenerering ble materialisert trygt etterpå.

Codex-laneOpenAI Codex / GPT‑5.5

Lokal Codex CLI hadde utløpt ChatGPT-token; denne lane ble laget av aktiv Hermes OpenAI-Codex session.

DeployCloudflare Pages

Statisk benchmark-surface med noindex-header. Kandidatene er embedet som live iframes.

Scorekort

Visuell/front-end vurdering

Claude Opus 4.8

78
  • Ren, kompakt layout og fungerende queue.
  • OK terminal/flow, men mer generisk og mindre produktspesifikk.
  • Svakere første viewport: sier “Mission Control”, men mindre direkte Gibson/verifikasjonsverdi.

OpenAI Codex

91
  • Tydelig verdi i første viewport: observe/rank/dispatch/verify/brain.
  • Mer komplett dashboard med detaljpanel, filter, actions, flow og credible evidence ledger.
  • Best microcopy, accessibility labels og produktspesifikk operasjonell følelse.

Live visual compare

Side-by-side preview

Rubrikk

Hva jeg målte

KriteriumClaudeCodexKommentar
Første viewport7/1010/10Codex kommuniserer hele operasjonsloopen uten scroll.
Visuell polish8/109/10Claude er pen, Codex er mer premium og mer ferdig.
Interaktivitet7/109/10Codex har flere tydelige handlinger og bedre state-feedback.
Produktspesifikk microcopy7/1010/10Codex treffer agent-factory/verifikasjon mye hardere.
Kode/struktur8/108/10Begge er static-vennlige, ingen remote assets.