Claude Code vs Codex vs Gemini — testul meu pe 5 task-uri reale

Claude Code vs Codex vs Gemini — testul meu pe 5 task-uri reale

Trei agenți, cinci task-uri reale (de la formular Next.js la debugging Postgres). Cifre concrete: timp, calitate output, costuri. Verdict cinstit.

de echipa aihost.md··10 min citire
share:

Toți cei 3 agenți sunt buni. Întrebarea reală e: care e cel mai bun pe ce task. Am pus toate trei să facă aceleași 5 task-uri într-un mediu identic (aihost.md, container Next.js + Supabase). Am cronometrat și am notat output-ul.

Setup pentru replicare: Codex setup, Gemini setup, Claude setup.

Methodology

Fiecare task am rulat o singură dată cu fiecare agent. Prompt identic. Am notat:

  • Timp — de la prompt până la „gata"
  • Calitate — funcționează la prima rulare?
  • Cod liniat — modificări la fișiere relevante?
  • Cost estimat — token usage × prețul per model

Modele folosite: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro. Nu am tunat prompts — primul prompt, primul output.

Task 1: Adaugă pagină /contact cu formular care salvează în Supabase

Prompt: „Adaugă o pagină /contact cu formular (nume, email, mesaj) care salvează în tabel contact_messages din Supabase. Validează emailul. Folosește server actions."

AgentTimpFuncționează?Cost
Claude2:18✓ instant~$0.05
Codex1:42✓ instant~$0.04
Gemini2:05✓ instant$0 (free)

Verdict: egalitate. Toți 3 au făcut treaba bine. Codex a fost ușor mai rapid pentru că a generat mai puțin cod (nu a inclus toast notification pe care Claude l-a adăugat din proprie inițiativă).

Task 2: Debugging — „de ce primesc 500 pe /api/users"

Prompt: „Primesc 500 când dau curl la /api/users. Vezi log-urile, găsește cauza, fixează." (Bug pus dinadins: lipsa unui WHERE clause în query Drizzle).

AgentTimpGăsit?Cost
Claude3:12✓ + a explicat de ce~$0.08
Codex4:05✓ dar a încercat 2 fix-uri greșite întâi~$0.11
Gemini2:48✓ + sugestii pentru prevenire$0

Verdict: Gemini a ieșit primul + a sugerat o regulă de Drizzle care previne bug-ul în viitor. Claude a explicat foarte clar. Codex s-a pierdut puțin pe drum.

Task 3: Refactor — convertește componentele client în server components unde posibil

Prompt: „Citește src/components/, identifică componentele care nu folosesc useState/useEffect/onClick și convertește-le în server components. Nu strica nimic."

AgentTimpCalitateCost
Claude5:30✓ 7/7 corect, plus a propus 1 refactor în plus~$0.18
Codex4:18✓ 7/7 corect, fără propuneri suplimentare~$0.12
Gemini6:45✓ 6/7 (a uitat unul cu prop spreading)$0

Verdict: Claude a fost cel mai atent + proactiv. Codex eficient. Gemini a ratat ceva.

Task 4: Generează 30 user demo cu date realiste românești

Prompt: „Generează 30 useri demo cu nume realiste românești, emailuri unice, vârste 18-65, telefoane MD valide. Salvează ca array exportabil în src/lib/demo-users.ts."

AgentTimpRealiste?Cost
Claude1:05✓ nume reale RO/MD, telefoane corect~$0.06
Codex0:48✓ nume cliché („Ion Popescu"), telefoane fake~$0.04
Gemini1:20✓ nume foarte diverse, telefoane mixte$0

Verdict: Claude a câștigat aici cu telefoane MD realiste (formate cu prefixele Moldcell/Orange/Unite). Codex a fost mai rapid dar a scos „Ion Popescu" și „Maria Ionescu" — clișee.

Task 5: Citește și sumarizează codebase-ul aihost

Prompt: „Citește toate fișierele .md din /instructions, plus CLAUDE.md, plus README. Fă-mi un sumar pe 1 pagină despre ce e proiectul, ce stack folosește și ce am de făcut." (Total: ~50k tokens de context.)

AgentTimpCalitate sumarCost
Claude3:50✓ structurat, accurate, cu prioritizare~$0.22
Codex4:30✓ accurate, lipsește puțin context business~$0.18
Gemini3:20✓ excelent, plus diagramă text a arhitecturii$0

Verdict: Gemini a câștigat la long-context (avantajul de 2M tokens vs 200k). A făcut și o diagramă ASCII a arhitecturii pe care nici Claude nici Codex n-au făcut-o.

Total scor

AgentWinsCost total 5 task-uriPunctul forte
Claude2 (Task 4 + 3 tied)~$0.59Atenție la detalii, calitate consistentă, „gândit cu voce tare"
Codex1 (Task 3 tied)~$0.49Cel mai rapid, cel mai concis. Bun pentru task-uri repetitive.
Gemini2 (Task 2 + 5)$0 (free tier)Long context, multimodal, cel mai bun raport preț/calitate (gratuit)

Recomandări concrete

Începător absolut: Gemini. Free, capabil, fără presiune de cost.

Side project / hobby: Gemini pentru major, Claude pentru când blochezi.

Production / clienți: Claude. Calitatea e cea mai consistentă, e cel pe care contez când nu am voie să greșesc.

Volume mare repetitiv: Codex. Cel mai rapid + cel mai ieftin.

Long context (codebases mari): Gemini. 2M tokens window e categorie aparte.

Concluzia personală

Eu personal folosesc Claude pentru 70% din muncă (calitatea îmi cumpără timp), Gemini pentru 25% (când am task-uri exploratorii sau long-context), Codex pentru 5% (când am batch de modificări simple și vreau viteza).

Pe aihost.md am toți 3 instalați gata — schimbi cu un comand. Asta e marele beneficiu: nu te legi de unul. Vezi setup-guide pentru detaliile fiecăruia, sau începe aici dacă n-ai cont încă.

Articolul ăsta îl voi reactualiza în Q3 2026 când apar Claude Sonnet 5 și GPT-5.5. Bookmark.

Vrei să construiești ce ai citit?

Mediul tău cu Claude Code, Next.js și Supabase e gata în 5 minute.

Începe acum