Claude Code vs Codex vs Gemini — testul meu pe 5 task-uri reale
Trei agenți, cinci task-uri reale (de la formular Next.js la debugging Postgres). Cifre concrete: timp, calitate output, costuri. Verdict cinstit.
Toți cei 3 agenți sunt buni. Întrebarea reală e: care e cel mai bun pe ce task. Am pus toate trei să facă aceleași 5 task-uri într-un mediu identic (aihost.md, container Next.js + Supabase). Am cronometrat și am notat output-ul.
Setup pentru replicare: Codex setup, Gemini setup, Claude setup.
Methodology
Fiecare task am rulat o singură dată cu fiecare agent. Prompt identic. Am notat:
- Timp — de la prompt până la „gata"
- Calitate — funcționează la prima rulare?
- Cod liniat — modificări la fișiere relevante?
- Cost estimat — token usage × prețul per model
Modele folosite: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro. Nu am tunat prompts — primul prompt, primul output.
Task 1: Adaugă pagină /contact cu formular care salvează în Supabase
Prompt: „Adaugă o pagină /contact cu formular (nume, email, mesaj) care salvează în tabel contact_messages din Supabase. Validează emailul. Folosește server actions."
| Agent | Timp | Funcționează? | Cost |
|---|---|---|---|
| Claude | 2:18 | ✓ instant | ~$0.05 |
| Codex | 1:42 | ✓ instant | ~$0.04 |
| Gemini | 2:05 | ✓ instant | $0 (free) |
Verdict: egalitate. Toți 3 au făcut treaba bine. Codex a fost ușor mai rapid pentru că a generat mai puțin cod (nu a inclus toast notification pe care Claude l-a adăugat din proprie inițiativă).
Task 2: Debugging — „de ce primesc 500 pe /api/users"
Prompt: „Primesc 500 când dau curl la /api/users. Vezi log-urile, găsește cauza, fixează." (Bug pus dinadins: lipsa unui WHERE clause în query Drizzle).
| Agent | Timp | Găsit? | Cost |
|---|---|---|---|
| Claude | 3:12 | ✓ + a explicat de ce | ~$0.08 |
| Codex | 4:05 | ✓ dar a încercat 2 fix-uri greșite întâi | ~$0.11 |
| Gemini | 2:48 | ✓ + sugestii pentru prevenire | $0 |
Verdict: Gemini a ieșit primul + a sugerat o regulă de Drizzle care previne bug-ul în viitor. Claude a explicat foarte clar. Codex s-a pierdut puțin pe drum.
Task 3: Refactor — convertește componentele client în server components unde posibil
Prompt: „Citește src/components/, identifică componentele care nu folosesc useState/useEffect/onClick și convertește-le în server components. Nu strica nimic."
| Agent | Timp | Calitate | Cost |
|---|---|---|---|
| Claude | 5:30 | ✓ 7/7 corect, plus a propus 1 refactor în plus | ~$0.18 |
| Codex | 4:18 | ✓ 7/7 corect, fără propuneri suplimentare | ~$0.12 |
| Gemini | 6:45 | ✓ 6/7 (a uitat unul cu prop spreading) | $0 |
Verdict: Claude a fost cel mai atent + proactiv. Codex eficient. Gemini a ratat ceva.
Task 4: Generează 30 user demo cu date realiste românești
Prompt: „Generează 30 useri demo cu nume realiste românești, emailuri unice, vârste 18-65, telefoane MD valide. Salvează ca array exportabil în src/lib/demo-users.ts."
| Agent | Timp | Realiste? | Cost |
|---|---|---|---|
| Claude | 1:05 | ✓ nume reale RO/MD, telefoane corect | ~$0.06 |
| Codex | 0:48 | ✓ nume cliché („Ion Popescu"), telefoane fake | ~$0.04 |
| Gemini | 1:20 | ✓ nume foarte diverse, telefoane mixte | $0 |
Verdict: Claude a câștigat aici cu telefoane MD realiste (formate cu prefixele Moldcell/Orange/Unite). Codex a fost mai rapid dar a scos „Ion Popescu" și „Maria Ionescu" — clișee.
Task 5: Citește și sumarizează codebase-ul aihost
Prompt: „Citește toate fișierele .md din /instructions, plus CLAUDE.md, plus README. Fă-mi un sumar pe 1 pagină despre ce e proiectul, ce stack folosește și ce am de făcut." (Total: ~50k tokens de context.)
| Agent | Timp | Calitate sumar | Cost |
|---|---|---|---|
| Claude | 3:50 | ✓ structurat, accurate, cu prioritizare | ~$0.22 |
| Codex | 4:30 | ✓ accurate, lipsește puțin context business | ~$0.18 |
| Gemini | 3:20 | ✓ excelent, plus diagramă text a arhitecturii | $0 |
Verdict: Gemini a câștigat la long-context (avantajul de 2M tokens vs 200k). A făcut și o diagramă ASCII a arhitecturii pe care nici Claude nici Codex n-au făcut-o.
Total scor
| Agent | Wins | Cost total 5 task-uri | Punctul forte |
|---|---|---|---|
| Claude | 2 (Task 4 + 3 tied) | ~$0.59 | Atenție la detalii, calitate consistentă, „gândit cu voce tare" |
| Codex | 1 (Task 3 tied) | ~$0.49 | Cel mai rapid, cel mai concis. Bun pentru task-uri repetitive. |
| Gemini | 2 (Task 2 + 5) | $0 (free tier) | Long context, multimodal, cel mai bun raport preț/calitate (gratuit) |
Recomandări concrete
Începător absolut: Gemini. Free, capabil, fără presiune de cost.
Side project / hobby: Gemini pentru major, Claude pentru când blochezi.
Production / clienți: Claude. Calitatea e cea mai consistentă, e cel pe care contez când nu am voie să greșesc.
Volume mare repetitiv: Codex. Cel mai rapid + cel mai ieftin.
Long context (codebases mari): Gemini. 2M tokens window e categorie aparte.
Concluzia personală
Eu personal folosesc Claude pentru 70% din muncă (calitatea îmi cumpără timp), Gemini pentru 25% (când am task-uri exploratorii sau long-context), Codex pentru 5% (când am batch de modificări simple și vreau viteza).
Pe aihost.md am toți 3 instalați gata — schimbi cu un comand. Asta e marele beneficiu: nu te legi de unul. Vezi setup-guide pentru detaliile fiecăruia, sau începe aici dacă n-ai cont încă.
Articolul ăsta îl voi reactualiza în Q3 2026 când apar Claude Sonnet 5 și GPT-5.5. Bookmark.
