Claude Code vs Codex vs Gemini — testul meu pe 5 task-uri reale

Trei agenți, cinci task-uri reale (de la formular Next.js la debugging Postgres). Cifre concrete: timp, calitate output, costuri. Verdict cinstit.

de echipa aihost.md·11 mai 2026·10 min citire

Toți cei 3 agenți sunt buni. Întrebarea reală e: care e cel mai bun pe ce task. Am pus toate trei să facă aceleași 5 task-uri într-un mediu identic (aihost.md, container Next.js + Supabase). Am cronometrat și am notat output-ul.

Setup pentru replicare: Codex setup, Gemini setup, Claude setup.

Methodology

Fiecare task am rulat o singură dată cu fiecare agent. Prompt identic. Am notat:

Timp — de la prompt până la „gata"
Calitate — funcționează la prima rulare?
Cod liniat — modificări la fișiere relevante?
Cost estimat — token usage × prețul per model

Modele folosite: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro. Nu am tunat prompts — primul prompt, primul output.

Task 1: Adaugă pagină /contact cu formular care salvează în Supabase

Prompt: „Adaugă o pagină /contact cu formular (nume, email, mesaj) care salvează în tabel contact_messages din Supabase. Validează emailul. Folosește server actions."

Agent	Timp	Funcționează?	Cost
Claude	2:18	✓ instant	~$0.05
Codex	1:42	✓ instant	~$0.04
Gemini	2:05	✓ instant	$0 (free)

Verdict: egalitate. Toți 3 au făcut treaba bine. Codex a fost ușor mai rapid pentru că a generat mai puțin cod (nu a inclus toast notification pe care Claude l-a adăugat din proprie inițiativă).

Task 2: Debugging — „de ce primesc 500 pe /api/users"

Prompt: „Primesc 500 când dau curl la /api/users. Vezi log-urile, găsește cauza, fixează." (Bug pus dinadins: lipsa unui WHERE clause în query Drizzle).

Agent	Timp	Găsit?	Cost
Claude	3:12	✓ + a explicat de ce	~$0.08
Codex	4:05	✓ dar a încercat 2 fix-uri greșite întâi	~$0.11
Gemini	2:48	✓ + sugestii pentru prevenire	$0

Verdict: Gemini a ieșit primul + a sugerat o regulă de Drizzle care previne bug-ul în viitor. Claude a explicat foarte clar. Codex s-a pierdut puțin pe drum.

Task 3: Refactor — convertește componentele client în server components unde posibil

Prompt: „Citește src/components/, identifică componentele care nu folosesc useState/useEffect/onClick și convertește-le în server components. Nu strica nimic."

Agent	Timp	Calitate	Cost
Claude	5:30	✓ 7/7 corect, plus a propus 1 refactor în plus	~$0.18
Codex	4:18	✓ 7/7 corect, fără propuneri suplimentare	~$0.12
Gemini	6:45	✓ 6/7 (a uitat unul cu prop spreading)	$0

Verdict: Claude a fost cel mai atent + proactiv. Codex eficient. Gemini a ratat ceva.

Task 4: Generează 30 user demo cu date realiste românești

Prompt: „Generează 30 useri demo cu nume realiste românești, emailuri unice, vârste 18-65, telefoane MD valide. Salvează ca array exportabil în src/lib/demo-users.ts."

Agent	Timp	Realiste?	Cost
Claude	1:05	✓ nume reale RO/MD, telefoane corect	~$0.06
Codex	0:48	✓ nume cliché („Ion Popescu"), telefoane fake	~$0.04
Gemini	1:20	✓ nume foarte diverse, telefoane mixte	$0

Verdict: Claude a câștigat aici cu telefoane MD realiste (formate cu prefixele Moldcell/Orange/Unite). Codex a fost mai rapid dar a scos „Ion Popescu" și „Maria Ionescu" — clișee.

Task 5: Citește și sumarizează codebase-ul aihost

Prompt: „Citește toate fișierele .md din /instructions, plus CLAUDE.md, plus README. Fă-mi un sumar pe 1 pagină despre ce e proiectul, ce stack folosește și ce am de făcut." (Total: ~50k tokens de context.)

Agent	Timp	Calitate sumar	Cost
Claude	3:50	✓ structurat, accurate, cu prioritizare	~$0.22
Codex	4:30	✓ accurate, lipsește puțin context business	~$0.18
Gemini	3:20	✓ excelent, plus diagramă text a arhitecturii	$0

Verdict: Gemini a câștigat la long-context (avantajul de 2M tokens vs 200k). A făcut și o diagramă ASCII a arhitecturii pe care nici Claude nici Codex n-au făcut-o.

Total scor

Agent	Wins	Cost total 5 task-uri	Punctul forte
Claude	2 (Task 4 + 3 tied)	~$0.59	Atenție la detalii, calitate consistentă, „gândit cu voce tare"
Codex	1 (Task 3 tied)	~$0.49	Cel mai rapid, cel mai concis. Bun pentru task-uri repetitive.
Gemini	2 (Task 2 + 5)	$0 (free tier)	Long context, multimodal, cel mai bun raport preț/calitate (gratuit)

Recomandări concrete

Începător absolut: Gemini. Free, capabil, fără presiune de cost.

Side project / hobby: Gemini pentru major, Claude pentru când blochezi.

Production / clienți: Claude. Calitatea e cea mai consistentă, e cel pe care contez când nu am voie să greșesc.

Volume mare repetitiv: Codex. Cel mai rapid + cel mai ieftin.

Long context (codebases mari): Gemini. 2M tokens window e categorie aparte.

Concluzia personală

Eu personal folosesc Claude pentru 70% din muncă (calitatea îmi cumpără timp), Gemini pentru 25% (când am task-uri exploratorii sau long-context), Codex pentru 5% (când am batch de modificări simple și vreau viteza).

Pe aihost.md am toți 3 instalați gata — schimbi cu un comand. Asta e marele beneficiu: nu te legi de unul. Vezi setup-guide pentru detaliile fiecăruia, sau începe aici dacă n-ai cont încă.

Articolul ăsta îl voi reactualiza în Q3 2026 când apar Claude Sonnet 5 și GPT-5.5. Bookmark.

tags:#claude-code #codex #gemini #comparativ #test-real #2026

Methodology

Task 1: Adaugă pagină /contact cu formular care salvează în Supabase

Task 2: Debugging — „de ce primesc 500 pe /api/users"

Task 3: Refactor — convertește componentele client în server components unde posibil

Task 4: Generează 30 user demo cu date realiste românești

Task 5: Citește și sumarizează codebase-ul aihost

Total scor

Recomandări concrete

Concluzia personală

Citește mai departe

De ce designerii ar trebui să învețe vibe coding (și de unde să înceapă)

Claude Code vs Cursor vs Copilot — pe ce merită să investești în 2026

5 mituri despre Claude Code care te împiedică să începi

Vrei să construiești ce ai citit?