Moderatorul seteaza definitia si cadrul. Tu intri direct in argumente.
[Minutul 1 — De ce exponentiala nu se opreste]
Bun. Hai sa incepem cu o intrebare: de ce se imbunatatesc modelele AI atat de repede?
Multi au auzit ca "s-a terminat cu scalarea" — ca s-au epuizat datele de pre-training, ca am atins un plafon. Dario Amodei, CEO-ul Anthropic, a explicat luna trecuta pe podcastul lui Dwarkesh Patel de ce asta e o intelegere gresita. Citez: "We're seeing the same scaling in RL that we saw for pre-training."
Ce inseamna asta? Pre-training-ul — adica faza in care modelul invata din tot internetul — continua sa functioneze. Dar acum avem si o a doua dimensiune de scalare: reinforcement learning. Modelele nu doar ca citesc cod — invata sa foloseasca tool-uri, sa primeasca feedback, sa isi corecteze greselile. Si cele doua dimensiuni se cumuleaza.
Concret: in 2024, cele mai bune modele rezolvau 4% din bugurile reale de pe GitHub. Acum rezolva peste 80%. In doi ani. Si METR, un institut independent de cercetare, masoara ca durata taskurilor pe care agentii AI le pot rezolva autonom se dubleaza la fiecare 4 luni. Acum sunt la taskuri de 5 ore. Daca trend-ul continua, in 2028 vorbim de taskuri de o saptamana.
Nu va zic ca e garantat. Va zic ca datele nu arata niciun semn de incetinire.
[Minutul 2-3 — Tool usage: de ce asta schimba totul]
Dar hai sa va spun ceva ce cred ca multi oameni inca nu au realizat. Cand lumea aude "AI in software development," se gandeste la "AI-ul genereaza cod." Si da, genereaza cod. Dar asta e gandire de 2024.
Ce se intampla acum, datorita reinforcement learning-ului, e mai fundamental: LLM-urile invata sa foloseasca tool-uri. Nu doar sa scrie o functie — ci sa inteleaga CE tool, CE pattern, CE arhitectura se potriveste unei probleme specifice. Invata prin incercare si feedback, exact cum invata un junior developer — doar ca la o viteza de mii de ori mai mare.
Si asta e cheia. Poate ati patit si voi: lucrati cu un model, ii dati un task, si observati ca "simte" ce API e mai potrivit, cum sa structureze functia mai curat, ce baza de date ar merge mai bine pentru cazul vostru. Nu va spune doar o solutie — alege intre optiuni. Asta e tool usage. Si capabilitatea asta se generalizeaza. Aceeasi capabilitate care alege API-ul corect pentru un feature poate alege si strategia de deployment, framework-ul de testare, setup-ul de monitorizare.
Amodei a spus ceva care mi-a ramas: "un milion de tokeni e mult. Poate insemna zile intregi de invatare umana." Ganditi-va ce inseamna asta cand modelul poate procesa un codebase de milioane de linii si sa inteleaga relatiile dintre componente.
Un exemplu concret: inginerii de la Rakuten au dat unui agent AI un task pe un codebase de 12.5 milioane de linii. A terminat autonom in 7 ore, cu 99.9% acuratete. Un task care ar fi luat zile unui inginer. Si nu a generat cod din nimic — a inteles ce tool-uri si ce pattern-uri sa foloseasca in contextul unui proiect existent, masiv.
SDLC-ul nu e o singura problema. Sunt sase probleme: planning, implementare, testare, review, deployment, monitorizare. Si reinforcement learning-ul invata AI-ul sa le abordeze pe fiecare, intelegand cum se compun tool-urile intre ele.
[Minutul 4 — Lovable si Base44: dovada ca functioneaza]
Si ca sa nu credeti ca vorbesc teoretic — avem deja dovezi concrete. Doua exemple:
Lovable ia o propozitie in limbaj natural si livreaza o aplicatie functionala. Cu UI, cu backend, cu baza de date, cu deployment. 8 milioane de utilizatori, peste 100,000 de proiecte noi pe zi.
Base44 — o poveste si mai interesanta. Un singur fondator, din Israel, bootstrapped, fara investitori. In 6 luni: 5 milioane de aplicatii create de catre utilizatori. De ce? Pentru ca a rezolvat exact aceasta mapare: intentie utilizator → module de cod → aplicatie functionala.
Si uitati-va ce au in comun. Lovable e pentru developeri — iti da cod editabil, React, Supabase. Base44 e pentru non-tehnici — nu vezi nicio linie de cod. Doua produse diferite, aceeasi capabilitate de baza: AI-ul mapeaza ce vrea utilizatorul pe tool-urile si pattern-urile potrivite.
Acum, Lovable nu poate inca sa iti faca un sistem de banking cu compliance si audit trail. Dar e versiunea 1.
Cursor, un alt tool de AI coding, are 2 milioane de utilizatori — developeri care il folosesc zilnic sa scrie cod de productie.
[Minutul 5-6 — SDLC-ul e compozabil]
Acum hai sa privim SDLC-ul pe bucati:
Planning — AI-ul deja sparge user stories in taskuri tehnice. Google confirma ca peste 30% din codul lor nou e generat de AI.
Implementare — suntem la peste 80% pe benchmark-uri. Un studiu peer-reviewed a aratat ca developerii cu AI sunt 56% mai rapizi pe taskuri de coding.
Testare — AI-ul deja scrie si ruleaza teste automate. Si nu doar teste simple — genereaza scenarii edge-case pe care un developer le-ar rata. Code Review — AI-ul prinde buguri, probleme de stil, si vulnerabilitati de securitate. Deja exista quality gates complet automatizate in pipeline-uri de productie.
Deployment — CI/CD e automatizat de ani de zile. Diferenta e ca acum AI-ul poate sa iti configureze pipeline-ul de la zero, nu doar sa il ruleze.
Si acum vine piesa de rezistenta: Monitorizare si Bugfix. Ganditi-va la ce se intampla azi cand cade ceva in productie. Un om primeste un alert, deschide logs, incearca sa inteleaga ce s-a intamplat, scrie un fix, il testeaza, il trimite la review, si apoi il deploy-eaza. Ore sau zile.
Acum imaginati-va bucla inchisa: AI-ul detecteaza anomalia, traseaza root cause-ul prin logs si metrici, genereaza fix-ul, ruleaza testele, si daca sunt green — deploy automat. Nu in 2035. Bucati din asta exista deja.
Stiu ca exista o provocare reala: cand inlantuiesti sase faze automatizate, erorile se compun. Dar asta e exact problema pe care CI/CD-ul o rezolva deja — cu feedback loops si quality gates. Aceeasi abordare se aplica. Si cu fiecare ciclu de reinforcement learning, fiecare faza devine mai fiabila.
In momentul in care bucla de bugfix e automatizata, SDLC-ul ruleaza fara interventie umana. Asta e linia de finish.
[Minutul 7 — Inchidere]
Ca sa incheiem. Amodei a zis: "suntem aproape de sfarsitul exponentialei" — nu in sensul ca se opreste, ci in sensul ca ajungem la destinatie. El estimeaza ca pentru coding, suntem la 1-2 ani distanta de performanta umana pe taskuri verificabile.
In 2022, AI-ul nu putea sa scrie o functie corecta. In 2024, putea sa construiasca features. In 2026, livreaza prototipuri complete. Nu sisteme de productie — inca. Dar cu doua dimensiuni de scalare care se cumuleaza — pre-training si reinforcement learning — si cu tool usage care se generalizeaza peste tot SDLC-ul, directia e clara.
84% din developeri folosesc sau planuiesc sa foloseasca tool-uri AI. 51% le folosesc zilnic.
Intrebarea nu e DACA SDLC-ul se automatizeaza. Intrebarea e daca 4 ani sunt suficienti.
La rata la care mergem, eu as paria pe mai putin.
Multumesc.
| Benchmark | Scor | Model | Sursa |
|---|---|---|---|
| SWE-bench Verified | 80.9% | Claude 4.5 Opus | swebench.com |
| SWE-bench Pro | 56.8% | GPT-5.3-Codex | Scale Labs |
| LiveCodeBench | 91.7% | Gemini 3 Pro | Artificial Analysis |
| Aider Polyglot | 88.0% | GPT-5 | aider.chat |
| Studiu | Rezultat cheie | Sursa |
|---|---|---|
| GitHub Copilot RCT (Peng et al., 2023) | 55.8% mai rapid (task unic: HTTP server) | arxiv.org/abs/2302.06590 |
| Google (Pichai, Apr 2025) | 30%+ din codul nou e generat de AI | Fortune |
| METR Time Horizons (Jan 2026) | Durata taskurilor autonome: ~5 ore, se dubleaza la fiecare ~4 luni | metr.org |
| Stack Overflow 2025 | 84% folosesc AI tools, 51% zilnic, doar 29% au incredere | stackoverflow.co |
| GitHub Copilot | 4.7M abonati platitori (Jan 2026) | TechBullion |
| Sursa | Citat cheie |
|---|---|
| Dwarkesh Podcast, Feb 2026 | "We're seeing the same scaling in RL that we saw for pre-training" |
| Dwarkesh Podcast, Feb 2026 | "With coding, except for that irreducible uncertainty, I think we'll be there in one or two years" |
| Dwarkesh Podcast, Feb 2026 | "A million tokens is a lot. That can be days of human learning." |
| Dwarkesh Podcast, Feb 2026 | "We are near the end of the exponential" (= endgame, nu epuizare) |
| Sursa: dwarkesh.com/p/dario-amodei-2 |
| Company | Metrica | Sursa |
|---|---|---|
| Lovable | $400M ARR, 8M users, 100K proiecte/zi, +$100M ARR intr-o luna, 146 angajati | TechCrunch |
| Base44 | Solo founder, 5M+ apps in 6 luni, achizitionat de Wix pt $80M cash | TechCrunch |
| Cursor | $2B+ ARR, ~360K abonati platitori | Bloomberg |
| Contraargument | Raspuns |
|---|---|
| "Exponentiala se plafoneaza" | Amodei: RL deschide a doua dimensiune de scalare. Nu extrapolez la infinit — extrapolez 4 ani, si datele METR arata accelerare. |
| METR 2025: devs experimentati 19% mai lenti | Studiu pe devs cu modele din early 2025 pe propriile lor repo-uri. Modelele actuale sunt semnificativ mai bune, si RL accelereaza progresul. |
| "Lovable/Base44 fac doar prototipuri" | Corect. Dar e versiunea 1, la 1 an de existenta. Viteza de la zero la aici e fara precedent. |
| "Dar fiecare faza inlantuita scade reliability" | 95%^6 = 73%. Dar CI/CD rezolva deja asta cu feedback loops si quality gates. Plus, RL imbunatateste fiecare faza in fiecare ciclu. |
| Stack Overflow: increderea in AI scade (29%) | Adoptia creste (84%), increderea scade = maturizare. Oamenii devin mai critici, nu mai putin productivi. |
| "Tool usage nu se generalizeaza" | Rakuten: 12.5M linii, task autonom in 7h. Lovable + Base44: mapare generalizata de la intent la cod. Dovezile exista deja. |