Skip to content

Instantly share code, notes, and snippets.

@vtemian
Created March 24, 2026 16:33
Show Gist options
  • Select an option

  • Save vtemian/dddcc11a3e156dbd2120985133586ec7 to your computer and use it in GitHub Desktop.

Select an option

Save vtemian/dddcc11a3e156dbd2120985133586ec7 to your computer and use it in GitHub Desktop.

All-Stack Hangout — Argument PRO (7 min)

"Will AI fully automate the SDLC by 2030?"

Moderatorul seteaza definitia si cadrul. Tu intri direct in argumente.


Text complet (7 minute)

[Minutul 1 — De ce exponentiala nu se opreste]

Bun. Hai sa incepem cu o intrebare: de ce se imbunatatesc modelele AI atat de repede?

Multi au auzit ca "s-a terminat cu scalarea" — ca s-au epuizat datele de pre-training, ca am atins un plafon. Dario Amodei, CEO-ul Anthropic, a explicat luna trecuta pe podcastul lui Dwarkesh Patel de ce asta e o intelegere gresita. Citez: "We're seeing the same scaling in RL that we saw for pre-training."

Ce inseamna asta? Pre-training-ul — adica faza in care modelul invata din tot internetul — continua sa functioneze. Dar acum avem si o a doua dimensiune de scalare: reinforcement learning. Modelele nu doar ca citesc cod — invata sa foloseasca tool-uri, sa primeasca feedback, sa isi corecteze greselile. Si cele doua dimensiuni se cumuleaza.

Concret: in 2024, cele mai bune modele rezolvau 4% din bugurile reale de pe GitHub. Acum rezolva peste 80%. In doi ani. Si METR, un institut independent de cercetare, masoara ca durata taskurilor pe care agentii AI le pot rezolva autonom se dubleaza la fiecare 4 luni. Acum sunt la taskuri de 5 ore. Daca trend-ul continua, in 2028 vorbim de taskuri de o saptamana.

Nu va zic ca e garantat. Va zic ca datele nu arata niciun semn de incetinire.

[Minutul 2-3 — Tool usage: de ce asta schimba totul]

Dar hai sa va spun ceva ce cred ca multi oameni inca nu au realizat. Cand lumea aude "AI in software development," se gandeste la "AI-ul genereaza cod." Si da, genereaza cod. Dar asta e gandire de 2024.

Ce se intampla acum, datorita reinforcement learning-ului, e mai fundamental: LLM-urile invata sa foloseasca tool-uri. Nu doar sa scrie o functie — ci sa inteleaga CE tool, CE pattern, CE arhitectura se potriveste unei probleme specifice. Invata prin incercare si feedback, exact cum invata un junior developer — doar ca la o viteza de mii de ori mai mare.

Si asta e cheia. Poate ati patit si voi: lucrati cu un model, ii dati un task, si observati ca "simte" ce API e mai potrivit, cum sa structureze functia mai curat, ce baza de date ar merge mai bine pentru cazul vostru. Nu va spune doar o solutie — alege intre optiuni. Asta e tool usage. Si capabilitatea asta se generalizeaza. Aceeasi capabilitate care alege API-ul corect pentru un feature poate alege si strategia de deployment, framework-ul de testare, setup-ul de monitorizare.

Amodei a spus ceva care mi-a ramas: "un milion de tokeni e mult. Poate insemna zile intregi de invatare umana." Ganditi-va ce inseamna asta cand modelul poate procesa un codebase de milioane de linii si sa inteleaga relatiile dintre componente.

Un exemplu concret: inginerii de la Rakuten au dat unui agent AI un task pe un codebase de 12.5 milioane de linii. A terminat autonom in 7 ore, cu 99.9% acuratete. Un task care ar fi luat zile unui inginer. Si nu a generat cod din nimic — a inteles ce tool-uri si ce pattern-uri sa foloseasca in contextul unui proiect existent, masiv.

SDLC-ul nu e o singura problema. Sunt sase probleme: planning, implementare, testare, review, deployment, monitorizare. Si reinforcement learning-ul invata AI-ul sa le abordeze pe fiecare, intelegand cum se compun tool-urile intre ele.

[Minutul 4 — Lovable si Base44: dovada ca functioneaza]

Si ca sa nu credeti ca vorbesc teoretic — avem deja dovezi concrete. Doua exemple:

Lovable ia o propozitie in limbaj natural si livreaza o aplicatie functionala. Cu UI, cu backend, cu baza de date, cu deployment. 8 milioane de utilizatori, peste 100,000 de proiecte noi pe zi.

Base44 — o poveste si mai interesanta. Un singur fondator, din Israel, bootstrapped, fara investitori. In 6 luni: 5 milioane de aplicatii create de catre utilizatori. De ce? Pentru ca a rezolvat exact aceasta mapare: intentie utilizator → module de cod → aplicatie functionala.

Si uitati-va ce au in comun. Lovable e pentru developeri — iti da cod editabil, React, Supabase. Base44 e pentru non-tehnici — nu vezi nicio linie de cod. Doua produse diferite, aceeasi capabilitate de baza: AI-ul mapeaza ce vrea utilizatorul pe tool-urile si pattern-urile potrivite.

Acum, Lovable nu poate inca sa iti faca un sistem de banking cu compliance si audit trail. Dar e versiunea 1.

Cursor, un alt tool de AI coding, are 2 milioane de utilizatori — developeri care il folosesc zilnic sa scrie cod de productie.

[Minutul 5-6 — SDLC-ul e compozabil]

Acum hai sa privim SDLC-ul pe bucati:

Planning — AI-ul deja sparge user stories in taskuri tehnice. Google confirma ca peste 30% din codul lor nou e generat de AI.

Implementare — suntem la peste 80% pe benchmark-uri. Un studiu peer-reviewed a aratat ca developerii cu AI sunt 56% mai rapizi pe taskuri de coding.

Testare — AI-ul deja scrie si ruleaza teste automate. Si nu doar teste simple — genereaza scenarii edge-case pe care un developer le-ar rata. Code Review — AI-ul prinde buguri, probleme de stil, si vulnerabilitati de securitate. Deja exista quality gates complet automatizate in pipeline-uri de productie.

Deployment — CI/CD e automatizat de ani de zile. Diferenta e ca acum AI-ul poate sa iti configureze pipeline-ul de la zero, nu doar sa il ruleze.

Si acum vine piesa de rezistenta: Monitorizare si Bugfix. Ganditi-va la ce se intampla azi cand cade ceva in productie. Un om primeste un alert, deschide logs, incearca sa inteleaga ce s-a intamplat, scrie un fix, il testeaza, il trimite la review, si apoi il deploy-eaza. Ore sau zile.

Acum imaginati-va bucla inchisa: AI-ul detecteaza anomalia, traseaza root cause-ul prin logs si metrici, genereaza fix-ul, ruleaza testele, si daca sunt green — deploy automat. Nu in 2035. Bucati din asta exista deja.

Stiu ca exista o provocare reala: cand inlantuiesti sase faze automatizate, erorile se compun. Dar asta e exact problema pe care CI/CD-ul o rezolva deja — cu feedback loops si quality gates. Aceeasi abordare se aplica. Si cu fiecare ciclu de reinforcement learning, fiecare faza devine mai fiabila.

In momentul in care bucla de bugfix e automatizata, SDLC-ul ruleaza fara interventie umana. Asta e linia de finish.

[Minutul 7 — Inchidere]

Ca sa incheiem. Amodei a zis: "suntem aproape de sfarsitul exponentialei" — nu in sensul ca se opreste, ci in sensul ca ajungem la destinatie. El estimeaza ca pentru coding, suntem la 1-2 ani distanta de performanta umana pe taskuri verificabile.

In 2022, AI-ul nu putea sa scrie o functie corecta. In 2024, putea sa construiasca features. In 2026, livreaza prototipuri complete. Nu sisteme de productie — inca. Dar cu doua dimensiuni de scalare care se cumuleaza — pre-training si reinforcement learning — si cu tool usage care se generalizeaza peste tot SDLC-ul, directia e clara.

84% din developeri folosesc sau planuiesc sa foloseasca tool-uri AI. 51% le folosesc zilnic.

Intrebarea nu e DACA SDLC-ul se automatizeaza. Intrebarea e daca 4 ani sunt suficienti.

La rata la care mergem, eu as paria pe mai putin.

Multumesc.


Referinte verificate

Benchmark-uri (toate confirmate)

Benchmark Scor Model Sursa
SWE-bench Verified 80.9% Claude 4.5 Opus swebench.com
SWE-bench Pro 56.8% GPT-5.3-Codex Scale Labs
LiveCodeBench 91.7% Gemini 3 Pro Artificial Analysis
Aider Polyglot 88.0% GPT-5 aider.chat

Studii de productivitate (toate confirmate)

Studiu Rezultat cheie Sursa
GitHub Copilot RCT (Peng et al., 2023) 55.8% mai rapid (task unic: HTTP server) arxiv.org/abs/2302.06590
Google (Pichai, Apr 2025) 30%+ din codul nou e generat de AI Fortune
METR Time Horizons (Jan 2026) Durata taskurilor autonome: ~5 ore, se dubleaza la fiecare ~4 luni metr.org
Stack Overflow 2025 84% folosesc AI tools, 51% zilnic, doar 29% au incredere stackoverflow.co
GitHub Copilot 4.7M abonati platitori (Jan 2026) TechBullion

RL Scaling (Dario Amodei)

Sursa Citat cheie
Dwarkesh Podcast, Feb 2026 "We're seeing the same scaling in RL that we saw for pre-training"
Dwarkesh Podcast, Feb 2026 "With coding, except for that irreducible uncertainty, I think we'll be there in one or two years"
Dwarkesh Podcast, Feb 2026 "A million tokens is a lot. That can be days of human learning."
Dwarkesh Podcast, Feb 2026 "We are near the end of the exponential" (= endgame, nu epuizare)
Sursa: dwarkesh.com/p/dario-amodei-2

Piata (toate confirmate)

Company Metrica Sursa
Lovable $400M ARR, 8M users, 100K proiecte/zi, +$100M ARR intr-o luna, 146 angajati TechCrunch
Base44 Solo founder, 5M+ apps in 6 luni, achizitionat de Wix pt $80M cash TechCrunch
Cursor $2B+ ARR, ~360K abonati platitori Bloomberg

Contraargumente pregatite

Contraargument Raspuns
"Exponentiala se plafoneaza" Amodei: RL deschide a doua dimensiune de scalare. Nu extrapolez la infinit — extrapolez 4 ani, si datele METR arata accelerare.
METR 2025: devs experimentati 19% mai lenti Studiu pe devs cu modele din early 2025 pe propriile lor repo-uri. Modelele actuale sunt semnificativ mai bune, si RL accelereaza progresul.
"Lovable/Base44 fac doar prototipuri" Corect. Dar e versiunea 1, la 1 an de existenta. Viteza de la zero la aici e fara precedent.
"Dar fiecare faza inlantuita scade reliability" 95%^6 = 73%. Dar CI/CD rezolva deja asta cu feedback loops si quality gates. Plus, RL imbunatateste fiecare faza in fiecare ciclu.
Stack Overflow: increderea in AI scade (29%) Adoptia creste (84%), increderea scade = maturizare. Oamenii devin mai critici, nu mai putin productivi.
"Tool usage nu se generalizeaza" Rakuten: 12.5M linii, task autonom in 7h. Lovable + Base44: mapare generalizata de la intent la cod. Dovezile exista deja.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment