O lectie de psihologie a pokerului de la un robot AI: "Counterfactual Regret Minimization"

Counterfactual Regret Minimization poker
DISTRIBUIE SUMARUL ARTICOLULUI
  • O lectie de psihologie a pokerului de la un robot AI: "Counterfactual Regret Minimization"

  • La baza algoritmilor de invatare a pokerului de catre computere sta un... sentiment

Formularea Counterfactual Regret Minimization (CRM) suna foarte stiintific (pentru ca si este), insa ar putea fi explicata mai simplu si e posibil sa fie utila celor care tocmai invata jocul de poker - si nu numai.

CRM este un algoritm de joc pe baza caruia functioneaza retelele neurale care sunt antrenate sa joace poker, iar modul de functionare a acestui algoritm are asemanari izbitoare cu strategiile umane de invatare euristică (pe baza de experienta) a jocului.

Profesionistii din poker sunt de regula adeptii a doua sisteme de invatare: euristic si analitic. Simplu spus, unii invata jucand si tragand invataturi din pataniile si situatiile concrete de joc, altii prefera sa analizeze jocul, sa-i invete principiile matematice si sa le aplice indiferent ce le spune "intuitia". Evident, un jucator complet va apela la ambele metode de invatare. Insa cei mai multi dintre profesionisti - mai ales cei de scoala veche sau cei din pokerul live - prefera sa invete euristic, adica sa "faca volum" si sa-si defineasca o strategie de joc intuitiva corecta, insa pe care adesea nu o pot explica in cuvinte.

Ei bine, sistemele IT au un avantaj urias fata de om: pot capata in cateva secunde sau minute (cand vorbim de super-computere) experienta pe care un jucator uman nu va reusi sa o acumuleze nici intr-o viata de om. Acest tip de forta bruta a fost folosit prima data in 2007 de cercetatorii de la Universitatea Alberta din Canada cand au dorit sa dezvolte o masina AI capabila sa castige la poker.

Acest robot a avut o sarcina foarte simpla teoretic, dar extrem de dificila practic: sa joace poker cu el insusi pana invata jocul perfect.

De ce simpla teoretic? Pentru ca tot ce avea de facut computerul intr-o situatie data era sa incerce pe rand toate optiunile de actiune posibile. De pilda, sa incerce fold, call, sau diverse marimi de bet sau raise in aceeasi situatie si apoi sa decida care din aceste actiuni i-a adus mai mult profit pe termen lung. Dupa fiecare situatie finalizata, computerul evalua rezultatul, il compara cu rezultatele din trecut si isi imbunatatea astfel strategia. Adica, pe undeva, exact asa cum procedam si noi cand ne asezam la masa de joc fara sa stim nicio boaba de teorie.

De ce dificila practic? Pentru ca, evident, unui om i-ar fi practic imposibil sa invete jocul in acest mod, din lipsa de timp, caci ar fi nevoie de un numar urias de situatii si o memorie de elefant pentru a putea factoriza tot ce se poate intampla intr-o mana de poker. Insa altfel sta treaba cu un super-computer. Cercetatorii au lasat masina sa joace multe zeci si sute de miliarde de maini, mai multe maini de poker decat s-au jucat vreodata in realitate, pana cand, la un joc fara rake, cele doua entitati pe care le simula computerul au ajuns sa fie "break even", adica sa se apere perfect. In teoria jocului, aceasta situatie de numeste "Nash equilibrium", dupa numele matematicianului John Nash care a pus bazele Teoriei Jocurilor. Iar strategia care ne permite sa jucam astfel ("inexploatabil" sau "perfect") se numeste... ati ghicit, GTO, exact termenul care sta pe buzele tutoror jucatorilor de poker care vor sa faca impresie la o bere.

Ei bine, fara sa intram in mai multe detalii, revenim la conceptul de "Counterfactual Regret Minimization", algoritm folosit la programarea retelei neurale pentru a invata poker. "Contrafactual" inseamna aici, in cuvintele noastre, un fel de "Ehei, daca nu abandonam eu Informatica, acum puteam fi programator si castigam 10.000 de euro pe luna". In cazul pokerului, ar insemna: "Daca nu foldam asii preflop, as fi castigat mai mult decat zero", sau "Daca nu dadeam call cu top doua perechi la raise-ul pe river al doamnei din stanga mea, acum as mai fi fost inca in turneu".

"Regret Minimization" ("Minimizarea regretului", doh) este strategia folosita de computer care urmeaza instructiunea elementara: "Sa iau in considerare doar deciziile care in trecut mi-au produs cea mai mica doza de regret" sau "Sa iau in considerare doar deciziile care mi-au adus in trecut cel mai mare profit". Aceasta a doua formulare este chiar denumita in termeni stiintifici "regret pozitiv".

Ca paranteza, este de observat ca o decizie gresita poate avea in poker rezultat pozitiv iar o decizie corecta poate avea rezultat negativ. Stiti cum e. Insa nu pe termen lung. Dupa miliarde de simulari, decizia gresita va pierde bani si cea corecta va face bani (sau cel putin va fi pe zero in fata unui oponent care joaca la fel de corect).

De ce-am citit toate astea?

Probabil ca regretul este unul din cele mai frecvente sentimente ale unui jucator de poker. Cand sunt pedepsite corect, erorile din propriul joc produc prejudicii imediate: poturi mari pierdute si/sau eliminari din turnee. "N-am dormit trei zile dupa mana aceea", auzim adesea.

Fie ca se datoreaza unor erori de rationament (cel mai des ignorarea unei portiuni din rangeul oponentului sau adaugarea unor combinatii nerealiste in acest range) sau unei disfunctii psihologice (tilt) sau chiar pur si simplu crizei de timp (mai ales dupa introducerea shot clockului), greselile taxate produc regrete. Am vrea sa dam timpul inapoi si sa procedam corect, insa nimic nu se mai poate face, regretele sunt, cum se spune, zadarnice.

Insa in cazul invatarii jocului de catre AI, regretele nu numai ca nu sunt zadarnice, ci sunt chiar baza procesului de invatare. Iar aceasta poate fi o lectie pentru noi, jucatorii umani. Dupa o decizie proasta soldata cu o eliminare sau cu un pot pierdut inutil, e bine sa nu lasam regretul sa treaca fara folos, ci sa ne asiguram ca pe viitor nu vom mai lua aceeasi decizie intr-o situatie similara.

Probabil ca exemplul cel mai frecvent este tiltul stackului mic in turnee. Cand pierdem un pot urias si ramanem in 20 de blinduri la inceputul unui turneu ni se pare ca jocul s-a incheiat pentru noi. Ne amintim ce bine stateam cu cele 133 de blinduri cu o mana in urma, cat de greu ne-a fost sa construim acest stack si ce prosteste l-am pierdut, si urmatorul pas este sa jucam hazardat, dorindu-ne din suflet un flip, chiar plecand din spate, doar-doar vom reusi sa ne luam fisele inapoi. Evident, ca acest tip de atitudine este profund gresit si de cele mai multe ori se soldeaza cu o eliminare frustranta. Ne ridicam de la masa - deja regretand. Ei bine, acesta este momentul in care putem sa tragem invataturi si sa decidem ca intr-o situatie similara viitoare sa ne tinem furia in frau si sa ne jucam cu grija cele "doar" 20 de blinduri.

In concluzie, din acest algoritm, CRM, putem sa deprindem si noi un tip de atitudine atunci cand avem o decizie importanta de luat si simtim ca suntem pe cale sa facem o prostie: "Fold, call sau raise? Care varianta este cel mai probabil sa-mi produca regrete ulterior?" - ar trebui sa ne intrebam, si sa eliminam imediat din calcul varianta care simtim intuitiv ca ne va produce regrete. Sau, mai simplu spus, ascultati-va intuitia mai ales cand aceasta va face semne disperate ca sunteti pe cale sa faceti o prostie.


Ramaneti alaturi de noi pentru a afla primii cele mai bune informatii, strategii si promotii din poker facandu-va cont pe Pokernews Romania sau direct de pe Facebook! Urmariti-ne pe iOS, Android sau iPad.


Ce părere ai?

MAI POTI CITI:

Alte articole