Se lansează primul model dedicat limbii române pentru inteligenţa artificială de tip ChatGPT

O echipă de cercetători români a creat un model de limbaj (LLM - "large language model") dedicat limbii române, ce poate fi folosit pentru dezvoltarea unor unelte şi platforme A.I. Modelul este "open source", deci va putea fi accesat şi folosit de oricine doreşte să construiască instrumente bazate pe inteligenţa artificială. Odată cu publicarea acestui LLM, iniţiatorii proiectului lansează şi comunitatea OpenLLM-Ro, care doreşte să-i aducă împreună pe toţi cei care vor să contribuie în diverse forme la dezvoltarea tehnologiilor A.I. pentru limba română. Ambele proiecte sunt iniţiate şi derulate de către POLITEHNICA Bucureşti, Universitatea din Bucureşti şi Institutul de Logica şi Ştiinţa Datelor, cu sprijinul BRD Groupe Societe Generale, conform unui comunicat de presă remis Redacţiei.

Deşi este o tehnologie la care avem acces la scară largă de doar câţiva ani, mulţi dintre noi am interacţionat deja de foarte multe ori cu roboţi conversaţionali, precum ChatGPT (produs de OpenAI), Copilot (dezvoltat de Microsoft), Gemini (dezvoltat de Google) etc. Însă, pentru limba română rezultatele sunt uneori imprecise, pentru că modelele pe care sunt instruite nu au fost expuse multor surse româneşti de date. Totodată, aceste genuri de unelte nu pot fi folosite în companii, deoarece accesul direct poate fi restricţionat din raţiuni de securitate şi confidenţialitate. O soluţie în aceste situaţii este implementarea unui model local aflat în infrastructura companiei. Aceste modele publice care pot fi folosite local sunt în general, însă, antrenate pe limba engleză sau folosind un număr redus de documente în limbile cu circulaţie mai scăzută.

Modelul românesc lansat astăzi este adaptarea unui LLM public dezvoltat în principal pentru limba engleză. Însă acesta a fost expus la câteva milioane de documente în limba română, pentru a înţelege mai bine semnificaţia cuvintelor. Acest lucru e esenţial pentru perfomanţa unor astfel de modele în situaţii unde exprimarea cerinţei sau a întrebării introduse de utilizator, cât şi a răspunsului trebuie să fie în limba română. Începând din a doua parte a anului 2023, la dezvoltarea şi instruirea acestui LLM a lucrat o echipă de cercetători de la POLITEHNICA Bucureşti, Universitatea din Bucureşti şi Institutul de Logica şi Ştiinţa Datelor. Partenerii academici au contribuit cu cercetători care au lucrat pro-bono şi, în plus, POLITEHNICA Bucureşti a pus la dispoziţie şi puterea de calcul necesară antrenării modelului. Partenerul principal al proiectului este BRD Groupe Societe Generale, care susţine inovaţia şi tehnologiile viitorului în România în toate formele lor.

"Pentru ca mediul economic şi/sau instituţional din România să poată folosi această nouă tehnologie atât de promiţătoare, este nevoie de modele specializate care să fi întâlnit o mulţime de conversaţii şi documente în limba română. Motivul este simplu: pentru a ne putea oferi informaţiile de care avem nevoie. În BRD lucrăm în mod constant la soluţii care să ne îmbunătăţească procesele de lucru, folosind cele mai noi tehnologii care pot aduce valoare adăugată în primul rând clienţilor noştri. Însă înţelegem totodată că nevoile noastre sunt comune cu ale multor altor actori instituţionali şi ne-am asumat misiunea de a sprijini timpuriu inovaţia în domeniul inteligenţei artificiale. Implicându-ne în peisajul extrem de animat al acesteia, putem ajuta ca cele mai noi tehnologii să aibă un impact pozitiv în societatea românească aproape în acelaşi ritm cu evoluţiile din domeniu la nivel internaţional", a declarat Horia Velicu, Head of Innovation Lab în cadrul BRD Groupe Societe Generale.

"Câteva dintre exemplele de utilizare ale modelului românesc sunt: căutarea de informaţii în baza de cunoştinţe a unei organizaţii, cu ghiduri şi proceduri de lucru, sau roboţi conversaţionali pentru clienţii companiilor sau ai instituţiilor care să îi ghideze în parcurgerea paşilor necesari pentru utilizarea unui produs sau serviciu. În ambele cazuri, angajaţii şi/sau clienţii economisesc timp în accesarea informaţiei, beneficiind în multe situaţii şi de îmbunătăţirea calităţii acesteia", a spus Alin Ştefănescu, directorul Departamentului de Informatică din cadrul Universităţii din Bucureşti şi vicepreşedintele Institutului de Logică şi Ştiinţa Datelor.

Efortul de specializare a unui model dedicat unei limbi este frecvent coordonat de către comunitatea academică asociată limbii respective, exemple recente fiind din ţări precum Franţa, Germania, Spania, Finlanda, Bulgaria. Resursele necesare sunt însă considerabile atât din punct de vedere al infrastructurii tehnice necesare (de exemplu, hardware dedicat, precum plăci grafice de mare putere) cât şi în ce priveşte cercetătorii şi programatorii experimentaţi. Este deci nevoie de o susţinere pe scară largă şi pe termen mediu şi lung din partea multor actori-cheie ai societăţii: mediul economic, cel academic şi nu în ultimul rând mediul guvernamental, prin programele dedicate dezvoltării tehnologiilor de Inteligenţă Artificială.

De aceea, dezvoltatorii acestui model lansează în acelaşi timp şi comunitatea OpenLLM.ro. Aceasta îşi propune să încurajeze interacţiunea între diverşi actori sau facilitatori ce doresc să contribuie la dezvoltarea acestei tehnologii pentru limba română şi lansarea unor modele specializate pentru anumite domenii. Iniţierea acestui dialog într-un mediu "open source" va accelera crearea unor modele mai performante, implementate în companiile sau instituţiile româneşti, ceea ce va rezulta într-un plus de productivitate per ansamblu a întregii societăţi.

"Sperăm ca lansarea acestui model să fie doar începutul unui efort de lungă durată din care să rezulte LLM-uri mai bune pentru limba română. Deja am descoperit o metodă pe care vrem să o aplicăm altor modele lansate recent (Llama-3 şi Mistral) şi care au performanţe în general mai bune ca cel de la care am pornit (Llama-2). Totuşi, pentru a avea modele performante pentru limba română avem nevoie de 2 tipuri de resurse: colecţii de date mari şi curatoriate, de calitate bună, precum şi resurse hardware (în special, GPU-uri pentru antrenarea modelelor). Sperăm ca atât entităţile private, cât şi cele publice să înţeleagă importanţa dezvoltării modelelor mari de limbaj şi multimodale (text-imagini) pentru limba română. Pe toţi îi aşteptăm să ni se alăture în cadrul iniţiativei OpenLLM-Ro şi a proiectelor de cercetare care o vor sprijini", a declarat Traian Rebedea, conferenţiar la POLITEHNICA Bucureşti şi cercetător principal la NVIDIA, unul dintre coordonatorii tehnici ai iniţiativei OpenLLM-Ro.