Como evitar que o galego morra na rede: o Chat GPT e o Proxecto Nós

Pablo Gamallo, investigador do CiTIUS e lingüista, asegura que Chat GPT "supuxo un antes e un despois para o desenvolvemente de todos os proxectos vinculados á intelixencia artificial". En cinco días chegou ao millón de usuarios. O Proxecto Nós pretende lograr que o galego non se quede á cola das linguas e non se vexa en risco de desaparecer polo auxe desta intelixencia artificial que só fala en idiomas maioritarios.

Por Ángela Precedo | SANTIAGO | 27/10/2023 | Actualizada ás 14:32

Comparte esta noticia

A intelixencia artificial chegou para quedarse, é unha realidade e xa está entre nós, aínda que nos resistamos a vela. Os algoritmos de contidos recomendados das redes sociais, os asistentes de voz que moitos temos nas casas ou a capacidade automática do noso móbil para mellorar as fotografías que sacamos son só algúns exemplos. Nos últimos anos, dende a irrupción de Chat GPT na contorna social, todos os proxectos derivados da interpretación e xeración de contido de forma automática experimentaron un enorme pulo. Hoxe por hoxe existen unha infinidade de modelos de linguaxe que, a través da nosa propia aprendizaxe, van aprendendo tamén, autocorrexindo erros e perfeccionándose máis e máis.

Intelixencia artificial
Intelixencia artificial | Fonte: Commons

Pablo Gamallo, investigador do CiTIUS e lingüista, explica cales son as súas características no encontro 'Intelixencia Artificial. A electricidade do século XXI?', que se está a celebrar esta semana en Santiago. "O coñecemento destes modelos de tecnoloxía lingüística a nivel do público xeral deuse coa aparición de Chat GPT, que non é máis que o refinamento doutro gran modelo, o GPT", explica Gamallo, que asegura que "no momento en que saltou ao gran público a través dos medios de comunicación de masas e se soubo das súas posibilidades supuxo un antes e un despois para todo o desenvolvemento de proxectos vinculados á intelixencia artificial". O experto fai referencia a un tuit publicado por Sam Altman, CEO da empresa Open AI, creadora de Chat GPT, que aseguraba que "en tan só cinco días conseguiron superar o millón de usuarios".

Para contextualizar este fito é importante comparalo co tempo que lle levou a outro tipo de plataformas chegar a ese millón de usuarios, é dicir, ao público 'mainstream': Chat GPT tardou cinco días, Netflix tardou tres anos (habería que ter en conta neste caso que se trata dunha plataforma de pago), Facebook tardou dez meses e Instagram tardou dous. De aí que, como asegura o lingüista, "o de Chat GPT fose un evento absolutamente espectacular, sobre todo porque se trata dunha ferramenta lingüística", non de vídeo ou de fotografía, como os outros casos de plataformas con contido multimedia ou redes sociais.

Deste xeito, pode afirmarse sen temor a equivocarse que Chat GPT cambiou a área de traballo de todos aqueles investigadores que estaban naquel momento traballando e desenvolvendo modelos de intelixencia artificial. "Creáronse moitísimas expectativas e agora temos que traballar cunha presión moi alta para crear modelos parecidos a Chat GPT, porque se non facemos cousas semellantes non conseguimos convencer á xente e ás administracións e entidades privadas para que nos financie", pois, á fin e ao cabo, é o que máis coñecen, advirte Gamallo.

OS MODELOS MÁIS GRANDES CONTAN CON 500.000 MILLÓNS DE PARÁMETROS

Intelixencia artificial
Intelixencia artificial | Fonte: Commons

Pero o certo é que Chat GPT non é o único, nin moito menos, modelo de linguaxe que existe, senón que é un máis dentro de toda unha rede de modelos lingüísticos. De feito, nin sequera se trata dun modelo xenérico, senón que foi adaptado ao diálogo a partir doutros modelos como Chat-GPT 3.5. É dicir, ese sería o modelo base a partir do cal se creou Chat GPT. Gamallo indica que os modelos máis grandes que existen na actualidade son o PALM e o MT-NLG, que contan con entre 530.000 e 540.000 millóns de parámetros. Ademais, hai que ter en conta que moitos modelos son desenvoltos por unha mesma infraestrutura, é dicir, por unha mesma empresa, que é a que está detrás, xa sexa Microsoft, Google ou Meta.

Tamén hai que ter en conta que non todos estes modelos existentes están abertos ao público, pois algúns son pechados, e aínda os que son abertos, nunca o son ao 100 %, pois sempre hai algún tipo de pago, como adoito dicirse, aínda que sexa a conta da información persoal. Xunto á creación destes novos modelos lingüísticos xurdiu unha guerra xeopolítica por ver que países desenvolvían os máis fortes: hai modelos chineses, rusos, árabes, moitos europeos, israelís e grandes corporacións norteamericanas que queren ter o seu gran modelo. Os países queren poder desenvolver modelos propios para poder controlalos sen necesidade de depender dunha empresa para iso, puidendo usalos no seu beneficio e adaptalos ás súas convencións.

Como recorda Gamallo, "houbo un momento en que se comezaron a facer modelos cada vez máis grandes, fundamentalmente a partir do ano 2018, pero a partir do 2022 parouse de súpeto o crecemento e comezaron a facerse modelos medianos, que tamén está demostrado que se teñen ben equilibrados os seus parámetros de funcionamento e interpretación, dan resultados moi bos". Pero por que sucedeu isto? Gamallo especula que "puido ser probablemente pola famosa carta na que a finais do ano 2022 moitos investigadores e empresarios como Elon Musk dixeron que era momento de parar os motores e non facer modelos tan excesivamente grandes que realmente escapaban ao noso entendemento sobre como funcionan, para pasar a crear modelos que poidamos comprender mellor e que así, cando estes se fagan máis grandes, o fagan con sentidiño". Fose por esa carta ou non, o certo é que en 2023 non se creou ningún modelo maior que no 2022.

O último modelo de Chat GPT existente é o modelo GPT-4, sobre o cal, como indica este investigador do CiTIUS, "aínda non se publicou cal é o seu tamaño, aínda que os rumores din que estaría composto por oito diferentes modelos de 220.000 millóns de parámetros, unidos mediante un sistema de xestión de axentes, e chamaríase a un ou a outro parámetro en función de cal sexa a temática e o dominio". En resumo, "estariamos a falar dun total de 1,7 billóns de parámetros, en termos europeos". Todo isto son rumores, pois non hai documentación oficial da empresa Open AI.

A CLAVE DE TODO: A ARQUITECTURA 'TRANSFORMERS', CREADA NO 2017

E que hai detrás dos modelos de linguaxe da intelixencia artificial? Hai unha arquitectura chamada de 'transformers', que foi creada por Google no ano 2017, usada naquel tempo sobre todo nos sistemas de tradución automática, cunha parte de codificación e outra parte de decodificación. Neles, a parte innovadora son os 'layers' de atención ('attentionlayer'), de maneira que é a atención a que fai que estes modelos sexan algo diferentes aos usados polas anteriores redes neuronais. Detrás deles hai unha subcamada básica dunha rede de prealimentación, pero o fundamental está en que estas redes se centran na atención, que é un elemento que permite ter en conta o contexto, poñer máis atención ás palabras máis relevantes dun texto, coñecidas co nome de 'sublayers' de atención ou, traducido, subcamadas de atención, que fan destes 'transformers' unhas arquitecturas neuronais moi potentes e moi adaptables para motísimas tarefas.

Pero os modelos actuais xerativos, como é o caso de Chat GPT-3 ou Chat GPT-4 son na súa maioría unha simplificación desta arquitectura, que respostaría máis ao tipo de modelo do Chat GPT-2, no que había doce camadas (doce bloques de autoatención estruturalmente idénticos aplicados nunha cadea), mentres que agora dáse unha simplificación desa arquitectura, eliminando a 'cross attention' e quedándose só coa 'masked attention', é dicir, non mira as palabras que veñen despois dunha frase, se non todo o anterior, e por iso tamén recibe o nome de autoregresiva.

"Resulta curioso que os modelos actuais sexan unha simplificación da arquitectura inicial", en lugar do contrario, considera Gamallo, que explica que, de feito, "hai modelos que só teñen un codificador e serven para a análise de sentimentos, por exemplo". Logo "hai uns poucos modelos de tradución automática", e seguidamente "xa temos toda a familia de decodificación, que só contán co decodificador, como son os modelos GPT". Así, os primeiros modelos do ano 2018 eran todos do tipo 'encoder', pero en 2021 acabaron de facerse novas arquitecturas deste tipo, ata que chegou a gran revolución con Chat GPT, que usaba un só decodificador, sendo una "arquitectura máis simple, pero moi potente, sobre todo cando escala con miles de millóns de parámetros".

Nesta liña, o investigador do CiTIUS sinala como algo "moi interesante" dos modelos de lingua "a súa capacidade de adaptación a todo tipo de tarefas". "O modelo base sería a arquitectura 'transformer', que aprende a partir de datos de texto, voz ou imaxes, pero logo teriamos o modelo base adaptado a diferentes tarefas, por exemplo, na tarefa de diálogo atoparíase Chat-GPT, un modelo adaptado ao diálogo a partir dun gran modelo base con toda a información xenérica sen adaptar a tarefas concretas nun primeiro momento", explica Gamallo. E agora, estes modelos non só se poden adaptar a unha única tarefa, senón a varias ao mesmo tempo, por exemplo, "poden dialogar á vez que analizan os sentimentos e responder a todo tipo de preguntas, outra cousa xa é que respondan ben".

Unha estimativa de Bloomberg, un sistema informatizado que permite monitorizar e analizar en tempo real os mercados financieiros, moi recente, sobre estes novos modelos, os xerativos cómpre recordar que son só de decodificación, amosa que no ano 2023 estamos xa con cifras da contorna dos 67.000 millóns de euros en ingresos, e se miramos cal será a evolución prevista de cara ao 2032, as cifras seguen crecendo, ata chegar ao billón de euros. "O crecemento é moi grande, pero polo de agora son datos estimativos", argumenta Gamallo. 

GRAN CANTIDADE DE DATOS, DIFÍCIL READESTRAMENTO E POUCA FIABILIDADE

Pero como xa pode supoñerse, os grandes modelos non están exentos de problemas, pois traen consigo toda unha serie de retos que aínda non están corrixidos. Entre eles, este experto fala dalgúns como a "cantidade xigantesca de datos que precisan para poder trillalos, é dicir, para limpalos e corrixilos, algo que resulta difícil mesmo automatizadamente, porque estamos a falar de billóns de palabras, coñecidas como 'tokens', para poder crear os grandes modelos actuais". Ademais, ao usar tal cantidade de palabras, estes grandes modelos "son moi difíciles de actualizar, porque o readestramento é moi custoso", de feito, "a parte gratuíta de Chat-GPT aporta datos que nos retrotraen a 2021, porque está sen readestrar o modelo base", e en Chat-GPT 5 o que se fará será 'tunear' e afinar certas cousas cruzando o modelo base con outros, xa que o propio modelo base resulta moi custoso.

Por outra banda, o investigador do CiTIUS sinala que estes modelos aínda "son pouco fiables cos feitos", é dicir, "teñen moitos problemas para dar información fiable". Gamallo fixo un exemplo e pediulle ao modelo que lle falase sobre científicos galegos relevantes. Sobre Santiago Ramón y Cajal díxolle que naceu en Petín, en Ourense, cando non é verdade, porque naceu en Navarra. "Chamoume a atención, non sei de onde sacou iso", chancea. O mesmo lle pasou ao preguntar polas maiores científicas galegas, "alucina máis, e aparecen nomes de mulleres como unha especialista informática en intelixencia artificial totalmente descoñecida". "As respostas van na mesma liña tanto se se lle formula a pregunta en galego como en castelán", informa.

Asimesmo, segundo recolle, "tampouco se aliña coas expectativas humanas, pois ten moitos rasgos racistas ou de xénero que deben controlarse, o cal non é a súa culpa, porque van nos datos dos que bebe, xerados polos seres humanos, pero hai que controlalos". Ademais, outro problema, que é ao mesmo tempo unha vantaxe, e que "o texto que xera resulta indistinguible do texto xerado por humanos, o que pode dar lugar a moita desinformación de forma moi natural, ao non saber se o que nos atopamos como información foi creado automáticamente ou non". E a avaliación destes modelos tamén resulta moi complicada.

Finalmente, outro gran problema é o seu custe enerxético, que se mide por número de 'flops', é dicir, de operacións por segundo que se necesitan soster. A cantidade é tal que xa se fala de 'zettaflops', que vén a ser un número con 21 ceros detrás, ou sexa que estamos a falar de miles de millóns de 'flops'. "O custe disto en pegada de CO2 é enorme", afirma Gamallo, que fala de que por exemplo "o modelo de linguaxe PALM ten un custe de consumo enerxético de varios miles de megawatios, o equivalente ao consumo de toda a cidade de Nueva York nun día". "Durante o proceso de deferencia gasta moito menos, pero en inferencia atópase continuamente gastando, porque está continuamente a ser usado, e habería que saber a canto equivale ese gasto que hai das consultas diarias que se fan en Chat-GPT, por exemplo", conclúe o investigador.

PROXECTO NÓS: LOITAR PARA QUE O GALEGO NON SE QUEDE ATRÁS NA IA

O Proxecto Nós busca conseguir que o galego non se quede á cola das linguas e se poida ver en risco de desaparecer polo auxe desta intelixencia artificial, que só fale en idiomas maioritarios. Simplificadamente, a idea sería crear un sistema de intelixencia artificial que empregase o galego para comunicarse e que, desde logo, o entendese. Entre os retos que presenta este proxecto, como detalla Gamallo, atópase "a creación dos medios dixitais necesarios para que o galego prospere como lingua viva na era dixital" e "a creación dun ecosistema galego ao redor da intelixencia artificial". 

E para poder afrontar eses desafíos, é imprescindible "desenvolver recursos, modelos e ferramentas para o galego con licenzas libres, elaborando tamén demostradores que os fagan visibles e que se faciliten ás empresas e institucións para que se desenvolvan con eles en empresas en uso". Durante o 2022, no Proxecto Nós estiveron traballando con intelixencia artificial na parte de voz e texto, comezando a pensar un pouco tamén nos sistemas de diálogo e de xeración automática, pero máis a modo de 'background'. Tamén estiveron contactando con empresas que lles puidesen fornecer de datos, como o propio Galicia Confidencial, ou o Parlamento de Galicia e o Consello da Cultura Galega, chegando a un total de 40 entidades contactadas e 17 acordos de cesión asinados en diferentes sectores.

Agora, os recursos do Proxecto Nós e os seus modelos están en libre acceso. No CiTIUS enfocáronse na parte do  texto, traballando moito na parte de tradución automática, como explica Gamallo, para o que usaron unha arquitectura de tradución neuronal que lles permitise traducir o galego ao español e ao inglés, e agora atópanse no mesmo proceso co euskera e o catalán. A parte da tradución foi desenvolvida polo CiTIUS e a parte da xeración textual foi feita no Instituto da Lingua Galega (ILG), que traballou máis no que tiña que ver coa voz, con darlle son ás traducións xeradas. Para poder realizar a tradución automática, tamén foron precisos moitos datos e, por iso, unha das estratexias que usaron dende o CiTIUS foi coller moitos textos traducidos do portugués ao inglés e do portugués ao español, sobre todo procedentes do Parlamento europeo, e adaptalos ao galego oficial. "Esa foi unha estratexia que nos permitiu ter datos suficientes para entrenar estes grandes modelos", afirma Gamallo.

Entón, cales serán os próximos pasos do Proxecto Nós? Nestes momentos atópanse traballando no chamado proxecto Ilenia, no que tamén están metidas institucións lingüísticas do País Vasco, de Cataluña e da Comunidade Valenciana, que ten o obxectivo de crear grandes modelos lingüísticos, do tipo GPT-3 e GPT-4, e eses modelos multilingües teñen que ter, como mínimo, as linguas ibéricas oficiais e, probablemente, tamén o portugués. Agora mesmo os tradutores existentes gozan dunha gran presenza de texto en inglés, máis da metade, e dunha porcentaxe moi pequeniña, inferior ao 1 %, de texto en galego. "A idea co proxecto Ilenia é crear modelos multilingües con maior equilibrio no reparto de linguas, para que os tradutores poidan funcionar tan ben en inglés como en castelán, en galego ou en euskera". 

"Temos un prototipo dun modelo de 1,3 millóns de parámetros con máis de 2,2 millóns de 'tokens' (de palabras), o que supón o cómputo máis grande en galego, con moita diferenza, e xa hai algúns resultados que se van obtendo, porque lle vamos facendo preguntas e o modelo máis ou menos é capaz de responder de forma coherente, tendo ademais unha cualidade de lingua bastante grande, moito mellor que moita xente, que non escribe tan ben como o fai este modelo en galego, porque o certo é que todos escribimos bastante mal en galego", expón este investigador, que bromea con que "non sei como é capaz de escribir tan ben en galego sendo tan malos os datos que lle damos entre todos".

'Proxecto Nós'
'Proxecto Nós' | Fonte: USC
Chat GPT con intelixencia artificial
Chat GPT con intelixencia artificial | Fonte: inforges.com - Arquivo
Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta