A intelixencia artificial que está a desenvolver o Goberno central, ALIA, conta con menos dun 2 % de datos en linguas cooficiais

Fontes do Ministerio para a Transformación Dixital e da Función Pública defenderon que ALIA está adestrado cunha maior porcentaxe de datos en castelán e linguas cooficiais que o resto de modelos comerciais.

Por Europa Press / Redacción | MADRID | 22/01/2025 | Actualizada ás 18:50

Comparte esta noticia

O volume de datos en castelán e linguas cooficiais do Estado que se utilizou para o adestramento do modelo de linguaxe (LLM, 'large language model', en inglés) de intelixencia artificial (IA) impulsado polo Goberno, denominado ALIA, tan só alcanza o 20 %, mentres que o 80 % restante confórmano distintos idiomas, con predominio do inglés (39,31 %). En concreto, o 16,12 % dos datos de adestramento do LLM están en castelán, mentres que o catalán alcanza o 1,97 % e o resto ata alcanzar o 20 % confórmano o galego e o eúscaro, segundo figura na documentación publicada.

En concreto, o corpus de preadestramento ALIA comprende datos de 35 idiomas europeos e 92 linguaxes de programación. A pesar diso, fontes do Ministerio para a Transformación Dixital e da Función Pública defenderon que ALIA está adestrado cunha maior porcentaxe de datos en castelán e linguas cooficiais que o resto de modelos comerciais. Nese sentido, desde a carteira que dirixe Óscar López búscase elevar o peso do castelán e das linguas cooficiais do Estado neste LLM, o cal segue en desenvolvemento e co que se busca que a "IA pense en castelán".

NON BUSCA COMPETIR CON CHATGPT

Doutra banda, desde a carteira de Transformación Dixital apuntan que o obxectivo de ALIA non é competir con ChatGPT ou aplicacións similares. "Un dos principais valores que cremos que ten o modelo, e que ademais é claro que é unha das tendencias en 2025, non é tanto ser un chat grande e competir co que é evidente que non podemos competir (e non pretendemos competir, en referencia a ChatGPT), senón a especialización nos pequenos modelos de linguaxe", subliñaron fontes do ministerio.

De feito, xa están marcha dous proxectos para aplicar ALIA no ámbito público, en concreto, un 'chatbot' interno para a Axencia Tributaria e outro, denominado 'Cardiomentor', ligado ao sector sanitario e dirixido ao ámbito da atención primaria para o diagnóstico precoz de insuficiencias cardíacas mediante a "análise avanzada de datos". Nesa liña, o Goberno está a traballar para que cada ministerio teña, polo menos, un caso de uso concreto baseado en ALIA, unha iniciativa que se enmarca na estratexia nacional de intelixencia artificial. Ademais, as fontes de Transformación Dixital tamén matizan que o investimento realizado ata o momento en ALIA ascende a tres millóns de euros, aínda que o orzamento para a panca tres da estratexia nacional de IA ascende a 10,2 millóns de euros e contempla outros aspectos.

Corpus de ALIA
Corpus de ALIA | Fonte: MINISTERIO PARA A TRANSFORMACIÓN DIXITAL

Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta