Dispoñible en liña a versión 3.0 do Corpus de Referencia do Galego Actual

Contén 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes.

Por Galicia Confidencial | Santiago de Compostela | 03/11/2017 | Actualizada ás 13:04

Comparte esta noticia

A versión 3.0 do Corpus de Referencia do Galego Actual(CORGA) está xa dispoñible, sen necesidade de rexistro previo e de balde, para a súa consulta en liña. Contén 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. O proxecto desenvólvese no Centro Ramón Piñeiro para a Investigación e Humanidades no marco do convenio subscrito entre a Universidade de Santiago de Compostela e a Consellería de Cultura, Educación e Ordenación Universitaria

Manifestación de Queremos Galego a prol da lingua
Manifestación de Queremos Galego a prol da lingua | Fonte: queremosgalego.com

A presentación da nova versión tivo lugar este venres no Centro Ramón Piñeiro e nela interviñeron a directora do proxecto e profesora da USC, Marisol López; o secretario da RAE e tamén docente na USC, Guillermo Rojo; o secretario xeral de Política Lingüística, Valentín García; e o catedrático de Filoloxía Románica da USC e coordinador científico do Centro Ramón Piñeiro, Manolo González. Os coordinadores da parte lingüística e informática do CORGA, Eva Domínguez e Mario Barcala, respectivamente, fixeron ademais unha breve demostración do funcionamento do proxecto, informa a USC.

O CORGA é un corpus documental integrado por distintos tipos de textos, dende xornais, semanarios, revistas, blogs, ensaios, novelas e relatos curtos ata obras de teatro e guións televisivos. Os documentos codifícanse na linguaxe estándar XML e abranguen cronoloxicamente dende 1975 ata a actualidade. Nesta nova versión unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca.

A amplitude de documentos dos que consta así como os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.  

Entre as numerosas novidades que achega esta versión destaca a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pescudas en textos orais, senón tamén a posibilidade de escoitar o fragmento que corresponde ao contexto dos resultados obtidos. 

Porén, sen dúbida, a característica máis sobresaínte desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e o grupo COLE das universidades da Coruña e Vigo. 

Deste xeito, a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar no corpus, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non. Mais tamén é posible facer procuras por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar ademais como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc. Así, o CORGA presenta un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos

Entre outras melloras destacables figuran o incremento do volume textual coa inclusión de novos documentos pertencentes aos últimos lustros; o emprego dunha interfaz gráfica amigable que salienta a visualización dos resultados mediante concordancias e gráficas, as múltiples posibilidades de ordenación dos resultados ou a opción de deshabilitar a sensibilidade a acentos e maiúsculas nas procuras; a clasificación tipolóxica dos documentos, ou a engádega de abundante información nas páxinas estáticas sobre o corpus: descrición, documentos que o integran, historial de versións, publicacións que o referencian, guía de uso, descarga das listaxes de palabras, elementos gramaticais, lemas ou etiquetas etc. 

Os recursos relacionados con este proxecto destínanse ás persoas interesadas no estudo da lingua galega actual nos diferentes eidos, fornecéndoos con ferramentas que lles permitan obter datos de diversa índole relacionados co emprego da lingua e desenvolver ferramentas de análise do galego cada vez máis sofisticadas.

Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta