O Centro Ramón Piñeiro amplía cunha nova versión os termos e utilidades do CORGA

luns, 16 de decembro do 2019 Fernando Sarasketa

Esta mañá presentouse en Santiago, no Pazo de San roque, a nova versión do Corpus Documental do Galego Actual (CORGA 3.2.), ferramenta lingüística online desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) e un dos recursos de meirande utilidade para facer medrar a presenza do galego nas novas tecnoloxías da información. Segundo se fixo saber no acto, no que participou o secretario xeral de Política Lingüística, Valentín García, a nova versión do corpus representa un paso máis para facilitar a saúde dixital da nosa lingua, e con este obxectivo o CRPIH logrou o fito de acoller nela 40 millóns de palabras e 25 horas de transcricións ortográficas de programas de radio nas que se aliñan texto e voz.
Na presentación da versión 3.2. do CORGA, Valentín García estivo acompañado por Manuel González, coordinador científico do CRPIH; Marisol López, directora da Área de Lingüística do CRPIH e do proxecto CORGA; Guillermo Rojo, investigador colaborador do Ramón Piñeiro; Eva Domínguez e Mario Barcala, responsábeis da coordinación lingüística e informática do proxecto.
Segundo lembraron, o CORGA é un corpus documental desenvolvido no CRPIH por medio dun convenio de colaboración coa USC e integrado por distintos tipos de textos (xornais, semanarios, revistas, ensaios e textos de ficción: novela, relato curto e teatro) que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language).
O corpus da versión ampliada (accesíbel en http://corpus.cirp.gal/corga), foi enriquecido de xeito auotmático coa lematización e etiquetaxe morfosintáctica dos seus textos e contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.
Segundo se fixo saber no acto celebrado en San roque, as principais novidades que mostra fronte á versión anterior son a visualización da información recuperada en forma de expresións coincidentes, de xeito que os resultados iguais se reducen a un, e a presentación, a modo de dicionario de frecuencias, de listaxes personalizadas relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñíbeis no sistema. “Estas funcionalidades veñen completar as que xa se deron a coñecer na versión 3.1. do CORGA, agora ampliada”, explicaron os investigadores, que tamén puxeron o foco no factor “facilidade” que inclúe a ferramenta en materia de consultas, cousa que vén dada pola súa flexibilidade e a potencialidade da aplicación.
Así, permite empregar nunha mesma procura comodíns, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, e mesmo reducir os resultados a expresións coincidentes ou obter frecuencias personalizadas de formas, lemas, etiquetas etc., o que converte o CORGA “nunha ferramenta moi útil para extraer datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico, ou discursivo”, engadiu o Centro Ramón Piñeiro.

PUBLICIDADE