O Centro Ramón Piñeiro amplía cunha nova versión os termos e utilidades do CORGA
luns, 16 de decembro do 2019
Esta
mañá presentouse
en Santiago, no Pazo de San roque, a nova versión do Corpus
Documental do Galego Actual (CORGA 3.2.), ferramenta lingüística
online desenvolvida polo Centro Ramón Piñeiro para a
Investigación en Humanidades (CRPIH) e un dos recursos de meirande
utilidade para facer medrar a presenza do galego nas novas
tecnoloxías da información. Segundo se fixo saber no acto, no que
participou o secretario xeral de Política Lingüística, Valentín
García, a nova versión do corpus representa un paso máis para
facilitar a saúde dixital da nosa lingua, e con este obxectivo o
CRPIH logrou o fito de acoller nela 40 millóns de palabras e 25
horas de transcricións ortográficas de programas de radio nas que
se aliñan texto e voz.
Na
presentación da versión 3.2. do CORGA, Valentín García estivo
acompañado por Manuel González, coordinador científico do CRPIH;
Marisol López, directora da Área de Lingüística do CRPIH e do
proxecto CORGA; Guillermo Rojo, investigador colaborador do Ramón
Piñeiro; Eva Domínguez e Mario Barcala, responsábeis da
coordinación lingüística e informática do proxecto.
Segundo
lembraron, o CORGA é un corpus documental desenvolvido no CRPIH por
medio dun convenio de colaboración coa USC e integrado por distintos
tipos de textos (xornais, semanarios, revistas, ensaios e textos de
ficción: novela, relato curto e teatro) que abrangue temporalmente
desde o ano 1975 ata a actualidade e que está codificado no estándar
XML (eXtensible Markup Language).
O
corpus da versión ampliada (accesíbel en
http://corpus.cirp.gal/corga),
foi enriquecido de xeito auotmático coa lematización e etiquetaxe
morfosintáctica dos seus textos e contén 40.178.271 palabras
ortográficas (48.184.012 elementos gramaticais) pertencentes
maioritariamente a distintos tipos de textos escritos, mais tamén
inclúe 25 horas de transcricións ortográficas de programas de
radio nas que se aliña o texto coa voz.
Segundo
se fixo saber no acto celebrado en San roque, as principais novidades
que mostra fronte á versión anterior son a visualización da
información recuperada en forma de expresións coincidentes, de
xeito que os resultados iguais se reducen a un, e a presentación, a
modo de dicionario de frecuencias, de listaxes personalizadas
relativas a formas, etiquetas, lemas e hiperlemas mediante os
parámetros lingüísticos e clasificatorios dispoñíbeis no
sistema. “Estas funcionalidades veñen completar as que xa se deron
a coñecer na versión 3.1. do CORGA, agora ampliada”, explicaron
os investigadores, que tamén puxeron o foco no factor “facilidade”
que inclúe a ferramenta en materia de consultas, cousa que vén dada
pola súa flexibilidade e a potencialidade da aplicación.
Así,
permite empregar nunha mesma procura comodíns, sensibilidade a
acentos ou maiúsculas e variables clasificatorias dos documentos
combinándoos cos distintos tipos de modalidade de busca, por
palabras ortográficas ou elementos gramaticais, ben sucesivos ben
descontinuos, e mesmo reducir os resultados a expresións
coincidentes ou obter frecuencias personalizadas de formas, lemas,
etiquetas etc., o que converte o CORGA “nunha ferramenta moi útil
para extraer datos da lingua galega actual de tipo léxico,
gramatical, terminolóxico, fraseolóxico, ou discursivo”, engadiu
o Centro Ramón Piñeiro.