Noticias del País Vasco

Euskaltzaindia presenta un corpus del euskera referencial, de calidad y equilibrado

  • La Academia del Euskera era consciente de la necesidad de un corpus más grande y equilibrado para conocer el uso del euskera en el día a día y afrontar los retos que nos plantean las tecnologías lingüísticas. Para cubrir este vacío, hace cuatro años puso en marcha el proyecto Euskararen Erreferentzia Corpusa (EEC). El primer resultado de este proyecto se ha presentado hoy en Bilbao y ya está en manos de los usuarios en https://eec.euskaltzaindia.eus
  • EEC nace para ser utilizado como un corpus estándar o referente para fines lingüísticos, literarios o de investigación.
  • El Corpus de Referencia del Euskera recoge textos de los últimos 25 años. Esta primera versión ha reunido 123.124 documentos y 154,21 millones de palabras de texto, procedentes de textos escritos o producidos en euskera desde el año 2000 hasta 2023. Se actualizará anualmente, con el objetivo de obtener la máxima referencialidad.
  • Andres Urrutia (presidente de Euskaltzaindia): «Se trata de un corpus de referencia, abierto y colectivo, porque Euskaltzaindia lo ha hecho junto con 68 entidades privadas y públicas de toda Euskal Herria, incluyendo los principales medios de comunicación y decenas de agentes sociales».

Euskaltzaindia ha presentado hoy en Bilbao Euskararen Erreferentzia Corpusa (Corpus de Referencia del Euskera). En la comparecencia, que ha tenido lugar en la sede de la Academia, han estado presentes, entre otros, la primera vicelehendakari y consejera de Cultura y Política Lingüística del Gobierno vasco, Ibone Bengoetxea; el presidente de Euskaltzaindia, Andrés Urrutia; la académica de número y responsable del proyecto Euskaltzaindia Hiztegia, Miriam Urkia, y el asesor tecnológico de la Academia, Aitor Maritxalar.

 Andrés Urrutia ha detallado desde el primer momento las principales características del nuevo corpus, que ha definido como un corpus de referencia, abierto y colectivo: «Es un corpus de referencia, es decir, un corpus que busca un equilibrio, que pretende reunir los pormenores concretos y equilibrados de la lengua, recogiendo muestras de diferentes ámbitos, dando un reflejo del euskera actual. También es abierto, ya que ha recopilado material que se ha creado hasta 2023 y que más tarde se irá ampliando también con nuevos colaboradores y textos. Y, cómo no, es colectivo, porque Euskaltzaindia lo ha hecho junto a 68 entidades privadas y públicas de Euskal Herria, los principales medios de comunicación y muchos agentes sociales». A continuación, ha agradecido a todos ellos su adhesión al corpus «que será un proyecto básico» para la Academia.

 Por su parte, la  consejera de Cultura y Política Lingüística del Gobierno vasco, Ibone Bengoetxea, ha afirmado que Euskaltzaindia «prestigia» la lengua. «Este corpus del euskera que habéis elaborado y que estáis ofreciendo a la sociedad, es parte de nuestra historia y, al mismo tiempo, es un instrumento de referencia que guiará nuestro futuro», ha detallado.

En su intervención, la responsable de la sección Iker (investigación) de la Academia, Miriam Urkia, ha recordado cómo arrancaron los primeros corpus de la misma. «Euskaltzaindia comenzó a trabajar los corpus en la década de los 80 del siglo XX, y ha sido pionera en el corpus vasco. Primero elaboró el Corpus Estadístico del Euskera del siglo XIX. Posteriormente, al entrar en el siglo XXI, formó el Observatorio del Léxico como monitor de corpus. Sin estos nateriales, Euskaltzaindia no tendría, por ejemplo, ejemplos de palabras, acepciones, marcas de uso y contextos para incluir en el Diccionario de Euskaltzaindia».

 Sin embargo, la Academia era consciente de la necesidad de un corpus más grande y equilibrado para conocer el día a día del euskera y para hacer frente a los retos que plantean las tecnologías lingüísticas, y hace cuatro años puso en marcha el Corpus de Referencia del Euskera (EEC) para cubrir ese vacío.

 ¿Cuál es el objetivo principal del EEC? «Es una herramienta fundamental para el análisis lingüístico, el aprendizaje automático o la validación de hipótesis en las investigaciones lingüísticas, pero también puede utilizarse como un corpus estándar o referente para fines lingüísticos, literarios o de investigación. En la medida en que refleje la situación ‘actual’, las personas dedicadas a la enseñanza de la lengua, traductores, correctores… tendrán a su disposición el EEC, para resolver dudas léxicas (generales y terminológicas), gramaticales y, por supuesto, para validar modelos adecuados para estos grandes corpus», ha subrayado Miriam Urkia. En este sentido, el presidente de Euskaltzaindia ha señalado que el ECC es un corpus equilibrado, y la académica guipuzcoana ha querido profundizar: «A la hora de hacer EEC hemos tenido en cuenta el equilibrio y la representatividad. Con el objetivo de reflejar el uso actual del euskera, es importante mantener la diversidad temática, recopilar ejemplos de todos los dialectos y contenidos de diferentes fuentes de texto (libros, revistas, red…) y tener en cuenta textos dirigidos a todo tipo de públicos (jóvenes, público en general, especialistas)».

Diseño y referencialidad del nuevo corpus

¿Qué es el corpus lingüístico? Se trata de una gran colección de datos, estructurada, basada en usos reales y procesada lingüísticamente, que se utiliza como muestra de una parte de la lengua. Y se le llama corpus de referencia al corpus que se ha creado para ser la muestra más detallada posible, y a la vez más extensa, de una época concreta de una lengua. Así, a la hora de diseñar el Corpus de Referencia del Euskera, se han utilizado los siguientes criterios:

  • Medio: Basado en textos escritos en euskera (sobre todo a partir de versiones electrónicas). De momento no tiene transcripción oral, pero sí recoge lo preparado para la oral (series, películas, guiones…). El 48% de los textos proceden de libros, el 48% de publicaciones periódicas y el 4% de material creado específicamente para la red.
  • Clasificación: Estos textos se han clasificado en dos grandes secciones, divididas en ficción (25%) y no ficción (75%).
  • Cronología: EEC recogerá siempre los textos de los últimos 25 años. Esta primera versión incluye textos desde el año 2000 hasta el 2023. Se actualizará anualmente, por lo que será un corpus dinámico.

 «La referencialidad viene dada por una combinación equilibrada de todos estos criterios. Esto es lo que define el corpus de referencia, aunque no siempre sea fácil mantener el equilibrio. Y, al mismo tiempo, estos criterios nos permiten limitar las consultas del diccionario en función de las necesidades», ha añadido Miriam Urkia.

Datos generales del EEC

La versión publicada hoy incluye 123.124 documentos y 154,21 millones de palabras de texto, procedentes de textos escritos o producidos en euskera desde el año 2000 hasta 2023. Todos estos textos han sido previamente lematizados y clasificados. De esta forma, entre otras posibilidades, permite realizar consultas a través de formas y categorías gramaticales:

— Por procedencia: las palabras textuales procedentes de libros son 68,42 millones (44,37%), de publicaciones periódicas 72,49 millones (47,01%), escritas específicamente para la red 4 millones (2,59%) y otros contenidos (publicaciones especiales, folletos, guiones…) 9,3 millones (6,03%) de palabras de texto.

— Por tipo de texto: las palabras de texto ficticio son 39,67 millones (25,73%) y los textos de no ficción 114,54 millones (74,27%).

Publicaciones relacionadas

Botón volver arriba

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies