Léxico | el léxico en la traducción automática
English: Lexicon

El léxico en la traducción automática

En un diccionario tradicional típico, las entradas se identifican mediante una forma base o "canónica" de la palabra. Esta forma canónica varía según el idioma: los verbos en inglés se representan mediante la raíz no flexionada, mientras en francés o español se representan con el infinitivo del verbo. Además de la definición estos diccionarios tradicionales incluyen en cada entrada información adicional como la pronunciación, la categoría gramatical o su etimología.

El léxico o diccionario empleado en la traducción automática presenta algunas diferencias, al compararlo con uno tradicional. Algunos programas de traducción automática cuentan únicamente con diccionarios de formas flexionadas, es decir, listas de palabras con todas las formas e información gramaticales correspondientes. Un léxico de esta forma contendría las palabras comer, comida, comiendo, comido por separado, como unidades diferenciadas. Esta aproximación no es nada eficiente en lenguas como el español, que posee una flexión rica y compleja. En estos casos, el léxico suele proporcionar una raíz a partir de la cual el componente morfológico se encargará de generar las formas apropiadas.

Este léxico para la traducción automática debe suministrar la información necesaria para el análisis sintáctico y semántico:

  • categoría gramatical (nombre, verbo, etc.)
  • rasgos de subcategorización, subcategoría del apartado anterior (verbo transitivo o intransitivo, sustantivo masculino o femenino, etc.)
  • información semántica (nombre animado, verbo que exige un sujeto animado, etc.)

A menudo estos dos últimos tipos de información se emplean conjuntamente a la hora de definir, por ejemplo, una subcategoría en términos de restricciones de selección. Esta información ayuda a determinar el contexto en el que pueden aparecer las palabras. Así, por ejemplo, el verbo amar restringe la selección de su sujeto, de manera que éste debe ser animado.

Además, un léxico empleado en la traducción automática debe aportar información relativa a la correspondencia entre las unidades léxicas de distintas lenguas. Debido a la complejidad que puede entrañar esta tarea, muchos sistemas optan por establecer una separación entre dos tipos de información: por un lado, la información necesaria para el análisis o producción de textos en una lengua particular y, por otro lado, la información relativa a las correspondencias léxicas entre dos pares de lenguas. Estas correspondencias incluyen las condiciones en las que se produce la equivalencia:

  • categorías gramaticales (bote: verbo o nombre)
  • categorías semánticas (banco: asiento o establecimiento que realiza negocios con dinero)
  • contexto sintáctico (tratar una enfermedad o tratar de conseguir algo)