Ok

By continuing your visit to this site, you accept the use of cookies. These ensure the smooth running of our services. Learn more.

lunes, 04 marzo 2013

De picas y de famas (4)

NV-IMP840.JPGMe entró la duda de que se cumpliera la desigualdad triangular. Entonces traté de encontrar un contraejemplo calculando la distancia de una cantidad muy grande de palabras con ayuda del computador. Al comienzo de los años 90 los PC no eran muy potentes. Mi programa calculó día y noche durante una semana sin llegar a encontrar un solo error.

Comentando estas dificultades con mi amigo Ascánder, me dio una idea genial. Como la fórmula funcionaba para palabras de la misma longitud, me dijo que podría considerar que dos palabras eran siempre de longitud igual rellenando la más corta con espacios. ¡Por fin pude probar que la fórmula así modificada era una distancia!

Me puse a la tarea de crear un prototipo de corrector ortográfico para la base de datos terminológica a partir de unas cincuenta mil palabras por idioma. Empecé con inglés, francés y español. El programa calculó día y noche durante una semana completa hasta llegar a una tabla completa de distancias que me daba resultados muy buenos y sugerencias de corrección impecables.

Todavía funciona en línea. Si uno busca una palabra que no está en la base, la interface propone una lista de palabras parecidas por si acaso se trata de un error de escritura.

Recuerdo que escribí un artículo para una revista especializada. La opinión del revisor del artículo era que a pesar de ser en efecto una fórmula de distancia, yo no había mostrado en qué era superior a la fórmula de distancia más comúnmente utilizada en informática y que consistía en calcular la distancia a partir del mínimo número de operaciones de edición necesarias para pasar de una palabra a otra con adiciones y supresiones de letras. Tenía razón, pero ese no era mi objetivo. Yo no quería demostrar que mi fórmula era mejor sino simplemente mostrar que funcionaba y era fácil de calcular.

Desistí de enviar el artículo a ese tipo de revistas, pero tuve la ocasión de presentarlo en una conferencia de ingeniería de terminología y bases de conocimientos en Alemania (TKE 1996). No estoy seguro de que el público haya entendido muy bien mi presentación, pero estuvo muy atento escuchándome.

Hoy podría adaptarla fácilmente al árabe y ruso, pero no vale la pena, ya que la mayor parte del tiempo las búsquedas se hace en inglés. Cuando uno busca en Google, el sistema propone palabras similares en caso de que no encuentre lo que uno busca o de que sospeche que uno busca otra cosa. Esos algoritmos de distancia están escondidos detrás de la pantalla. Curioso que un juego infantil me haya permitido realizar ese corrector ortográfico.

Los comentarios son cerrados