DESCRIPCIÓN DEL PROYECTO A DESARROLLAR

Los motores de búsqueda de texto actuales se basan en índices construidos a partir de las palabras contenidas en los documentos. Esta solución se ha demostrado muy efectiva cuando los documentos comparten el vocabulario, es decir, están escritos en el mismo idioma. Sin embargo, en colecciones de documentos multilingües la diversidad de los vocabularios genera índices de palabras independientes que no permiten establecer relaciones entre textos escritos en distintos idiomas. Un motor de búsqueda multilingüe no debería por tanto trabajar únicamente a nivel léxico (índices basados en palabras), sino también a nivel semántico (índices basados en conceptos) para poder establecer relaciones entre los documentos más allá del vocabulario utilizado.


DICTO extiende el motor de búsqueda documental Elasticsearch1 para construir índices a partir de las anotaciones ofrecidas por librAIry2, un servicio de análisis de textos basado en modelos probabilísticos de tópicos. Sobre estos índices, mide la semejanza de contenido de la consulta con respecto a los documentos.


OBJETIVO PRINCIPAL

Diseño, implementación y validación de algoritmos que permitan establecer relaciones basadas
en el contenido de documentos escritos en distintos idiomas.

 

DESGLOSE DE RESULTADOS QUE SE PERSIGUEN EN EL PROYECTO

  • Estudio de la percepción de semejanza de textos desde el punto de vista de los humanos
  • Anotación automática de documentos
  • Identificación de temas
  • Establecimiento de pesos
  • Identificación de textos semejantes
  • A un texto dado
  • A uno ( o varios) temás dado

 

TAREAS (SUBTAREAS) A DESARROLLAR, CON PLANIFICACIÓN TEMPORAL E HITOS

  • Evaluación de la percepción de semejanza
  • Corpus
  • Métricas
  • Resultados
  • Anotación automática de documentos
  • Integración pipeline Elasticsearch
  • Integración con servicio librAIry
  • Establecimiento de relaciones basadas en el contenido
  • Construcción de índices cross-lingual
  • Métrica de semejanza semántica independiente del idioma