Obtención automática de metadatos de páginas Web para mejorar la ordenación de los resultados de una búsqueda
Autor:
Martín Burgués
Fecha Defensa:
20/02/2009
Resumen:
Actualmente existe en Internet gran cantidad de información, la cual es recopilada e indexada por los buscadores. Esta tarea se perfecciona a cada momento, los motores de los buscadores son aplicaciones extremadamente complejas que evolucionan continuamente para acercarse más a los intereses de los usuarios.
La información está muy diversificada en páginas Web que carecen de estructura. Esta carencia implica que las computadoras no puedan comprender y acceder al significado de las páginas, por lo tanto resulta muy difícil la tarea de encontrar contenidos adecuados a los requerimientos de los usuarios.
Un área en la cual este problema es particularmente importante es la búsqueda de cursos por Internet, ya sea en sitios dedicados a la recopilación de cursos o en la Web en general. Esto es así porque cuando un usuario busca un curso necesita que el mismo cumpla ciertas características y se adapte a su perfil y necesidades específicas, lo cual hace que los resultados devueltos por los buscadores comunes no sean los más adecuados.
En virtud de armar espacios para recopilar contenidos de cursos o tutoriales Web existen sitios que acopian esta información. Para que la información recolectada contenga sentido se pide al usuario que indique aspectos básicos del material que se sube. Esta tarea delega prácticamente toda la responsabilidad de indexación a la información brindada por el autor. Estos sitios son un ejemplo claro de los beneficios de la estructura en los contenidos Web, dado que al tener todas las páginas características homogéneas y estar bien definida su estructura, es más fácil buscar de manera "inteligente" en ellos.
El agregado de estructura a los datos desestructurados que conviven en la Web es un trabajo que se viene desarrollando desde hace varios años. La falta de estructura provoca que la información sea más difícil de localizar y muchas veces sea inaccesible.
En este trabajo se presenta una propuesta para la extracción de información del contenido de las páginas Web para mejorar las formas de clasificación utilizadas actualmente. Dada una consulta de un usuario y ciertas elecciones que indican las preferencias del mismo, la arquitectura propuesta devuelve las páginas encontradas de acuerdo a las preferencias y a la configuración cargada, otorgándole además información de las características de estas páginas que puede ser utilizada en un análisis posterior de las mismas. Las búsquedas pueden hacerse en la Web en general, o en sitios específicos, como ser repositorios de cursos indicados por el usuario. Este enfoque le da contenido semántico a las búsquedas. Se propone crear un árbol XML con el contenido recolectado de las páginas y utilizar el mismo para darle mayor estructura a los resultados devueltos.
En resumen, lo que se busca con este trabajo es hacer las búsquedas en Internet más específicas y personales, añadiendo valor al contenido de cada página encontrada.
Un aspecto importante que se tuvo en cuenta en este trabajo es el cálculo de índices de legibilidad sobre el texto de cada página. Esto brinda una información heurística del nivel de dificultad de los contenidos. Estos índices se utilizan en otros países para clasificar textos académicos y para determinar los tiempos que requerirán los alumnos para comprender un texto, y son especialmente útiles en la búsqueda personalizada de material académico.