Resumen:
Para incrementar el contenido y consecuente uso de Repositorios Institucionales Educativos de Producción Nacional, además de políticas y estrategias de difusión adecuadas, es necesario desarrollar herramientas informáticas para la automatización de la recopilación de objetos digitales educativos que ya están publicados en sitios web institucionales y que pueden ser cargados al repositorio. Esta tarea de recopilación es tediosa y es realizada en forma manual actualmente. En este trabajo se presenta una arquitectura para automatizar esta tarea de recopilación de documentos de texto dentro de un dominio restringido con el objetivo de recuperar documentos plausibles de ser cargados en un repositorio, junto a información relevante como idioma, título, autores y sus correspondientes datos de contacto: emails y filiaciones.
En la extracción de información, no solamente se propone procesar el texto plano de los documentos, si no además el código HTML de páginas webs enlazadas en el mismo sitio web donde los documentos son recuperados. Se desarrolló un prototipo de este sistema, donde diferentes dominios de
nuestra facultad fueron utilizados como casos de estudio.
Directora y Co-Directora: Ana Casali y Claudia Deco