AMELOIR : algoritmo para la extracción automática de metadatos a partir de objetos de aprendizaje en un repositorio institucional
Resumen
El principal aporte de esta tesis es el diseño e implementación de AMELOIR (Automatic Metadata Extracción Learning Object Institutional Repository), un nuevo algoritmo para la extracción automática de metadatos en repositorios institucionales utilizando técnicas de procesamiento de lenguaje natural e inteligencia artificial. AMELOIR fue incorporado en la plataforma DSpace alterando el proceso de almacenamiento, de tal manera que al ser cargado un archivo para almacenar, se invoca al extractor para que obtenga automáticamente los metadatos. Éstos se presentan al usuario en la etapa de verificación de metadatos, para que sean validados y completados en caso de que sea necesario. Con el desarrollo de nuevos algoritmos y sistemas de extracción automática de metadatos como el propuesto en esta tesis, se reducen en gran medida los inconvenientes que presenta el autoarchivo con respecto al uso de los metadatos que no contienen información, o bien, cuando la información que poseen es incorrecta o de baja calidad. Dichos inconvenientes se presentan en gran parte por desconocimiento de valor y significado de los metadatos por parte de quien archiva el objeto de aprendizaje en el repositorio, por no contar con una herramienta adecuada de extracción automática, por la falta de selección por parte de los desarrolladores de repositorios de un conjunto adecuado de metadatos (obligatorios y opcionales) para describir los objetos de aprendizaje, así como por la diversidad de normas y el soporte de motores de búsqueda. Además, en el algoritmo que se va a proponer se afrontan los siguientes desafíos con respecto a la extracción automática de metadatos de objetos de aprendizaje en repositorios institucionales de acceso abierto: - Se aplican herramientas de procesamiento de lenguaje natural y expresiones regulares para la extracción de metadatos. - Se reduce, hasta donde sea posible, la intervención del usuario en el proceso de extracción de metadatos, para disminuir el grado de imprecisión, incompletitud, inconsistencias y discrepancias de la información almacenada en el repositorio. - Se contempla el procesamiento de archivos en formato Word y PDF. - Se hace uso integrado de estándares de metadatos Dublin Core e IEE LOM, como una forma de aprovechar los grandes esfuerzos que se han hecho hasta el momento para brindar la posibilidad de estandarizar y unificar la información que se extrae y almacena de los objetos de aprendizaje, haciendo posible la compatibilidad e interoperabilidad entre diferentes repositorios institucionales. Al ser AMELOIR un algoritmo de extracción de metadatos aplicable a cualquier repositorios institucionales implementado en DSpace, el software más utilizado a nivel global en lo que a RI de universidades y centros de investigación respecta, es posible adaptar dicho algoritmo para ser utilizado en cualquier otro repositorio que cumpla con estas características, haciendo factible su inserción en mercados externos. El atractivo del algoritmo está en permitir el enriquecimiento de las descripciones de los recursos educativos y de esta manera, optimizar las funcionalidades de búsqueda implementadas en cada uno de los repositorios. Adicionalmente, se estarían sustituyendo herramientas que trabajen de manera independiente al repositorio institucional o con un menor nivel de detalle, y que a su vez podrían ser privativas o generar algún costo de licenciamiento. A partir del desarrollo y adaptación de AMELOIR, se hace factible sustituir la importación de material educativo pago, tanto físico como virtual, debido a que se incentiva la reutilización del material producido en la misma institución y la colaboración entre, por ejemplo, universidades y grupos de investigación de distintos países. De esta forma, se enriquecen las funcionalidades disponibles del repositorio institucional utilizado, logrando contar con un producto de gran valor tecnológico, a la vez que se reutiliza y agrega valor promoviendo el conocimiento generado internamente. Por otra parte, con la implementación de este algoritmo se contribuye de manera significativa al desarrollo del repositorio institucional del CIDISI (Centro de Investigación y Desarrollo de Ingeniería en Sistemas de Información, Universidad Tecnológica Nacional, Facultad Regional Santa Fe), el cual está en su etapa inicial de implementación, y a través de éste último se da impulso a proyectos futuros a partir de la distribución, visibilidad y reutilización del conocimiento logrado en investigaciones previas.
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: