Tesis de maestría

Extracción automática de metadatos de un documento digital

Loading...
Thumbnail Image

Citation

View formats

Share

Bibliographic managers

Abstract

Debido la necesidad de manejar las grandes cantidades de información que se generan día con día, la Extracción de Información se ha convertido en un área de la computación que ha tomado gran relevancia en los últimos años. En particular, dentro del ámbito de las Bibliotecas Digitales existe información acerca de un documento que es muy importante para la Clasificación, Indexamiento y Búsqueda de Información dentro de éstos; ésta información recibe el nombre de "Metadatos" y permite al usuario de la información obtener rápidamente una idea clara de su contenido. Actualmente existen diferentes esfuerzos para obtener información de documentos digitales, pero son pocos los esfuerzos dirigidos a la extracción de información de documentos en idioma Español, y específicamente sobre los metadatos. El presente trabajo se centra en el diseño y evaluación de heurísticas de Extracción de Información para documentos en Español. Los algoritmos fueron diseñados para la extracción de cuatro metadatos de importancia de un documento digital de tipo investigación: Fecha de creación, Autor, Extracción de palabras clave del Tema y Título del documento. Estos algoritmos utilizan técnicas y herramientas de extracción no muy complicadas que no utilizan técnicas de Inteligencia Artificial y que presentan resultados confiables para su aplicación en el ambiente de producción de bibliotecas digitales. Durante las pruebas de evaluación de desempeño de las heurísticas diseñadas sobre una muestra de documentos en Español e Inglés, se pudo apreciar un rendimiento arriba del 80 % de efectividad y en algunas de ellas alrededor del 90 %. Se pudo observar que las heurísticas se aplican de igual forma a documentos en idioma Inglés con resultados de efectividad muy similares.

Document viewer

Select a file to preview:
Reload

logo

El usuario tiene la obligación de utilizar los servicios y contenidos proporcionados por la Universidad, en particular, los impresos y recursos electrónicos, de conformidad con la legislación vigente y los principios de buena fe y en general usos aceptados, sin contravenir con su realización el orden público, especialmente, en el caso en que, para el adecuado desempeño de su actividad, necesita reproducir, distribuir, comunicar y/o poner a disposición, fragmentos de obras impresas o susceptibles de estar en formato analógico o digital, ya sea en soporte papel o electrónico. Ley 23/2006, de 7 de julio, por la que se modifica el texto revisado de la Ley de Propiedad Intelectual, aprobado

Licencia