Citation
Share
Date
Abstract
Debido la necesidad de manejar las grandes cantidades de información que se generan día con día, la Extracción de Información se ha convertido en un área de la computación que ha tomado gran relevancia en los últimos años. En particular, dentro del ámbito de las Bibliotecas Digitales existe información acerca de un documento que es muy importante para la Clasificación, Indexamiento y Búsqueda de Información dentro de éstos; ésta información recibe el nombre de "Metadatos" y permite al usuario de la información obtener rápidamente una idea clara de su contenido. Actualmente existen diferentes esfuerzos para obtener información de documentos digitales, pero son pocos los esfuerzos dirigidos a la extracción de información de documentos en idioma Español, y específicamente sobre los metadatos. El presente trabajo se centra en el diseño y evaluación de heurísticas de Extracción de Información para documentos en Español. Los algoritmos fueron diseñados para la extracción de cuatro metadatos de importancia de un documento digital de tipo investigación: Fecha de creación, Autor, Extracción de palabras clave del Tema y Título del documento. Estos algoritmos utilizan técnicas y herramientas de extracción no muy complicadas que no utilizan técnicas de Inteligencia Artificial y que presentan resultados confiables para su aplicación en el ambiente de producción de bibliotecas digitales. Durante las pruebas de evaluación de desempeño de las heurísticas diseñadas sobre una muestra de documentos en Español e Inglés, se pudo apreciar un rendimiento arriba del 80 % de efectividad y en algunas de ellas alrededor del 90 %. Se pudo observar que las heurísticas se aplican de igual forma a documentos en idioma Inglés con resultados de efectividad muy similares.