Información y Documentación Plan 2019

Grado y Doble Grado. Curso 2024/2025.

EXTRACCIÓN Y PROCESAMIENTO AVANZADO DE LA INFORMACIÓN - 805412

Curso Académico 2024-25

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
- Conocimientos en el tratamiento automatizado de la información

Transversales
- Capacidad para aplicar técnicas de minería de textos y datos
- Conocimientos técnicos para la recolección automatizada de información
Específicas
- Desarrollar estrategias de clasificación de la información
- Aplicar técnicas de big-data para el análisis automático de la información

ACTIVIDADES DOCENTES

Clases teóricas
El profesor expondrá y desarrollará los contenidos teóricos básicos sobre la extracción y procesamiento de información.
Clases prácticas
Desarrollo de actividades formativas prácticas con herramientas informáticas en las que el estudiante aplicará y pondrá en práctica los contenidos teóricos expuestos por el profesor.
Otras actividades
Resolución de dudas que puedan surgir al estudiante y seguimiento de los trabajos prácticos individuales y grupales.

Presenciales

6

Semestre

2

Objetivos

  • Aprender los métodos de extracción de la información en Internet, para su reutilización, desarrollo de servicios de información y enriquecimiento documental automático.
  • Aprender a procesar archivos XML de forma automática, para su posterior procesamiento en base de datos.
  • Aprender los principios que sustentan la minería de datos y el big-data.
  • Adquirir la habilidad para realizar migraciones de datos complejas, creando mapas de migración, planificando procedimientos de transformación, hasta su importación definitiva en la base de datos de destino.

Contenido

  • Teoría básica de la extracción y procesamiento de datos en la Web.
  • Tecnologías para la extracción de datos XML-XPath, funciones cURL, Objetos DOM, funciones file_get_contents, RESTful HTTP Get.
  • Técnicas de parsing XML + Práctica.
  • Técnicas de scraping orientadas a recursos Web + Práctica.
  • Introducción a la minería de datos y el big-data.

Evaluación

El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante la realización de ejercicios prácticos y un examen teórico. Los ejercicios prácticos supondrán entre el 40 y el 60% de la nota y el examen entre un 40 y un 60%.

Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica. La participación en clase y la implicación en la asignatura también se tendrán en cuenta para matizar la calificación final.

Bibliografía

Cunningham, H. (2005). Information extraction, automatic. Encyclopedia of language and linguistics,, 665-677.

Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.

Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.

Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).

Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.

Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)

Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.

Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.

Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.

Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.

Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.

Russom, P. (2006). Best practices in data migration. Renton/USA.

Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases Teóricas y Prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo B27/01/2025 - 16/05/2025LUNES 15:00 - 17:00B-22MANUEL BLAZQUEZ OCHANDO
MARTES 15:00 - 17:00B-22MANUEL BLAZQUEZ OCHANDO