- Intro a Python
- Por qué webscraping
- Beautiful Soup
- El flujo básico del webscraping
- Ejercicio: Países miembros de la Unión Europera
- Ejercicio: Precios de las viviendas
- Ejercicio: Tesis doctorales de la Universidad de Huelva
- Ejercicio personal
- Retos
- Algunos proyectos (cívicos) interesantes
- Enlaces de referencia
-
Lenguaje interpretado
-
Debilmente tipado
-
Lenguaje imperativo (y orientado a objetos) con trazas funcionales
-
Muy bueno para aprender
-
Mejor para el mundo real
-
Gran comunidad
-
"Casi" infinito código contribuido por la comunidad
-
Virtualenvs
-
Pip packages
-
REPL (o iPython)
Podemos ver la web como una gran base de datos
- Librería para webscraping
- Escrita en Python
- Fácil de usar
- Educativa
- Seleccionar el contenido
- Obtener la url inicial
- Obtener el HTML de la url
- Parsear el texto del HTML
- Seleccionar datos
- Procesar los datos
- (Volver a 3 si hay más urls)
- Contenido: https://en.wikipedia.org/wiki/Member_state_of_the_European_Union
- Código: https://github.com/pr3ssh/webscraper-eu-members
- Contenido: https://www.idealista.com/alquiler-viviendas/huelva/centro/
- Código; https://github.com/pr3ssh/webscraper-idealista-viviendas-alquiler
- COntenido: https://github.com/pr3ssh/webscraper-phdthesis-uhu
- Código: https://github.com/pr3ssh/webscraper-phdthesis-uhu
- Cada persona un ejercicio de webscraping
- Basado en los los conocimientos adquiridos
- Hay que justificar la selección de datos realizada
- Si no da tiempo, se ha de especificar dónde se quería llegar
- GET vs POST
- Cabeceras (headers)
- Cookies
- Comportamiento robótico
- Multi-hilo
- Multi-máquinas
- Banear IPs
- Cambios en el HTML