pr3ssh/agenda.md

Created April 27, 2018 07:26

Star (0) You must be signed in to star a gist
Fork (0) You must be signed in to fork a gist

Select an option

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/pr3ssh/203a97baab7d28ed361cca87a75a0a7f.js"></script>
Save pr3ssh/203a97baab7d28ed361cca87a75a0a7f to your computer and use it in GitHub Desktop.

Download ZIP

Agenda del Taller de Webscraping con Python y Beautiful Soup

Raw

TALLER DE WEBSCRAPING CON PYTHON

AGENDA

Intro a Python
Por qué webscraping
Beautiful Soup
El flujo básico del webscraping
Ejercicio: Países miembros de la Unión Europera
Ejercicio: Precios de las viviendas
Ejercicio: Tesis doctorales de la Universidad de Huelva
Ejercicio personal
Retos
Algunos proyectos (cívicos) interesantes
Enlaces de referencia

Intro a Python

Lenguaje interpretado
Debilmente tipado
Lenguaje imperativo (y orientado a objetos) con trazas funcionales
Muy bueno para aprender
Mejor para el mundo real
Gran comunidad
"Casi" infinito código contribuido por la comunidad
Virtualenvs
Pip packages
REPL (o iPython)

Por qué webscraping

Podemos ver la web como una gran base de datos

Beautiful Soup

Librería para webscraping
Escrita en Python
Fácil de usar
Educativa

El flujo básico

Seleccionar el contenido
Obtener la url inicial
Obtener el HTML de la url
Parsear el texto del HTML
Seleccionar datos
Procesar los datos
(Volver a 3 si hay más urls)

Ejercicio: Países miembros de la Unión Europera

Contenido: https://en.wikipedia.org/wiki/Member_state_of_the_European_Union
Código: https://github.com/pr3ssh/webscraper-eu-members

Ejercicio: Precios de las viviendas

Ejercicio: Tesis doctorales de la Universidad de Huelva

COntenido: https://github.com/pr3ssh/webscraper-phdthesis-uhu
Código: https://github.com/pr3ssh/webscraper-phdthesis-uhu

Ejercicio personal

Cada persona un ejercicio de webscraping
Basado en los los conocimientos adquiridos
Hay que justificar la selección de datos realizada
Si no da tiempo, se ha de especificar dónde se quería llegar

Retos

GET vs POST
Cabeceras (headers)
Cookies
Comportamiento robótico
Multi-hilo
Multi-máquinas
Banear IPs
Cambios en el HTML

Algunos proyectos (cívicos) interesantes

Enlaces de referencia

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment