slothyrulez · April 6, 2018 10:38 · slothyrulez · Apr 6, 2018
diff --git a/simple_scrapping.py b/simple_scrapping.py
 # -*- coding: utf-8 -*-

 import pprint
 import lxml.html
 from urllib import request


 def get_page(url):
    return request.urlopen(url)


 def read_document(response):
    return response.read()


 def extract_data(document):
    # Generate document tree
    tree = lxml.html.fromstring(document)
    # Select tr with a th and td descendant from table
    elements = tree.xpath('//table[@class="infobox"]/tr[th and td]')
    # Extract data
    result = {}
    for element in elements:
        th, td = element.iterchildren()
        result.update({
            th.text_content(): td.text_content()
        })
    return result


 if __name__ == "__main__":
    languages = {
        "python": "https://es.wikipedia.org/wiki/Python",
        "Rust": "https://es.wikipedia.org/wiki/Rust_(lenguaje_de_programaci%C3%B3n)",
        "Java": "https://es.wikipedia.org/wiki/Java_(lenguaje_de_programaci%C3%B3n)",
        "Javascript": "https://es.wikipedia.org/wiki/JavaScript"
    }
    result = {}
    for name, url in languages.items():
        response = get_page(url)
        document = read_document(response)
        result.update({name: extract_data(document)})

    pprint.pprint(result)
	# -- coding: utf-8 --

	import pprint
	import lxml.html
	from urllib import request


	def get_page(url):
	return request.urlopen(url)


	def read_document(response):
	return response.read()


	def extract_data(document):
	# Generate document tree
	tree = lxml.html.fromstring(document)
	# Select tr with a th and td descendant from table
	elements = tree.xpath('//table[@class="infobox"]/tr[th and td]')
	# Extract data
	result = {}
	for element in elements:
	th, td = element.iterchildren()
	result.update({
	th.text_content(): td.text_content()
	})
	return result


	if __name__ == "__main__":
	languages = {
	"python": "https://es.wikipedia.org/wiki/Python",
	"Rust": "https://es.wikipedia.org/wiki/Rust_(lenguaje_de_programaci%C3%B3n)",
	"Java": "https://es.wikipedia.org/wiki/Java_(lenguaje_de_programaci%C3%B3n)",
	"Javascript": "https://es.wikipedia.org/wiki/JavaScript"
	}
	result = {}
	for name, url in languages.items():
	response = get_page(url)
	document = read_document(response)
	result.update({name: extract_data(document)})

	pprint.pprint(result)