Angelica Dietzel angelicadietzel

🏠

Working from home

angelicadietzel / page.py

Created March 6, 2020 07:31

	import requests
	from requests import get
	from bs4 import BeautifulSoup
	import pandas as pd
	import numpy as np

	url = "https://www.imdb.com/search/title/?groups=top_1000&ref_=adv_prv"
	headers = {"Accept-Language": "en-US, en;q=0.5"}
	results = requests.get(url, headers=headers)

angelicadietzel / to_csv.py

Created March 2, 2020 01:53

movies.to_csv('movies.csv')

angelicadietzel / pagescraper.py

Last active March 1, 2020 23:20

	import requests
	from requests import get
	from bs4 import BeautifulSoup
	import pandas as pd
	import numpy as np

	url = "https://www.imdb.com/search/title/?groups=top_1000&ref_=adv_prv"
	headers = {"Accept-Language": "en-US, en;q=0.5"}
	results = requests.get(url, headers=headers)

angelicadietzel / printcleanandconverted.py

Created March 1, 2020 22:28

	print(movies)
	print(movies.dtypes)

angelicadietzel / cleaninggross.py

Created March 1, 2020 21:55

	movies['us_grossMillions'] = movies['us_grossMillions'].map(lambda x: x.lstrip('$').rstrip('M'))

	movies['us_grossMillions'] = pd.to_numeric(movies['us_grossMillions'], errors='coerce')

angelicadietzel / cleanvotes.py

Created March 1, 2020 09:18

movies['votes'] = movies['votes'].str.replace(',', '').astype(int)

angelicadietzel / cleaningmetascore.py

Created March 1, 2020 09:10

movies['metascore'] = movies['metascore'].astype(int)

angelicadietzel / datatypes.py

Created March 1, 2020 08:07

print(movies.dtypes)

angelicadietzel / cleantime.py

Created March 1, 2020 07:32

movies['timeMin'] = movies['timeMin'].str.extract('(\d+)').astype(int)

angelicadietzel / cleanyear.py

Last active March 1, 2020 06:20

movies['year'] = movies['year'].str.extract('(\d+)').astype(int)