juanpabloaj · June 18, 2018 13:02 · rhiever · Sep 3, 2016 · rhiever · Sep 3, 2016
diff --git a/README.md b/README.md
diff --git a/bigquery_pip_by_major_version.sql b/bigquery_pip_by_major_version.sql
 -- https://bigquery.cloud.google.com/dataset/the-psf:pypi
 SELECT concat(
  date(timestamp), '_',  REGEXP_EXTRACT(details.python, r'^([2-3]).[0-9].')
 ) as date_python, count(details.python) as downloads
 FROM (TABLE_DATE_RANGE([the-psf:pypi.downloads], 
                TIMESTAMP('2016-06-26'), 
                TIMESTAMP('2016-08-31'))) 
 group by date_python
diff --git a/bigquery_pip_by_minor_version.sql b/bigquery_pip_by_minor_version.sql
 -- https://bigquery.cloud.google.com/dataset/the-psf:pypi
 -- https://bigquery.cloud.google.com/table/the-psf:pypi.downloads20160903
 SELECT concat(
  date(timestamp), '_',  REGEXP_EXTRACT(details.python, r'^([2-3].[0-9]).')
 ) as date_python, count(details.python) as downloads
 FROM (TABLE_DATE_RANGE([the-psf:pypi.downloads], 
                TIMESTAMP('2016-06-26'), 
                TIMESTAMP('2016-08-31'))) 
 group by date_python
diff --git a/plot_python_downloads.py b/plot_python_downloads.py
 #!/usr/bin/python
 # -*- coding: utf-8 -*-

 # To plot chart from csv generated by bigquery

 import pandas as pd
 import matplotlib.pyplot as plt

 plt.figure()

 ts = pd.read_csv('download_python_version_by_day.csv')

 ts['date'] = pd.to_datetime(ts['date'])


 df = ts.pivot(index='date', columns='python', values='downloads')

 #df.plot()
 #df[[2.6, 2.7, 3.1, 3.2, 3.3, 3.4, 3.5]].plot()
 df[[2.6, 3.1, 3.2, 3.3, 3.4, 3.5]].plot()

 plt.show()
diff --git a/plot_python_downloads_by_major_version.py b/plot_python_downloads_by_major_version.py
 #!/usr/bin/python
 # -*- coding: utf-8 -*-
 import pandas as pd
 import matplotlib.pyplot as plt

 ts = pd.read_csv(
    'download_python_major_version_by_day.csv', parse_dates=True,
 )

 ts['date'] = pd.to_datetime(ts['date'])


 df = ts.pivot(index='date', columns='python', values='downloads')

 ax = df[[2, 3]].plot(logy=True, figsize=(12, 9))

 ax.set_ylabel('log(downloads)')
 ax.set_title('Python packages downloads')

 plt.show()
	-- https://bigquery.cloud.google.com/dataset/the-psf:pypi
	SELECT concat(
	date(timestamp), '_', REGEXP_EXTRACT(details.python, r'^([2-3]).[0-9].')
	) as date_python, count(details.python) as downloads
	FROM (TABLE_DATE_RANGE([the-psf:pypi.downloads],
	TIMESTAMP('2016-06-26'),
	TIMESTAMP('2016-08-31')))
	group by date_python
	-- https://bigquery.cloud.google.com/dataset/the-psf:pypi
	-- https://bigquery.cloud.google.com/table/the-psf:pypi.downloads20160903
	SELECT concat(
	date(timestamp), '_', REGEXP_EXTRACT(details.python, r'^([2-3].[0-9]).')
	) as date_python, count(details.python) as downloads
	FROM (TABLE_DATE_RANGE([the-psf:pypi.downloads],
	TIMESTAMP('2016-06-26'),
	TIMESTAMP('2016-08-31')))
	group by date_python
	#!/usr/bin/python
	# -- coding: utf-8 --

	# To plot chart from csv generated by bigquery

	import pandas as pd
	import matplotlib.pyplot as plt

	plt.figure()

	ts = pd.read_csv('download_python_version_by_day.csv')

	ts['date'] = pd.to_datetime(ts['date'])


	df = ts.pivot(index='date', columns='python', values='downloads')

	#df.plot()
	#df[[2.6, 2.7, 3.1, 3.2, 3.3, 3.4, 3.5]].plot()
	df[[2.6, 3.1, 3.2, 3.3, 3.4, 3.5]].plot()

	plt.show()