Dipanjan (DJ) Sarkar dipanjanS

Data Science Lead, Google Dev Expert - ML, Author

dipanjanS / spark_log_analytics_24.py

Created April 9, 2019 16:54

	from pyspark.sql import functions as F

	(logs_df.agg(F.min(logs_df['content_size']).alias('min_content_size'),
	F.max(logs_df['content_size']).alias('max_content_size'),
	F.mean(logs_df['content_size']).alias('mean_content_size'),
	F.stddev(logs_df['content_size']).alias('std_content_size'),
	F.count(logs_df['content_size']).alias('count_content_size'))
	.toPandas())

dipanjanS / spark_log_analytics_23.py

Created April 9, 2019 16:52

	content_size_summary_df = logs_df.describe(['content_size'])
	content_size_summary_df.toPandas()

dipanjanS / spark_log_analytics_22.py

Created April 9, 2019 16:45

	udf_parse_time = udf(parse_clf_time)

	logs_df = (logs_df.select('*', udf_parse_time(logs_df['timestamp'])
	.cast('timestamp')
	.alias('time'))
	.drop('timestamp')
	logs_df.show(10, truncate=True)

dipanjanS / spark_log_analytics_21.py

Created April 9, 2019 16:40

	from pyspark.sql.functions import udf

	month_map = {
	'Jan': 1, 'Feb': 2, 'Mar':3, 'Apr':4, 'May':5, 'Jun':6, 'Jul':7,
	'Aug':8, 'Sep': 9, 'Oct':10, 'Nov': 11, 'Dec': 12
	}

	def parse_clf_time(text):
	""" Convert Common Log time format into a Python datetime object
	Args:

dipanjanS / spark_log_analytics_20.py

Created April 6, 2019 23:06

	logs_df = logs_df.na.fill({'content_size': 0})
	exprs = [count_null(col_name) for col_name in logs_df.columns]
	logs_df.agg(*exprs).show()

dipanjanS / spark_log_analytics_19.py

Created April 6, 2019 23:03

	null_content_size_df = base_df.filter(~base_df['value'].rlike(r'\s\d+$'))
	null_content_size_df.count()

dipanjanS / spark_log_analytics_18.py

Created April 6, 2019 23:00

	logs_df = logs_df[logs_df['status'].isNotNull()]
	exprs = [count_null(col_name) for col_name in logs_df.columns]
	logs_df.agg(*exprs).show()

dipanjanS / spark_log_analytics_17.py

Created April 6, 2019 22:55

	bad_status_df = null_status_df.select(regexp_extract('value', host_pattern, 1).alias('host'),
	regexp_extract('value', ts_pattern, 1).alias('timestamp'),
	regexp_extract('value', method_uri_protocol_pattern, 1).alias('method'),
	regexp_extract('value', method_uri_protocol_pattern, 2).alias('endpoint'),
	regexp_extract('value', method_uri_protocol_pattern, 3).alias('protocol'),
	regexp_extract('value', status_pattern, 1).cast('integer').alias('status'),
	regexp_extract('value', content_size_pattern, 1).cast('integer').alias('content_size'))
	bad_status_df.show(truncate=False)

dipanjanS / spark_log_analytics_16.py

Created April 6, 2019 22:52

	null_status_df = base_df.filter(~base_df['value'].rlike(r'\s(\d{3})\s'))
	null_status_df.count()

dipanjanS / spark_log_analytics_15.py

Created April 6, 2019 22:43

	from pyspark.sql.functions import col
	from pyspark.sql.functions import sum as spark_sum

	def count_null(col_name):
	return spark_sum(col(col_name).isNull().cast('integer')).alias(col_name)

	# Build up a list of column expressions, one per column.
	exprs = [count_null(col_name) for col_name in logs_df.columns]

	# Run the aggregation. The *exprs converts the list of expressions into