danish-rehman · July 14, 2016 06:30
diff --git a/processor_hour.py b/processor_hour.py
 import pytz
 import random
 import datetime
 import pyspark_cassandra

 from pyspark.streaming import StreamingContext
 from pyspark import SparkConf, SparkContext
 from pyspark_cassandra import streaming
 from operator import add

 keyspace, min_table, hour_table = "mykeyspace", "rollups_min", "rollups_hour"

 conf = SparkConf() \
 	    .setAppName("Cision realtime stats") \
 	    .setMaster("spark://SANM-MBP01L.local:7077") \
 	    .set("spark.cassandra.connection.host", "localhost") \
            .set("spark.eventLog.enabled", "true") \
            .set("spark.jars.packages", 'TargetHolding/pyspark-cassandra:0.3.5')

 sc = pyspark_cassandra.CassandraSparkContext(conf=conf)

 log4j = sc._jvm.org.apache.log4j
 log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)

 def add_tuples(a, b):
    return (a[0] + b[0], a[1],)

 def transform_arrange_row(data):
    row_key = data[0]
    row_key = row_key[:-2] + "0000"
    metric  = data[1][0]
    datetime_min = data[1][1]
    #datetime_min = datetime_min.replace(tzinfo = pytz.utc)
    return (row_key, datetime_min, metric)

 def map_val(row):
    dt = row['time']
    #dt = dt.replace(tzinfo = pytz.utc)
    dt = dt.replace(hour=dt.hour, minute=dt.minute, second=0, microsecond=0)
    #d_truncated = dt.replace(hour=dt.hour, minute=dt.minute, second=0, microsecond=0, tzinfo = pytz.utc)
    return (row['event_min'], (row['value'], dt,),)

 rdds = sc \
    .cassandraTable(keyspace, min_table) \
    .map(map_val) \
    .reduceByKey(add_tuples) \
    .map(transform_arrange_row)

 print rdds.collect()

 rdds.saveToCassandra(keyspace, hour_table)
diff --git a/processor_min.py b/processor_min.py
 import pytz
 import random
 import pyspark_cassandra

 from pyspark.streaming import StreamingContext
 from pyspark import SparkConf, SparkContext
 from pyspark_cassandra import streaming
 from datetime import datetime
 from operator import add

 keyspace, table = "mykeyspace", "rollups_min"

 conf = SparkConf() \
 	    .setAppName("Cision realtime stats") \
 	    .setMaster("spark://SANM-MBP01L.local:7077") \
 	    .set("spark.cassandra.connection.host", "localhost") \
            .set("spark.eventLog.enabled", "true") \
            .set("spark.jars.packages", 'TargetHolding/pyspark-cassandra:0.3.5')

 sc = pyspark_cassandra.CassandraSparkContext(conf=conf)

 ssc = StreamingContext(sc, 20)

 log4j = sc._jvm.org.apache.log4j
 log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)

 def split_ip(line):
    id_str, created_at = line.split()
    d = datetime.utcfromtimestamp(int(created_at))
    d = d.replace(tzinfo = pytz.utc)
    row_key = 'twitter-111-%s' % d.strftime('%Y%m%d%H%M')
    return (created_at, (1, row_key))

 def add_tuples(a, b):
    return (a[0] + b[0], a[1],)

 def make_row(data):
    row_key = data[1][1]
    metric  = data[1][0]
    d = datetime.utcfromtimestamp(int(data[0]))
    d = d.replace(tzinfo = pytz.utc)
    row_key = 'twitter-000-%s' % d.strftime('%Y%m%d%H%M')
    return (row_key, d, metric)

 rdds = ssc \
    .socketTextStream("10.0.0.235", 9999) \
    .map(split_ip) \
    .reduceByKey(add_tuples) \
    .map(make_row)

 rdds.pprint()

 rdds.saveToCassandra(keyspace, table)

 ssc.start()
 ssc.awaitTerminationOrTimeout(100)
 ssc.stop()
diff --git a/ROLLING_COUNT_STATS.md b/ROLLING_COUNT_STATS.md
	import pytz
	import random
	import datetime
	import pyspark_cassandra

	from pyspark.streaming import StreamingContext
	from pyspark import SparkConf, SparkContext
	from pyspark_cassandra import streaming
	from operator import add

	keyspace, min_table, hour_table = "mykeyspace", "rollups_min", "rollups_hour"

	conf = SparkConf() \
	.setAppName("Cision realtime stats") \
	.setMaster("spark://SANM-MBP01L.local:7077") \
	.set("spark.cassandra.connection.host", "localhost") \
	.set("spark.eventLog.enabled", "true") \
	.set("spark.jars.packages", 'TargetHolding/pyspark-cassandra:0.3.5')

	sc = pyspark_cassandra.CassandraSparkContext(conf=conf)

	log4j = sc._jvm.org.apache.log4j
	log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)

	def add_tuples(a, b):
	return (a[0] + b[0], a[1],)

	def transform_arrange_row(data):
	row_key = data[0]
	row_key = row_key[:-2] + "0000"
	metric = data[1][0]
	datetime_min = data[1][1]
	#datetime_min = datetime_min.replace(tzinfo = pytz.utc)
	return (row_key, datetime_min, metric)

	def map_val(row):
	dt = row['time']
	#dt = dt.replace(tzinfo = pytz.utc)
	dt = dt.replace(hour=dt.hour, minute=dt.minute, second=0, microsecond=0)
	#d_truncated = dt.replace(hour=dt.hour, minute=dt.minute, second=0, microsecond=0, tzinfo = pytz.utc)
	return (row['event_min'], (row['value'], dt,),)

	rdds = sc \
	.cassandraTable(keyspace, min_table) \
	.map(map_val) \
	.reduceByKey(add_tuples) \
	.map(transform_arrange_row)

	print rdds.collect()

	rdds.saveToCassandra(keyspace, hour_table)