Bryan Yang bryanyang0528

🎯

Focusing

https://www.linkedin.com/in/bryanyang0528/

bryanyang0528 / StreamingKMeans.scala

Last active August 29, 2015 14:13 — forked from freeman-lab/StreamingKMeans.scala

	package thunder.streaming

	import org.apache.spark.{SparkConf, Logging}
	import org.apache.spark.rdd.RDD
	import org.apache.spark.SparkContext._
	import org.apache.spark.streaming._
	import org.apache.spark.streaming.dstream.DStream
	import org.apache.spark.mllib.clustering.KMeansModel

	import scala.util.Random.nextDouble

bryanyang0528 / gist:0dc9df783725cc55cb71

Created December 8, 2014 16:15

	[int(x != y) for x, y in map(None, 'abd', 'aberf')]
	#[0, 0, 1, 1, 1]

bryanyang0528 / gist:e478a2b4d5437afb5e9a

Created December 8, 2014 16:14

boolean

bryanyang0528 / gist:31ed81202f78e9f70a95

Created December 8, 2014 16:13

	[(x,y) for x, y in map(None, 'abd', 'aberf')]
	#[('a', 'a'), ('b', 'b'), ('d', 'e'), (None, 'r'), (None, 'f')]

bryanyang0528 / gist:046df06bcd05425f687e

Created December 8, 2014 16:10

map

	map(None, 'abd', 'aberf')
	#[('a', 'a'), ('b', 'b'), ('d', 'e'), (None, 'r'), (None, 'f')]

bryanyang0528 / gist:ec4ab627da5fa4434056

Created December 4, 2014 15:01

unitest

	def test_get_entity_path(self):
	from gcloud.datastore.connection import datastore_pb
	DATASET_ID = 'DATASET'
	KIND = 'Kind'
	ID = 1234
	PATH = [{'kind': KIND, 'id': ID}]
	entity_pb = datastore_pb.Entity()
	entity_pb.key.partition_id.dataset_id = DATASET_ID
	path_element = entity_pb.key.path_element.add()
	path_element.kind = KIND

bryanyang0528 / gist:2a9b15388aa99dc78637

Created December 4, 2014 14:50

origin

	def get_entity(self, key):
	entities = self.get_entities([key])
	if entities:
	return entities[0]

bryanyang0528 / gist:5a266013cd06440f5e15

Created December 4, 2014 14:49

path

	def get_entity(self, key_or_path):
	if isinstance(key_or_path, Key):
	entities = self.get_entities([key_or_path])
	else:
	key = Key.from_path(*key_or_path)
	entities = self.get_entities([key])

	if entities:
	return entities[0]

bryanyang0528 / gist:234cb6a638da2db213ad

Last active August 29, 2015 14:09

RDD Sample

	val num = 1 to 100
	//num: scala.collection.immutable.Range.Inclusive = Range(1,2,3,...,100)

	val numRDD = sc.parallelize(num)
	//numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[11] at parallelize at <console>:14

	val numFileter = numRDD.filter(_ < 10)
	//numFileter: org.apache.spark.rdd.RDD[Int] = FilteredRDD[12] at filter at <console>:16

	val numMap = numFileter.map(_ + 10)

bryanyang0528 / gist:5bcc5428b333fe43f6ee

Created November 18, 2014 14:31

GroupByKey vs ReduceByKey

	//GroupByKey
	textPairsRDD.groupByKey().map(x => (x._1,x._2.sum)).collect()
	INFO SparkContext: Job finished: collect at <console>:17, took 0.227842137 s


	//ReduceByKey
	textPairsRDD.reduceByKey(_ + _).collect()
	SparkContext: Job finished: collect at <console>:17, took 0.107143156 s