solidpple · July 25, 2016 07:19
diff --git a/partitionExample01.scala b/partitionExample01.scala
 val sc = new SparkContext(...)
 val userData = sc.sequenceFile[UserId, UserInfo]("hdfs://...").persist()

 // 5분간의 이벤트 로그 파일을 처리하기 위해 주기적으로 불리는 함수
 // 여기서 처리하는 시퀀스 파일이 (UserId, LinkInfo) 쌍을 갖고 있다.
 def processNewLogs(logFileName: String) {
 	val events = sc.sequenceFile[UserId, LinkInfo](logFileName)
 	val joined = userData.join(events) // (UserId, (UserInfo, LinkInfo)) RDD

 	val offTopicVisits = joined.filter {
 		case (userId, (userInfo, linkInfo)) =>
 		!userInfo.topics.contains(linkInfo.topic)
 	}.count()

 	println("Number of visits to non-subscribed topics: " + offTopicVisits)
 }

diff --git a/partitionExample02.scala b/partitionExample02.scala
 val sc = new SparkContext(...) 
 val userData = sc.sequenceFile[UserId, UserInfo]("hdfs://...")
        .partitionBy(new HashPartitioner(100))
 				.persist()
diff --git a/partitionExample03.scala b/partitionExample03.scala
 val pairs = sc.parallelize(List((1, 1), (2, 2), (3, 3)))
 pairs.partitioner
 import org.apache.spark.HashPartitioner
 val partitioned = pairs.partitionBy(new HashPartitioner(2)).persist()
 partitioned.partitioner
	val sc = new SparkContext(...)
	val userData = sc.sequenceFile[UserId, UserInfo]("hdfs://...").persist()

	// 5분간의 이벤트 로그 파일을 처리하기 위해 주기적으로 불리는 함수
	// 여기서 처리하는 시퀀스 파일이 (UserId, LinkInfo) 쌍을 갖고 있다.
	def processNewLogs(logFileName: String) {
	val events = sc.sequenceFile[UserId, LinkInfo](logFileName)
	val joined = userData.join(events) // (UserId, (UserInfo, LinkInfo)) RDD

	val offTopicVisits = joined.filter {
	case (userId, (userInfo, linkInfo)) =>
	!userInfo.topics.contains(linkInfo.topic)
	}.count()

	println("Number of visits to non-subscribed topics: " + offTopicVisits)
	}
	val sc = new SparkContext(...)
	val userData = sc.sequenceFile[UserId, UserInfo]("hdfs://...")
	.partitionBy(new HashPartitioner(100))
	.persist()
	val pairs = sc.parallelize(List((1, 1), (2, 2), (3, 3)))
	pairs.partitioner
	import org.apache.spark.HashPartitioner
	val partitioned = pairs.partitionBy(new HashPartitioner(2)).persist()
	partitioned.partitioner