paulmillr · March 10, 2012 16:03 · paulmillr · Mar 10, 2012
diff --git a/mapreduce.scala b/mapreduce.scala
 import com.cloudera.crunch._
 import com.cloudera.scrunch._

 class ScrunchWordCount {
  def wordCount(inputFile: String, outputFile: String) = {
    val pipeline = new Pipeline[ScrunchWordCount]
    pipeline.read(from.textFile(inputFile))
      .flatMap(_.toLowerCase.split("\\W+"))
      .filter(!_.isEmpty())
      .count
      .write(to.textFile(outputFile)) // Word counts
      .map((word, count) => (word.slice(0, 1), count))
      .groupByKey.combine(v => v.sum).materialize
    pipeline.done
  }
 }

 object ScrunchWordCount {
  def main(args: Array[String]) = {
     new ScrunchWordCount.wordCount(args(0), args(1))
  }
 }
	import com.cloudera.crunch._
	import com.cloudera.scrunch._

	class ScrunchWordCount {
	def wordCount(inputFile: String, outputFile: String) = {
	val pipeline = new Pipeline[ScrunchWordCount]
	pipeline.read(from.textFile(inputFile))
	.flatMap(_.toLowerCase.split("\\W+"))
	.filter(!_.isEmpty())
	.count
	.write(to.textFile(outputFile)) // Word counts
	.map((word, count) => (word.slice(0, 1), count))
	.groupByKey.combine(v => v.sum).materialize
	pipeline.done
	}
	}

	object ScrunchWordCount {
	def main(args: Array[String]) = {
	new ScrunchWordCount.wordCount(args(0), args(1))
	}
	}