dportabella · November 8, 2016 21:42
diff --git a/deserialize_hadoop_sequence_file.scala b/deserialize_hadoop_sequence_file.scala
 // libraryDependencies += "org.apache.hadoop" % "hadoop-common" % "2.7.3"

 import java.io.{ByteArrayInputStream, ObjectInputStream}

 import org.apache.hadoop.conf._
 import org.apache.hadoop.fs._
 import org.apache.hadoop.io._

 val f = "/path/to/part-00000"
 val reader = new SequenceFile.Reader(new Configuration(), SequenceFile.Reader.file(new Path(f)))
 try {
  val key = NullWritable.get
  val value = new BytesWritable
  while (reader.next(key, value)) {
    val values = new ObjectInputStream(new ByteArrayInputStream(value.getBytes)).readObject().asInstanceOf[Array[_]] // or specify the type if you know it
    values.foreach(println)
  }
 } finally reader.close()
	// libraryDependencies += "org.apache.hadoop" % "hadoop-common" % "2.7.3"

	import java.io.{ByteArrayInputStream, ObjectInputStream}

	import org.apache.hadoop.conf._
	import org.apache.hadoop.fs._
	import org.apache.hadoop.io._

	val f = "/path/to/part-00000"
	val reader = new SequenceFile.Reader(new Configuration(), SequenceFile.Reader.file(new Path(f)))
	try {
	val key = NullWritable.get
	val value = new BytesWritable
	while (reader.next(key, value)) {
	val values = new ObjectInputStream(new ByteArrayInputStream(value.getBytes)).readObject().asInstanceOf[Array[_]] // or specify the type if you know it
	values.foreach(println)
	}
	} finally reader.close()