snowindy · September 24, 2020 12:25 · ldnicolasmay · Sep 24, 2020
diff --git a/spark-create-rdd-from-s3-parallel.scala b/spark-create-rdd-from-s3-parallel.scala
 val s3Paths = "s3://yourbucket/path/to/file1.txt,s3://yourbucket/path/to/directory"
 val pageLength = 100
 val key = "YOURKEY"
 val secret = "YOUR_SECRET"

 import com.amazonaws.services.s3._, model._
 import com.amazonaws.auth.BasicAWSCredentials
 import com.amazonaws.services.s3.model.ObjectListing
 import scala.collection.JavaConverters._
 import scala.io.Source
 import java.io.InputStream
 import org.apache.spark.rdd.RDD

 def s3 = new AmazonS3Client(new BasicAWSCredentials(key, secret))
 var inputLinesRDD_raw:RDD[String] = sc.emptyRDD[String]
 s3Paths.split(",").foreach{ s3Path =>
  val regex = """(?i)^s3://([^/]+)/(.*)""".r
  val bucket = regex.findFirstMatchIn(s3Path).map(_ group 1).getOrElse(null)
  val prefix = regex.findFirstMatchIn(s3Path).map(_ group 2).getOrElse(null)
  println("Processing s3 resource: bucket '%s', prefix '%s'".format(bucket, prefix))
  @transient val request = new ListObjectsRequest()
  request.setBucketName(bucket)
  request.setPrefix(prefix)
  request.setMaxKeys(pageLength)
  @transient var listing = s3.listObjects(request)
  var proceed = true
  while (proceed){
    if (listing.getObjectSummaries.isEmpty){
      proceed = false
    }else{
      @transient val s3FileKeys = listing.getObjectSummaries.asScala.map(_.getKey).toList
      val inputLines = sc.parallelize(s3FileKeys).flatMap { key => Source.fromInputStream(s3.getObject(bucket, key).getObjectContent: InputStream).getLines }
      inputLinesRDD_raw = inputLinesRDD_raw.union(inputLines)      
      listing = s3.listNextBatchOfObjects(listing)
    }
  }
 }

 // TODO do something with inputLinesRDD_raw
	val s3Paths = "s3://yourbucket/path/to/file1.txt,s3://yourbucket/path/to/directory"
	val pageLength = 100
	val key = "YOURKEY"
	val secret = "YOUR_SECRET"

	import com.amazonaws.services.s3._, model._
	import com.amazonaws.auth.BasicAWSCredentials
	import com.amazonaws.services.s3.model.ObjectListing
	import scala.collection.JavaConverters._
	import scala.io.Source
	import java.io.InputStream
	import org.apache.spark.rdd.RDD

	def s3 = new AmazonS3Client(new BasicAWSCredentials(key, secret))
	var inputLinesRDD_raw:RDD[String] = sc.emptyRDD[String]
	s3Paths.split(",").foreach{ s3Path =>
	val regex = """(?i)^s3://([^/]+)/(.*)""".r
	val bucket = regex.findFirstMatchIn(s3Path).map(_ group 1).getOrElse(null)
	val prefix = regex.findFirstMatchIn(s3Path).map(_ group 2).getOrElse(null)
	println("Processing s3 resource: bucket '%s', prefix '%s'".format(bucket, prefix))
	@transient val request = new ListObjectsRequest()
	request.setBucketName(bucket)
	request.setPrefix(prefix)
	request.setMaxKeys(pageLength)
	@transient var listing = s3.listObjects(request)
	var proceed = true
	while (proceed){
	if (listing.getObjectSummaries.isEmpty){
	proceed = false
	}else{
	@transient val s3FileKeys = listing.getObjectSummaries.asScala.map(_.getKey).toList
	val inputLines = sc.parallelize(s3FileKeys).flatMap { key => Source.fromInputStream(s3.getObject(bucket, key).getObjectContent: InputStream).getLines }
	inputLinesRDD_raw = inputLinesRDD_raw.union(inputLines)
	listing = s3.listNextBatchOfObjects(listing)
	}
	}
	}

	// TODO do something with inputLinesRDD_raw