saswata-dutta · August 26, 2020 15:04
diff --git a/spark-s3-path.py b/spark-s3-path.py
 path="s3://path-to-file/"

 sc = spark.sparkContext
 URI = sc._gateway.jvm.java.net.URI
 Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
 FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
 Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
 fs = FileSystem.get(URI(path), Configuration())
 files = fs.listStatus(Path(path))

 file_status = [(file.getPath().toString(), file.getPath().toString().split("/")[-1]) for file in files]
 file_status.sort(key = lambda tup: tup[1], reverse= True)

 print(file_status[0][0])
	path="s3://path-to-file/"

	sc = spark.sparkContext
	URI = sc._gateway.jvm.java.net.URI
	Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
	FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
	Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
	fs = FileSystem.get(URI(path), Configuration())
	files = fs.listStatus(Path(path))

	file_status = [(file.getPath().toString(), file.getPath().toString().split("/")[-1]) for file in files]
	file_status.sort(key = lambda tup: tup[1], reverse= True)

	print(file_status[0][0])