victorkurauchi · October 11, 2017 16:14
diff --git a/spark.py b/spark.py
 #!/usr/bin/env python
 # -*- coding: utf-8 -*-
 import re

 dataset = sc.textFile("file:///home/cloudera/massa_de_exemplo_wol.txt")
 categories = []
 regex = r"(\/[^, z]*\.[a-z]\w)+"
    
 result = dataset.map(lambda line: re.search(regex, line).group(0).split('/')[1])
 # print result

 for category in result:
  if not category in categories:
    categories.append(category)

 # print categories
	#!/usr/bin/env python
	# -- coding: utf-8 --
	import re

	dataset = sc.textFile("file:///home/cloudera/massa_de_exemplo_wol.txt")
	categories = []
	regex = r"(\/[^, z]*\.[a-z]\w)+"

	result = dataset.map(lambda line: re.search(regex, line).group(0).split('/')[1])
	# print result

	for category in result:
	if not category in categories:
	categories.append(category)

	# print categories
No results found