dapangmao · March 18, 2015 15:00
diff --git a/gistfile1.txt b/gistfile1.txt
 1. Add schema after becoming DataFrame 

 sqlCtx.inferSchema(rdd1)

 1. Add schema after becoming DataFrame

 from pyspark.sql import Row
 import os

 current_path = os.getcwd()

 rdd = sc.textFile("current_path" + '//class.txt')

 def transform(x):
    y = x.split()
    return str(y[0]), str(y[1]), int(y[2]), float(y[3]), float(y[4])


 varnames = Row("name", "sex", "age", "height", "weight")


 df = rdd.map(transform).map(lambda x: varnames(*x)).toDF()
	1. Add schema after becoming DataFrame

	sqlCtx.inferSchema(rdd1)

	1. Add schema after becoming DataFrame

	from pyspark.sql import Row
	import os

	current_path = os.getcwd()

	rdd = sc.textFile("current_path" + '//class.txt')

	def transform(x):
	y = x.split()
	return str(y[0]), str(y[1]), int(y[2]), float(y[3]), float(y[4])


	varnames = Row("name", "sex", "age", "height", "weight")


	df = rdd.map(transform).map(lambda x: varnames(*x)).toDF()