earino · February 4, 2014 03:34
diff --git a/foo.py b/foo.py
 from pyspark.mllib.classification import LogisticRegressionWithSGD
 from numpy import array

 # Load and parse the data
 data = sc.textFile("mllib/data/sample_svm_data.txt")
 parsedData = data.map(lambda line: array([float(x) for x in line.split(' ')]))
 model = LogisticRegressionWithSGD.train(parsedData)

 # Build the model
 labelsAndPreds = parsedData.map(lambda point: (int(point.item(0)),
        model.predict(point.take(range(1, point.size)))))

 # Evaluating the model on training data
 trainErr = labelsAndPreds.filter(lambda (v, p): v != p).count() / float(parsedData.count())
 print("Training Error = " + str(trainErr))
	from pyspark.mllib.classification import LogisticRegressionWithSGD
	from numpy import array

	# Load and parse the data
	data = sc.textFile("mllib/data/sample_svm_data.txt")
	parsedData = data.map(lambda line: array([float(x) for x in line.split(' ')]))
	model = LogisticRegressionWithSGD.train(parsedData)

	# Build the model
	labelsAndPreds = parsedData.map(lambda point: (int(point.item(0)),
	model.predict(point.take(range(1, point.size)))))

	# Evaluating the model on training data
	trainErr = labelsAndPreds.filter(lambda (v, p): v != p).count() / float(parsedData.count())
	print("Training Error = " + str(trainErr))
No results found