Bryan Yang bryanyang0528

🎯

Focusing

https://www.linkedin.com/in/bryanyang0528/

bryanyang0528 / gist:48463a7a280c0f6b8064

Created November 18, 2014 14:22

readfile

	val text = sc.textFile("README.md")
	val textPairsRDD = text.flatMap(_.split(" ")).map((_,1))
	textPairsRDD.take(10)
	//res2: Array[(String, Int)] = Array((#,1), (Apache,1), (Spark,1), ("",1),
	//(Spark,1), (is,1), (a,1), (fast,1), (and,1), (general,1))

bryanyang0528 / sum.py

Created November 17, 2014 16:50

sum.py

bryanyang0528 / logistic_gradient_descent.R

Last active August 29, 2015 14:08 — forked from smc77/logistic_gradient_descent.R

	num.iterations <- 1000

	# Download South African heart disease data
	sa.heart <- read.table("http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/SAheart.data", sep=",",head=T,row.names=1)

	x <- sa.heart[,c("age", "ldl")]
	y <- sa.heart$chd
	plot(x, pch=21, bg=c("red","green")[factor(y)])

	# Function to standardize input values

bryanyang0528 / gist:ef4db632626878b1f915

Created October 25, 2014 10:46

$python kmean.py [input_filename] [output_filename] [numbers_of_group]

bryanyang0528 / kmeans.py

Last active August 29, 2015 14:08

	#! /usr/bin/env python
	# -- coding: utf-8 --
	# Above the run-comment and file encoding comment.
	#----below is Bryan's code----
	# for caculate the minnimal distance between every bill and center of group
	#

	import sys
	import numpy as np
	import scipy

bryanyang0528 / gist:f7f59bdeb3d46c1a00cf

Created October 10, 2014 14:13

	raw_sub = sc.textFile("/Users/bryanyang/Documents/Data/Ads Prediction/random_submission.csv",1)
	raw_sub.cache() ##代表要將資料load到記憶體中
	raw_sub.count() ##一樣要執行計算指令後才會load資料

bryanyang0528 / gist:5a3a614171287d616458

Created October 10, 2014 13:55

	raw_sub = sc.textFile("/Users/bryanyang/Documents/Data/Ads Prediction/random_submission.csv",1)
	raw_sub.count()

bryanyang0528 / gist:eb6ab4b750feaeb7525b

Created October 9, 2014 16:57

	In [5]:
	raw_ratings = sc.textFile('/Users/bryanyang/Documents/Data/Movie Rating/ratings.dat',10) ##分成10份
	raw_ratings.setName("raw ratings 10")
	raw_ratings.cache()
	Out[5]:
	raw ratings 10 MappedRDD[6] at textFile at NativeMethodAccessorImpl.java:-2

	In [6]:
	entries = raw_ratings.count()
	print "%s entries in ratings" %entries

bryanyang0528 / gist:94c61bd8c43f03d49f5d

Created October 9, 2014 16:39

	In [3]:
	raw_ratings = sc.textFile('/Users/bryanyang/Documents/Data/Movie Rating/ratings.dat')
	raw_ratings.setName("raw ratings")
	raw_ratings.cache()

	Out[3]:
	raw ratings MappedRDD[3] at textFile at NativeMethodAccessorImpl.java:-2

	In [4]:
	entries = raw_ratings.count()

bryanyang0528 / gist:dafee366632243837317

Last active August 29, 2015 14:07

	In [3]:
	raw_ratings = sc.textFile('/Users/bryanyang/Documents/Data/Movie Rating/ratings.dat',10)
	raw_ratings.setName("raw ratings")
	type(raw_ratings)

	Out[3]:
	pyspark.rdd.RDD