marcovivero’s gists

marcovivero / lecture1.R

Created March 24, 2016 22:10

	### Regression Example

	f = function(x) {
	0.1 * cos(x)^2 + 0.25 * sin(x)^(3)
	}


	regressionData = data.frame(rnorm(5000), sd = 5)
	regressionData[,2] = f(regressionData[,1]) + rnorm(5000, sd = 0.1)
	names(regressionData) = c("x", "y")

marcovivero / bootstrapFunctions.R

Last active February 4, 2016 19:31

	### BOOTSTRAP FUNCTIONS ###

	# Install required packages if necessary.
	#install.packages("MCMCpack", "rootSolve")

	# Load required packages.
	library(ggplot2)

	# General function for computing boostrap samples for a numerical statistic.
	# Input: input data, number of bootstrap samples B, bootstrap sample size n,

marcovivero / quantileFunctions.R

Created January 22, 2016 01:01

	### QUANTILE FUNCTIONS ###

	# Load required packages.
	library(MCMCpack)
	library(rootSolve)

	# Define desired quantile.
	p = 0.9

	### EMPIRICAL QUANTILE ESTIMATION ###

marcovivero / cvCutoff.R

Last active January 21, 2016 14:59

	# 1. Load packages. Install any packages if necessary.
	library(ggplot2)
	library(MCMCpack)
	library(rootSolve)

	# 2. Extract data.
	cv = read.csv("<FILE_PATH>/customerValue.csv", header = F)[, 1]
	pcv = cv[which(cv > 0)]
	pcvDF = data.frame(pcv)
	names(pcvDF) = c("pcv")

marcovivero / LogRegLDAModel.scala

Created January 20, 2016 21:03

	class LogRegLDAModel (params : LogRegLDAParams) extends ClusteringModel {
	def transform(data : Data, featuresCol : String, clusterCol : String) : DataFrame = {

	// Define LR Model.

	val labels = Array("conversion", "churnThreeMonths", "churnSixMonths", "churnNineMonths")

	val lr : LogisticRegression = new LogisticRegression()
	.setFeaturesCol(featuresCol)
	.setRegParam(params.regParam)

marcovivero / LDAModel.scala

Created January 20, 2016 18:47

	import org.apache.spark.ml.classification.LogisticRegression
	import org.apache.spark.mllib.clustering.DistributedLDAModel
	import org.apache.spark.mllib.clustering.LDA
	import org.apache.spark.mllib.linalg.SparseVector
	import org.apache.spark.mllib.linalg.Vector
	import org.apache.spark.rdd.RDD
	import org.apache.spark.sql.DataFrame
	import org.apache.spark.sql.functions
	import org.apache.spark.sql.Row
	import org.apache.spark.sql.UserDefinedFunction

marcovivero / users.scala

Last active January 13, 2016 07:20

	package conversions

	import scala.math.max
	import scala.math.min

	import org.apache.spark.SparkContext
	import org.apache.spark.sql.DataFrame
	import org.apache.spark.sql.functions
	import org.apache.spark.sql.SQLContext
	import org.apache.spark.sql.UserDefinedFunction

marcovivero / cvCutoff.R

Created January 13, 2016 07:09

	# 1. Load packages. Install any packages if necessary.
	library(ggplot2)
	library(MCMCpack)
	library(rootSolve)

	# 2. Extract data.
	cv = read.csv("~/customerValue.csv", header = F)[, 1]
	pcv = cv[which(cv > 0)]
	pcvDF = data.frame(pcv)
	names(pcvDF) = c("pcv")

marcovivero / getScores.scala

Created September 16, 2015 20:53

	private def getScores(doc: String): Array[Double] = {
	// Helper function used to normalize probability scores.
	// Returns an object of type Array[Double]

	// Vectorize query,
	val x: Vector = pd.transform(doc)

	val z = scoreArray
	.map(e => innerProduct(e._2, x.toArray) + e._1)

marcovivero / StratifiedSplits.scala

Created August 5, 2015 20:40

	class StratifiedSplits (data : DataFrame, labelCol : String, numSplits : Int) extends Serializable {

	private val labels : Seq[Double] = data.select(labelCol).distinct.map(row => row.getDouble(0)).collect

	private val dataFrames : Seq[Array[DataFrame]] = labels.map(label => {
	val newData = data.filter(data(labelCol) === label)

	val splits : Array[Double] = (0 until numSplits).map(k => 1 / numSplits.toDouble).toArray

	newData.randomSplit(splits)