jakirkham · October 9, 2019 23:51
diff --git a/ridge-cuml-cudf-sklearn.ipynb b/ridge-cuml-cudf-sklearn.ipynb
 {
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "import cupy as cp\n",
    "\n",
    "import pandas as pd\n",
    "import cudf as cd\n",
    "\n",
    "import numba\n",
    "import numba.cuda\n",
    "\n",
    "from cuml import Ridge as cumlRidge\n",
    "\n",
    "from sklearn import datasets, linear_model\n",
    "from sklearn.model_selection import train_test_split, GridSearchCV"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "cd.set_allocator(pool=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Load some data\n",
    "diabetes = datasets.load_diabetes()\n",
    "\n",
    "# Split the data into training/testing sets\n",
    "X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2)\n",
    "\n",
    "# Duplicate data to make bigger\n",
    "dupN = int(1e5)\n",
    "X_train_dup = np.array(np.vstack(dupN * [X_train]))\n",
    "y_train_dup = np.array(np.hstack(dupN * [y_train]))\n",
    "\n",
    "# Ensure data is Fortran ordered\n",
    "X_train_dup, X_test, y_train_dup, y_test = map(np.asfortranarray,\n",
    "                                               [X_train_dup, X_test, y_train_dup, y_test])\n",
    "\n",
    "# Move to GPU\n",
    "cu_X_train_dup, cu_X_test, cu_y_train_dup, cu_y_test = map(cp.asarray,\n",
    "                                                           [X_train_dup, X_test, y_train_dup, y_test])\n",
    "cp.cuda.Stream().synchronize()\n",
    "\n",
    "# Create dataframes\n",
    "gdf_X_train_dup = cd.DataFrame(((\"fea%d\" % i, cu_X_train_dup[:,i]) for i in range(cu_X_train_dup.shape[1])))\n",
    "gdf_y_train_dup = cd.DataFrame(dict(train=y_train_dup))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "fit_intercept = True\n",
    "normalize = False\n",
    "alpha = np.array([1.0])\n",
    "\n",
    "params = {'alpha': np.logspace(-3, -1, 10)}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "clf = linear_model.Ridge(alpha=alpha, fit_intercept=fit_intercept, normalize=normalize, solver='cholesky')\n",
    "cu_clf = cumlRidge(alpha=alpha, fit_intercept=fit_intercept, normalize=normalize, solver=\"eig\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%%time\n",
    "sk_grid = GridSearchCV(clf, params, cv=5, iid=False, n_jobs=-1)\n",
    "sk_grid.fit(X_train_dup, y_train_dup)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%%time\n",
    "cu_sk_grid = GridSearchCV(cu_clf, params, cv=5, iid=False)\n",
    "cu_sk_grid.fit(gdf_X_train_dup, gdf_y_train_dup)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
 }
	{
	"cells": [
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"import numpy as np\n",
	"import cupy as cp\n",
	"\n",
	"import pandas as pd\n",
	"import cudf as cd\n",
	"\n",
	"import numba\n",
	"import numba.cuda\n",
	"\n",
	"from cuml import Ridge as cumlRidge\n",
	"\n",
	"from sklearn import datasets, linear_model\n",
	"from sklearn.model_selection import train_test_split, GridSearchCV"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"cd.set_allocator(pool=True)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"# Load some data\n",
	"diabetes = datasets.load_diabetes()\n",
	"\n",
	"# Split the data into training/testing sets\n",
	"X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2)\n",
	"\n",
	"# Duplicate data to make bigger\n",
	"dupN = int(1e5)\n",
	"X_train_dup = np.array(np.vstack(dupN * [X_train]))\n",
	"y_train_dup = np.array(np.hstack(dupN * [y_train]))\n",
	"\n",
	"# Ensure data is Fortran ordered\n",
	"X_train_dup, X_test, y_train_dup, y_test = map(np.asfortranarray,\n",
	" [X_train_dup, X_test, y_train_dup, y_test])\n",
	"\n",
	"# Move to GPU\n",
	"cu_X_train_dup, cu_X_test, cu_y_train_dup, cu_y_test = map(cp.asarray,\n",
	" [X_train_dup, X_test, y_train_dup, y_test])\n",
	"cp.cuda.Stream().synchronize()\n",
	"\n",
	"# Create dataframes\n",
	"gdf_X_train_dup = cd.DataFrame(((\"fea%d\" % i, cu_X_train_dup[:,i]) for i in range(cu_X_train_dup.shape[1])))\n",
	"gdf_y_train_dup = cd.DataFrame(dict(train=y_train_dup))"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"fit_intercept = True\n",
	"normalize = False\n",
	"alpha = np.array([1.0])\n",
	"\n",
	"params = {'alpha': np.logspace(-3, -1, 10)}"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"clf = linear_model.Ridge(alpha=alpha, fit_intercept=fit_intercept, normalize=normalize, solver='cholesky')\n",
	"cu_clf = cumlRidge(alpha=alpha, fit_intercept=fit_intercept, normalize=normalize, solver=\"eig\")"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"%%time\n",
	"sk_grid = GridSearchCV(clf, params, cv=5, iid=False, n_jobs=-1)\n",
	"sk_grid.fit(X_train_dup, y_train_dup)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"%%time\n",
	"cu_sk_grid = GridSearchCV(cu_clf, params, cv=5, iid=False)\n",
	"cu_sk_grid.fit(gdf_X_train_dup, gdf_y_train_dup)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": []
	}
	],
	"metadata": {
	"kernelspec": {
	"display_name": "Python 3",
	"language": "python",
	"name": "python3"
	},
	"language_info": {
	"codemirror_mode": {
	"name": "ipython",
	"version": 3
	},
	"file_extension": ".py",
	"mimetype": "text/x-python",
	"name": "python",
	"nbconvert_exporter": "python",
	"pygments_lexer": "ipython3",
	"version": "3.7.3"
	}
	},
	"nbformat": 4,
	"nbformat_minor": 4
	}
No results found