jnothman · March 22, 2017 11:33
diff --git a/bibtex.py b/bibtex.py
 """
 ============================
 Classifier Chain
 ============================
 An ensemble of 10 logistic regression classifier chains trained on a
 multi-label dataset achieves a higher Jaccard similarity score than a set
 of independently trained logistic regression models.

 """

 import numpy as np
 from sklearn.multioutput import ClassifierChain
 from sklearn.multiclass import OneVsRestClassifier
 from sklearn.metrics import jaccard_similarity_score
 from sklearn.linear_model import LogisticRegression
 from scipy.sparse import coo_matrix
 import arff  # pypi:liac-arff


 def load_bibtex(path):
    bibtex = arff.load(open(path),
                       return_type=arff.COO, encode_nominal=True)
    data, row, col = bibtex['data']
    M = coo_matrix((np.array(data), (np.array(row), np.array(col))),
                   shape=(len(data), len(bibtex['attributes']))).tocsc()
    y_mask = np.array([attr.startswith('TAG_')
                       for attr, _ in bibtex['attributes']])
    Y = M[:, y_mask][:10000].A
    X = M[:, ~y_mask][:10000]
    print(X.shape, Y.shape)
    return X, Y


 X_train, Y_train = load_bibtex('/Users/joel/Downloads/bibtex-train.arff')
 X_test, Y_test = load_bibtex('/Users/joel/Downloads/bibtex-test.arff')

 # Fit an independent logistic regression model for each class using the
 # OneVsRestClassifier wrapper
 ovr = OneVsRestClassifier(LogisticRegression())
 ovr.fit(X_train, Y_train)
 Y_pred_ovr = ovr.predict(X_test)
 print("Independent models Jaccard similarity score:",
      jaccard_similarity_score(Y_test, Y_pred_ovr))

 # Fit an ensemble of logistic regression classifier chains and take the
 # take the average prediction of all the chains
 chains = [ClassifierChain(LogisticRegression(), cv=3, order='random')
          for i in range(10)]
 scores = []
 Y_preds = []
 for chain in chains:
    Y_pred = chain.fit(X_train, Y_train).predict(X_test)
    scores.append(jaccard_similarity_score(Y_test, Y_pred))
    print(scores[-1])
    Y_preds.append(Y_pred)
 Y_pred_ensemble = np.array(Y_preds).mean(axis=0)
 print("Classifier chain ensemble Jaccard similarity score:",
      jaccard_similarity_score(Y_test, Y_pred_ensemble >= .5))
	"""
	============================
	Classifier Chain
	============================
	An ensemble of 10 logistic regression classifier chains trained on a
	multi-label dataset achieves a higher Jaccard similarity score than a set
	of independently trained logistic regression models.

	"""

	import numpy as np
	from sklearn.multioutput import ClassifierChain
	from sklearn.multiclass import OneVsRestClassifier
	from sklearn.metrics import jaccard_similarity_score
	from sklearn.linear_model import LogisticRegression
	from scipy.sparse import coo_matrix
	import arff # pypi:liac-arff


	def load_bibtex(path):
	bibtex = arff.load(open(path),
	return_type=arff.COO, encode_nominal=True)
	data, row, col = bibtex['data']
	M = coo_matrix((np.array(data), (np.array(row), np.array(col))),
	shape=(len(data), len(bibtex['attributes']))).tocsc()
	y_mask = np.array([attr.startswith('TAG_')
	for attr, _ in bibtex['attributes']])
	Y = M[:, y_mask][:10000].A
	X = M[:, ~y_mask][:10000]
	print(X.shape, Y.shape)
	return X, Y


	X_train, Y_train = load_bibtex('/Users/joel/Downloads/bibtex-train.arff')
	X_test, Y_test = load_bibtex('/Users/joel/Downloads/bibtex-test.arff')

	# Fit an independent logistic regression model for each class using the
	# OneVsRestClassifier wrapper
	ovr = OneVsRestClassifier(LogisticRegression())
	ovr.fit(X_train, Y_train)
	Y_pred_ovr = ovr.predict(X_test)
	print("Independent models Jaccard similarity score:",
	jaccard_similarity_score(Y_test, Y_pred_ovr))

	# Fit an ensemble of logistic regression classifier chains and take the
	# take the average prediction of all the chains
	chains = [ClassifierChain(LogisticRegression(), cv=3, order='random')
	for i in range(10)]
	scores = []
	Y_preds = []
	for chain in chains:
	Y_pred = chain.fit(X_train, Y_train).predict(X_test)
	scores.append(jaccard_similarity_score(Y_test, Y_pred))
	print(scores[-1])
	Y_preds.append(Y_pred)
	Y_pred_ensemble = np.array(Y_preds).mean(axis=0)
	print("Classifier chain ensemble Jaccard similarity score:",
	jaccard_similarity_score(Y_test, Y_pred_ensemble >= .5))