ettorerizza · January 16, 2020 09:40
diff --git a/sms_spam_detector.py b/sms_spam_detector.py
 # Source : https://pythonprogramminglanguage.com/logistic-regression-spam-filter/
 # dataset : https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

 import pandas as pd
 import numpy as np
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model.logistic import LogisticRegression
 from sklearn.model_selection import train_test_split, cross_val_score

 df = pd.read_csv(r'C:/Users/student/Desktop/spam detect logistic regression python/SMSSpamCollection', delimiter='\t',header=None)

 X_train_raw, X_test_raw, y_train, y_test = train_test_split(df[1],df[0])

 vectorizer = TfidfVectorizer()
 X_train = vectorizer.fit_transform( X_train_raw )
 classifier = LogisticRegression()
 classifier.fit( X_train, y_train )

 text = ['URGENT! Win a prize!', 'Hello, how are you?']

 X_test = vectorizer.transform( text )
 predictions = classifier.predict( X_test )

 print(predictions)

 """
 > ['spam', 'ham']
 """
	# Source : https://pythonprogramminglanguage.com/logistic-regression-spam-filter/
	# dataset : https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

	import pandas as pd
	import numpy as np
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.linear_model.logistic import LogisticRegression
	from sklearn.model_selection import train_test_split, cross_val_score

	df = pd.read_csv(r'C:/Users/student/Desktop/spam detect logistic regression python/SMSSpamCollection', delimiter='\t',header=None)

	X_train_raw, X_test_raw, y_train, y_test = train_test_split(df[1],df[0])

	vectorizer = TfidfVectorizer()
	X_train = vectorizer.fit_transform( X_train_raw )
	classifier = LogisticRegression()
	classifier.fit( X_train, y_train )

	text = ['URGENT! Win a prize!', 'Hello, how are you?']

	X_test = vectorizer.transform( text )
	predictions = classifier.predict( X_test )

	print(predictions)

	"""
	> ['spam', 'ham']
	"""
No results found