snakeye · June 21, 2023 12:43 · snakeye · Jun 21, 2023
diff --git a/relevance.py b/relevance.py
 import argparse
 import logging
 import os
 import string
 from typing import List

 import frontmatter
 import nltk
 import numpy as np
 from nltk.corpus import stopwords
 from nltk.stem import WordNetLemmatizer
 from nltk.tokenize import word_tokenize
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity

 logger = logging.getLogger(__name__)

 nltk.download("stopwords", quiet=True)
 nltk.download("wordnet", quiet=True)


 def collect_md_files(directory: str) -> List[str]:
    md_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".md"):
                md_files.append(os.path.join(root, file))
    return md_files


 def extract_tokens(
    text: str,
    stop_words: set,
    lemmatizer: WordNetLemmatizer,
    punctuation: str,
 ) -> List[str]:
    text = text.lower().translate(str.maketrans("", "", punctuation))
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if len(token) >= 3 and token not in stop_words]
    return [lemmatizer.lemmatize(token) for token in tokens]


 def find_similar_posts(
    posts: List[frontmatter.Post], similarity_matrix: np.ndarray, limit: int = 3
 ) -> dict:
    similar_posts = {}

    for i, post in enumerate(posts):
        similarities = similarity_matrix[i]
        sorted_indices = np.argsort(similarities)[::-1]

        top_indices = sorted_indices[: limit + 1]
        top_posts = [posts[idx] for idx in top_indices if idx != i]
        similar_posts[post] = top_posts

    return similar_posts


 def main(args):
    md_files = collect_md_files(args.dir)

    # load posts
    posts = []
    for file in md_files:
        with open(file) as ifile:
            post = frontmatter.load(ifile)

            if "permalink" not in post:
                logger.error(f"Post {file} does not have permalink!")

            post["file"] = file
            posts.append(post)

    # tokenise post contents
    stop_words = set(stopwords.words("english"))
    punctuation = string.punctuation + "’–‘“”（）"
    lemmatizer = WordNetLemmatizer()

    tokenized_sources = [
        " ".join(extract_tokens(post.content, stop_words, lemmatizer, punctuation))
        for post in posts
    ]

    # build similarity matrix
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(tokenized_sources)
    similarity_matrix = cosine_similarity(tfidf_matrix)

    # process similar posts
    similar_posts = find_similar_posts(posts, similarity_matrix)
    for post, similar in similar_posts.items():
        update = []
        for i, sim_post in enumerate(similar):
            url = sim_post.get("permalink")
            update.append(
                {
                    "url": url,
                    "title": sim_post.get("title"),
                    "description": sim_post.get("description"),
                    "image": sim_post.get("image"),
                    'date': sim_post.get('date'),
                },
            )
        post["similar"] = update

    # save posts
    for post in posts:
        file_path = post["file"]
        del post["file"]
        with open(file_path, "wb") as ofile:
            frontmatter.dump(post, ofile)


 if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("dir", type=str)
    args = parser.parse_args()
    main(args)
	import argparse
	import logging
	import os
	import string
	from typing import List

	import frontmatter
	import nltk
	import numpy as np
	from nltk.corpus import stopwords
	from nltk.stem import WordNetLemmatizer
	from nltk.tokenize import word_tokenize
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.metrics.pairwise import cosine_similarity

	logger = logging.getLogger(__name__)

	nltk.download("stopwords", quiet=True)
	nltk.download("wordnet", quiet=True)


	def collect_md_files(directory: str) -> List[str]:
	md_files = []
	for root, dirs, files in os.walk(directory):
	for file in files:
	if file.endswith(".md"):
	md_files.append(os.path.join(root, file))
	return md_files


	def extract_tokens(
	text: str,
	stop_words: set,
	lemmatizer: WordNetLemmatizer,
	punctuation: str,
	) -> List[str]:
	text = text.lower().translate(str.maketrans("", "", punctuation))
	tokens = word_tokenize(text)
	tokens = [token for token in tokens if len(token) >= 3 and token not in stop_words]
	return [lemmatizer.lemmatize(token) for token in tokens]


	def find_similar_posts(
	posts: List[frontmatter.Post], similarity_matrix: np.ndarray, limit: int = 3
	) -> dict:
	similar_posts = {}

	for i, post in enumerate(posts):
	similarities = similarity_matrix[i]
	sorted_indices = np.argsort(similarities)[::-1]

	top_indices = sorted_indices[: limit + 1]
	top_posts = [posts[idx] for idx in top_indices if idx != i]
	similar_posts[post] = top_posts

	return similar_posts


	def main(args):
	md_files = collect_md_files(args.dir)

	# load posts
	posts = []
	for file in md_files:
	with open(file) as ifile:
	post = frontmatter.load(ifile)

	if "permalink" not in post:
	logger.error(f"Post {file} does not have permalink!")

	post["file"] = file
	posts.append(post)

	# tokenise post contents
	stop_words = set(stopwords.words("english"))
	punctuation = string.punctuation + "’–‘“”（）"
	lemmatizer = WordNetLemmatizer()

	tokenized_sources = [
	" ".join(extract_tokens(post.content, stop_words, lemmatizer, punctuation))
	for post in posts
	]

	# build similarity matrix
	tfidf_vectorizer = TfidfVectorizer()
	tfidf_matrix = tfidf_vectorizer.fit_transform(tokenized_sources)
	similarity_matrix = cosine_similarity(tfidf_matrix)

	# process similar posts
	similar_posts = find_similar_posts(posts, similarity_matrix)
	for post, similar in similar_posts.items():
	update = []
	for i, sim_post in enumerate(similar):
	url = sim_post.get("permalink")
	update.append(
	{
	"url": url,
	"title": sim_post.get("title"),
	"description": sim_post.get("description"),
	"image": sim_post.get("image"),
	'date': sim_post.get('date'),
	},
	)
	post["similar"] = update

	# save posts
	for post in posts:
	file_path = post["file"]
	del post["file"]
	with open(file_path, "wb") as ofile:
	frontmatter.dump(post, ofile)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	parser.add_argument("dir", type=str)
	args = parser.parse_args()
	main(args)
No results found