PandaWhoCodes · January 27, 2020 18:27
diff --git a/get_website_text.py b/get_website_text.py
 from bs4 import BeautifulSoup
 from bs4.element import Comment
 import requests


 def tag_visible(element):
    if element.parent.name in ['script', 'style', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


 def get_text(url):
    all_text = []
    page = requests.get(url)
    soup = BeautifulSoup(page.content, "lxml")
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    all_text.append(u" ".join(t.strip() for t in visible_texts))
    return " ".join(all_text)

 print(get_text("http://doraithodla.com"))
	from bs4 import BeautifulSoup
	from bs4.element import Comment
	import requests


	def tag_visible(element):
	if element.parent.name in ['script', 'style', 'head', 'title', 'meta', '[document]']:
	return False
	if isinstance(element, Comment):
	return False
	return True


	def get_text(url):
	all_text = []
	page = requests.get(url)
	soup = BeautifulSoup(page.content, "lxml")
	texts = soup.findAll(text=True)
	visible_texts = filter(tag_visible, texts)
	all_text.append(u" ".join(t.strip() for t in visible_texts))
	return " ".join(all_text)

	print(get_text("http://doraithodla.com"))