baobao · December 7, 2018 04:03 · baobao · Feb 17, 2013
diff --git a/htmlparse.py b/htmlparse.py
 # -*- coding: utf-8 -*- 

 import urllib2
 from HTMLParser import HTMLParser

 URL ="http://google.com"
 OUTPUT="output.html"
 urlList = []

 class TestParser(HTMLParser):
 	def __init__(self):
 		HTMLParser.__init__(self)

 	def handle_starttag(self,tagname,attribute):
 		if tagname.lower() == "img":
 			for i in attribute:
 				if i[0].lower() == "src":
 					imgurl = i[1];
 					urlList.append(imgurl)
 		show()

 def show():
 	str  = ""
 	for imgUrl in urlList:
 		url='<img src="' + imgUrl +'" />'
 	#	print url
 		str+=url
 	#print str
 	createFile(str)
 	pass
 def createFile(str):
 	f = open(OUTPUT, "w")
 	f.write(str)
 	f.close()
 	pass

 if __name__ == "__main__":
 	url = URL
 	htmldata = urllib2.urlopen(url)
 	parser = TestParser()
 	parser.feed(htmldata.read())
 	parser.close()
 	htmldata.close()
	# -- coding: utf-8 --

	import urllib2
	from HTMLParser import HTMLParser

	URL ="http://google.com"
	OUTPUT="output.html"
	urlList = []

	class TestParser(HTMLParser):
	def __init__(self):
	HTMLParser.__init__(self)

	def handle_starttag(self,tagname,attribute):
	if tagname.lower() == "img":
	for i in attribute:
	if i[0].lower() == "src":
	imgurl = i[1];
	urlList.append(imgurl)
	show()

	def show():
	str = ""
	for imgUrl in urlList:
	url='<img src="' + imgUrl +'" />'
	# print url
	str+=url
	#print str
	createFile(str)
	pass
	def createFile(str):
	f = open(OUTPUT, "w")
	f.write(str)
	f.close()
	pass

	if __name__ == "__main__":
	url = URL
	htmldata = urllib2.urlopen(url)
	parser = TestParser()
	parser.feed(htmldata.read())
	parser.close()
	htmldata.close()
No results found