keroxil

1 follower · 0 following

View GitHub Profile

Recently created

Least recently created

Recently updated

Least recently updated

keroxil / gist:4435253

Last active December 10, 2015 12:38

	# Get a next task from some tasks queue, create and start a crawler
	def start_crawler():
	settings = CrawlerSettings()
	settings.overrides['TELNETCONSOLE_ENABLED'] = 0
	settings.overrides['WEBSERVICE_ENABLED'] = False

	crawler = Crawler(settings)
	crawler.configure()

	url = get_url_from_some_queue()

keroxil / gist:4407002

Created December 29, 2012 13:41

	from scrapy.spider import BaseSpider

	class AnotherSpider(BaseSpider):
	name = "dmoz"

	# One domain (job) per spider
	start_urls = [
	"http://www.dmoz.org/",
	]

keroxil / gist:4405782

Created December 29, 2012 09:42

	from scrapy.spider import BaseSpider

	class AnotherSpider(BaseSpider):
	name = "dmoz"

	# One domain (job) per spider
	start_urls = [
	"http://www.dmoz.org/",
	]

keroxil / gist:4400976

Last active December 10, 2015 07:28

	from scrapy.spider import BaseSpider

	class DmozSpider(BaseSpider):
	name = "dmoz"
	start_urls = [
	"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
	"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
	]

	def parse(self, response):