barraponto · September 30, 2012 18:29 · ghost · Jun 4, 2013
diff --git a/pyquery-spider.py b/pyquery-spider.py
 from scrapy.spider import BaseSpider
 from scrapy.selector import HtmlCSSSelector

 class DmozSpiderCSS(BaseSpider):
    name = "pyquery"
    allowed_domains = ["dmoz.org"]
    start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        hcs = HtmlCSSSelector(response)
        sites = hcs.select('ul li')
        for site in sites:
            links = site.select('a')
            if len(links):
                title = links[0].text_content()
                link = links[0].get('href')
                desc = site.text_content()
                print title, link, desc
	from scrapy.spider import BaseSpider
	from scrapy.selector import HtmlCSSSelector

	class DmozSpiderCSS(BaseSpider):
	name = "pyquery"
	allowed_domains = ["dmoz.org"]
	start_urls = [
	"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
	"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
	]

	def parse(self, response):
	hcs = HtmlCSSSelector(response)
	sites = hcs.select('ul li')
	for site in sites:
	links = site.select('a')
	if len(links):
	title = links[0].text_content()
	link = links[0].get('href')
	desc = site.text_content()
	print title, link, desc