Ivanca · October 7, 2018 01:12
diff --git a/brickset.com scrapper.py b/brickset.com scrapper.py
 import scrapy


 class BrickSetSpider(scrapy.Spider):
    name = 'brick_spider'
    start_urls = ['http://brickset.com/sets/year-2018']

    def parse(self, response):
        SET_SELECTOR = '.set'
        for brickset in response.css(SET_SELECTOR):

            NAME_SELECTOR = 'h1 a ::text'
            PIECES_SELECTOR = './/dl[dt/text() = "Pieces"]/dd/a/text()'
            MINIFIGS_SELECTOR = './/dl[dt/text() = "Minifigs"]/dd[2]/a/text()'
            IMAGE_SELECTOR = 'img ::attr(src)'
            yield {
                'name': brickset.css(NAME_SELECTOR).extract_first(),
                'pieces': brickset.xpath(PIECES_SELECTOR).extract_first(),
                'minifigs': brickset.xpath(MINIFIGS_SELECTOR).extract_first(),
                'image': brickset.css(IMAGE_SELECTOR).extract_first(),
            }

        NEXT_PAGE_SELECTOR = '.next a ::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page:
            yield scrapy.Request(
                response.urljoin(next_page),
                callback=self.parse
            )
	import scrapy


	class BrickSetSpider(scrapy.Spider):
	name = 'brick_spider'
	start_urls = ['http://brickset.com/sets/year-2018']

	def parse(self, response):
	SET_SELECTOR = '.set'
	for brickset in response.css(SET_SELECTOR):

	NAME_SELECTOR = 'h1 a ::text'
	PIECES_SELECTOR = './/dl[dt/text() = "Pieces"]/dd/a/text()'
	MINIFIGS_SELECTOR = './/dl[dt/text() = "Minifigs"]/dd[2]/a/text()'
	IMAGE_SELECTOR = 'img ::attr(src)'
	yield {
	'name': brickset.css(NAME_SELECTOR).extract_first(),
	'pieces': brickset.xpath(PIECES_SELECTOR).extract_first(),
	'minifigs': brickset.xpath(MINIFIGS_SELECTOR).extract_first(),
	'image': brickset.css(IMAGE_SELECTOR).extract_first(),
	}

	NEXT_PAGE_SELECTOR = '.next a ::attr(href)'
	next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
	if next_page:
	yield scrapy.Request(
	response.urljoin(next_page),
	callback=self.parse
	)
No results found