cydu · June 15, 2014 03:26 · bufrr · Sep 10, 2015 · davidblus · May 21, 2020
diff --git a/settings.py b/settings.py

 DOWNLOAD_HANDLERS = {
    'http': 'myspider.socks5_http.Socks5DownloadHandler',
    'https': 'myspider.socks5_http.Socks5DownloadHandler'
 } 
diff --git a/socks5_http.py b/socks5_http.py
 from txsocksx.http import SOCKS5Agent
 from twisted.internet import reactor
 from scrapy.xlib.tx import TCP4ClientEndpoint
 from scrapy.core.downloader.webclient import _parse
 from scrapy.core.downloader.handlers.http11 import HTTP11DownloadHandler, ScrapyAgent

 class Socks5DownloadHandler(HTTP11DownloadHandler):

    def download_request(self, request, spider):
        """Return a deferred for the HTTP download"""
        agent = ScrapySocks5Agent(contextFactory=self._contextFactory, pool=self._pool)
        return agent.download_request(request)

 class ScrapySocks5Agent(ScrapyAgent):

    def _get_agent(self, request, timeout):
        bindAddress = request.meta.get('bindaddress') or self._bindAddress
        proxy = request.meta.get('proxy')
        if proxy:
            _, _, proxyHost, proxyPort, proxyParams = _parse(proxy)
            _, _, host, port, proxyParams = _parse(request.url)
            proxyEndpoint = TCP4ClientEndpoint(reactor, proxyHost, proxyPort,
                                timeout=timeout, bindAddress=bindAddress)
            agent = SOCKS5Agent(reactor, proxyEndpoint=proxyEndpoint)
            return agent
        return self._Agent(reactor, contextFactory=self._contextFactory,
            connectTimeout=timeout, bindAddress=bindAddress, pool=self._pool)

	DOWNLOAD_HANDLERS = {
	'http': 'myspider.socks5_http.Socks5DownloadHandler',
	'https': 'myspider.socks5_http.Socks5DownloadHandler'
	}
	from txsocksx.http import SOCKS5Agent
	from twisted.internet import reactor
	from scrapy.xlib.tx import TCP4ClientEndpoint
	from scrapy.core.downloader.webclient import _parse
	from scrapy.core.downloader.handlers.http11 import HTTP11DownloadHandler, ScrapyAgent

	class Socks5DownloadHandler(HTTP11DownloadHandler):

	def download_request(self, request, spider):
	"""Return a deferred for the HTTP download"""
	agent = ScrapySocks5Agent(contextFactory=self._contextFactory, pool=self._pool)
	return agent.download_request(request)

	class ScrapySocks5Agent(ScrapyAgent):

	def _get_agent(self, request, timeout):
	bindAddress = request.meta.get('bindaddress') or self._bindAddress
	proxy = request.meta.get('proxy')
	if proxy:
	_, _, proxyHost, proxyPort, proxyParams = _parse(proxy)
	_, _, host, port, proxyParams = _parse(request.url)
	proxyEndpoint = TCP4ClientEndpoint(reactor, proxyHost, proxyPort,
	timeout=timeout, bindAddress=bindAddress)
	agent = SOCKS5Agent(reactor, proxyEndpoint=proxyEndpoint)
	return agent
	return self._Agent(reactor, contextFactory=self._contextFactory,
	connectTimeout=timeout, bindAddress=bindAddress, pool=self._pool)