cli.js [spider-options] [login-options] <entryPoints>
Options:
--version Show version number [boolean]
-u, -e, --ep, --entry-points 爬虫入口地址, 可多次指定 [array]
-m, --max-page 最大跟踪页面数量 [number] [default: 10000]
--no-more-pending-targets, --nmpt 是否允许待处理页面数超出 maxPage 限制
[boolean] [default: false]
-r, --max-request 最大结果数量 [number] [default: 500]
--max-request-per-resource-type, --mr 按类型限定资源数量, 格式为 TYPE:COUNT,
要设定多个资源, 请多次使用该参数 [array]
-d, --max-depth 最大深度 [number] [default: 5]
-c, --concurrency 并发数量 [number] [default: 6]
-l, --load-image-policy 图片加载策略 0: abort, 1: fake, 2: load
[number] [choices: 0, 1, 2] [default: 1]
-t, --task-timeout 任务超时时间(默认10分钟)
[number] [default: 7200000]
--ct, --crawler-timeout 单个页面处理超时时间(默认2分钟)
[number] [default: 1200000]
-p, --open-page-timeout 页面打开超时时间(默认30s)
[number] [default: 30000]
--wp, --wait-after-open-page [number] [default: 0]
--wb, --wait-before-close-page [number] [default: 0]
--we, --wait-before-next-element [number] [default: 100]
--tags [array] [default: ["a","input","button","form","li","span","select","td","area"]]
--try-elements, --te 是否动态处理元素 [boolean] [default: true]
--try-new-elements, --tne 是否尝试新元素 [boolean] [default: true]
--try-new-elements-count, --tc 尝试新元素次数(在每个页面元素处理完之后)
[number] [default: 3]
--wait-before-try-new-elements, --wt 在处理页面元素之后,
尝试新元素之前的等待时间(毫秒)
[number] [default: 500]
--fo, --follow-order 0: 广度优先, 1: 深度优先, 2: 随机
[number] [choices: 0, 1, 2] [default: 0]
-f, --follow-policy 跟踪策略, 0: 同域名, 1: 同主域, 2:
同域名也同目录
[number] [choices: 0, 1, 2, 3] [default: 1]
-C, --check-follow-before-click 点击前检查是否满足跟踪策略
[boolean] [default: false]
--ua, --user-agent user agent [string]
--eh, --extra-header 自定义 header, 格式为 NAME:VALUE,
要设定多个资源, 请多次使用该参数 [array]
--ck, --cookie 自定义 cookies [array]
--collect-for-resource-types, --cft 采集指定类型的请求和响应 [array] [default:
["document","stylesheet","font","script","texttrack","xhr","fetch","eventsource","websocket","mani
fest","other","__page__","__target__"]]
--collect-body-for-resource-types, --bft 采集指定类型的请求和响应体
[array] [default: ["document","stylesheet","script","xhr","fetch","__page__","__target__"]]
--collect-body-size-limit, --bsl 限制采集请求响应体的大小
[number] [default: 2097152]
--bd, --brute-directory 爆破目录 [boolean] [default: true]
--abort-request-on-methods, --am [array] [default: ["delete"]]
--scroll-after-open-page, --sp 打开页面之后尝试指定下拉页面指定次数
[number] [default: 0]
--wait-after-scroll, --ws 两次尝试下拉之间等待时间(毫秒)
[number] [default: 100]
--wait-before-next-page, --wn 下一个 crawler 启动前等待时间 (毫秒)
[number] [default: 3000]
--viewport-width, --width, --viewport.width 视窗宽度 [number] [default: 1280]
--viewport-height, --height, --viewport.height 视窗高度 [number] [default: 800]
--login-commands-file, --lcf login commands 文件路径 [string]
--login-url, --login.url 登录地址 [string]
--login-username, --lu, --login.username 登录账户 [string]
--login-username-selector, --lus, 用户名元素选择器
--login.usernameSelector [string]
--login-password, --lp, --login.password 登录密码 [string]
--login-password-selector, --lps, 登录密码元素选择器
--login.passwordSelector [string]
--login-submit-selector, --lss, 登录元素选择器
--login.submitSelector [string]
--login-check, --lc, --login.loginCheck 登录后判定元素选择器(不可与 --lnav 同时使用)
--login-type-delay, --ltd, --login.typeDelay 模拟登录时 type 等操作的 delay 时间(默认100ms)
[number] [default: 100]
--prs 使用内置的 prs 登录信息来模拟登录
[boolean] [default: false]
--ars 使用内置的 ars 登录信息来模拟登录
[boolean] [default: false]
--vue 使用内置的 vue 登录信息来模拟登录
[boolean] [default: false]
--coverage, --co 使用 WIVET 测试覆盖率
[boolean] [default: false]
--logout-url-regex, --loe 退出地址正则 [string]
--logout-url-method, --lom 请求退出地址使用的方法
[string] [default: "post"]
-s, --screenshot [boolean] [default: false]
--xpath, --xp [array]
-x, --proxy [string]
-R, --realtime 默认开启实时协议, 会将结果等信息实时推送到
redis [boolean] [default: true]
--qe, --queue-expire 开启实时协议的基础上, 在任务结束后为 队列
设置指定过期时间 [number] [default: 21600000]
--extend-from-site-map, --efs 从 sitemap 扩展待处理页面数量
[boolean] [default: true]
--extend-from-robots, --efr 从 robots 扩展待处理页面数量
[boolean] [default: false]
-H, --high-light-level 页面处理过程中元素高亮级别(0: 没有高亮, 1:
高亮并取消, 2: 高亮不取消)
[number] [choices: 0, 1, 2] [default: 0]
-L, --log-level 日志级别(0: INFO, 1: DEBUG, 2: TRACE)
[number] [choices: 0, 1, 2] [default: 1]
--block-domains, --bds 禁止的域名列表(TLDs) [array]
--disable-block-domains, --dbds 禁用 blockDomains [boolean] [default: false]
--ignore-follow-policy-for-resource-types, --it 对哪些类型的资源忽略跟踪策略 [array]
--use-abstract-url, --uau 是否启用抽象 url [boolean] [default: false]
--abstract-level, --al url 抽象起始层级 [number] [default: 2]
--abstract-count, --ac 抽象URL的最大个数 [number] [default: 5]
--upstreamId, -S 上游任务ID, 此参数在 CLI 模式下主要用于测试
[string] [default: "dorado-cli"]
-P, --print-args 打印所有参数的值 [boolean] [default: false]
-E, --exit-after-print 打印参数后退出运行 [boolean] [default: false]
-W, --wait-for-result 等待任务结果并输出 [boolean] [default: false]
-q, --queue 任务下发到哪个队列[string] [default: "dorado"]
--host, --api, --api-server Dorado api 地址, 默认本机
[string] [default: "localhost"]
--port Dorado api 端口, 默认 9987
[number] [default: 9987]
--api-path, --path API path [string] [default: "/api/create"]
-h Show help [boolean]
Dorado cli. copyleft Myth
Created
April 15, 2019 06:39
-
-
Save Ivlyth/4b8585c430a57e4648196faf9fa82034 to your computer and use it in GitHub Desktop.
Dorado CLI params
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment