Skip to content

Instantly share code, notes, and snippets.

@Ivlyth
Created April 15, 2019 06:39
Show Gist options
  • Select an option

  • Save Ivlyth/4b8585c430a57e4648196faf9fa82034 to your computer and use it in GitHub Desktop.

Select an option

Save Ivlyth/4b8585c430a57e4648196faf9fa82034 to your computer and use it in GitHub Desktop.
Dorado CLI params
cli.js [spider-options] [login-options] <entryPoints>

Options:
  --version                                           Show version number                  [boolean]
  -u, -e, --ep, --entry-points                        爬虫入口地址, 可多次指定               [array]
  -m, --max-page                                      最大跟踪页面数量     [number] [default: 10000]
  --no-more-pending-targets, --nmpt                   是否允许待处理页面数超出 maxPage 限制
                                                                          [boolean] [default: false]
  -r, --max-request                                   最大结果数量           [number] [default: 500]
  --max-request-per-resource-type, --mr               按类型限定资源数量, 格式为 TYPE:COUNT,
                                                      要设定多个资源, 请多次使用该参数       [array]
  -d, --max-depth                                     最大深度                 [number] [default: 5]
  -c, --concurrency                                   并发数量                 [number] [default: 6]
  -l, --load-image-policy                             图片加载策略 0: abort, 1: fake, 2: load
                                                            [number] [choices: 0, 1, 2] [default: 1]
  -t, --task-timeout                                  任务超时时间(默认10分钟)
                                                                         [number] [default: 7200000]
  --ct, --crawler-timeout                             单个页面处理超时时间(默认2分钟)
                                                                         [number] [default: 1200000]
  -p, --open-page-timeout                             页面打开超时时间(默认30s)
                                                                           [number] [default: 30000]
  --wp, --wait-after-open-page                                                 [number] [default: 0]
  --wb, --wait-before-close-page                                               [number] [default: 0]
  --we, --wait-before-next-element                                           [number] [default: 100]
  --tags           [array] [default: ["a","input","button","form","li","span","select","td","area"]]
  --try-elements, --te                                是否动态处理元素     [boolean] [default: true]
  --try-new-elements, --tne                           是否尝试新元素       [boolean] [default: true]
  --try-new-elements-count, --tc                      尝试新元素次数(在每个页面元素处理完之后)
                                                                               [number] [default: 3]
  --wait-before-try-new-elements, --wt                在处理页面元素之后,
                                                      尝试新元素之前的等待时间(毫秒)
                                                                             [number] [default: 500]
  --fo, --follow-order                                0: 广度优先, 1: 深度优先, 2: 随机
                                                            [number] [choices: 0, 1, 2] [default: 0]
  -f, --follow-policy                                 跟踪策略, 0: 同域名, 1: 同主域, 2:
                                                      同域名也同目录
                                                         [number] [choices: 0, 1, 2, 3] [default: 1]
  -C, --check-follow-before-click                     点击前检查是否满足跟踪策略
                                                                          [boolean] [default: false]
  --ua, --user-agent                                  user agent                            [string]
  --eh, --extra-header                                自定义 header, 格式为 NAME:VALUE,
                                                      要设定多个资源, 请多次使用该参数       [array]
  --ck, --cookie                                      自定义 cookies                         [array]
  --collect-for-resource-types, --cft                 采集指定类型的请求和响应     [array] [default:
  ["document","stylesheet","font","script","texttrack","xhr","fetch","eventsource","websocket","mani
                                                             fest","other","__page__","__target__"]]
  --collect-body-for-resource-types, --bft            采集指定类型的请求和响应体
         [array] [default: ["document","stylesheet","script","xhr","fetch","__page__","__target__"]]
  --collect-body-size-limit, --bsl                    限制采集请求响应体的大小
                                                                         [number] [default: 2097152]
  --bd, --brute-directory                             爆破目录             [boolean] [default: true]
  --abort-request-on-methods, --am                                     [array] [default: ["delete"]]
  --scroll-after-open-page, --sp                      打开页面之后尝试指定下拉页面指定次数
                                                                               [number] [default: 0]
  --wait-after-scroll, --ws                           两次尝试下拉之间等待时间(毫秒)
                                                                             [number] [default: 100]
  --wait-before-next-page, --wn                       下一个 crawler 启动前等待时间 (毫秒)
                                                                            [number] [default: 3000]
  --viewport-width, --width, --viewport.width         视窗宽度              [number] [default: 1280]
  --viewport-height, --height, --viewport.height      视窗高度               [number] [default: 800]
  --login-commands-file, --lcf                        login commands 文件路径               [string]
  --login-url, --login.url                            登录地址                              [string]
  --login-username, --lu, --login.username            登录账户                              [string]
  --login-username-selector, --lus,                   用户名元素选择器
  --login.usernameSelector                                                                  [string]
  --login-password, --lp, --login.password            登录密码                              [string]
  --login-password-selector, --lps,                   登录密码元素选择器
  --login.passwordSelector                                                                  [string]
  --login-submit-selector, --lss,                     登录元素选择器
  --login.submitSelector                                                                    [string]
  --login-check, --lc, --login.loginCheck             登录后判定元素选择器(不可与 --lnav 同时使用)
  --login-type-delay, --ltd, --login.typeDelay        模拟登录时 type 等操作的 delay 时间(默认100ms)
                                                                             [number] [default: 100]
  --prs                                               使用内置的 prs 登录信息来模拟登录
                                                                          [boolean] [default: false]
  --ars                                               使用内置的 ars 登录信息来模拟登录
                                                                          [boolean] [default: false]
  --vue                                               使用内置的 vue 登录信息来模拟登录
                                                                          [boolean] [default: false]
  --coverage, --co                                    使用 WIVET 测试覆盖率
                                                                          [boolean] [default: false]
  --logout-url-regex, --loe                           退出地址正则                          [string]
  --logout-url-method, --lom                          请求退出地址使用的方法
                                                                          [string] [default: "post"]
  -s, --screenshot                                                        [boolean] [default: false]
  --xpath, --xp                                                                              [array]
  -x, --proxy                                                                               [string]
  -R, --realtime                                      默认开启实时协议, 会将结果等信息实时推送到
                                                      redis                [boolean] [default: true]
  --qe, --queue-expire                                开启实时协议的基础上, 在任务结束后为 队列
                                                      设置指定过期时间  [number] [default: 21600000]
  --extend-from-site-map, --efs                       从 sitemap 扩展待处理页面数量
                                                                           [boolean] [default: true]
  --extend-from-robots, --efr                         从 robots 扩展待处理页面数量
                                                                          [boolean] [default: false]
  -H, --high-light-level                              页面处理过程中元素高亮级别(0: 没有高亮, 1:
                                                      高亮并取消, 2: 高亮不取消)
                                                            [number] [choices: 0, 1, 2] [default: 0]
  -L, --log-level                                     日志级别(0: INFO, 1: DEBUG, 2: TRACE)
                                                            [number] [choices: 0, 1, 2] [default: 1]
  --block-domains, --bds                              禁止的域名列表(TLDs)                   [array]
  --disable-block-domains, --dbds                     禁用 blockDomains   [boolean] [default: false]
  --ignore-follow-policy-for-resource-types, --it     对哪些类型的资源忽略跟踪策略           [array]
  --use-abstract-url, --uau                           是否启用抽象 url    [boolean] [default: false]
  --abstract-level, --al                              url 抽象起始层级         [number] [default: 2]
  --abstract-count, --ac                              抽象URL的最大个数        [number] [default: 5]
  --upstreamId, -S                                    上游任务ID, 此参数在 CLI 模式下主要用于测试
                                                                    [string] [default: "dorado-cli"]
  -P, --print-args                                    打印所有参数的值    [boolean] [default: false]
  -E, --exit-after-print                              打印参数后退出运行  [boolean] [default: false]
  -W, --wait-for-result                               等待任务结果并输出  [boolean] [default: false]
  -q, --queue                                         任务下发到哪个队列[string] [default: "dorado"]
  --host, --api, --api-server                         Dorado api 地址, 默认本机
                                                                     [string] [default: "localhost"]
  --port                                              Dorado api 端口, 默认 9987
                                                                            [number] [default: 9987]
  --api-path, --path                                  API path     [string] [default: "/api/create"]
  -h                                                  Show help                            [boolean]

Dorado cli. copyleft Myth
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment