Skip to content

Instantly share code, notes, and snippets.

@gnh1201
Last active September 13, 2022 09:25
Show Gist options
  • Save gnh1201/d66f09ed1b8e648f6722805880b829a0 to your computer and use it in GitHub Desktop.
Save gnh1201/d66f09ed1b8e648f6722805880b829a0 to your computer and use it in GitHub Desktop.
nginx _badbots.conf
map $http_user_agent $badbots {
~*(Slurp) 1;
~*([wW]get) 1;
~*(LinkedInBot) 1;
~*(Python-urllib) 1;
~*(python-requests) 1;
~*(aiohttp) 1;
~*(httpx) 1;
~*(libwww-perl) 1;
~*(httpunit) 1;
~*(nutch) 1;
~*(Go-http-client) 1;
~*(phpcrawl) 1;
~*(msnbot) 1;
~*(jyxobot) 1;
~*(FAST-WebCrawler) 1;
~*(FAST\ Enterprise\ Crawler) 1;
~*(BIGLOTRON) 1;
~*(Teoma) 1;
~*(convera) 1;
~*(seekbot) 1;
~*(Gigabot) 1;
~*(Gigablast) 1;
~*(exabot) 1;
~*(ia_archiver) 1;
~*(GingerCrawler) 1;
~*(webmon\ ) 1;
~*(HTTrack) 1;
~*(grub.org) 1;
~*(UsineNouvelleCrawler) 1;
~*(antibot) 1;
~*(netresearchserver) 1;
~*(speedy) 1;
~*(fluffy) 1;
~*(findlink) 1;
~*(msrbot) 1;
~*(panscient) 1;
~*(yacybot) 1;
~*(AISearchBot) 1;
~*(ips-agent) 1;
~*(tagoobot) 1;
~*(MJ12bot) 1;
~*(woriobot) 1;
~*(yanga) 1;
~*(buzzbot) 1;
~*(mlbot) 1;
~*(YaDirectFetcher) 1;
~*(purebot) 1;
~*(Linguee\ Bot) 1;
~*(CyberPatrol) 1;
~*(voilabot) 1;
~*(citeseerxbot) 1;
~*(spbot) 1;
~*(twengabot) 1;
~*(postrank) 1;
~*(TurnitinBot) 1;
~*(scribdbot) 1;
~*(page2rss) 1;
~*(sitebot) 1;
~*(linkdex) 1;
~*(Adidxbot) 1;
~*(ezooms) 1;
~*(dotbot) 1;
~*(Mail.RU_Bot) 1;
~*(discobot) 1;
~*(heritrix) 1;
~*(findthatfile) 1;
~*(europarchive.org) 1;
~*(NerdByNature.Bot) 1;
~*(sistrix\ crawler) 1;
~*(Ahrefs(Bot|SiteAudit)) 1;
~*(fuelbot) 1;
~*(CrunchBot) 1;
~*(IndeedBot) 1;
~*(mappydata) 1;
~*(woobot) 1;
~*(ZoominfoBot) 1;
~*(PrivacyAwareBot) 1;
~*(Multiviewbot) 1;
~*(SWIMGBot) 1;
~*(Grobbot) 1;
~*(eright) 1;
~*(Apercite) 1;
~*(semanticbot) 1;
~*(Aboundex) 1;
~*(domaincrawler) 1;
~*(wbsearchbot) 1;
~*(summify) 1;
~*(CCBot) 1;
~*(edisterbot) 1;
~*(seznambot) 1;
~*(ec2linkfinder) 1;
~*(gslfbot) 1;
~*(aiHitBot) 1;
~*(intelium_bot) 1;
#~*(facebookexternalhit) 1;
#~*(Yeti) 1;
~*(RetrevoPageAnalyzer) 1;
~*(lb-spider) 1;
~*(Sogou) 1;
~*(lssbot) 1;
~*(careerbot) 1;
~*(wotbox) 1;
~*(wocbot) 1;
~*(ichiro) 1;
~*(lssrocketcrawler) 1;
~*(drupact) 1;
~*(webcompanycrawler) 1;
~*(acoonbot) 1;
~*(openindexspider) 1;
~*(gnam\ gnam\ spider) 1;
~*(web-archive-net.com.bot) 1;
~*(backlinkcrawler) 1;
~*(coccoc) 1;
~*(integromedb) 1;
~*(content\ crawler\ spider) 1;
~*(toplistbot) 1;
~*(it2media-domain-crawler) 1;
~*(ip-web-crawler.com) 1;
~*(siteexplorer.info) 1;
~*(elisabot) 1;
~*(proximic) 1;
~*(changedetection) 1;
~*(arabot) 1;
~*(WeSEE:Search) 1;
~*(niki-bot) 1;
~*(CrystalSemanticsBot) 1;
~*(rogerbot) 1;
~*(360Spider) 1;
~*(psbot) 1;
~*(InterfaxScanBot) 1;
~*(CC\ Metadata\ Scaper) 1;
~*(g00g1e.net) 1;
~*(GrapeshotCrawler) 1;
~*(urlappendbot) 1;
~*(brainobot) 1;
~*(fr-crawler) 1;
~*(binlar) 1;
~*(SimpleCrawler) 1;
~*(Twitterbot) 1;
~*(cXensebot) 1;
~*(smtbot) 1;
~*(bnf.fr_bot) 1;
~*(A6-Indexer) 1;
~*(ADmantX) 1;
~*(Facebot) 1;
~*(OrangeBot\/) 1;
~*(memorybot) 1;
~*(AdvBot) 1;
~*(MegaIndex) 1;
~*(SemanticScholarBot) 1;
~*(ltx71) 1;
~*(nerdybot) 1;
~*(xovibot) 1;
~*(Qwantify) 1;
~*(archive.org_bot) 1;
~*(Applebot) 1;
~*(TweetmemeBot) 1;
~*(crawler4j) 1;
~*(findxbot) 1;
~*(S[eE][mM]rushBot) 1;
~*(yoozBot) 1;
~*(lipperhey) 1;
~*(Y!J) 1;
~*(Domain\ Re-Animator\ Bot) 1;
~*(AddThis) 1;
~*(Screaming\ Frog\ SEO\ Spider) 1;
~*(MetaURI) 1;
~*(Scrapy) 1;
~*(Livelap[bB]ot) 1;
~*(OpenHoseBot) 1;
~*(CapsuleChecker) 1;
~*([email protected]) 1;
~*(IstellaBot) 1;
~*(DeuSu\/) 1;
~*(betaBot) 1;
~*(Cliqzbot\/) 1;
~*(MojeekBot\/) 1;
~*(netEstate\ NE\ Crawler) 1;
~*(SafeSearch\ microdata\ crawler) 1;
~*(Gluten\ Free\ Crawler\/) 1;
~*(Sonic) 1;
~*(Sysomos) 1;
~*(Trove) 1;
~*(deadlinkchecker) 1;
~*(Slack-ImgProxy) 1;
~*(Embedly) 1;
~*(RankActiveLinkBot) 1;
~*(iskanie) 1;
~*(SafeDNSBot) 1;
~*(SkypeUriPreview) 1;
~*(Veoozbot) 1;
~*(Slackbot) 1;
~*(redditbot) 1;
~*(datagnionbot) 1;
~*(adbeat_bot) 1;
~*(WhatsApp) 1;
~*(contxbot) 1;
~*(pinterest.com.bot) 1;
~*(electricmonk) 1;
~*(GarlikCrawler) 1;
~*(vebidoobot) 1;
~*(FemtosearchBot) 1;
~*(MetaJobBot) 1;
~*(DomainStatsBot) 1;
~*(mindUpBot) 1;
~*(Jugendschutzprogramm-Crawler) 1;
~*(Xenu\ Link\ Sleuth) 1;
~*(Pcore-HTTP) 1;
~*(moatbot) 1;
~*(KosmioBot) 1;
~*([pP]ingdom) 1;
~*(AppInsights) 1;
~*(PhantomJS) 1;
~*(Gowikibot) 1;
~*(PiplBot) 1;
~*(Discordbot) 1;
~*(TelegramBot) 1;
~*(Jetslide) 1;
~*(newsharecounts) 1;
~*(James\ BOT) 1;
~*(Bark[rR]owler) 1;
~*(TinEye) 1;
~*(SocialRankIOBot) 1;
~*(trendictionbot) 1;
~*(Ocarinabot) 1;
~*(epicbot) 1;
~*(Primalbot) 1;
~*(GnowitNewsbot) 1;
~*(Leikibot) 1;
~*(LinkArchiver) 1;
~*(YaK\/) 1;
~*(PaperLiBot) 1;
~*(Digg\ Deeper) 1;
~*(dcrawl) 1;
~*(Snacktory) 1;
~*(AndersPinkBot) 1;
~*(Fyrebot) 1;
~*(EveryoneSocialBot) 1;
~*(Mediatoolkitbot) 1;
~*(Luminator-robots) 1;
~*(ExtLinksBot) 1;
~*(SurveyBot) 1;
~*(NING\/) 1;
~*(okhttp) 1;
~*(Nuzzel) 1;
~*(omgili) 1;
~*(PocketParser) 1;
~*(YisouSpider) 1;
~*(um-LN) 1;
~*(ToutiaoSpider) 1;
~*(MuckRack) 1;
~*(Jamie's\ Spider) 1;
~*(AHC\/) 1;
~*(NetcraftSurveyAgent) 1;
~*(Laserlikebot) 1;
~*(^Apache-HttpClient) 1;
~*(Jetty) 1;
~*(Upflow) 1;
~*(Thinklab) 1;
~*(Traackr.com) 1;
~*(Twurly) 1;
~*(Mastodon) 1;
~*(http_get) 1;
~*(DnyzBot) 1;
~*(botify) 1;
~*(007ac9\ Crawler) 1;
~*(BehloolBot) 1;
~*(BrandVerity) 1;
~*(check_http) 1;
~*(BDCbot) 1;
~*(EZID) 1;
~*(ICC-Crawler) 1;
~*(ArchiveBot) 1;
~*(^LCC\ ) 1;
~*(filterdb.iss.net\/crawler) 1;
~*(BLP_bbot) 1;
~*(BomboraBot) 1;
~*(Buck\/) 1;
~*(Companybook-Crawler) 1;
~*(Genieo) 1;
~*(magpie-crawler) 1;
~*(MeltwaterNews) 1;
~*(Moreover) 1;
~*(newspaper\/) 1;
~*(ScoutJet) 1;
~*((^|\ )sentry\/) 1;
~*(StorygizeBot) 1;
#~*(UptimeRobot) 1;
~*(OutclicksBot) 1;
~*(seoscanners) 1;
~*(Hatena) 1;
~*(MauiBot) 1;
~*(AlphaBot) 1;
~*(SBL-BOT) 1;
~*(IAS\ crawler) 1;
~*(adscanner) 1;
~*(Netvibes) 1;
~*(acapbot) 1;
~*(bitlybot) 1;
~*(blogmuraBot) 1;
~*(Bot.AraTurka.com) 1;
~*(bot-pge.chlooe.com) 1;
~*(BoxcarBot) 1;
~*(BTWebClient) 1;
~*(ContextAd\ Bot) 1;
~*(Digincore\ bot) 1;
~*(Disqus) 1;
~*(Feedly) 1;
~*(Fetch\/) 1;
~*(Fever) 1;
~*(Flamingo_SearchEngine) 1;
~*(FlipboardProxy) 1;
~*(g2reader-bot) 1;
~*(G2\ Web\ Services) 1;
~*(imrbot) 1;
~*(K7MLWCBot) 1;
~*(Kemvibot) 1;
~*(Landau-Media-Spider) 1;
~*(linkapediabot) 1;
~*(vkShare) 1;
~*(Siteimprove.com) 1;
~*(BLEXBot\/) 1;
~*(DareBoost) 1;
~*(ZuperlistBot\/) 1;
~*(Miniflux\/) 1;
~*(Feedspot) 1;
~*(Diffbot\/) 1;
~*(SEOkicks) 1;
~*(tracemyfile) 1;
~*(Nimbostratus-Bot) 1;
~*(zgrab) 1;
~*(PR-CY.RU) 1;
~*(AdsTxtCrawler) 1;
~*(Datafeedwatch) 1;
~*(Zabbix) 1;
~*(TangibleeBot) 1;
~*(axios) 1;
~*(Pulsepoint) 1;
~*(WordupInfoSearch) 1;
~*(WebDataStats) 1;
~*(HttpUrlConnection) 1;
~*(Seekport\ Crawler) 1;
~*(ZoomBot) 1;
~*(VelenPublicWebCrawler) 1;
~*(MoodleBot) 1;
~*(jpg-newsbot) 1;
~*(outbrain) 1;
#~*(W3C_Validator) 1;
~*(Validator\.nu) 1;
#~*(W3C-checklink) 1;
#~*(W3C-mobileOK) 1;
#~*(W3C_I18n-Checker) 1;
~*(FeedValidator) 1;
#~*(W3C_CSS_Validator) 1;
#~*(W3C_Unicorn) 1;
~*(Blackboard) 1;
~*(ICBot\/) 1;
~*(BazQux) 1;
~*(Twingly) 1;
~*(Rivva) 1;
~*(Experibot) 1;
~*(awesomecrawler) 1;
~*(Dataprovider.com) 1;
~*(GroupHigh\/) 1;
~*(theoldreader.com) 1;
~*(AnyEvent) 1;
~*(Uptimebot\.org) 1;
~*(Nmap\ Scripting\ Engine) 1;
~*(2ip.ru) 1;
~*(Clickagy) 1;
~*(Caliperbot) 1;
~*(MBCrawler) 1;
~*(online-webceo-bot) 1;
~*(B2B\ Bot) 1;
~*(AddSearchBot) 1;
~*(HubSpot) 1;
~*(Chrome-Lighthouse) 1;
~*(HeadlessChrome) 1;
~*(CheckMarkNetwork\/) 1;
~*(www\.uptime\.com) 1;
~*(Streamline3Bot\/) 1;
~*(serpstatbot\/) 1;
~*(MixnodeCache\/) 1;
~*(^curl) 1;
~*(SimpleScraper) 1;
~*(RSSingBot) 1;
~*(Jooblebot) 1;
~*(fedoraplanet) 1;
~*(Friendica) 1;
~*(NextCloud) 1;
~*(Tiny\ Tiny\ RSS) 1;
~*(RegionStuttgartBot) 1;
~*(Bytespider) 1;
~*(Datanyze) 1;
~*(TrendsmapResolver) 1;
~*(tweetedtimes) 1;
~*(NTENTbot) 1;
~*(Gwene) 1;
~*(SimplePie) 1;
~*(SearchAtlas) 1;
~*(Superfeedr) 1;
~*(feedbot) 1;
~*(UT-Dorkbot) 1;
~*(SerendeputyBot) 1;
~*(Eyeotabot) 1;
~*(officestorebot) 1;
~*(Neticle\ Crawler) 1;
~*(SurdotlyBot) 1;
~*(LinkisBot) 1;
~*(AwarioSmartBot) 1;
~*(AwarioRssBot) 1;
~*(RyteBot) 1;
~*(FreeWebMonitoring\ SiteChecker) 1;
~*(AspiegelBot) 1;
~*(zenback\ bot) 1;
~*(SentiBot) 1;
~*(Domains\ Project\/) 1;
~*(Pandalytics) 1;
~*(VKRobot) 1;
~*(bidswitchbot) 1;
~*(tigerbot) 1;
~*(NIXStatsbot) 1;
~*(Atom\ Feed\ Robot) 1;
~*(Curebot) 1;
~*(PagePeeker\/) 1;
~*(Vigil\/) 1;
~*(rssbot\/) 1;
~*(startmebot\/) 1;
~*(JobboerseBot) 1;
~*(seewithkids) 1;
~*(NINJA\ bot) 1;
~*(Cutbot) 1;
~*(BublupBot) 1;
~*(BrandONbot) 1;
~*(RidderBot) 1;
~*(Taboolabot) 1;
~*(Dubbotbot) 1;
~*(FindITAnswersbot) 1;
~*(infoobot) 1;
~*(Refindbot) 1;
~*(BlogTraffic\/\d\.\d+\ Feed-Fetcher) 1;
~*(SeobilityBot) 1;
~*(Cincraw) 1;
~*(Dragonbot) 1;
~*(VoluumDSP-content-bot) 1;
~*(FreshRSS) 1;
~*(BitBot) 1;
~*(^PHP-Curl-Class) 1;
~*(centurybot) 1;
~*(Viber) 1;
~*(e\.ventures\ Investment\ Crawler) 1;
~*(evc-batch) 1;
~*(PetalBot) 1;
~*(virustotal) 1;
~*((^|\ )PTST\/) 1;
~*(minicrawler) 1;
~*(Cookiebot) 1;
~*(trovitBot) 1;
~*(seostar\.co) 1;
~*(IonCrawl) 1;
~*(BrowseX) 1;
~*(Palo\ Alto\ Networks) 1;
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment