VirMach教程：nginx反爬虫禁止一些无用User Agent抓取

发布时间：2022-09-02 07:53 来源：主机侦探阅读：79 作者：主机侦探栏目：主机资讯欢迎投稿：712375056

尽管现在VPS的可选品牌很多，但VirMach这家美国主机商还是非常受欢迎的，性能稳定，价格低廉是他们的优势，故而在国内是有口皆碑的。nginx环境是最受欢迎的WEB服务器。网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫。

为了禁止垃圾User Agent爬虫抓取网站，达到节省宽带和节省资源的目的，就得想办法禁止垃圾User Agent爬虫来抓取自己的网站了，这里小编就给大家分享下NGINX下是如何实现禁止无用User Agent抓取网站的。

在/usr/local/nginx/conf/rewrite目录下新建agent_deny.conf文件【lnmp默认目录】，内容如下：

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa
Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft
URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports
Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$”
) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

然后再需要使用的网站配置文件中加入如下内容：

include agent_deny.conf;

好了后，重启下你的nginx即可。nginx下就禁止了无用User Agent抓取网站内容了。

来源链接：https://www.idcspy.com/virmach-20014.html

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

免责声明：本站发布的内容（图片、视频和文字）以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主，内容观点不代表本网站立场，如侵犯了原作者的版权，请告知一经查实，将立刻删除涉嫌侵权内容，联系我们QQ:712375056，同时欢迎投稿传递力量。

上一篇新闻：
上一篇：WebHostingPad WordPress主机方案介绍
下一篇新闻：
下一篇：Vultr韩国服务器怎么样韩国机房速度

云主机8折虚拟主机6折

红包可用于（云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速）购买和续费

VirMach教程：nginx反爬虫禁止一些无用User Agent抓取

特网科技产品

解决方案

帮助与支持

其他链接

联系我们

VirMach教程：nginx反爬虫禁止一些无用User Agent抓取

最新资讯

相关推荐

相关标签

特网科技产品

解决方案

帮助与支持

其他链接

联系我们