Erstellen Sie eine neue Konfigurationsdatei (gehen Sie beispielsweise in das Verzeichnis „conf“ im Nginx-Installationsverzeichnis und erstellen Sie: „agent_deny.conf“). Deaktivieren Sie das Crawlen durch Tools wie Scrapy, if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } Zugriff mit angegebener UA oder leerer UA verbieten #verboten Scrapy wenn ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { Rückgabe 403; } #verbotene UA if ($http_user_agent ~ "Bytespider|FeedDemon|JikeSpider|Indy-Bibliothek|Alexa-Symbolleiste|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { Rückgabe 403; } #verboten, kein Zugriff auf die Methode GET|HEAD|POST wenn ($Anforderungsmethode !~ ^(GET|HEAD|POST)$) { Rückgabe 403; } Fügen Sie dann den folgenden Code in den Serverabschnitt der Website-Konfiguration ein: include agent_deny.conf; Starten Sie nginx neu: /data/nginx/sbin/nginx -s neu laden Der Test kann durchgeführt werden, indem man curl -A verwendet, um das Crawlen zu simulieren, zum Beispiel: curl -I -A 'YYSpider' <<www.xxx.con>> Ergebnis
Simulieren Sie einen Crawl mit leerem UA: curl -I -A' ' <<www.xxx.cn>> Ergebnis
Simulieren Sie das Crawlen des Baidu Spider: curl -I -A 'Baiduspider' <<<www.xxx.cn>>>
UA-Typ FeedDemon-Inhaltssammlung BOT/0.1 (BOT für JCE) SQL-Injection CrawlDaddy-SQL-Injection Java-Inhaltssammlung Jullo-Inhaltssammlung Feedly-Inhaltssammlung UniversalFeedParser-Inhaltssammlung ApacheBench CC-Angreifer Swiftbot nutzloser Crawler YandexBot nutzloser Crawler AhrefsBot nutzloser Crawler YisouSpider nutzloser Crawler (wurde von UC Shenma Search erworben, dieser Spider kann freigegeben werden!) jikeSpider nutzloser CrawlerMJ12bot nutzloser CrawlerZmEu phpmyadmin SchwachstellenscanWinHttp-Sammlungcc-AngriffEasouSpider nutzloser CrawlerHttpClient-TCP-AngriffMicrosoft URL Control-ScanYYSpider nutzloser Crawlerjaunty WordPress-Blasting-ScannoBot nutzloser CrawlerPython-urllib-InhaltssammlungIndy Library-ScanFlightDeckReports Bot nutzloser CrawlerLinguee Bot nutzloser Crawler Nginx Anti-Hotlink-Konfiguration Hintergrund: Um zu verhindern, dass Referenzlinks von Drittanbietern auf unsere Bilder zugreifen und Serverressourcen sowie Netzwerkverkehr verbrauchen, können wir auf dem Server Anti-Hotlink-Einschränkungen vornehmen. Siehe Methode zum Erreichen von Anti-Hotlinking Arbeitsmodul: ngx_http_referer_module. Gültige Variablen: $invalid_referer, globale Variable. Konfigurationsdomäne: Server, Standort Konfiguration: Server { hören Sie 80; Servername www.imcati.com refer-test.imcati.com; root /usr/share/nginx/html; Standort ~*\.(gif|jpg|jpeg|png|bmp|swf)$ { valid_referers, keine blockiert, www.imcati.com; wenn ($ungültiger_Referrer) { Rückgabe 403; } } }
Dies ist das Ende dieses Artikels über die detaillierte Konfiguration von Nginx Anti-Hotlink und Anti-Crawler. Weitere relevante Inhalte zur Konfiguration von Nginx Anti-Hotlink und Anti-Crawler finden Sie in früheren Artikeln auf 123WORDPRESS.COM oder durchsuchen Sie die verwandten Artikel weiter unten. Ich hoffe, dass jeder 123WORDPRESS.COM in Zukunft unterstützen wird! Das könnte Sie auch interessieren:
|
<<: Vue verwendet ECharts zur Implementierung von Liniendiagrammen und Kreisdiagrammen
>>: Detaillierte Erklärung der Speicher-Engine in MySQL
=================================================...
Bei der täglichen Wartung und Verwaltung von Webs...
Dieser Artikel veranschaulicht anhand eines Beisp...
Wenn Sie auf einem Windows-Server regelmäßig Date...
Wie in der Abbildung gezeigt: Tabellendaten Wie e...
Inhaltsverzeichnis 1. Einleitung 2. Beschreibung ...
Vor kurzem hat Xiao Ming einen neuen Mac gekauft ...
So richten Sie einen MySQL-Kurzlink ein 1. Überpr...
Anmerkung des Herausgebers: Dieser Artikel wurde ...
Wenn Sie jemand fragen würde, ob die Ausführung v...
Hintergrund In einer Liste wie der folgenden erfo...
Vorwort In diesem Artikel untersuchen wir die Ent...
Die Standardanordnung von Text in HTML ist horizo...
Inhaltsverzeichnis 1. Was ist Bubble Sort 2. Gebe...