Detailliertes Tutorial zum Ausführen von Selenium+Chromedriver auf dem Server

1. Einleitung

Ich möchte Selenium verwenden, um Daten von einer Website zu scrapen, aber manchmal treten bei der Verwendung von Phantomjs Fehler auf. Chrome verfügt jetzt auch über einen Headless-Betriebsmodus, sodass Phantomjs nicht mehr benötigt werden.

Bei der Installation von Chrome auf dem Server sind jedoch einige Fehler aufgetreten. Hier ist eine Zusammenfassung des gesamten Installationsvorgangs

2. Installieren Sie Chrome auf Ubuntu

# Installieren Sie Google Chrome
# https://askubuntu.com/questions/79280/how-to-install-chrome-browser-properly-via-command-line
sudo apt-get installiere libxss1 libappindicator1 libindicator7
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome*.deb # Könnte „Fehler“ anzeigen, behoben in der nächsten Zeile
sudo apt-get install -f

Es sollte jetzt installiert sein. Testen Sie es, indem Sie den folgenden Befehl ausführen:

Google Chrome – Headless – Remote-Debugging-Port = 9222 https://chromium.org – Disable-Gpu

Hier verwenden wir den Headless-Modus für Remote-Debugging. Die meisten Ubuntu-Rechner haben keine GPU, daher wird --disable-gpu verwendet, um Fehler zu vermeiden.
Anschließend können Sie eine weitere SSH-Verbindung zum Server öffnen und über die Kommandozeile auf den lokalen Port 9222 des Servers zugreifen:

Locken http://localhost:9222

Wenn die Installation erfolgreich war, werden Ihnen Debuginformationen angezeigt. Ich werde hier jedoch einen Fehler melden. Im Folgenden finden Sie die Lösung für den Fehler.

1) Mögliche Fehlerlösungen

Nach dem Ausführen des obigen Befehls erhalten Sie möglicherweise eine Fehlermeldung, dass Chrome nicht als Root ausgeführt werden kann. Verwenden Sie derzeit die folgenden Einstellungen, um Chrome einzurichten

1. Suchen Sie die Google Chrome-Datei

Mein Standort ist /opt/google/chrome/

2. Öffnen Sie die Google Chrome-Datei mit vi

vi /opt/google/chrome/google-chrome

Gefunden in der Datei

exec -a "$0" "$HERE/chrome" "$@"

3. Fügen Sie am Ende –user-data-dir –no-sandbox hinzu. Der gesamte Shell-Befehl lautet

exec -a "$0" "$HERE/chrome" "$@" --user-data-dir --no-sandbox

4. Öffnen Sie Google Chrome erneut und Sie können normal darauf zugreifen!

3. Installieren Sie den Chrome-Treiber Chromedriver

Chromedriver herunterladen

Chromedriver bietet eine API für den Betrieb von Chrome und ist eine Brücke für Selenium zur Steuerung von Chrome.

Am besten installieren Sie die neueste Version von Chromedriver. Ich erinnere mich, dass ich am Anfang nicht die neueste Version installiert habe und ein Fehler gemeldet wurde. Es gibt kein Problem mit der neuesten Version von Chromedriver. Die neueste Version finden Sie unter der folgenden Adresse
https://sites.google.com/a/chromium.org/chromedriver/downloads

Als ich diesen Artikel schrieb, war die neueste Version 2.37

wget https://chromedriver.storage.googleapis.com/2.37/chromedriver_linux64.zip
Entpacken Sie chromedriver_linux64.zip

An diesem Punkt ist die serverseitige, schnittstellenfreie Version von Chrome installiert.

4. So verwenden Sie die Nicht-Schnittstellenversion von Chrome

von Selenium importiere Webtreiber
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument("user-agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/62.0.3202.94 Safari/537.36'")
wd = Webtreiber.Chrome (Chrome-Optionen = Chrome-Optionen, ausführbarer Pfad = „/home/Chrome/Chrome-Treiber“)

wd.get("https://www.163.com")

Inhalt = wd.page_source.encode('utf-8')
Inhalt drucken

wd.quit()

Hier kann der dritte Einstellungsparameter in chrome_options verhindern, dass die Website erkennt, dass Sie den randlosen Modus zum Anti-Crawlen verwenden.

Die anderen beiden Einstellungen unten öffnen Chrome mit einer Benutzeroberfläche auf dem Desktop-Linux-System oder Mac-System, wenn sie nicht festgelegt sind. Beim Debuggen können Sie die folgenden beiden Zeilen auskommentieren und Chrome mit einer Benutzeroberfläche zum Debuggen des Programms verwenden.

chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

5. Referenzen

https://jiayi.space/post/zai-ubuntufu-wu-qi-shang-shi-yong-chrome-headless
https://blog.csdn.net/u013703963/article/details/71083802

Zusammenfassen

Dies ist das Ende dieses Artikels über Selenium+Chromedriver, der auf dem Server ausgeführt wird. Weitere Informationen über Selenium+Chromedriver, der auf dem Server ausgeführt wird, finden Sie in früheren Artikeln auf 123WORDPRESS.COM oder in den folgenden verwandten Artikeln. Ich hoffe, Sie werden 123WORDPRESS.COM auch in Zukunft unterstützen!

Das könnte Sie auch interessieren:

Python verwendet Selenium, um die asynchron geladene Datenmethode von Taobao zu crawlen
Beispielcode zur Selenium-Ausnahmebehandlung in Python
Detaillierte Erklärung zur Verwendung von Selenium Chrome unter Linux
Detaillierte Erklärung der Ausführung von Javascript-Skriptparametern und Rückgabewerten durch Selenium
Python + Selenium + Crontab zur Realisierung der täglichen automatischen Einstempelfunktion
Detaillierte Erläuterung der Konfigurationsoptionen, wenn Selenium Chrome startet
Selenium: Analyse häufiger Ausnahmen und Demonstration von Lösungen

<<: So migrieren Sie den MySQL-Speicherort auf eine neue Festplatte

>>: JavaScript Canvas realisiert dynamische Punkt- und Linieneffekte

Detailliertes Tutorial zur Docker-Compose-Bereitstellung und Konfiguration von Jenkins

Detaillierte Erläuterung von Beispielen für MySQL-Einzeltabellenabfragevorgänge [Syntax, Einschränkungen, Gruppierung, Aggregation, Filterung, Sortierung usw.]

Dieser Artikel beschreibt die MySQL-Einzeltabelle...

Detailliertes Tutorial zum Ausführen von Selenium+Chromedriver auf dem Server

Detailliertes Tutorial zur Docker-Compose-Bereitstellung und Konfiguration von Jenkins

Ein Artikel zeigt Ihnen, wie Sie den Watch-Listener von Vue verwenden

Vues Leitfaden zu Fallstricken bei der Verwendung von Drosselungsfunktionen

Eine kurze Erläuterung der ifnull()-Funktion ähnlich der nvl()-Funktion in MySQL

JS implementiert das Auf- und Abgleiten auf dem mobilen Endgerät, jeweils einen Bildschirm nach dem anderen

Praktischer Bericht über die Entwicklung von Vue3- und TypeScript-Projekten

So verwenden Sie das Flex-Layout, um ein Scrollen des festen Inhaltsbereichs im Kopf zu erreichen

Lösung für zu große Mysql-Binlog-Protokolldateien

Einführung in das Batch-Cache-Löschskript von nginx proxy_cache

Schritte für Vue3 zur Verwendung von Mitt für die Komponentenkommunikation

Artikel empfehlen

Mysql fragt die ausgeführten Transaktionen ab und wie auf Sperren gewartet werden soll

Wie melde ich mich per Remote-Zugriff bei der MySql-Datenbank an?

Detaillierte Erklärung zur Installation von CentOS7 mit der in Win10 integrierten virtuellen Maschine Hyper-V

XHTML-Tutorial: Der Unterschied zwischen Transitional und Strict

Detaillierte Erläuterung von Beispielen für MySQL-Einzeltabellenabfragevorgänge [Syntax, Einschränkungen, Gruppierung, Aggregation, Filterung, Sortierung usw.]

Lösen Sie das Problem, dass MySQL „not in“ verwendet, um Nullwerte einzuschließen

Vue.js implementiert den Code zum Klicken auf das Symbol zum Vergrößern und Verlassen

So überprüfen Sie, ob die Ports des lokalen Computers und des Remote-Servers unter Linux verbunden sind

Detaillierte Erklärung der Installationsbefehle und Verwendung von Docker und FastDFS

So installieren und verwenden Sie Server-U Version 14

CSS-Isolationsproblem in Blazor

Lösung für das Versagen von Docker beim Freigeben von Ports

Drei Möglichkeiten zur Kommunikation zwischen React-Komponenten (einfach und benutzerfreundlich)

JavaScript implementiert Farberkennung beim Überfahren der Tabellenzeile mit der Maus

Ein netter HTML-Druckcode unterstützt das Umblättern