So installieren Sie die Standalone-Version von Spark in einer Linux-Umgebung ohne Verwendung von Hadoop

Das Thema Big Data wird immer wichtiger und wer mit mehreren Big Data-Komponenten nicht vertraut ist, hat nicht einmal ein Schlagwort, mit dem er angeben kann. Zumindest sollten Sie Hadoop, HDFS, MapReduce, Yarn, Kafka, Spark, Zookeeper und Neo4j beherrschen. Das sind wichtige Fähigkeiten, um sich zu präsentieren.

Im Internet gibt es viele ausführliche Einführungen zu Spark. Suchen Sie einfach danach. Lassen Sie uns als Nächstes über die Installation und kurze Verwendung der Standalone-Version von Spark sprechen.

0. JDK installieren. Da ich JDK bereits auf meinem Rechner habe, kann ich diesen Schritt überspringen. JDK ist bereits ein Klischee, es ist aber selbstverständlich, dass es bei der Verwendung von Java/Scala unverzichtbar ist.

ubuntu@VM-0-15-ubuntu:~$ java -version
OpenJDK-Version „1.8.0_151“
OpenJDK-Laufzeitumgebung (Build 1.8.0_151-8u151-b12-0ubuntu0.16.04.2-b12)
OpenJDK 64-Bit-Server-VM (Build 25.151-b12, gemischter Modus)
ubuntu@VM-0-15-ubuntu:~$

1. Sie müssen Hadoop nicht unbedingt installieren, Sie müssen nur eine bestimmte Spark-Version auswählen. Sie müssen Scala nicht herunterladen, da Spark standardmäßig mit einer Scala-Shell geliefert wird. Gehen Sie zum Herunterladen auf die offizielle Spark-Website. In einer Umgebung ohne Hadoop können Sie Folgendes auswählen: spark-2.2.1-bin-hadoop2.7 und es dann wie folgt entpacken:

ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc$ ll
insgesamt 196436
drwxrwxr-x 3 Ubuntu Ubuntu 4096 2. Februar 19:57 ./
drwxrwxr-x 9 Ubuntu Ubuntu 4096 2. Februar 19:54 ../
drwxrwxr-x 13 Ubuntu Ubuntu 4096 2. Februar 19:58 Spark-2.2.1-bin-hadoop2.7/
-rw-r--r-- 1 Ubuntu Ubuntu 200934340 2. Februar 19:53 Spark-2.2.1-bin-hadoop2.7.tgz

2. Spark hat Python- und Scala-Versionen. Als Nächstes werde ich die Scala-Version der Shell wie folgt verwenden:

ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ bin/spark-shell 
Verwenden des Standard-Log4j-Profils von Spark: org/apache/spark/log4j-defaults.properties
Festlegen der Standardprotokollebene auf „WARN“.
Um die Protokollierungsebene anzupassen, verwenden Sie sc.setLogLevel(newLevel). Verwenden Sie für SparkR setLogLevel(newLevel).
18/02/02 20:12:16 WARNUNG NativeCodeLoader: Native-Hadoop-Bibliothek für Ihre Plattform kann nicht geladen werden... ggf. werden integrierte Java-Klassen verwendet
18/02/02 20:12:16 WARN Utils: Ihr Hostname, localhost, wird in eine Loopback-Adresse aufgelöst: 127.0.0.1; stattdessen wird 172.17.0.15 verwendet (auf Schnittstelle eth0)
18/02/02 20:12:16 WARN Utils: Setzen Sie SPARK_LOCAL_IP, wenn Sie an eine andere Adresse binden müssen
Spark-Kontext-Web-Benutzeroberfläche verfügbar unter http://172.17.0.15:4040
Spark-Kontext verfügbar als „sc“ (Master = local[*], App-ID = local-1517573538209).
Spark-Sitzung als „Spark“ verfügbar.
Willkommen bei
   ____ __
   / __/__ ___ _____/ /__
  _\ \/ _ \/ _ `/ __/ '_/
  /___/ .__/\_,_/_/ /_/\_\ Version 2.2.1
   /_/
Verwende Scala Version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_151)
Geben Sie Ausdrücke ein, um sie auswerten zu lassen.
Geben Sie :help ein, um weitere Informationen zu erhalten.
scala>

So führen Sie einfache Vorgänge aus:

scala> val Zeilen = sc.textFile("README.md")
Zeilen: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] bei textFile bei <console>:24
scala> Zeilen.Anzahl()
res0: Lang = 103
scala> Zeilen.zuerst()
res1: Zeichenfolge = # Apache Spark
scala>: beenden
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ 
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ 
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$  
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ wc -l README.md 
103 README.md
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ head -n 1 README.md 
# Apache Spark
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$

Werfen wir einen Blick auf die visuelle Webseite. Unter Windows geben Sie Folgendes ein: http://ip:4040

OK, dieser Artikel ist nur eine einfache Installation, wir werden Spark später noch ausführlicher vorstellen.

Zusammenfassen

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, dass der Inhalt dieses Artikels einen gewissen Lernwert für Ihr Studium oder Ihre Arbeit hat. Vielen Dank für Ihre Unterstützung von 123WORDPRESS.COM. Wenn Sie mehr darüber erfahren möchten, schauen Sie sich bitte die folgenden Links an

Das könnte Sie auch interessieren:

Detaillierte Schritte zur Installation eines Hadoop-Clusters unter Linux
Installations- und Einrichtungsprozess von Hadoop 2.7.3 unter Linux
Detaillierte grafische Erläuterung der Hadoop-Installation und -Konfiguration basierend auf Linux7
Schritte zum Erstellen des Hadoop-Dienstes in Centos7 unter Linux
Detaillierte Schritte zum Installieren und Konfigurieren eines Hadoop-Clusters unter Linux
Gemeinsame Erläuterung der Schritte zum Erstellen einer Hadoop-Umgebung unter Linux
Detaillierte Erläuterung der Installation eines echten verteilten Hadoop-Clusters auf einem Linux-System

<<: Fallstricke bei der Installation der dekomprimierten Version von MySQL 5.7.20 (empfohlen)

>>: Beispielcode zur Implementierung der Schnittstellensignatur mit Vue+Springboot

MySQL PXC erstellt einen neuen Knoten mit ausschließlich IST-Übertragung (empfohlen)

Artikel

Detailliertes Tutorial zur Verwendung von Docker zum Erstellen einer Laravel-Entwicklungsumgebung in der Win10-Home-Version

Artikel

MySQL verwendet den Befehl truncate, um alle Tabellen in einer Datenbank schnell zu löschen

Aktivieren Sie OCSP, um die Effizienz der https-Zertifikatsüberprüfung zu verbessern und das Problem des langsamen Zugriffs auf Let’s Encrypt SSL-Zertifikate zu lösen

In den letzten Tagen war der Zugriff auf die Webs...

Tomcat-Ausnahmelösung (Ungültiges Zeichen im Anforderungsziel gefunden. Die gültigen Zeichen sind in RFC 7230 und RFC 3986 definiert)

1. Szenariodarstellung Das Tomcat-Protokoll melde...

Fallstricke bei der neueren Version des IDEA2021 Tomcat10-Servlets

Da die Version, die ich beim Lernen verwendet hab...

Sieben Prinzipien eines guten Designers (2): Farbgebrauch

<br />Vorheriger Artikel: Sieben Prinzipien ...

So installieren Sie die Standalone-Version von Spark in einer Linux-Umgebung ohne Verwendung von Hadoop

MySQL PXC erstellt einen neuen Knoten mit ausschließlich IST-Übertragung (empfohlen)

Detailliertes Tutorial zur Verwendung von Docker zum Erstellen einer Laravel-Entwicklungsumgebung in der Win10-Home-Version

MySQL verwendet den Befehl truncate, um alle Tabellen in einer Datenbank schnell zu löschen

Beispiel für die Verwendung des Swiper-Plugins zur Implementierung eines Karussells in Vue

Häufige Anwendungsszenarien für React Hooks (Zusammenfassung)

So importieren Sie eine JS-Konfigurationsdatei auf den Vue-Server

Nodejs Exploration: Tiefgreifendes Verständnis des Prinzips der Single-Threaded High Concurrency

Detaillierte Erklärung zum Erkennen und Verhindern von JavaScript-Endlosschleifen

So konfigurieren Sie Linux CentOS für die regelmäßige Ausführung von Skripten

So ändern Sie die Länge eines Eingabetextfelds entsprechend seinem Inhalt

Artikel empfehlen

Verwendung und Unterschied von Js-Modulverpackungsexporten erfordern Import

HTML ungeordnete Liste Aufzählungspunkte mit Bildern CSS schreiben

Detaillierte Erläuterung der Methode zur Bestimmung des einzelnen Masterknotens von MySQL 5.7 MGR

Diagramm der Installationsschritte für MySQL 8.0.11 Community Green Edition für Windows

Aktivieren Sie OCSP, um die Effizienz der https-Zertifikatsüberprüfung zu verbessern und das Problem des langsamen Zugriffs auf Let’s Encrypt SSL-Zertifikate zu lösen

Hinweise zur Verwendung der verknüpften Liste des Linux-Kernel-Gerätetreibers

Detaillierte Erläuterung des Ausführungsprozesses der JavaScript-Engine V8

So rufen Sie einen Hyperlink auf und öffnen ihn

jQuery-Plugin zur Implementierung des Minesweeper-Spiels (1)

Detaillierte Erläuterung des Linux-Indexknoten-Inode

Document Object Model (DOM) in JavaScript

9 großartige JavaScript-Framework-Skripte zum Zeichnen von Diagrammen im Web

Tomcat-Ausnahmelösung (Ungültiges Zeichen im Anforderungsziel gefunden. Die gültigen Zeichen sind in RFC 7230 und RFC 3986 definiert)

Fallstricke bei der neueren Version des IDEA2021 Tomcat10-Servlets

Sieben Prinzipien eines guten Designers (2): Farbgebrauch