1. Spark vs. Hadoop1.1 Nachteile von Haoop
1.2 Vorteile gegenüber Hadoop MR
2. Spark-Ökosystem2.1 Drei Arten der Big Data-Verarbeitung 1. Komplexe Batch-DatenverarbeitungDie Zeitspanne beträgt von einigen zehn Minuten bis zu mehreren Stunden Haoop MapReduce 2. Interaktive Abfrage basierend auf historischen DatenDie Zeitspanne beträgt einige zehn Sekunden bis mehrere Minuten Die Echtzeitleistung von Cloudera und Impala ist besser als die von Hive. 3. Datenverarbeitung basierend auf Echtzeit-DatenstromDie Zeitspanne beträgt Hunderte von Millisekunden bis mehrere Sekunden Sturm 2.2 BDAS-Architektur2.3 Spark-Ökosystem3. Grundkonzepte und Architekturdesign3.1 Grundlegende Konzepte3.2 BetriebsarchitekturVorteile von Spark mit Executor: (Im Vergleich zu Hadoops MR)
3.3 Beziehungen zwischen verschiedenen Konzepten
Beim Ausführen einer Anwendung fordert der Treiber Ressourcen vom Cluster-Manager an und startet den Executor. Senden Sie den Anwendungscode und die Dateien an den Executor und führen Sie die Aufgabe dann auf dem Executor aus. Nachdem der Lauf abgeschlossen ist, Die Ausführungsergebnisse werden an den Treiber zurückgegeben oder in HDFS oder andere Datenbanken geschrieben. 4. Spark führt den Basisprozess aus4.1 Betriebsablauf1. Erstellen Sie eine grundlegende Betriebsumgebung für die Anwendung. Das heißt, der Treiber erstellt einen SparkContext, um Ressourcen zu beantragen, Aufgaben zuzuweisen und sie zu überwachen. 2. Der Ressourcenmanager weist dem Executor Ressourcen zu und startet den Executor-Prozess.
4. Der Task wird auf dem Executor ausgeführt und gibt die Ausführungsergebnisse an den TaskScheduler und dann an den DAGScheduler zurück. Nach Abschluss der Ausführung werden die Daten geschrieben und alle Ressourcen freigegeben. 4.2 Funktionen der Betriebsarchitektur1. Jede Anwendung verfügt über ihren eigenen Executor-Prozess. Der Prozess bleibt resident, während die Anwendung ausgeführt wird. Der Executor-Prozess führt die Aufgabe in einem Multithread-Verfahren aus. 2. Der laufende Spark-Prozess hat nichts mit dem Ressourcenmanager zu tun, solange er den Executor-Prozess abrufen und die Kommunikation aufrechterhalten kann. 3. Die Aufgabe verwendet Optimierungsmechanismen wie Datenlokalität und spekulative Ausführung. (Die Berechnung rückt näher an die Daten heran.) 5. Spark-Bereitstellungs- und Anwendungsmethoden5.1 Drei Bereitstellungsmethoden von Spark5.1.1 StandaloneÄhnlich wie bei MR1.0 ist der Steckplatz die Einheit zur Ressourcenzuweisung, die Leistung ist jedoch nicht gut. 5.1.2 Spark auf MesosMesos und Spark haben eine gewisse Affinität. 5.1.3 Spark auf YARNDie Verbindung zwischen Mesos und Yarn 5.2 Von der Hadoop+Storm-Architektur zur Spark-ArchitekturHadoop+Storm-ArchitekturDiese Bereitstellungsmethode ist komplizierter. Verwenden der Spark-Architektur zur Erfüllung der Anforderungen an die Stapel- und StreamverarbeitungSpark verwendet schnelles Small-Batch-Computing, um Stream-Computing zu simulieren, es handelt sich jedoch nicht um echtes Stream-Computing. Es ist unmöglich, Stream-Computing im Millisekundenbereich zu erreichen. Für Unternehmensanwendungen, die Echtzeitreaktionen im Millisekundenbereich erfordern, werden weiterhin Stream-Computing-Frameworks wie Storm benötigt. Vorteile der Spark-Architektur:
5.3 Einheitliche Bereitstellung von Hadoop und SparkVerschiedene Computing-Frameworks laufen einheitlich in YARNDie Vorteile sind wie folgt:
Status Quo: 1. Spark kann derzeit die von einigen Komponenten im Hadoop-Ökosystem implementierten Funktionen nicht ersetzen. 2. Die vollständige Migration bestehender, mit Hadoop-Komponenten entwickelter Anwendungen nach Spark kostet Geld. Dies ist das Ende dieses Artikels über die Einführung von Spark und die Vergleichsanalyse mit Hadoop. Weitere relevante Spark- und Hadoop-Inhalte finden Sie in den vorherigen Artikeln von 123WORDPRESS.COM oder in den folgenden verwandten Artikeln. Ich hoffe, dass jeder 123WORDPRESS.COM in Zukunft unterstützen wird! Das könnte Sie auch interessieren:
|
<<: Verwenden von js zur Realisierung eines dynamischen Hintergrunds
Vue kapselt die Breadcrumb-Komponente zu Ihrer In...
Voraussetzungen Git muss installiert werden Insta...
Ich habe mein Blog seit mehreren Tagen nicht aktu...
In diesem Artikel erkläre ich ausführlich, wie ma...
MySQL ist die am häufigsten verwendete Datenbank....
Inhaltsverzeichnis 2. Stapelanalyse mit pt-pmap 3...
Installieren Sie antd-mobile Globaler Import npm ...
Vorwort Kürzlich stieß ich auf eine Anforderung, ...
1. Ziehen Sie das Bild Führen Sie zunächst den fo...
Wenn das Home-Verzeichnis des Benutzers immer grö...
In diesem Artikelbeispiel wird der spezifische Co...
In diesem Artikelbeispiel wird der spezifische Co...
Inhaltsverzeichnis 1. Zeichne einen Kreis 2. Krei...
Inhaltsverzeichnis Objekt.prototype.valueOf() Obj...
1. Einleitung Git ist ein kostenloses, verteiltes...