Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

1. Datendeduplizierung

Bei der täglichen Arbeit kann es zu Datenduplizierung kommen, wenn Sie Hive oder Impala zum Abfragen und Exportieren verwenden, Sie die Abfrage aber nicht erneut ausführen möchten (die Abfragezeit ist etwas lang und der exportierte Dateiinhalt ist groß). Daher denken Sie darüber nach, Linux-Befehle zu verwenden, um doppelte Daten aus dem Dateiinhalt zu entfernen.

Nachfolgend sehen Sie ein Beispiel:

Sie können sehen, dass aaa.txx 3 doppelte Daten hat

Ich möchte die redundanten Daten entfernen und nur eine behalten

sortiere aaa.txt | uniq > bbb.txt

Entfernen Sie doppelte Daten aus der Datei aaa.txt und geben Sie sie in bbb.txt aus.

Sie können sehen, dass in der Datei bbb.txt nur ein Datenelement gespeichert ist

2. Datenschnittmenge, -vereinigung und -differenz

1) Schnittmenge (entspricht user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2) Union (entspricht user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3) Unterschied

Benutzer_2019.txt-Benutzer_2020.txt
sortieren user_2019.txt user_2020.txt user_2020.txt | uniq -u
Benutzer_2020.txt – Benutzer_2019.txt:
sortieren user_2020.txt user_2019.txt user_2019.txt | uniq -u

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird.

Das könnte Sie auch interessieren:

So erkennen Sie die Dateisystemintegrität basierend auf AIDE in Linux
Detaillierte Erläuterung der Befehle zum Lesen und Schreiben von Remotedateien mit Vim im Linux-System
Detaillierte Erläuterung verschiedener praktischer Verwendungen virtueller Gerätedateien im Linux-System
Lösung für die Eingabeaufforderung „Keine solche Datei oder kein solches Verzeichnis“ beim Ausführen ausführbarer Dateien unter Linux
So kopieren Sie schnell große Dateien unter Linux
Detaillierte Erläuterung des Problems, dass der Speicherplatz nach dem Löschen der Linux-Datei nicht freigegeben wird
Beispielanalyse von Linux-Dateiverwaltungsbefehlen [Anzeige, Ansicht, Statistiken usw.]

<<: Tiefgreifendes Verständnis langer MySQL-Transaktionen

>>: js zur Realisierung einer einfachen Scheibenuhr

Lösung für 700 % CPU-Auslastung eines Linux-Prozesses, der nicht beendet werden kann

Artikel empfehlen

Detaillierte Erläuterung von Beispielen für MySQL-Einzeltabellenabfragevorgänge [Syntax, Einschränkungen, Gruppierung, Aggregation, Filterung, Sortierung usw.]

Dieser Artikel beschreibt die MySQL-Einzeltabelle...

Verwenden Sie HTML+Css, um eine einfache Navigationsleistenfunktion zu implementieren (die Navigationsleiste ändert die Hintergrundfarbe, wenn die Maus darauf stößt).

Ⅰ. Problembeschreibung: Verwenden Sie HTML+CSS, u...

Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

Lösung für 700 % CPU-Auslastung eines Linux-Prozesses, der nicht beendet werden kann

HTML + CSS + JS-Beispielcode zur Nachahmung des Helligkeitsanpassungseffekts von Win10

Zusammenfassung häufig verwendeter MySQL-Befehle im Linux-Betriebssystem

Grafisches Tutorial zur Installation und Konfiguration von MySQL 5.7.13 winx64 (win10)

Lösung für die falsche Ausrichtung des Eingabecursors in Chrome, Firefox und IE

Verwenden der Docker Enterprise Edition zum Erstellen Ihres eigenen privaten Registrierungsservers

Detaillierte Erklärung der neuen Array-Methoden in JavaScript es6

Detaillierte Erläuterung der benutzerdefinierten Vue-Anweisungen

CSS3 implementiert einen Fußbereich, der unten fixiert ist (immer unten, egal wie hoch die Seite ist).

Detaillierte Erklärung des Prinzips zum Erstellen von Tomcat in Eclipse

Artikel empfehlen

Detaillierte Erläuterung von Beispielen für MySQL-Einzeltabellenabfragevorgänge [Syntax, Einschränkungen, Gruppierung, Aggregation, Filterung, Sortierung usw.]

Berechnung des Prozentwerts, wenn die CSS-Positionseigenschaft absolut ist

Detailliertes Tutorial zur Installation von NVIDIA-Treibern + CUDA + cuDNN in Ubuntu 16.04

getdata Tabelle Tabellendaten Join MySQL-Methode

CSS Skills Collection – Klassiker unter den Klassikern

JavaScript zum Erreichen eines einfachen Seiten-Countdowns

Vue+js: Klicken Sie auf den Pfeil, um die Bilder zu wechseln

Das Prinzip und die Richtung von JavaScript

Installieren Sie Python 3.6 unter Linux und vermeiden Sie Fallstricke

Verwenden Sie HTML+Css, um eine einfache Navigationsleistenfunktion zu implementieren (die Navigationsleiste ändert die Hintergrundfarbe, wenn die Maus darauf stößt).

Implementierungscode für die teilweise Aktualisierung einer HTML-Seite

Das praktische Gitlab-Tutorial verwendet Git Config für zugehörige Konfigurationsvorgänge

Detaillierte Erklärung zum Erstellen einer aktualisierbaren Ansicht in MySQL

Linux: Beispiel für das Bearbeiten des Start-, Stopp- und Neustartskripts für Springboot-JAR-Pakete

Implementierungsmethode des Nginx+Tomcat-Lastausgleichsclusters