Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

1. Datendeduplizierung

Bei der täglichen Arbeit kann es zu Datenduplizierung kommen, wenn Sie Hive oder Impala zum Abfragen und Exportieren verwenden, Sie die Abfrage aber nicht erneut ausführen möchten (die Abfragezeit ist etwas lang und der exportierte Dateiinhalt ist groß). Daher denken Sie darüber nach, Linux-Befehle zu verwenden, um doppelte Daten aus dem Dateiinhalt zu entfernen.

Nachfolgend sehen Sie ein Beispiel:

Sie können sehen, dass aaa.txx 3 doppelte Daten hat

Ich möchte die redundanten Daten entfernen und nur eine behalten

sortiere aaa.txt | uniq > bbb.txt

Entfernen Sie doppelte Daten aus der Datei aaa.txt und geben Sie sie in bbb.txt aus.

Sie können sehen, dass in der Datei bbb.txt nur ein Datenelement gespeichert ist

2. Datenschnittmenge, -vereinigung und -differenz

1) Schnittmenge (entspricht user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2) Union (entspricht user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3) Unterschied

Benutzer_2019.txt-Benutzer_2020.txt

sortieren user_2019.txt user_2020.txt user_2020.txt | uniq -u

Benutzer_2020.txt – Benutzer_2019.txt:

sortieren user_2020.txt user_2019.txt user_2019.txt | uniq -u

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird.

Das könnte Sie auch interessieren:
  • So erkennen Sie die Dateisystemintegrität basierend auf AIDE in Linux
  • Detaillierte Erläuterung der Befehle zum Lesen und Schreiben von Remotedateien mit Vim im Linux-System
  • Detaillierte Erläuterung verschiedener praktischer Verwendungen virtueller Gerätedateien im Linux-System
  • Lösung für die Eingabeaufforderung „Keine solche Datei oder kein solches Verzeichnis“ beim Ausführen ausführbarer Dateien unter Linux
  • So kopieren Sie schnell große Dateien unter Linux
  • Detaillierte Erläuterung des Problems, dass der Speicherplatz nach dem Löschen der Linux-Datei nicht freigegeben wird
  • Beispielanalyse von Linux-Dateiverwaltungsbefehlen [Anzeige, Ansicht, Statistiken usw.]

<<:  Tiefgreifendes Verständnis langer MySQL-Transaktionen

>>:  js zur Realisierung einer einfachen Scheibenuhr

Artikel empfehlen

Detaillierte Erläuterung der ECharts-Mausereignisverarbeitungsmethode

Ein Ereignis ist eine vom Benutzer oder dem Brows...

Reagieren Sie auf die Konstruktionsreihenfolge verschachtelter Komponenten

Inhaltsverzeichnis Auf der offiziellen React-Webs...

Grundlegendes zur CSS-Eigenschaft „transform-origin“

Vorwort Ich habe vor kurzem eine Feuerwerksanimat...

So ändern Sie die Kodierung in MySQL Version 5.7 unter Windows auf UTF-8

Vorwort Ich habe gerade angefangen, MySQL zu lern...

Nginx-Weiterleitung basierend auf URL-Parametern

Anwendungsszenarien: Der Sprungpfad muss entsprec...

Lösung zum Vergessen des Administratorkennworts der MySQL-Datenbank

1. Geben Sie den Befehl mysqld --skip-grant-table...

Installieren und Bereitstellen von Java8 und MySQL unter CentOS7

Im Allgemeinen werden Java-Lernprogramme und Bere...

Implementierung des Vue-Top-Tags-Browserverlaufs

Inhaltsverzeichnis Unsinn Implementierte Funktion...

So verwenden Sie Docker-Compose zum Erstellen eines ELK-Clusters

Auf alle Orchestrierungsdateien und Konfiguration...

MySQL-Update-Fall Update-Feldwert ist keine feste Operation

Wenn bei der Verarbeitung von Batch-Updates besti...

Eine kurze Diskussion über MySql-Ansichten, Trigger und gespeicherte Prozeduren

Sicht Was ist eine Ansicht? Welche Rolle spielt e...