1. Datendeduplizierung Bei der täglichen Arbeit kann es zu Datenduplizierung kommen, wenn Sie Hive oder Impala zum Abfragen und Exportieren verwenden, Sie die Abfrage aber nicht erneut ausführen möchten (die Abfragezeit ist etwas lang und der exportierte Dateiinhalt ist groß). Daher denken Sie darüber nach, Linux-Befehle zu verwenden, um doppelte Daten aus dem Dateiinhalt zu entfernen. Nachfolgend sehen Sie ein Beispiel: Sie können sehen, dass aaa.txx 3 doppelte Daten hat Ich möchte die redundanten Daten entfernen und nur eine behalten sortiere aaa.txt | uniq > bbb.txt Entfernen Sie doppelte Daten aus der Datei aaa.txt und geben Sie sie in bbb.txt aus. Sie können sehen, dass in der Datei bbb.txt nur ein Datenelement gespeichert ist 2. Datenschnittmenge, -vereinigung und -differenz 1) Schnittmenge (entspricht user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no) 2) Union (entspricht user_2019.user_no union user_2020.user_no) 3) Unterschied
Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird. Das könnte Sie auch interessieren:
|
<<: Tiefgreifendes Verständnis langer MySQL-Transaktionen
>>: js zur Realisierung einer einfachen Scheibenuhr
Dieser Artikel beschreibt die MySQL-Einzeltabelle...
Wenn die Position absolut ist, wird der Prozentsa...
Vorbereitung 1. Überprüfen Sie, ob die GPU CUDA u...
öffentliche Funktion json_product_list($where, $o...
Entfernen Sie das gepunktete Kästchen auf dem Link...
In diesem Artikelbeispiel wird der spezifische Ja...
In diesem Artikelbeispiel wird der spezifische Co...
Wie lässt sich feststellen, worauf dies hinweist?...
Installation von Python 3 1. Abhängige Umgebung i...
Ⅰ. Problembeschreibung: Verwenden Sie HTML+CSS, u...
Aktualisierung der Ereignisantwort: Aktualisierun...
Dieser Artikel stellt den Inhalt zur Git-Konfigur...
Dieser Artikel beschreibt anhand eines Beispiels,...
Vorwort In der Springboot-Konfigurationsdatei hab...
Die experimentelle Umgebung ist wie folgt Hier mü...