Warum wird für die Webseitenkodierung UTF-8 statt GBK oder GB2312 verwendet?

Warum wird für die Webseitenkodierung UTF-8 statt GBK oder GB2312 verwendet?

Wenn Sie die Wahl haben, sollten Sie UTF-8 verwenden

Tatsächlich sind die Programme des Windows-Systems bereits vollständig auf Unicode umgestiegen und GBK ist lediglich eine Notlösung, um mit den chinesischen Standards klarzukommen.

Die Textkodierung von GBK wird in Doppelbyte ausgedrückt, d. h. sowohl chinesische als auch englische Zeichen werden in Doppelbyte ausgedrückt, aber um Chinesisch zu unterscheiden, wird das höchste Bit auf 1 gesetzt.

Die UTF-8-Kodierung ist eine Multibyte-Kodierung zur Auflösung internationaler Zeichen. Sie verwendet 8 Bit (ein Byte) für Englisch und 24 Bit (drei Byte) für Chinesisch. Für Foren mit mehr englischen Zeichen wird aus Platzgründen UTF-8 verwendet.

GBK enthält alle chinesischen Schriftzeichen.

UTF-8 enthält Zeichen, die von allen Ländern der Welt benötigt werden.

GBK ist ein Standard, der nach der Erweiterung auf Grundlage des nationalen Standards GB2312 mit GB2312 kompatibel ist (es scheint, dass es noch kein nationaler Standard ist).

UTF-8-codierter Text kann in Browsern verschiedener Länder angezeigt werden, die den UTF-8-Zeichensatz unterstützen.
Wenn es sich beispielsweise um eine UTF8-Kodierung handelt, kann Chinesisch im englischen Internet Explorer von Ausländern angezeigt werden, ohne dass diese das Supportpaket für die chinesische Sprache für den IE herunterladen müssen.

Daher werden bei Foren mit mehr Englisch bei Verwendung von GBK 2 Bytes pro Zeichen belegt, während bei Verwendung von UTF-8 nur ein Byte benötigt wird.

Bitte beachten: Obwohl die UTF-8-Version eine gute internationale Kompatibilität aufweist, benötigt die chinesische Version 50 % mehr Datenbankspeicherplatz als die GBK/BIG5-Version. Daher wird sie nicht empfohlen und ist nur für Benutzer gedacht, die besondere Anforderungen an die internationale Kompatibilität haben.

Einfach ausgedrückt:
Für Foren mit viel chinesischem Text empfiehlt es sich, die GBK-Kodierung zu verwenden, um Datenbankspeicherplatz zu sparen.
Für Foren mit mehr englischen Inhalten empfiehlt sich die Verwendung von UTF-8, um Datenbankspeicherplatz zu sparen.

Was sind die Unterschiede zwischen gbk und gb2312

Zunächst muss jeder verstehen, was GBK ist. Was ist GB2312? Wir müssen wissen, dass es sich bei allen um eine Art Zeichenkodierung handelt. Natürlich gibt es viele Arten der Zeichenkodierung.

Wir können die Zeichenkodierung wie folgt verstehen:

Computer speichern Binärwerte von 0 und 1.

8 Bit entsprechen einem Byte, welches üblicherweise hexadezimal ausgedrückt wird.

Wie können wir dies also erreichen, wenn wir statt der verschiedenen Zahlen 0 und 1 die gewünschten Zeichen auf dem Computer angezeigt sehen möchten?

Hier müssen wir den Computer dazu bringen, die entsprechenden gespeicherten Hexadezimalwerte in entsprechende Zeichen umzuwandeln, einschließlich Zeichen anderer Sprachen wie Englisch und Chinesisch, und sie dann auf dem Bildschirm auszugeben.

Unter Kodierung versteht man also das Definieren eines Regelsatzes, um festzulegen, welche Werte welchen Zeichen entsprechen.

Anschließend wird mit der Zeichenkodierung ein Regelwerk definiert, das festlegt, welcher der vielen im Computer gespeicherten Werte welchem ​​auf dem Computerbildschirm angezeigten Buchstaben entspricht.

Zusammenfassend sollte jeder verstehen, dass GBK und GB2312 eine Art Zeichenkodierung sind.

Lassen Sie uns im Folgenden ausführlich auf ihre Unterschiede und Gemeinsamkeiten eingehen:

Ähnlichkeiten:

1. GBK und GB2312 sind beide 16 Bit!

2. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet.

Unterschiede:

1. Die GBK-Zeichenkodierung unterstützt vereinfachtes und traditionelles Chinesisch!

GBK steht für „Chinese Internal Code Extension Specification“ (GBK steht für den Anfangsbuchstaben von „nationaler Standard“ und „Erweiterung“ des chinesischen Pinyin, und der englische Name lautet Chinese Internal Code Specification). Es wurde am 1. Dezember 1995 vom Nationalen Technischen Komitee für Informationstechnologie-Standardisierung der Volksrepublik China formuliert. Die Standardisierungsabteilung der Staatlichen Verwaltung für technische Überwachung und die Abteilung für Wissenschaft, Technologie und Qualitätsüberwachung des Ministeriums für Elektronikindustrie haben es am 15. Dezember 1995 in Form des Dokuments Nr. 229 des Technischen Überwachungsschreibens 1995 gemeinsam als Leitdokument für technische Spezifikationen identifiziert.

2. GB2312 unterstützt nur vereinfachtes Chinesisch!

„Chinese Character Coded Character Set for Information Interchange“ ist ein Satz nationaler Standards, der 1980 von der General Administration of Standards of China herausgegeben und am 1. Mai 1981 implementiert wurde. Die Standardnummer ist GB 2312-1980.
Der GB 2312-Standard umfasst insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Ebene und 3008 chinesische Schriftzeichen der zweiten Ebene. Gleichzeitig umfasst GB 2312 682 Zeichen in voller Breite, darunter lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische kyrillische Buchstaben.

Wenn Ihre Webseiten hauptsächlich für Chinesen bestimmt sind, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen ist klein und es gibt einige Vorteile. Wenn Ihre Webseite für die ganze Welt bestimmt ist und Sie GB2312 und GBK als Webseiten-Kodierung verwenden, unterstützen einige Browser auf Computern diese Kodierung nicht und die chinesischen Schriftzeichen auf Ihrer Webseite werden zu unkenntlichen, verstümmelten Zeichen.

<<:  So verwenden Sie position:sticky, um das Problem kleiner Programme, die an der Decke haften, perfekt zu lösen

>>:  Teilen einiger wunderbarer Verwendungsmöglichkeiten von wxs-Dateien im WeChat-Applet

Artikel empfehlen

Lösung für den erfolgreichen Start von MySQL, aber ohne Überwachung des Ports

Problembeschreibung MySQL wurde erfolgreich gesta...

Beispielcode zum Generieren eines QR-Codes mit js

Vor einiger Zeit musste das Projekt die Funktion ...

Lösung für MySQL-Replikationsfehler aufgrund voller Festplatte

Inhaltsverzeichnis Fallbeispiel Lösung des Proble...

So realisieren Sie die vertikale Anordnung von Text mit CSS3

In einem aktuellen Projekt wollte ich Text vertik...

So konfigurieren Sie Benutzerrollenberechtigungen in Jenkins

Die Jenkins-Konfiguration von Benutzerrollenberec...

Implementierungsbeispiel für die Nginx-Zugriffskontrolle

Über Nginx, eine leistungsstarke, leichte Webserv...

Nginx-Reverseproxy und Lastausgleichspraxis

Reverse-Proxy Unter Reverse-Proxy versteht man de...

Verschönerung der Dualsystem-Boot-Schnittstelle für Win10 + Ubuntu20.04 LTS

Effektanzeige Die eingebaute Boot-Oberfläche ist ...

Eine kurze Erläuterung zu Leerzeichen und Leerzeilen im HTML-Code

Alle aufeinanderfolgenden Leerzeichen oder Leerze...

Gruselige Halloween-Linux-Befehle

Auch wenn nicht Halloween ist, lohnt es sich, sic...

Responsive Layout-Zusammenfassung (empfohlen)

Grundkenntnisse der responsiven Layoutentwicklung...

Probleme und Lösungen beim Ersetzen von Oracle durch MySQL

Inhaltsverzeichnis Migrationstools Anwendungstran...

JS erhält Fünf-Sterne-Lob

In diesem Artikel wird der spezifische Code von J...

Verwenden Sie sauberes HTML-Markup zum Erstellen Ihrer Seiten

Das Internet ist ein Organismus, der sich ständig...