Kodowanie znaków na stronie internetowej
Ucząc się języka programowania prędzej czy później zetkniemy się z kodowaniem znaków. Potocznie mówi się o kodowaniu ASCII.UNICODE. Co to jest kodowanie znaków? Dlaczego potrzebujemy tego na swojej stronie internetowej? Na te i inne pytania odpowiemy w dzisiejszym wpisie.
Czym jest kodowanie tekstu?
Kodowanie znaków lub po prostu kodowanie tekstu jest to zabieg przyporządkowania jednego ciągu znaków z innego alfabetu, zwykle w systemie binarnym. Jak dobrze pamiętamy z lekcji informatyki w szkole, komputer przechowuje kod w formie zera i jedynek, czyli wcześniej wspomnianym kodzie binarnym. Wkraczając w tematykę kodu binarnego, powinniśmy znać takie pojęcia jak bit i bajt. Bit przyjmuje wartość zera lub jedynki, a bajt jest ciągiem zer i jedynek złożonych z 8 bitów. Warto wspomnieć, że liczby zapisane w postaci binarnej mogą też być literami. Istnieją także inne standardy kodowania, jak na przykład UTF-16, który jest przeznaczony do 16-bitowych słów, a UTF-32 do 32-bitowych słów.
Standardy kodowania znaków
Znaki kodować można w ASCII, ANSI, ISO, UNICODE i UTF-8, nas będzie interesować ten ostatni standard. UTF-8 jest standardem kodowania, który nie posiada stałej ilości znaków, a ich długość mieści się w zakresie od 1 do 4 bajtów. W utf 8 polskie znaki są kodowane jako 2 bajty, a za ich kodowanie odpowiedzialne jest ISO-8859-2, zwane również ISO-Latin-2. Na stronach internetowych najczęściej jest wykorzystywane ISO-Latin-2, stanowiąc międzynarodową normę w kodowaniu polskich znaków. Aby utf 8 polskie znaki nam się dobrze wyświetlało, to musimy opatrzyć je znacznikiem meta, wewnątrz której w cudzysłowie umieścimy zapis utf-8, to powinno wystarczyć do poprawnego wyświetlania polskich znaków na stronie internetowej. Kodowanie znaków powinno być jedną z pierwszych rzeczy, które umieścimy wewnątrz znacznika head. W Internecie istnieje wiele narzędzi, kiedy nie mamy ochoty dodawać tego znacznika ręcznie, a do przekonwertowania jest wiele podstron. Pozwala to na oszczędność czasu i uniknięcie błędów w postaci brakującego kodowania znaków UTF-8.
Kodowanie znaków jest jedną z pierwszych rzeczy, na którą się natkniemy projektując strony internetowe. Bez znacznika UTF-8 nie zobaczymy strony internetowej, na której polskie znaki wyświetlają się prawidłowo. W informatyce kodowanie znaków jest obszernym tematem, z którym na pewno warto się zapoznać w przyszłości. Miejmy nadzieję, że po tak obszernym wyjaśnieniu nikt nie będzie miał problemów z kodowaniem znaków w tym standardzie.
Najnowsze komentarze