Wat zijn tekencoderingen zoals ANSI en Unicode, en hoe verschillen ze?

wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 1

ASCII, UTF-8, ISO-8859... Je hebt deze vreemde namen misschien wel eens zien rondzweven, maar wat betekenen ze eigenlijk? Lees verder terwijl we uitleggen wat tekencodering is en hoe deze acroniemen zich verhouden tot de platte tekst die we op het scherm zien.

Fundamentele bouwstenen

Als we het hebben over geschreven taal, hebben we het over letters die de bouwstenen zijn van woorden, die vervolgens zinnen, alinea's, enzovoort vormen. Letters zijn symbolen die klanken vertegenwoordigen. Als je het over taal hebt, heb je het over groepen geluiden die samenkomen om een ​​soort betekenis te vormen. Elk taalsysteem heeft een complexe reeks regels en definities die die betekenissen bepalen. Als je een woord hebt, is het nutteloos, tenzij je weet uit welke taal het komt en je het gebruikt met anderen die die taal spreken.



wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 2

(Vergelijking van Grantha-, Tulu- en Malayalam-scripts, afbeelding van Wikipedia)

In de wereld van computers gebruiken we de term karakter. Een karakter is een soort abstract concept, gedefinieerd door specifieke parameters, maar het is de fundamentele eenheid van betekenis. De Latijnse 'A' is niet hetzelfde als een Griekse 'alpha' of een Arabische 'alif' omdat ze verschillende contexten hebben - ze komen uit verschillende talen en hebben een iets andere uitspraak - dus we kunnen zeggen dat het verschillende karakters zijn. De visuele weergave van een teken wordt een glyph genoemd en verschillende sets glyphs worden lettertypen genoemd. Groepen karakters behoren tot een set of een repertoire.

Wanneer u een alinea typt en het lettertype wijzigt, verandert u niet de fonetische waarden van de letters, maar verandert u hoe ze eruitzien. Het is gewoon cosmetisch (maar niet onbelangrijk!). Sommige talen, zoals het oude Egyptisch en Chinees, hebben ideogrammen; deze vertegenwoordigen hele ideeën in plaats van geluiden, en hun uitspraken kunnen in de tijd en op afstand variëren. Als je het ene teken door het andere vervangt, vervang je een idee. Het is meer dan alleen letters veranderen, het is een ideogram veranderen.

Tekencodering

wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 3

(Afbeelding van Wikipedia)

Hoe weet de computer wat er moet worden weergegeven als u iets op het toetsenbord typt of een bestand laadt? Daar is karaktercodering voor. Tekst op uw computer bestaat eigenlijk niet uit letters, het is een reeks gepaarde alfanumerieke waarden. De tekencodering fungeert als een sleutel voor welke waarden overeenkomen met welke tekens, net zoals de spelling bepaalt welke geluiden overeenkomen met welke letters. Morsecode is een soort tekencodering. Er wordt uitgelegd hoe groepen van lange en korte eenheden, zoals pieptonen, tekens vertegenwoordigen. In morsecode zijn de tekens alleen Engelse letters, cijfers en punten. Er zijn veel coderingen voor computertekens die zich vertalen in letters, cijfers, accenttekens, leestekens, internationale symbolen, enzovoort.

Vaak wordt over dit onderwerp ook de term codepagina's gebruikt. Het zijn in wezen karaktercoderingen zoals gebruikt door specifieke bedrijven, vaak met kleine aanpassingen. De Windows 1252-codetabel (voorheen bekend als ANSI 1252) is bijvoorbeeld een aangepaste vorm van de ISO-8859-1. Ze worden meestal gebruikt als een intern systeem om te verwijzen naar standaard en gewijzigde tekencoderingen die specifiek zijn voor dezelfde systemen. In het begin was karaktercodering niet zo belangrijk omdat computers niet met elkaar communiceerden. Nu internet steeds belangrijker wordt en netwerken een veelvoorkomend verschijnsel is, is het een steeds belangrijker onderdeel van ons dagelijks leven geworden zonder dat we het ons zelfs maar realiseren.

Veel verschillende soorten

wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 4

(Afbeelding van Sarah Sosiak)

Er zijn tal van verschillende tekencoderingen die er zijn, en daar zijn tal van redenen voor. Welke tekencodering u kiest, hangt af van wat uw behoeften zijn. Als u in het Russisch communiceert, is het logisch om een ​​tekencodering te gebruiken die Cyrillisch goed ondersteunt. Als je in het Koreaans communiceert, wil je iets dat Hangul en Hanja goed vertegenwoordigt. Als je een wiskundige bent, dan wil je iets dat alle wetenschappelijke en wiskundige symbolen goed heeft weergegeven, evenals de Griekse en Latijnse glyphs. Als je een grappenmaker bent, heb je misschien baat bij tekst op zijn kop. En als u wilt dat al deze soorten documenten door een bepaalde persoon kunnen worden bekeken, wilt u een codering die vrij algemeen en gemakkelijk toegankelijk is.

Laten we eens kijken naar enkele van de meest voorkomende.

wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 5

(Uittreksel van ASCII-tabel, afbeelding van asciitable.com)

  • ASCII – De American Standard Code for Information Interchange is een van de oudere tekencoderingen. Het werd oorspronkelijk ontworpen op basis van telegrafische codes en evolueerde in de loop van de tijd om meer symbolen en een aantal nu verouderde niet-gedrukte controletekens te bevatten. Het is waarschijnlijk zo eenvoudig als je kunt krijgen in termen van moderne systemen, omdat het beperkt is tot het Latijnse alfabet zonder tekens met accenten. De 7-bits codering staat slechts 128 tekens toe, daarom zijn er over de hele wereld verschillende onofficiële varianten in gebruik.
  • ISO-8859 – De meest gebruikte groep tekencoderingen van de International Organization for Standardization is nummer 8859. Elke specifieke codering wordt aangeduid met een nummer, vaak voorafgegaan door een beschrijvende naam, bijv. ISO-8859-3 (Latijn-3), ISO-8859-6 (Latijn/Arabisch). Het is een superset van ASCII, wat betekent dat de eerste 128 waarden in de codering hetzelfde zijn als ASCII. Het is echter 8-bit en biedt plaats aan 256 tekens, dus het bouwt vanaf daar verder en bevat een veel breder scala aan tekens, waarbij elke specifieke codering zich richt op een andere reeks criteria. Latin-1 bevatte een aantal letters en symbolen met accenten, maar werd later vervangen door een herziene set genaamd Latin-9, die bijgewerkte glyphs zoals het eurosymbool bevat.

wat-zijn-karaktercoderingen-zoals-ansi-en-unicode-en-hoe-doen-ze-verschillen foto 6

(Uittreksel uit het Tibetaans schrift, Unicode v4, van unicode.org)

  • Unicode – Deze coderingsstandaard streeft naar universaliteit. Het bevat momenteel 93 scripts, georganiseerd in verschillende blokken, en er zijn er nog veel meer in de maak. Unicode werkt anders dan andere tekensets doordat in plaats van direct te coderen voor een glyph, elke waarde verder naar een codepunt wordt geleid. Dit zijn hexadecimale waarden die overeenkomen met karakters, maar de glyphs zelf worden op een vrijstaande manier geleverd door het programma, zoals uw webbrowser. Deze codepunten worden gewoonlijk als volgt weergegeven: U+0040 (wat zich vertaalt naar '@'). Specifieke coderingen onder de Unicode-standaard zijn UTF-8 en UTF-16. UTF-8 probeert maximale compatibiliteit met ASCII mogelijk te maken. Het is 8-bit, maar laat alle karakters toe via een vervangingsmechanisme en meerdere waardeparen per karakter. UTF-16 sluit perfecte ASCII-compatibiliteit af voor een completere 16-bits compatibiliteit met de standaard.
  • ISO-10646 – Dit is geen echte codering, maar een tekenset van Unicode die is gestandaardiseerd door de ISO. Het is vooral belangrijk omdat het het karakterrepertoire is dat door HTML wordt gebruikt. Enkele van de meer geavanceerde functies die door Unicode worden geboden en die het mogelijk maken om te sorteren en van rechts naar links en van links naar rechts te scripten, ontbreken. Toch werkt het heel goed voor gebruik op internet, omdat het het gebruik van een breed scala aan scripts mogelijk maakt en de browser de glyphs laat interpreteren. Dit maakt de lokalisatie iets gemakkelijker.

Welke codering moet ik gebruiken?

Welnu, ASCII werkt voor de meeste Engelstaligen, maar niet voor veel anders. Vaker zie je ISO-8859-1, dat werkt voor de meeste West-Europese talen. De andere versies van ISO-8859 werken voor Cyrillische, Arabische, Griekse of andere specifieke scripts. Als u echter meerdere scripts in hetzelfde document of op dezelfde webpagina wilt weergeven, zorgt UTF-8 voor een veel betere compatibiliteit. Het werkt ook heel goed voor mensen die de juiste interpunctie, wiskundige symbolen of gewone tekens gebruiken, zoals vierkanten en selectievakjes.

(Meerdere talen in één document, Screenshot van gujaratsamachar.com)

Er zijn echter nadelen aan elke set. ASCII is beperkt in zijn leestekens, dus het werkt niet ongelooflijk goed voor typografisch correcte bewerkingen. Typ ooit kopiëren/plakken vanuit Word om een ​​rare combinatie van glyphs te krijgen? Dat is het nadeel van ISO-8859, of beter gezegd, de veronderstelde interoperabiliteit met OS-specifieke codepagina's (we kijken naar JOU, Microsoft!). Het grootste nadeel van UTF-8 is het gebrek aan goede ondersteuning bij het bewerken en publiceren van toepassingen. Een ander probleem is dat browsers vaak de bytevolgordemarkering van een UTF-8-gecodeerd teken niet interpreteren en alleen weergeven. Hierdoor worden ongewenste glyphs weergegeven. En natuurlijk maakt het declareren van de ene codering en het gebruik van tekens van een andere zonder ze correct te declareren/verwijzen op een webpagina, het moeilijk voor browsers om ze correct weer te geven en voor zoekmachines om ze op de juiste manier te indexeren.

Voor uw eigen documenten, manuscripten, enzovoort, kunt u alles gebruiken wat u nodig heeft om de klus te klaren. Wat het web betreft, lijkt het erop dat de meeste mensen het eens zijn over het gebruik van een UTF-8-versie die geen bytevolgorde gebruikt, maar dat is niet helemaal unaniem. Zoals u kunt zien, heeft elke tekencodering zijn eigen gebruik, context en sterke en zwakke punten. Als eindgebruiker zul je hier waarschijnlijk niet mee te maken krijgen, maar nu kun je de extra stap voorwaarts zetten als je dat wilt.

Meer verhalen

Voeg een lichtgewicht teksteditor in Textmate-stijl toe met Dropbox-synchronisatie met Chrome en Iron

Ben je op zoek naar een goede tekstbewerkingsomgeving met ingebouwde Dropbox-synchronisatie voor je browser? Als het antwoord ja is, moet u de SourceKit - Text Editor Inside Chrome-webapp zeker eens proberen.

Vraag de lezers: wat zijn uw beste trucs voor het bestrijden van malware?

Malware is steeds geavanceerder en wijdverbreid geworden; het is belangrijker dan ooit om een ​​robuuste toolkit te hebben om ermee om te gaan. Deze week willen we horen over uw favoriete tips en trucs voor het omgaan met malware-plagen.

Lezerspeiling: gaat u de nieuwe iPad 2 kopen?

Steve Jobs kondigde kort geleden de iPad 2 aan, die een stortvloed aan nieuwe aankopen, upgrades en algemeen op Apple gericht gemompel en vuisttrillingen zal veroorzaken. Ga je een iPad 2 kopen?

Google werkt Picasa-webalbums bij; Nadruk op delen en presenteren

Google heeft de Picasa-webinterface afgestoft en bijgewerkt met de nadruk op het benadrukken van uw foto's en de foto's van degenen waarin u geïnteresseerd bent.

Uwall.tv maakt van YouTube een videojukebox

Als je vaak naar YouTube gaat om je muziek te repareren, is Uwall.tv een video-afspeellijstservice die YouTube verandert in je persoonlijke muziekvideojukebox.

Xoom Giveaway Met dank aan de complete Android-gids [Giveaway]

Als je een Android-fan bent en een Android 3.0-tablet wilt scoren, kun je meedoen om een ​​Xoom-tablet te winnen met dank aan de Complete Android Guide.

Leer contrast aanpassen als een professional in Photoshop, GIMP en Paint.NET

Helderheids- en contrasthulpmiddelen zijn voor beginners! Heb je je ooit afgevraagd welke grafische programma's geavanceerde gebruikers bieden om ervoor te zorgen dat hun foto's een grote waarde hebben? Lees verder om meer te weten te komen over niveaus, curven en histogrammen in drie hoofdprogramma's.

Een back-up maken van uw webgebaseerde e-mailaccount met Thunderbird

Als de Gmail-angst eerder deze week je doet nadenken over het maken van een back-up van je Gmail- of andere webgebaseerde e-mailaccount, zijn we er om je te helpen. Lees verder om te leren hoe u een back-up van uw webgebaseerde e-mail maakt met behulp van de open source e-mailtoepassing Thunderbird.

Toegang tot de opties voor uw favoriete extensies Gemakkelijker in Firefox

Wilt u liever een veel snellere manier om toegang te krijgen tot de opties voor uw favoriete extensies in Firefox? Nu kunt u het openen van het tabblad Add-onsbeheer overslaan en ze rechtstreeks openen via het menu met behulp van de invoegtoepassing Extensie-optiesmenu voor Firefox.

Niet slapen houdt uw Windows-machine wakker

Don't Sleep is een ultralichtgewicht en draagbare applicatie die perfect in een nichebehoefte voorziet: soms moet je tijdelijk voorkomen dat je Windows-machine afsluit of energie bespaart zonder een permanente ...