utf-8 vs. cp 1252

ciphaDOTnet, 3. April 2009

es ist mal wieder freitag und das heisst, bei “schlag das craplog” ist es mal wieder zeit für einen richtigen flamewar.

seit vier jahren bin ich nun ein linux-benutzer. ein superuser. einer, der die schnauze von window$ einfach voll hatte und sich mit viel mut und ehrgeiz auf die suche nach einem zukünftigen ersatz für windows hasta la vista machte, das ja irgendwann mal kommen soll.

heute, im jahr 2009, muss ich leider ein negatives fazit dieser bemühungen ziehen. ich achte die foss-bewegung, ohne frage und benutze auch linux immer noch. für banking, chatting, schattenboxing ist es einfach erste wahl. aber es gibt verdammt viel, das mich aufregt. VERDAMMT VIEL. und über eines nur möchte ich heute berichten.

ich weiss nicht, welcher zeichensatz-standard bei windows herrscht (haha. guter witz). ich weiss nur, dass linux, ohne meine zustimmung oder von mir bemerkt, mit utf-8 verheiratet zu sein scheint.

versteht mich nicht falsch: jeder soll doch bitte den oder die heiraten, die er/sie will. aber es reicht endgültig, wenn folgende dinge passieren:

1) ich bin westdeutscher und westeuropäer. es gibt schlimmeres. auf der aussenfassade der neuen bibliothek von alexandria ist unser “scharf-s” oder “dreierles-s” verewigt (ß). unsere sprache zeichnet sich allerdings auch durch umlaute aus. ä, ö, ü. dafür können wir nichts und ehrlich gesagt sind das doch, zumindest in hiesigen gefilden, sinnvolle zeichen. ja, aber dann kommt utf-8 und zerschiesst alles. alles! egal, ob in wordpress, linux, einem simplen usbstick oder sonstwo. was soll ich bitte mit ├ñg, ├â┬ oder ├ñn anfangen???

2) das ist diskriminierung. nur, weil die vielen englischsprachigen länder mit umlauten probleme haben heisst das nicht, dass man sie aus seinem zeichensatz, der ja für computer und netzwerke möglichst international gelten soll, einfach streichen kann. jemanden dazu zu nötigen, dass er ae anstatt ä nutzen soll ist pervers. da würde ein kleiner blick über den eigenen tellerrand wunder wirken.

3) niemand, wirklich niemand kann von einem linux-neuling verlangen, er soll seine ganzen beigebrachten kenntnisse der eigenen(!) sprache über den haufen werfen, wenn er mit diesem betriebssystem arbeitet. das wird einem nirgendwo erzählt. zudem werden manche dateien komplett unbrauchbar, wenn sowas passiert und das ist nicht lustig. chattet ruhig mal über icq (oder sonstwas) und empfangt daten eines windows-icq-nutzers. wer dort nicht selber umstellt (bei sim kann man das), kann nichts lesen. toller technischer fortschritt!

4) ja, klar, jetzt kommt mir der schlaumeier in der ersten reihe natürlich mit “plattformunabhängigkeit”. nach dem, was ich bisher gesehen habe, ist es damit leider nicht weit her. verschiedene kulturen haben verschiedene zeichensätze und die sprache ist so oder so am aussterben, das muss der pc nicht auch noch unterstützen. aber mir scheint, genau darauf läuft es hinaus. “friss oder stirb!” schöne neue welt.

5) es wird doch wohl möglich sein, dateien, die auf unterschiedlichen systemen erstellt wurden, nicht ohne mein einverständnis(!) umzubennen. das würde vieles einfacher machen, wenn er mich, bevor er die dateinamen ändert, darauf hinweisen würde, dass er etwas nicht blickt. aber da hakt es beim rechner. dieses gerät ist einfach nicht intelligent und wird es sehr wahrscheinlich niemals sein. doch, ich frage mich, was hat eine änderung eines dateinamens eigentlich mit intelligenz zu tun? das ist schon wieder so grundstupide logik, dass ich kotzen könnte.

6) cp 1252 ist der code für den westeuropäischen zeichensatz. ihr könnt gerne mal den test machen und schauen, wo euch das begegnet, ohne das ihr mit einem linux-rechner probleme bekommt. es gibt noch cp 1256 für arabisch, cp 1257 für baltisch, shift-jis für japanisch, cp 1254 für türkisch usw. etc. ihr versteht wahrscheinlich, worauf ich hinaus will: einfacher geht es wohl nicht…

7) ein ähnliches problem hatten wir schonmal mit ascII. und hex. und binär, wenn man ganz tief gehen will. dns wurde dafür geschaffen, menschen zu ersparen sich ip-adressen zu merken. und genau das war mal eine richtige richtung! gibt es zeichensätze für dns!? nope. (fairerweise muss man sagen, es gibt auch keine umlaute…, wer hätte es gedacht. aber das w3c arbeitet daran. immerhin.)

8. überhaupt, “zeichensätze”. utf-8 alleine ist eine wissenschaft für sich und seit 1993 hat sich einiges geändert, freunde der sonne. wer wirklich im sinn hat, linux so einfach wie möglich für den benutzer zu machen, sollte allererstens ihm nichts vorschreiben. das ist der sinn von “freiheit”, aber der begriff ist mittlerweile so oder so sehr relativ.

9) nach den neuzeitlichen rangeleien zwischen m$ und tomtom und dem nutzen von fat als dateisystem sollte man vielleicht sogar tiefer anfangen. aber andauernd ein neues dateisystem zu pushen; steckt es euch sonstwo hin.

10) das ist die ultimative regel des ganzen: scheiss auf utf-8. ihr schreibt mir vor, welcher zeichensatz standard sein soll, fickt euch. warum ist cp 1252 kein standard??? hier kennt man wenigstens umlaute! ihr beschränkten lemminge. usa! usa! usa! windows! windows! windows! scheiss-welt.

wer mir jetzt vorhalten möchte, ich verstehe nichts von technik und überhaupt ist dieser beitrag nicht fundiert genug; fragt mal die franzosen. die rebellieren schon seit jahren gegen die ganze englische scheisse und niemand kümmert sich einen dreck. gut, man muss mir vorhalten, dass ich aus einem sprach-bereich komme: bis 2000 war englisch und deutsch mein fachgebiet. dann kam der pc und das internet. ich schätze diese räume auch und arbeite manchmal richtig gerne mit ihnen. aber sie sind und bleiben beschränkt, wenn man sich nur auf englisch verlässt. es ist die einfachste sprache des planeten und damit hat es sich. die hürden, um es zu lernen, sind sehr gering und überhaupt hat vor allem grossbritannien durch grössenwahnsinnige expansionen in der vergangenheit dazu beigetragen, dass die ganze welt es spricht. manchmal wünsche ich mir, die geschichte wäre anders verlaufen. zum glück bin ich ein mensch und kompliziert und habe macken und fehler, echt. fick die maschine.

9 Kommentare

  1. Harry Kuntz sagte am 3. April 2009 um 23:06 Uhr:

    Auch Smilie-Sätze können viel kaputt machen, siehe Punkt 8)

  2. mike sagte am 4. April 2009 um 15:05 Uhr:

    Du solltest die Finger vom Absinth lassen.
    Wenn ich mir Deinen Beitrag hier so anschaue, welcher wirklich vorn und hinten keinen irgendwelchen der Realität nahekommenden Sinn ergibt, dann isses mitm abben Ohr nicht mehr allzu weit.
    Ich hab Dich gewarnt!!11eins

    Hier noch ein paar utf-8-Ümläütё gratis für Deine Sammlung 🙂

  3. cipha sagte am 4. April 2009 um 22:42 Uhr:

    @harry: hattest recht, habe ich inzwischen ausgebessert.

    @mike: oha! da kennt mich jemand gut! aber ich habe leider schon seit jahren nicht mehr mit dem absinth geflirtet; ist einfach zu teuer.

    trotzdem muss ich dir sagen, dass das tatsächlich berichte aus der praxis sind. ich meine, diese kryptischen zeichen ziehe ich mir ja nicht aus dem finger.

    btw: bei einem kleinen flamewar kann man auch mal auf die pauke hauen; meine meinung.

    greetz,
    c1

  4. nik sagte am 31. July 2009 um 21:06 Uhr:

    Schlecht Nachrichten für Deine Hasstirade – UTF-8 macht erst die umfassende Darstellung von landessprachspezifischen Zeichen möglich und das gleichzeitig auf einem Bildschirm in einer gemeinsamen Codepage. Latin-1 ist davon weit entfernt.
    Was Du da oben gepostet hast ist ein Problem, wenn ein Übergang zwischen verschiedenen charsets entsteht. Dann wird umgewandelt, egal ob der andere Zeichensatz überhaupt passende Zeichen beinhaltet. Von UTF-8 zu älteren Sets ists noch schlimmer, da UTF-8 multibytes, also aus mehreren Bytes bestehende Zeichen nutzt, um Sonderzeichen zu codieren.

    Fazit:
    UTF-8 ist ein Segen, leider ist es noch nicht umfassend verbreitet, so dass System oft durch Konvertierung Müll proudzieren. In vielen Webtechnologien und -umsetzungen ist UTF-8 auch erst die letzten Jahre angekommen und tw. nicht konsequent umgesetzt. So fehlen vielleicht Browserheader, dann zeigt der Browser nicht nur die Seite als Latin an, sondern behandelt Eingaben (Stichwort CMS) unter Umständen auch so. Ergebnis ist ein bunter Mix aus Zeichen der charsets der jüngsten Computergeschichte.

  5. nik sagte am 31. July 2009 um 21:12 Uhr:

    PS: Die Website hier ist in UTF-8 (Browser -> Quelltext ansehen ->

    meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″

    bestaunen). Von daher frage ich mich, woher die Behauptung stammt, UTF-8 könne keine Ümläüte?

    Hier mal ein super Artikel, da wird dann auch Dein Ascii-Problem behandelt 😉

    joelonsoftware.com/articles/Unicode.html

  6. cipha sagte am 1. August 2009 um 12:19 Uhr:

    @nik: nein, nein, ist ja keine “hasstirade”, sondern einfach nur die erfahrung, die ich mit meinen dateien gemacht habe, wenn ich laufend mit windows und linux an verschiedenen rechnern arbeite. die zerschiesst es in schöner regelmässigkeit, sobald umlaute ins spiel kommen und ehrlich gesagt kann ich das im jahr 2009 nicht akzeptieren.

    das mit wordpress war ganz komisch: es gab da mal ein update, bei dem man anscheinend unbedingt bereits in der wp-config den zeichensatz angeben musste. ich habe zwei blogs. beim ersten habe ich das utf-8 eingefügt, update eingespielt und in allen meinen beiträgen hat es mir umlaute, sonderzeichen ($,€) und ein paar andere dinge zerschossen, nachdem ich das datenbank-update gemacht habe. dann habe ich das bei dem anderen blog einfach gelassen, ihm explizit die utf-8-sache in wp-config mitzugeben und dort sind meine umlaute bis heute vorhanden. überlege dir mal den fall: hätte ich bei meinem ersten blog nicht das plugin search & replace gehabt, hätte ich niemals herausfinden können, wo die umlaute zerschossen worden wären und mein archiv mit mehreren hundert beiträgen wäre im eimer gewesen. erst vor kurzem musste ich ” ‘ ” wiederherstellen, weil ich es übersehen hatte und es auch verkrüppelt wurde. das gefällt mir nicht.

    den beitrag habe ich gelesen. der knackpunkt ist: ich soll also manuell alle encodings durchgehen, bis ich eine gefunden habe, die zufällig passt!? ganz toll! bei thunderbird kann man das zwar machen, aber hey: wenn ich den zeichensatz umstelle bei einer email, hat er später schwierigkeiten bei anderen. das kann nicht sinn der sache sein, dass ich mich bei einem programm, das etwas einfacher machen soll, mich manuell jedesmal und mit gehirnschmalz hinsetzen muss, wenn es um bestimmte zeichen des texts in der email geht. die interoperalität ist nicht gewährleistet, sobald ich thunderbird unter linux nutze und ich eine email in der selben sprache(!) von einem windows-nutzer bekomme. tolle technik, echt der wahnsinn! mach’ das mal mit vielen emails am tag!

    fakt ist: das mit zeichensätzen sieht jeder anders. für manche programmierer ist unicode die religion, für andere utf-8, usw. ich will lediglich, dass ich, wenn es schon die selbe sprache ist, auf jedem system keine probleme mit irgendwelchen sonderzeichen bekomme. aber selbst das ist zuviel verlangt und zeigt mir nur, wie beschränkt das ganze computer-gedöns eigentlich ist. deshalb brauchen wir uns um “matrix” keine sorgen machen: solange die overlords keine sonderzeichen können, werden die maschinen diesen krieg niemals gewinnen können. 😉 ist doch auch was schönes.

    greetz,
    c1

  7. Chris sagte am 10. August 2009 um 22:48 Uhr:

    Das scheint mir aber kein Problem vom Unicode-Zeichensatz oder dessen Kodierung UTF-8 zu sein. Ich denke, dass liegt hier an Anwendungsprogrammen oder Dateisystemtreibern, denen egal ist, welcher Zeichensatz eigentlich verwendet werden soll.

    Und Windows-1252 ist kein Standard wie Latin-1 oder UTF-8, sondern ein MS-eigener Zeichensatz und deshalb Quasi-Standard, weswegen es bei Wechseln mit einem Linux auf Latin-1 oder -15 eingestellt zu Windows ebenfalls zu Problemen kommen dürfte. Und Windows XP/Vista dürften bei NTFS-Laufwerken und VFAT bei Sticks UTF-16 für Dateinamen verwenden.

    Und wenn für einen Programmierer Unicode die Religion ist, dann schließt das doch UTF-8 mit ein, oder? 😉

    Ich würde also auf den Dateisystemtreiber oder Filemanager beim Stick tippen und bei WordPress auf WordPress. 😉

  8. cipha sagte am 11. August 2009 um 19:38 Uhr:

    @chris: das mit dem “quasi-standard” stimmt schon und ich bin wahrlich kein freund dessen, wirklich nicht.

    im endeffekt wird es an den unterschiedlichen dateisystemen liegen: von fat32 auf ntfs auf reiserfs auf ext3, usw. irgendwas beisst sich hier jedesmal.

    das mit wordpress kann ich mir trotzdem bis heute nicht erklären, es sei denn, es lag an der administration mit window$. aber sowas muss mal anfängern passieren und dann gute nacht…

    zur religion: logo, ist ja das selbe, nur eben ein “spezielles menü” auf der gleichen speisekarte 😉

  9. John sagte am 6. January 2010 um 21:44 Uhr:

    .. ist ja schon wenig älter hier, aaaber der Artikel spricht mir aus der Seele, auch ich habe ständig zerschossene Dateinamen. Von da her kann ich wirklich nur zustimmen.
    Gruß
    John

Und was meinst Du?

Bitte beachten: Kommentare sind uns sehr willkommen. Die Redaktion behält sich jedoch vor, Redebeiträge von Spinnern, Spammern und anderen Idioten zu löschen bzw. sinnentstellend zu verfremden. Kommentare müssen unter Umständen erst freigeschaltet werden, das dauert manchmal seine Zeit. Hab Geduld.