«

»

Jan
12
2006

CleanUmlauts-Plugin korrigiert

Wie wohl ziemlich viele WP-Anwender des deutschen Sprachraums verwende auch ich quasi seit Beginn meiner Blogger-”Karriere” das o42-Clean-Umlauts-Plugin von Michael Renzmann. Allerdings ist mir beim Blick in den Code aufgefallen, dass auch der Artikelcontent der HTML-Ausgabe in Feed-Nomenklatur verarbeitet wird, statt das eigentlich schon vorgesehene Array mit den HTML-maskierten Umlauten zu verwenden. Obendrein ist in diesem Array sogar noch ein Fehler gewesen, und daher habe ich mich drangesetzt das zu korrigieren und mal eben kurz eine Aufteilung der Recodierung in Content und Feeds vorgenommen.

Das Resultat ist die CleanUmlauts-4null4-Edition und kann hier heruntergeladen werden.

Have Phun!

Permanentlink zu diesem Beitrag: http://www.4null4.de/65/cleanumlauts-plugin-for-wordpress-revisited/

39 Kommentare

16 Pings

  1. Denis sagt:

    Dankeschön :)

    Ich werd’s ausprobieren ;)

    Lieben Gruß,
    Denis

  2. Dr.Schlauf sagt:

    Sehr nette Sache. Ehrlich gesagt wußte ich nicht einmal vom original Plugin…
    Werde es testen, danke! :)

  3. CountZero sagt:

    nix zu danken, beim sortieren meiner plugin-downloads ist mir das aufgefallen ;)

  4. frank sagt:

    Hi.
    Die Fehlerbereinigung ist ja lobenswert. Ich musste jedoch feststellen, dass das plugin nun fehlerhafte RSS-Titel produziert.
    Könntest das evtl auch noch bereinigen?
    Fehlermeldung im Beitrag 6 unter diesem thread

  5. CountZero sagt:

    hm, das finde ich erstaunlich, denn gerade an der feed-funktion habe ich nichts geändert – sondern lediglich den fehler in der HTML-entity-list behoben und unterstützung für die korrekte codierung der umlaute in HTML-entitites für die browser-darstellung im web eingebaut.

  6. CountZero sagt:

    so, habe mir den halben abend das hirn zermartert – ich kann das problem schlichtweg nicht nachvollziehen. sofern wordpress die entsprechenden filter überhaupt schon auswertet (beim comment-author beispielsweise passiert da mal rein gar nichts), laufen alle zeichenketten sauber und problemlos durch die konvertierung – und für die feeds ist diese wie schon gesagt identisch mit der originalfunktion von o42-cleamumlauts identisch, da ich nur die content-konvertierung aufgebohrt habe.

    was natürlich zu unvorhergesehenen schwierigkeiten führen kann, ist ein abweichendes encoding im verwendeten blog. ich konnte weder mit UTF-8 noch mit ISO-8859-15 ein problem feststellen, in beiden fällen wird immer sauber konvertiert und der RSS-stream bleibt valide – bei RDF, rss2.0 und atom gleichermaßen. an meiner plugin-version kanns also net liegen, höchstens an einer interferenz mit anderen feed-bezüglichen plugins.

  7. iRoybot sagt:

    nachdem ich mich bei otaku42 nichtmal für das tolle plugin bedankt hab, mach ichs jetzte bei dir. :-) danke!

  8. Frank sagt:

    Hallo,
    suche ein Plugin, das mir die dt. Umlaute in den Permalink-Urls konvertiert und die in den Beiträgen und Kommentartexten unangetastet läßt (liest sich halt so besser). Im WP-Forum ist mir Dein Plugin empfohlen worden.
    Doch nach dem Aktivieren des Plugins tut sich überhaupt nix – keine Veränderung, weder in den Permalinkadresse noch im Text. Woran kann das liegen. Habe UTF-8 als Zeichensatz in Verwendung und Permalinks mit benutzerdefinierten Variablen.
    Danke, wenn Dir was einfallen sollte.
    Liebe Grüße aus Thüringen
    Frank

  9. CountZero sagt:

    hallo frank, eigentlich wandelt wordpress selbst doch umlaute in den page-slugs von haus aus schon um – zumindest tut es das automatisch, wenn du den slug nicht selbst definierst, sondern nur den post-titel eingibst und WP von sich aus daraus den permalink baut. dazu ist also kein plugin notwendig.

    deutsche umlaute sind in UTF-8 enthalten, daher wirkt sich das cleanumlauts da in der regel ebenfalls nicht aus; anders sieht die sache aus, wenn du im blog ein anderes encoding eingestellt hättest, dann macht das plugin unter bestimmten umständen HTML-entities daraus, also zum beispiel ä statt eines kleinen “ä”.

  10. Frank sagt:

    hallo frank, eigentlich wandelt wordpress selbst doch umlaute in den page-slugs von haus aus schon um – zumindest tut es das automatisch, wenn du den slug nicht selbst definierst, sondern nur den post-titel eingibst und WP von sich aus daraus den permalink baut. dazu ist also kein plugin notwendig.

    Ja, klar macht das WordPress automatisch, aber aus ü wird ein u und nicht ein ue, aus Bücher also Bucher und nicht Buecher. Das ist schlecht für Suchmaschinen, die mit diesen Begriffen dann vermutlich nichts anzufangen wissen.

    Frank

  11. CountZero sagt:

    cleanumlauts für den page-slug zu erweitern (wäre ja keine große kunst, sondern nur der richtige funktionsaufruf an der richtigen stelle) setzt leider aber voraus, daß ein entsprechender plugin-hook vorhanden ist – und den bietet wordpress bisher nicht.

  12. Cartino sagt:

    Ich habe das Plugin installiert und aktiviert. Aber leider verändert das die urls nicht. Ein Ä bleibt wie vor der Aktivierung einfach nur ein a.
    Hast Du einen Tipp für mich?

  13. Carsten Albrecht sagt:

    das ist logisch, da schon vorhandene postslugs natürlich nicht nachträglich einfach angepasst werden können – das wäre für vorhandene suchmaschineneinträge ja verheerend.
    nach der plugin-aktivierung wirkt sich das selbstredend nur für neue posts aus.

  14. Artikel veröffentlichen sagt:

    Danke für das Tool. Jetzt läuft unser Blog viel besser

  15. UTF-8 sagt:

    Braucht man das Plugin eigentlich auch, wenn man UTF-8 benutzt?

  16. Carsten Albrecht sagt:

    zumindest für die umlaute in permalinks würd ichs empfehlen.
    für den contentbereich braucht man es eher nicht, es sei denn mal will abwärtskompatibel zu uralt-browsern sein.

  17. ovidiu sagt:

    hi, also ich hab grad einen wp blog von 2.2.3 auf 2.5.1 upgegradet, und alle umlaute, in posts und pages, sind nun hinüber :-( sind halt nicht mehr die Umlaute zu sehen, sondern (glaube ich) die entsprechende HTML umsetzung? hab grad ken Beispiel zur hand, weil mein Itnernet bischen rumzickt.

    muss ich jetzt alle posts per hand durchgehen und die Umlaute wieder einsetzen?

    oder was ist hier los? hatte vorher wie jetzt auch utf8 im Einsatz :-(

  18. ovidiu sagt:

    z.b. sieht jetzt der Titel des Gästebuchs so aus: Gästebuch

    der permalink, war vorher wie nachhe gaestebuch…

    im Content des Gästebuchs siehts auch wüst aus :-(

  19. Carsten Albrecht sagt:

    kann mit dem plugin nix zu tun haben – das phänomen ist klassisch für eine diskrepanz zwischen dem encoding in der datenbank und dem encoding zur darstellung der seiten.
    wie du hier auf 4null4.de siehst (ich setze meine eigenen plugins schließlich auch selbst ein) gibt es bei einem sauberen UTF8-WP keinerlei probleme mit der umstellung auf WP 2.5.1 – wenn es irgendwo hakt, muss das andere (externe) ursachen haben.

  20. ovidiu sagt:

    ja,ja, hab mich vielleicht falsch ausgedrückt, ich weiß, daß das ganze nicht an deinem plugn liegt, ich sagte ja auch, es trat nach dem upgrade auf.

    ich dachte bloß dein plugin würde das irgendwie fixen? hate niht ganz verstanden was es macht…

    hab auch diese plugin hier ausprobiert: kaloyan.info/bl...anitize-plugin/ von wegen utf8 sanitize, aber trotzdem eben beschriebenes Problem :-(

    irgendinen Tipp was ich da machen könnte?

  21. ovidiu sagt:

    sorry, ich will nicht von deiner gutmütigkeit profitieren, aber meintest du mit Diskreppanz folgendes:

    im template steht folgendes:

    <meta HTTP-equiv=”Content-Type” content=”text/html; charset=” />

    und in den Blogsettings ist UTF8 festgelegt. Oder liege ich da völlig falsch?

  22. Carsten Albrecht sagt:

    genau, das wäre so eine diskrepanz, denn eigentlich müßte da klar und deutlich als verwendeter charset UTF8 drin stehen.

  23. ovidiu sagt:

    ja, mein fehler, das wurde weggeschnitten in meinem Komentar, ich versuchs mal mit blockquote doer code:

    [code]<meta HTTP-equiv="Content-Type" content="text/html; charset=" />[/code]

    [blockquote]<meta HTTP-equiv=”Content-Type” content=”text/html; charset=” />[/blockquote]

  24. ovidiu sagt:

    ok, keine ahnung wie ich den code heir reinposten kann also mal so:

    charset =

    ich hab in den string einfach mal unsinnig leerzeichen reingemacht, aber das sollte doch so passen, oder?

    gibt es denn irgendeine moeglichkeit das zu reparieren?
    ich habe noch den SQL dump von vor dem upgrade, also falls da irgendwelche eisntellungen nicht stimme, koennte ich den dump reimportieren, eisntellugnen aendern, dann database upgraden?

  25. ovidiu sagt:

    ok, das mit dem code ging daneben, also da stand die variable drin, die den cahrset aus den blogsettigns ausliest :-(

  26. 7162 sagt:

    Wie kommst du bloß darauf dir nach all den Jahren mal den Code von dem plugin schlechthin im deutschsprachigen Raum anzuschauen? Blasphemie!
    Vielen Dank :)

  27. Carsten Albrecht sagt:

    öhm, den code hab ich ende 2005 aufgeräumt und das ergänzte plugin im januar 2006 freigegeben ;) da musste schon lange nichts mehr dran gemacht werden ;)

  28. 7162 sagt:

    Ja, hab ich auch erst nachm Kommentieren gemerkt, daß der Beitrag schon älter war. Bin von Basic draufgekommen, aber der scheint ja auch vermehrt heiße Luft zu produzieren, wie dem auch sei, trotzdem gute Arbeit ;)

  29. Horner Peter sagt:

    Ich hab Dein Plugin schon lange Zeit erfolgreich im Einsatz und wollte mal fragen, ob es mit der jetzigen Version 2.6.1 auch noch erforderlich ist, oder wurde der Code bereits im Standard integriert?

    Übrigens Danke für Dein Werk!

    lg
    Peter aus Oberösterreich

  30. Carsten Albrecht sagt:

    meines wissens ist es noch notwendig; zwar werden umlaute im inhaltsbereich der seiten sauber umgesetzt (das bringt ja schon eine saubere UTF8-codierung mit sich), aber in den permalinks nach wie vor nicht, und dafür ist das plugin eigentlich in erster linie da.

  31. Harald sagt:

    Hallo,
    ich habe das Plugin auch im Einsatz. Bei einem “ß” scheint es aber ins Straucheln zu kommen, denn auch “Straßen” wird im Textlink ein “straszen”.
    Besteht die Hoffnung, dass der Bug behoben werden könnte?

    Gruß Harald

  32. Carsten Albrecht sagt:

    @harald: man kann zugegebenermaßen trefflich drüber streiten, ob nun “sz” oder “ss” korrekt ist; da streng genommen beides falsch ist und diese ersetzung ausschließlich in permalinks erfolgt, nicht aber im text der website. behandele ich das nicht als irgendetwas “zu korrigierendes”, erst recht nicht als “bug”.
    wenn dir “ss” lieber ist, steht es dir frei, das ersetzungsarray in dem code selbst anzupassen – da “sz” im quelltext des plugins eindeutig auszumachen ist, sollte das selbst bei null programmierkenntnissen kein problem darstellen.

  33. Harald sagt:

    @carsten
    Auf die Suche im Quelltext hätte ich eigentlich selbst kommen können. War nur etwas irritiert, da mir die Schreibweise “sz” nicht bekannt war. In der Schule (was 40 Jahre her ist) hatte man seinerzeit nur “s”, “ss” und “ß” gelernt.
    Trotzdem danke für deine Hilfe.

    Gruß Harald

  34. Marc sagt:

    Servus :-)

    Frage zu dem (ziemlich genialen, danke dafür!) Plugin. Normalerweise klappt alles super damit, allerdings hatte ich letztens einen Artikel mit dem bösen Wort Sch*iße im Titel :-)
    Die normale Anzeige, URL & RSS sah super aus – nur der Google Bot hat daraus “Scheiße” gemacht…
    Irgendeine Idee wieso?

  35. Carsten Albrecht sagt:

    Hi Marc,
    das klingt nach einem abweichenden Character Encoding.
    Hast du das eventuell nachträglich geändert? Ein ähnliches Phänomen hatte ich ganz am Anfang mit meinen allerersten Posts, nachdem ich von ISO-8859-1 auf UTF8 gewechselt habe.

  36. Marc sagt:

    @Carsten – ich bin seit anfang an auf UTF8… Sehe aber gerade, dass es das Problem wohl für Google nur bei diesem “ß” Beitrag gab… Titel mit anderen Umlauten werden immer korrekt dargestellt.
    Also, was soll’s :-)

  37. Marc sagt:

    Hm, anscheinend habe ich doch ein Problem.
    Ich sehe gerade in meinem Quelltext sowas hier:

    Ergebnisse für Bla bla

    Und es sieht so aus, als Google sich das für die Suchtreffer greift… aber woher kommt das auf einmal? War definitiv nicht immer so…

  38. Marc sagt:

    …habe das Problem vermutlich gelöst. Ich hatte im header zwar utf-8 stehen, aber an einer Stelle im Quelltext hat sich irgendeine myteriöses Zeichen reingemogelt. Deshalb hat Google schätzungsweise immer andere Zeichensätze probiert. Man lernt nie aus :-)

  39. Juergen Schulze sagt:

    Hallo, Carsten
    erstmal danke, dass Du dir mit diesem Plugin Mühe gibst, der Gemeinschaft etwas gratis zur Verfügung zustellen.
    Dennoch ist es klar, das man nirgends “Straße” zu “Strasze” oder “Scheiße” zu “Scheisze” umwandeln kann.
    Klar kann ich das jetzt von Hand im Source-Code beheben. Nur, was mache ich beim nächsten automatischen Update? Dann habe ich meine manuelle Korrektur mit Sicherheit vergessen.
    Wie wäre es mit einer kleinen Option, damit sich das jeder selbst aussuchen kann.
    Gruß
    Jürgen

  1. Recommended Wordpress Plugins | 4null4.de - Blog around the world sagt:

    [...] WP Clean Umlauts 404-EditionMandatory for German language blogs, this nice one converts the German Umlauts into their corresponding HTML resp. unicode entities. [...]

  2. tunsinn | tun was sinn macht » Blog Archive » Plugins used on my Site sagt:

    [...] WP-CleanUmlauts Das bekannte o42-CleanUmlauts-Plugin von Michael Renzmann in einer erweiterten und fehlerbereinigten 4null4.de-Fassung. Von Carsten Albrecht. (I never have to think about, I guess it just works..) [...]

  3. UTW and the German Umlauts | 4null4.de - Blog around the world sagt:

    [...] I just recognized by incident that the great Ultimate Tag Warrior Plugin by Christine Davis doesn’t take German Umlauts into account correctly under certain circumstances, e.g. if you utilize the “related posts” feature like Binary Blue does (if configured this way). So I dug into the code of the core files of my currently installed 3.1 release of that plugin and found the appropriate function to modify. The mod you need to apply is pretty simple – I just added a few lines of code to make use of a hopefully installed and activated o42-Clean-Umlauts plugin (or its 4null4.de pendant): [...]

  4. Plugins used on this site - Theme Dust sagt:

    [...] WP-CleanUmlauts [...]

  5. » Feintuning - Puhli Weblog sagt:

    [...] nachtrag: auf der startseite hat der hack dann leider nicht funktioniert - mit dem plugin CleanUmlauts-4null4-Edition hats dann aber doch geklappt. [...]

  6. WordPress als CMS - ein Beispiel | bueltge.de [by:ltge.de] sagt:

    [...] WP-CleanUmlauts [...]

  7. timmi [ha?e] » wordpress als cms - von bueltge sagt:

    [...] WP-CleanUmlauts [...]

  8. WordPress Plugins ohne Verzicht | bueltge.de [by:ltge.de] sagt:

    [...] WP-CleanUmlauts [...]

  9. Geordnete Liste aller im Blog Karneval vorgestellten Wordpressplugins » Artikel » NSAHs Blog sagt:

    [...] WP-CleanUmlauts: überarbeitete und erweiterte Version des vorgenannten Plugins vorgestellt von bueltge.de [...]

  10. Karneval der Plugins » Spaß mit der Deutschen Bahn sagt:

    [...] es prinzipiell problemlos, allerdings gibt es ein anders Plugin, was einige Bugs behebt von 4null4. Das werde ich vermutlich die Tag irgendwann mal [...]

  11. Webrocker » Wordpress 2.2 Update sagt:

    [...] läuft jetzt auch. Ich hatte völlig übersehen, dass ich schon das “wp-clean-umlauts” plugin aktiviert hatte. [...]

  12. WP Plugins DB » Plugin Details » WP-CleanUmlauts sagt:

    [...] Visit [...]

  13. » Wordpress Plugins mit Einsatzpflicht, Blogpiloten.de - Weblog Update Weekly sagt:

    [...] WP-CleanUmlauts ist noch eines dieser kleinen Helferlein, die das eigene Weblog vor allem für Suchmaschinen freundlicher machen. Es sorgt dafür, dass in der URL eines Eintrages nicht “mrklin-lt-zug-fahren” sondern “märklin-laeszt-zug-fahren” steht. Sprich: Die “Titelform” lässt nicht einfach Umlaute weg, sondern setzt diese in HTML-kompatible Ersetzungen um. [...]

  14. Ein bisschen Blog-Hausarbeit | 4null4.de - Sarcasm's paradise sagt:

    [...] dort (einige sehr alte Posts enthielten immer noch falsch codierte Umlaute, was aber durch mein Clean Umlauts Plugin nie in euren Browsern [...]

  15. Geordnete Liste aller im Blog Karneval vorgestellten Wordpressplugins « Artikel « Nils sah's sagt:

    [...] WP-CleanUmlauts: überarbeitete und erweiterte Version des vorgenannten Plugins vorgestellt von bueltge.de, Psychomuell [...]

  16. Der Beta-Blogger » Blog Archiv » Ein Plugin gegen das Umlautproblem sagt:

    [...] Plugin WP-CleanUmlauts findest du unter der URL 4null4.de/65/cl...ress-revisited/ zum [...]

Hinterlasse eine Antwort

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Sie können diese HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>