Wie wohl ziemlich viele WP-Anwender des deutschen Sprachraums verwende auch ich quasi seit Beginn meiner Blogger-”Karriere” das o42-Clean-Umlauts-Plugin von Michael Renzmann. Allerdings ist mir beim Blick in den Code aufgefallen, dass auch der Artikelcontent der HTML-Ausgabe in Feed-Nomenklatur verarbeitet wird, statt das eigentlich schon vorgesehene Array mit den HTML-maskierten Umlauten zu verwenden. Obendrein ist in diesem Array sogar noch ein Fehler gewesen, und daher habe ich mich drangesetzt das zu korrigieren und mal eben kurz eine Aufteilung der Recodierung in Content und Feeds vorgenommen.
Das Resultat ist die CleanUmlauts-4null4-Edition und kann hier heruntergeladen werden.
Have Phun!

Juergen Schulze meint
Hallo, Carsten
erstmal danke, dass Du dir mit diesem Plugin Mühe gibst, der Gemeinschaft etwas gratis zur Verfügung zustellen.
Dennoch ist es klar, das man nirgends “Straße” zu “Strasze” oder “Scheiße” zu “Scheisze” umwandeln kann.
Klar kann ich das jetzt von Hand im Source-Code beheben. Nur, was mache ich beim nächsten automatischen Update? Dann habe ich meine manuelle Korrektur mit Sicherheit vergessen.
Wie wäre es mit einer kleinen Option, damit sich das jeder selbst aussuchen kann.
Gruß
Jürgen
Marc meint
…habe das Problem vermutlich gelöst. Ich hatte im header zwar utf-8 stehen, aber an einer Stelle im Quelltext hat sich irgendeine myteriöses Zeichen reingemogelt. Deshalb hat Google schätzungsweise immer andere Zeichensätze probiert. Man lernt nie aus
Marc meint
Hm, anscheinend habe ich doch ein Problem.
Ich sehe gerade in meinem Quelltext sowas hier:
Ergebnisse für Bla bla
Und es sieht so aus, als Google sich das für die Suchtreffer greift… aber woher kommt das auf einmal? War definitiv nicht immer so…
Marc meint
@Carsten - ich bin seit anfang an auf UTF8… Sehe aber gerade, dass es das Problem wohl für Google nur bei diesem “ß” Beitrag gab… Titel mit anderen Umlauten werden immer korrekt dargestellt.
Also, was soll’s
Carsten Albrecht meint
Hi Marc,
das klingt nach einem abweichenden Character Encoding.
Hast du das eventuell nachträglich geändert? Ein ähnliches Phänomen hatte ich ganz am Anfang mit meinen allerersten Posts, nachdem ich von ISO-8859-1 auf UTF8 gewechselt habe.
Marc meint
Servus
Die normale Anzeige, URL & RSS sah super aus - nur der Google Bot hat daraus “Scheiße” gemacht…
Frage zu dem (ziemlich genialen, danke dafür!) Plugin. Normalerweise klappt alles super damit, allerdings hatte ich letztens einen Artikel mit dem bösen Wort Sch*iße im Titel
Irgendeine Idee wieso?
Harald meint
@carsten
Auf die Suche im Quelltext hätte ich eigentlich selbst kommen können. War nur etwas irritiert, da mir die Schreibweise “sz” nicht bekannt war. In der Schule (was 40 Jahre her ist) hatte man seinerzeit nur “s”, “ss” und “ß” gelernt.
Trotzdem danke für deine Hilfe.
Gruß Harald
Carsten Albrecht meint
@harald: man kann zugegebenermaßen trefflich drüber streiten, ob nun “sz” oder “ss” korrekt ist; da streng genommen beides falsch ist und diese ersetzung ausschließlich in permalinks erfolgt, nicht aber im text der website. behandele ich das nicht als irgendetwas “zu korrigierendes”, erst recht nicht als “bug”.
wenn dir “ss” lieber ist, steht es dir frei, das ersetzungsarray in dem code selbst anzupassen - da “sz” im quelltext des plugins eindeutig auszumachen ist, sollte das selbst bei null programmierkenntnissen kein problem darstellen.
Harald meint
Hallo,
ich habe das Plugin auch im Einsatz. Bei einem “ß” scheint es aber ins Straucheln zu kommen, denn auch “Straßen” wird im Textlink ein “straszen”.
Besteht die Hoffnung, dass der Bug behoben werden könnte?
Gruß Harald
Carsten Albrecht meint
meines wissens ist es noch notwendig; zwar werden umlaute im inhaltsbereich der seiten sauber umgesetzt (das bringt ja schon eine saubere UTF8-codierung mit sich), aber in den permalinks nach wie vor nicht, und dafür ist das plugin eigentlich in erster linie da.