Wie wohl ziemlich viele WP-Anwender des deutschen Sprachraums verwende auch ich quasi seit Beginn meiner Blogger-”Karriere” das o42-Clean-Umlauts-Plugin von Michael Renzmann. Allerdings ist mir beim Blick in den Code aufgefallen, dass auch der Artikelcontent der HTML-Ausgabe in Feed-Nomenklatur verarbeitet wird, statt das eigentlich schon vorgesehene Array mit den HTML-maskierten Umlauten zu verwenden. Obendrein ist in diesem Array sogar noch ein Fehler gewesen, und daher habe ich mich drangesetzt das zu korrigieren und mal eben kurz eine Aufteilung der Recodierung in Content und Feeds vorgenommen.
Das Resultat ist die CleanUmlauts-4null4-Edition und kann hier heruntergeladen werden.
Have Phun!
39 Kommentare
16 Pings
Denis sagt:
13.01.2006 von 02:28 (UTC 0 )
Dankeschön
Ich werd’s ausprobieren
Lieben Gruß,
Denis
Dr.Schlauf sagt:
13.01.2006 von 16:09 (UTC 0 )
Sehr nette Sache. Ehrlich gesagt wußte ich nicht einmal vom original Plugin…
Werde es testen, danke!
CountZero sagt:
13.01.2006 von 18:59 (UTC 0 )
nix zu danken, beim sortieren meiner plugin-downloads ist mir das aufgefallen
frank sagt:
25.01.2006 von 13:00 (UTC 0 )
Hi.
Die Fehlerbereinigung ist ja lobenswert. Ich musste jedoch feststellen, dass das plugin nun fehlerhafte RSS-Titel produziert.
Könntest das evtl auch noch bereinigen?
Fehlermeldung im Beitrag 6 unter diesem thread
CountZero sagt:
25.01.2006 von 16:16 (UTC 0 )
hm, das finde ich erstaunlich, denn gerade an der feed-funktion habe ich nichts geändert – sondern lediglich den fehler in der HTML-entity-list behoben und unterstützung für die korrekte codierung der umlaute in HTML-entitites für die browser-darstellung im web eingebaut.
CountZero sagt:
25.01.2006 von 21:51 (UTC 0 )
so, habe mir den halben abend das hirn zermartert – ich kann das problem schlichtweg nicht nachvollziehen. sofern wordpress die entsprechenden filter überhaupt schon auswertet (beim comment-author beispielsweise passiert da mal rein gar nichts), laufen alle zeichenketten sauber und problemlos durch die konvertierung – und für die feeds ist diese wie schon gesagt identisch mit der originalfunktion von o42-cleamumlauts identisch, da ich nur die content-konvertierung aufgebohrt habe.
was natürlich zu unvorhergesehenen schwierigkeiten führen kann, ist ein abweichendes encoding im verwendeten blog. ich konnte weder mit UTF-8 noch mit ISO-8859-15 ein problem feststellen, in beiden fällen wird immer sauber konvertiert und der RSS-stream bleibt valide – bei RDF, rss2.0 und atom gleichermaßen. an meiner plugin-version kanns also net liegen, höchstens an einer interferenz mit anderen feed-bezüglichen plugins.
iRoybot sagt:
11.03.2006 von 22:47 (UTC 0 )
nachdem ich mich bei otaku42 nichtmal für das tolle plugin bedankt hab, mach ichs jetzte bei dir.
danke!
Frank sagt:
11.01.2007 von 13:46 (UTC 0 )
Hallo,
suche ein Plugin, das mir die dt. Umlaute in den Permalink-Urls konvertiert und die in den Beiträgen und Kommentartexten unangetastet läßt (liest sich halt so besser). Im WP-Forum ist mir Dein Plugin empfohlen worden.
Doch nach dem Aktivieren des Plugins tut sich überhaupt nix – keine Veränderung, weder in den Permalinkadresse noch im Text. Woran kann das liegen. Habe UTF-8 als Zeichensatz in Verwendung und Permalinks mit benutzerdefinierten Variablen.
Danke, wenn Dir was einfallen sollte.
Liebe Grüße aus Thüringen
Frank
CountZero sagt:
11.01.2007 von 13:53 (UTC 0 )
hallo frank, eigentlich wandelt wordpress selbst doch umlaute in den page-slugs von haus aus schon um – zumindest tut es das automatisch, wenn du den slug nicht selbst definierst, sondern nur den post-titel eingibst und WP von sich aus daraus den permalink baut. dazu ist also kein plugin notwendig.
deutsche umlaute sind in UTF-8 enthalten, daher wirkt sich das cleanumlauts da in der regel ebenfalls nicht aus; anders sieht die sache aus, wenn du im blog ein anderes encoding eingestellt hättest, dann macht das plugin unter bestimmten umständen HTML-entities daraus, also zum beispiel ä statt eines kleinen “ä”.
Frank sagt:
13.01.2007 von 11:24 (UTC 0 )
Ja, klar macht das WordPress automatisch, aber aus ü wird ein u und nicht ein ue, aus Bücher also Bucher und nicht Buecher. Das ist schlecht für Suchmaschinen, die mit diesen Begriffen dann vermutlich nichts anzufangen wissen.
Frank
CountZero sagt:
13.01.2007 von 15:15 (UTC 0 )
cleanumlauts für den page-slug zu erweitern (wäre ja keine große kunst, sondern nur der richtige funktionsaufruf an der richtigen stelle) setzt leider aber voraus, daß ein entsprechender plugin-hook vorhanden ist – und den bietet wordpress bisher nicht.
Cartino sagt:
21.10.2007 von 12:01 (UTC 0 )
Ich habe das Plugin installiert und aktiviert. Aber leider verändert das die urls nicht. Ein Ä bleibt wie vor der Aktivierung einfach nur ein a.
Hast Du einen Tipp für mich?
Carsten Albrecht sagt:
21.10.2007 von 18:47 (UTC 0 )
das ist logisch, da schon vorhandene postslugs natürlich nicht nachträglich einfach angepasst werden können – das wäre für vorhandene suchmaschineneinträge ja verheerend.
nach der plugin-aktivierung wirkt sich das selbstredend nur für neue posts aus.
Artikel veröffentlichen sagt:
19.01.2008 von 11:37 (UTC 0 )
Danke für das Tool. Jetzt läuft unser Blog viel besser
UTF-8 sagt:
31.03.2008 von 22:44 (UTC 0 )
Braucht man das Plugin eigentlich auch, wenn man UTF-8 benutzt?
Carsten Albrecht sagt:
01.04.2008 von 17:44 (UTC 0 )
zumindest für die umlaute in permalinks würd ichs empfehlen.
für den contentbereich braucht man es eher nicht, es sei denn mal will abwärtskompatibel zu uralt-browsern sein.
ovidiu sagt:
03.05.2008 von 16:30 (UTC 0 )
hi, also ich hab grad einen wp blog von 2.2.3 auf 2.5.1 upgegradet, und alle umlaute, in posts und pages, sind nun hinüber
sind halt nicht mehr die Umlaute zu sehen, sondern (glaube ich) die entsprechende HTML umsetzung? hab grad ken Beispiel zur hand, weil mein Itnernet bischen rumzickt.
muss ich jetzt alle posts per hand durchgehen und die Umlaute wieder einsetzen?
oder was ist hier los? hatte vorher wie jetzt auch utf8 im Einsatz
ovidiu sagt:
03.05.2008 von 16:35 (UTC 0 )
z.b. sieht jetzt der Titel des Gästebuchs so aus: Gästebuch
der permalink, war vorher wie nachhe gaestebuch…
im Content des Gästebuchs siehts auch wüst aus
Carsten Albrecht sagt:
03.05.2008 von 18:37 (UTC 0 )
kann mit dem plugin nix zu tun haben – das phänomen ist klassisch für eine diskrepanz zwischen dem encoding in der datenbank und dem encoding zur darstellung der seiten.
wie du hier auf 4null4.de siehst (ich setze meine eigenen plugins schließlich auch selbst ein) gibt es bei einem sauberen UTF8-WP keinerlei probleme mit der umstellung auf WP 2.5.1 – wenn es irgendwo hakt, muss das andere (externe) ursachen haben.
ovidiu sagt:
03.05.2008 von 19:03 (UTC 0 )
ja,ja, hab mich vielleicht falsch ausgedrückt, ich weiß, daß das ganze nicht an deinem plugn liegt, ich sagte ja auch, es trat nach dem upgrade auf.
ich dachte bloß dein plugin würde das irgendwie fixen? hate niht ganz verstanden was es macht…
hab auch diese plugin hier ausprobiert: kaloyan.info/bl...anitize-plugin/ von wegen utf8 sanitize, aber trotzdem eben beschriebenes Problem
irgendinen Tipp was ich da machen könnte?
ovidiu sagt:
03.05.2008 von 19:19 (UTC 0 )
sorry, ich will nicht von deiner gutmütigkeit profitieren, aber meintest du mit Diskreppanz folgendes:
im template steht folgendes:
<meta HTTP-equiv=”Content-Type” content=”text/html; charset=” />
und in den Blogsettings ist UTF8 festgelegt. Oder liege ich da völlig falsch?
Carsten Albrecht sagt:
04.05.2008 von 01:34 (UTC 0 )
genau, das wäre so eine diskrepanz, denn eigentlich müßte da klar und deutlich als verwendeter charset UTF8 drin stehen.
ovidiu sagt:
05.05.2008 von 11:57 (UTC 0 )
ja, mein fehler, das wurde weggeschnitten in meinem Komentar, ich versuchs mal mit blockquote doer code:
[code]<meta HTTP-equiv="Content-Type" content="text/html; charset=" />[/code]
[blockquote]<meta HTTP-equiv=”Content-Type” content=”text/html; charset=” />[/blockquote]
ovidiu sagt:
05.05.2008 von 13:16 (UTC 0 )
ok, keine ahnung wie ich den code heir reinposten kann also mal so:
charset =
ich hab in den string einfach mal unsinnig leerzeichen reingemacht, aber das sollte doch so passen, oder?
gibt es denn irgendeine moeglichkeit das zu reparieren?
ich habe noch den SQL dump von vor dem upgrade, also falls da irgendwelche eisntellungen nicht stimme, koennte ich den dump reimportieren, eisntellugnen aendern, dann database upgraden?
ovidiu sagt:
06.05.2008 von 11:47 (UTC 0 )
ok, das mit dem code ging daneben, also da stand die variable drin, die den cahrset aus den blogsettigns ausliest
7162 sagt:
19.08.2008 von 09:20 (UTC 0 )
Wie kommst du bloß darauf dir nach all den Jahren mal den Code von dem plugin schlechthin im deutschsprachigen Raum anzuschauen? Blasphemie!
Vielen Dank
Carsten Albrecht sagt:
19.08.2008 von 09:32 (UTC 0 )
öhm, den code hab ich ende 2005 aufgeräumt und das ergänzte plugin im januar 2006 freigegeben
da musste schon lange nichts mehr dran gemacht werden
7162 sagt:
19.08.2008 von 19:31 (UTC 0 )
Ja, hab ich auch erst nachm Kommentieren gemerkt, daß der Beitrag schon älter war. Bin von Basic draufgekommen, aber der scheint ja auch vermehrt heiße Luft zu produzieren, wie dem auch sei, trotzdem gute Arbeit
Horner Peter sagt:
24.08.2008 von 11:06 (UTC 0 )
Ich hab Dein Plugin schon lange Zeit erfolgreich im Einsatz und wollte mal fragen, ob es mit der jetzigen Version 2.6.1 auch noch erforderlich ist, oder wurde der Code bereits im Standard integriert?
Übrigens Danke für Dein Werk!
lg
Peter aus Oberösterreich
Carsten Albrecht sagt:
24.08.2008 von 11:25 (UTC 0 )
meines wissens ist es noch notwendig; zwar werden umlaute im inhaltsbereich der seiten sauber umgesetzt (das bringt ja schon eine saubere UTF8-codierung mit sich), aber in den permalinks nach wie vor nicht, und dafür ist das plugin eigentlich in erster linie da.
Harald sagt:
17.04.2009 von 13:52 (UTC 0 )
Hallo,
ich habe das Plugin auch im Einsatz. Bei einem “ß” scheint es aber ins Straucheln zu kommen, denn auch “Straßen” wird im Textlink ein “straszen”.
Besteht die Hoffnung, dass der Bug behoben werden könnte?
Gruß Harald
Carsten Albrecht sagt:
17.04.2009 von 23:56 (UTC 0 )
@harald: man kann zugegebenermaßen trefflich drüber streiten, ob nun “sz” oder “ss” korrekt ist; da streng genommen beides falsch ist und diese ersetzung ausschließlich in permalinks erfolgt, nicht aber im text der website. behandele ich das nicht als irgendetwas “zu korrigierendes”, erst recht nicht als “bug”.
wenn dir “ss” lieber ist, steht es dir frei, das ersetzungsarray in dem code selbst anzupassen – da “sz” im quelltext des plugins eindeutig auszumachen ist, sollte das selbst bei null programmierkenntnissen kein problem darstellen.
Harald sagt:
19.04.2009 von 11:29 (UTC 0 )
@carsten
Auf die Suche im Quelltext hätte ich eigentlich selbst kommen können. War nur etwas irritiert, da mir die Schreibweise “sz” nicht bekannt war. In der Schule (was 40 Jahre her ist) hatte man seinerzeit nur “s”, “ss” und “ß” gelernt.
Trotzdem danke für deine Hilfe.
Gruß Harald
Marc sagt:
23.05.2009 von 11:44 (UTC 0 )
Servus
Frage zu dem (ziemlich genialen, danke dafür!) Plugin. Normalerweise klappt alles super damit, allerdings hatte ich letztens einen Artikel mit dem bösen Wort Sch*iße im Titel
Die normale Anzeige, URL & RSS sah super aus – nur der Google Bot hat daraus “Scheiße” gemacht…
Irgendeine Idee wieso?
Carsten Albrecht sagt:
23.05.2009 von 17:13 (UTC 0 )
Hi Marc,
das klingt nach einem abweichenden Character Encoding.
Hast du das eventuell nachträglich geändert? Ein ähnliches Phänomen hatte ich ganz am Anfang mit meinen allerersten Posts, nachdem ich von ISO-8859-1 auf UTF8 gewechselt habe.
Marc sagt:
24.05.2009 von 13:36 (UTC 0 )
@Carsten – ich bin seit anfang an auf UTF8… Sehe aber gerade, dass es das Problem wohl für Google nur bei diesem “ß” Beitrag gab… Titel mit anderen Umlauten werden immer korrekt dargestellt.
Also, was soll’s
Marc sagt:
09.06.2009 von 16:18 (UTC 0 )
Hm, anscheinend habe ich doch ein Problem.
Ich sehe gerade in meinem Quelltext sowas hier:
Ergebnisse für Bla bla
Und es sieht so aus, als Google sich das für die Suchtreffer greift… aber woher kommt das auf einmal? War definitiv nicht immer so…
Marc sagt:
10.06.2009 von 09:58 (UTC 0 )
…habe das Problem vermutlich gelöst. Ich hatte im header zwar utf-8 stehen, aber an einer Stelle im Quelltext hat sich irgendeine myteriöses Zeichen reingemogelt. Deshalb hat Google schätzungsweise immer andere Zeichensätze probiert. Man lernt nie aus
Juergen Schulze sagt:
25.01.2010 von 11:00 (UTC 0 )
Hallo, Carsten
erstmal danke, dass Du dir mit diesem Plugin Mühe gibst, der Gemeinschaft etwas gratis zur Verfügung zustellen.
Dennoch ist es klar, das man nirgends “Straße” zu “Strasze” oder “Scheiße” zu “Scheisze” umwandeln kann.
Klar kann ich das jetzt von Hand im Source-Code beheben. Nur, was mache ich beim nächsten automatischen Update? Dann habe ich meine manuelle Korrektur mit Sicherheit vergessen.
Wie wäre es mit einer kleinen Option, damit sich das jeder selbst aussuchen kann.
Gruß
Jürgen
Recommended Wordpress Plugins | 4null4.de - Blog around the world sagt:
04.02.2006 von 22:20 (UTC 0 )
[...] WP Clean Umlauts 404-EditionMandatory for German language blogs, this nice one converts the German Umlauts into their corresponding HTML resp. unicode entities. [...]
tunsinn | tun was sinn macht » Blog Archive » Plugins used on my Site sagt:
25.02.2006 von 10:55 (UTC 0 )
[...] WP-CleanUmlauts Das bekannte o42-CleanUmlauts-Plugin von Michael Renzmann in einer erweiterten und fehlerbereinigten 4null4.de-Fassung. Von Carsten Albrecht. (I never have to think about, I guess it just works..) [...]
UTW and the German Umlauts | 4null4.de - Blog around the world sagt:
01.05.2006 von 18:32 (UTC 0 )
[...] I just recognized by incident that the great Ultimate Tag Warrior Plugin by Christine Davis doesn’t take German Umlauts into account correctly under certain circumstances, e.g. if you utilize the “related posts” feature like Binary Blue does (if configured this way). So I dug into the code of the core files of my currently installed 3.1 release of that plugin and found the appropriate function to modify. The mod you need to apply is pretty simple – I just added a few lines of code to make use of a hopefully installed and activated o42-Clean-Umlauts plugin (or its 4null4.de pendant): [...]
Plugins used on this site - Theme Dust sagt:
29.05.2006 von 22:42 (UTC 0 )
[...] WP-CleanUmlauts [...]
» Feintuning - Puhli Weblog sagt:
21.12.2006 von 10:03 (UTC 0 )
[...] nachtrag: auf der startseite hat der hack dann leider nicht funktioniert - mit dem plugin CleanUmlauts-4null4-Edition hats dann aber doch geklappt. [...]
WordPress als CMS - ein Beispiel | bueltge.de [by:ltge.de] sagt:
13.04.2007 von 08:02 (UTC 0 )
[...] WP-CleanUmlauts [...]
timmi [ha?e] » wordpress als cms - von bueltge sagt:
13.04.2007 von 12:30 (UTC 0 )
[...] WP-CleanUmlauts [...]
WordPress Plugins ohne Verzicht | bueltge.de [by:ltge.de] sagt:
07.05.2007 von 14:05 (UTC 0 )
[...] WP-CleanUmlauts [...]
Geordnete Liste aller im Blog Karneval vorgestellten Wordpressplugins » Artikel » NSAHs Blog sagt:
09.05.2007 von 22:48 (UTC 0 )
[...] WP-CleanUmlauts: überarbeitete und erweiterte Version des vorgenannten Plugins vorgestellt von bueltge.de [...]
Karneval der Plugins » Spaß mit der Deutschen Bahn sagt:
10.05.2007 von 15:48 (UTC 0 )
[...] es prinzipiell problemlos, allerdings gibt es ein anders Plugin, was einige Bugs behebt von 4null4. Das werde ich vermutlich die Tag irgendwann mal [...]
Webrocker » Wordpress 2.2 Update sagt:
18.05.2007 von 16:02 (UTC 0 )
[...] läuft jetzt auch. Ich hatte völlig übersehen, dass ich schon das “wp-clean-umlauts” plugin aktiviert hatte. [...]
WP Plugins DB » Plugin Details » WP-CleanUmlauts sagt:
09.07.2007 von 08:45 (UTC 0 )
[...] Visit [...]
» Wordpress Plugins mit Einsatzpflicht, Blogpiloten.de - Weblog Update Weekly sagt:
30.08.2007 von 16:20 (UTC 0 )
[...] WP-CleanUmlauts ist noch eines dieser kleinen Helferlein, die das eigene Weblog vor allem für Suchmaschinen freundlicher machen. Es sorgt dafür, dass in der URL eines Eintrages nicht “mrklin-lt-zug-fahren” sondern “märklin-laeszt-zug-fahren” steht. Sprich: Die “Titelform” lässt nicht einfach Umlaute weg, sondern setzt diese in HTML-kompatible Ersetzungen um. [...]
Ein bisschen Blog-Hausarbeit | 4null4.de - Sarcasm's paradise sagt:
16.09.2007 von 15:16 (UTC 0 )
[...] dort (einige sehr alte Posts enthielten immer noch falsch codierte Umlaute, was aber durch mein Clean Umlauts Plugin nie in euren Browsern [...]
Geordnete Liste aller im Blog Karneval vorgestellten Wordpressplugins « Artikel « Nils sah's sagt:
14.11.2007 von 23:52 (UTC 0 )
[...] WP-CleanUmlauts: überarbeitete und erweiterte Version des vorgenannten Plugins vorgestellt von bueltge.de, Psychomuell [...]
Der Beta-Blogger » Blog Archiv » Ein Plugin gegen das Umlautproblem sagt:
19.11.2007 von 13:02 (UTC 0 )
[...] Plugin WP-CleanUmlauts findest du unter der URL 4null4.de/65/cl...ress-revisited/ zum [...]