Servus Hans,
Antwort auf: Bei vorliegenden ist das Problem, dass gewisse
Zeichen zerlegt daherkommen. Aus einem "ä" wird "a\u0308",
aus einem "é" wird "e\u301", "à" wird zu "a\u0300".
Klar, UTF-8 decomposed. Witzigerweise haben wir ja bei Unicode deren vier verschiedene Normalisierungsformen. Apple war wohl (fast schon leider) seiner Zeit ein wenig voraus, als sie HFS+ zu Zeiten von MacOS 8.1 vorstellten, das intern auf UTF-8 aufsetzte. Jedenfalls entschied sich Apple damals für UTF-8 decomposed (was auch die empfohlene Normalisierungsform war, wenn ich das alles richtig verstanden habe)... der Rest der Branche schwenkte dann aber im Großen und Ganzen zu UTF-8 precomposed um...
Antwort auf: Obwohl die Suchen/Ersetzen-Funktion in JS sehr performant
abläuft, werde ich versuchen, herauszubekommen, wie gross
die Bremswirkung ist.
Ich hab das mit den 128 Einträgen nicht mal zur Ausführung bringen können. Da hat der JS-Interpreter gleich den kompletten Suchen-/Ersetzen-Block angemeckert. Ansonsten wäre ja ein Vergleich schnell geschehen... aber nicht meine Baustelle, bin nur in Shell- und AppleScripting firm...
Antwort auf: Es ist ein Problem von JavaScript für InDesign unter
Mac OS X. Unter Windows werden die Zeichen nicht zerlegt.
Naja, das ist klar, da die UTF-8 precomposed Variante bei dem beschränkten Zeichenvorrat von ISO 8859-1 bzw. Codepage 1252 eh identisch ausfällt... D.h. man unter Windows wohl gar nicht in die Unicode-Problematik an sich rennt, weil die Zeichen identisch ausfallen...
Ich spielte eher darauf an, daß es in AppleScript spielend möglich ist, einen String als UTF-8 interpretieren zu lassen und dann auch sauber in "International Text" bzw. eben MacRoman konvertieren zu lassen...
Gruss,
Thomas