L2/04-140
Markus Scherer/Cupertino/IBM 2003-07-31 10:17 To "Stein, Dr. Astrid (VIII 1)"cc "'PETER.HORTIG@din.de'" , Mark Davis/Cupertino/IBM@IBMUS, "Marc Wilhelm Kuester" , "Kenneth Whistler" , "Asmus Freytag" Subject Re: AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?" Sehr geehrter Herr Hortig, Bezüglich unserer untenstehenden Anfrage würden wir Sie gerne bitten, uns eine Präferenz der Sortierung des scharfen s (ß) mitzuteilen: Sortierung zweiten Ranges, wie wir dem Normentext entnehmen, oder dritten Ranges, entsprechend dem Verhalten aller anderer Textzeichen, deren Unterscheidungen bei Groß-/Kleinschreibungswechsel verschwinden. Bitte berücksichtigen Sie unsere untenstehenden Ausführungen und Beispiele unter "Bitte um Klarstellung". Es wäre von großem Vorteil, diesen Fall bis Ende August abzuklären, weil im September die Vorbereitungen für eine neue Version der ISO/IEC 14651 und UCA Normen abgeschlossen werden. Vielen Dank und herzliche Grüße, Markus Scherer Markus Scherer マルクス IBM GCoC-Unicode/ICU San José, CA markus.scherer@us.ibm.com "Stein, Dr. Astrid (VIII 1)" 2003-06-09 23:18 To: Markus Scherer/Cupertino/IBM@IBMUS cc: "'PETER.HORTIG@din.de'" Subject: AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?" Sehr geehrter Herr Scherer, herzlichen Dank für Ihre Anregungen und Informationen. Ich habe Ihre Mail an das zuständige Nomungsgremium bei DIN, Herrn Peter Hortig, geschickt, damit Ihre Bemerkungen bei den Beratungen berücksichtigt werden. Mit freundlichen Grüßen Dr. Astrid Stein -----Ursprüngliche Nachricht----- Von: Markus Scherer [mailto:markus.scherer@us.ibm.com] Gesendet am: Dienstag, 10. Juni 2003 00:57 An: Stein, Dr. Astrid (VIII 1) Cc: Mark Davis; Marc Wilhelm Kuester; Kenneth Whistler; Asmus Freytag Betreff: DIN 5007 Bemerkungen - "Wohin mit dem ä?" Sehr geehrte Frau Dr. Stein, Ich habe mit großem Interesse Ihren WIN-Beitrag "Wohin mit dem ä?" gelesen (http://www.bva.bund.de/aufgaben/win/beitraege/00173/) und habe ein paar Bemerkungen. Untenstehend ist auch eine Bitte um Klarstellung. Falls wir uns an jemand anderen wenden sollten, könnten Sie bitte diese email weiterleiten oder uns einen anderen Kontakt empfehlen? Ich arbeite in den USA an einem Projekt, das unter anderem das Ordnen von Schriftzeichenfolgen in Dutzenden von Sprachen und Schriften in EDV bereitstellt. Wir unterstützen deutsche Ordnungsverfahren ähnlich DIN 5007, mit einer "normalen" Variante und einer für Namensverzeichnisse. (Unser Projekt ist "ICU", ein von der IBM geführtes Projekt zur Unterstützung weltweiter Datenverarbeitung. Es ist frei verfügbar (open source) unter http://oss.software.ibm.com/icu/) Mir ist aufgefallen, daß die Beschreibung der Ordnungsverfahren in der DIN 5007 und in Ihrem Beitrag offenbar auf Verfahren basiert, die nicht dem Stande der Technik entsprechen. Mein Kollege Dr. Mark Davis und ich haben uns gerade DIN 5007 genauer angeschaut. Bemerkungen: Wir empfehlen, die Darstellung so zu verändern, daß sie modernen Ordnungsverfahren in EDV besser entspricht. ISO/IEC 14651 "International String Ordering" und die parallele Industrienorm "Unicode Collation Algorithm" (UCA) definieren eindeutige Verfahren, die Schriftzeichen mehrstufige numerische Wichtungen zuordnen, anstatt Schriftzeichen aufeinander abzubilden. Zum Beispiel: Um auszudrücken, daß A wie a sortiert, aber bei sonstiger Gleichheit nachgeordnet ist, werden beiden Buchstaben Wichtungen wie z.B. a=(101, 0, 0) und A=(101, 0, 1) zugeordnet; die vorderen Wichtungen (101) werden zuerst verglichen (für die gesamte Zeichenfolge), dann die mittleren (0), dann die hinteren (0 < 1). DIN 5007 ordnet Schriftzeichenfolgen anders als vergleichbare internationale Normen, z.B. ISO/IEC 14651 und UCA: - Ziffern nach Buchstaben (üblich: umgekehrt) (5.1.2) - Römische Zahlzeichen gemäß Zahlwert (schwierig in EDV) (5.1.2.1) - Zahlen bestehend aus Arabischen Ziffern müssen gemäß ihrem Zahlwert geordnet werden (üblicherweise nur bei Bedarf und nicht immer erwünschenswert - z.B. Teilenummern); - Für Zahlordnung ist es nicht definiert, ob dies auch für negative Zahlen und Dezimalen anzuwenden ist (5.1.2.2) - Verschiedene Ordnungen für dasselbe Zeichen : (Doppelpunkt) je nach Gebrauch (4.2.2 & 4.2.3) Bitte um Klarstellung: Gemäß DIN 5007 Abschnitte 5 und 6, ß (scharfes s) wird ss gleichgesetzt; wenn aber sonst kein Unterschied besteht, dann ist ß ss nachgeordnet, bevor(!) Groß- und Kleinschreibung zu beachten (Abschnitt 6.3). Dies ist ein Unterschied zweiten Ranges (secondary difference) in the obengenannten Normen. Dies widerspricht dem Verhalten wenn der gleiche Text in Großbuchstaben umgewandelt wird, wobei ß zu SS wird. Solcher Text sollte die gleiche Ordnung haben bis auf Betrachtung von Abschnitt 6.3 Groß-/Kleinbuchstaben, also werden SS und ss ein Unterschied dritten Ranges (tertiary difference). Dieses Verhalten ist anders als andere Ligaturen, bei denen die Ordnung sich nicht ändert je nach Groß- oder Kleinschreibung. Zum Beispiel: 1: Geissbock Gunther 2: Geissbock Günther 3: Geißbock Gunther 4: Geißbock Günther Die Ordnung verändert sich wenn die Zeichenfolgen großgeschrieben werden: 1: GEISSBOCK GUNTHER 3: GEISSBOCK GUNTHER 2: GEISSBOCK GÜNTHER 4: GEISSBOCK GÜNTHER Dieses Verhalten ist anders als mit Ligaturen (z.B. æ und Æ), bei denen die Ordnung gleichbleibt: 1: Caesar Gunther 2: Caesar Günther 3: Cæsar Gunther 4: Cæsar Günther -> 1: CAESAR GUNTHER 2: CAESAR GÜNTHER 3: CÆSAR GUNTHER 4: CÆSAR GÜNTHER Wir glauben, daß dies den Zielen der Norm und Erwartungen von Anwendern widerspricht. Können Sie dies bestätigen? Wir würden es begrüßen, wenn diese Unklarheiten in einer Folgeversion behoben werden könnten, in Zusammenarbeit mit dem Unicode Consortium (für UCA) und dem ISO/IEC SC22/WG20 Kommittee (für ISO/IEC 14651). Anhang: ISO/IEC 14651 "International String Ordering": http://std.dkuug.dk/jtc1/sc22/wg20/ UCA "Unicode Collation Algorithm": http://www.unicode.org/reports/tr10/ Mit freundlichen Grüßen, Markus Scherer Markus Scherer マルクス IBM GCoC-Unicode/ICU San José, CA markus.scherer@us.ibm.com
English summary of an email request to state the preferred sorting of ß (sharp s) in relation to ss. Date/time: 2003-07-31 10:17 PDT From: Markus Scherer (markus.scherer@us.ibm.com) To: "Stein, Dr. Astrid (VIII 1)"Cc: "'PETER.HORTIG@din.de'" , "Mark Davis" , "Marc Wilhelm Kuester" , "Kenneth Whistler" , "Asmus Freytag" Subject: Re: AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?" Dear Mr. Hortig, Re our request below, we would like to ask you to tell us the preferred sorting of sharp s (ß): Sorting on secondary level, which is how we interpret the text of the standard, or sorting on tertiary level, which would be consistent with other characters whose distinctions are removed by lowercasing or uppercasing. Please take into account our explanation and examples below in the section "Request for Clarification". [...] ---- In response to an email reply from Dr. Astrid Stein on 2003-06-09 saying that she forwarded the earlier request to the relevant standards committee at DIN, represented by Mr. Peter Hortig, for consideration of my comments for their consultations. ---- In response to my (Markus Scherer's) original request email from 2003-06-10: Dear Dr. Stein, I read with great interest your article "Wohin mit dem ä?" ("Where to put the ä?", http://www.bva.bund.de/aufgaben/win/beitraege/00173/ about the revision of DIN 5007) and have a few comments. Below is also a request for clarification. If we should direct our questions to someone else, could you please forward this request or recommend a different contact person to us? [Mentioning ICU (http://oss.software.ibm.com/icu/) and that it provides collation including two tailorings similar to the sorting orders in DIN 5007.] I noticed that the presentation of sorting/collation in DIN 5007 and in your article appears to be based on techniques that are not up to date. My colleage, Dr. Mark Davis, and I just took a closer look at DIN 5007. Comments: We recommend to modify the presentation to more closely match modern computer sorting/collation algorithms. ISO/IEC 14651 "International String Ordering" and the parallel standard "Unicode Collation Algorithm" (UCA) define unambiguous algorithms that assign multi-level numeric weights to characters instead of mapping some characters to others. [Example for how tertiary-level difference between a and A is expressed with such weights.] DIN 5007 sorts sequences of characters differently than comparable international standards like ISO/IEC 14651 and UCA: - digits after letters (usually the reverse) (5.1.2) - roman numerals according to their numeric value (difficult with computers) (5.1.2.1) - numbers consisiting of arabic digits must be sorted according to their numeric value (usually only when necessary, and not always desirable - e.g. for part numbers) - for number sorting it is not defined whether this also applies to negative numbers and fractions (5.1.2.2) - different sorting for the same character : (colon) depending on usage (4.2.2 & 4.2.3) Request for Clarification: According to DIN 5007 sections 5 and 6, ß (sharp s) is treated as equal to ss; however, when there is no other difference, then ß sorts after ss, before(!) considering letter case (section 6.3). This is called a secondary difference in the above-mentioned standards. This contradicts the behavior of when the same text is uppercased, which turns ß into SS. Such text should have the same sort order except for the consideration of case differences in section 6.3, therefore SS and ss have a tertiary difference. This behavior is different than other ligatures, for which the sort order does not change with case mappings. For example: 1: Geissbock Gunther 2: Geissbock Günther 3: Geißbock Gunther 4: Geißbock Günther The sort order changes when the strings are uppercased: 1: GEISSBOCK GUNTHER 3: GEISSBOCK GUNTHER 2: GEISSBOCK GÜNTHER 4: GEISSBOCK GÜNTHER This behavior differs from that of ligatures (e.g., æ and Æ), where the sort order remains the same: 1: Caesar Gunther 2: Caesar Günther 3: Cæsar Gunther 4: Cæsar Günther -> 1: CAESAR GUNTHER 2: CAESAR GÜNTHER 3: CÆSAR GUNTHER 4: CÆSAR GÜNTHER We believe that this contradicts the goals of the standard and the expectations of users. Could you please confirm this? We would welcome the remediation of these unclear cases in a future version, in cooperation with the Unicode Consortium (for UCA) and the ISO/IEC SC22/WG20 committee (for ISO/IEC 14651). References: ISO/IEC 14651 "International String Ordering": http://std.dkuug.dk/jtc1/sc22/wg20/ UCA "Unicode Collation Algorithm": http://www.unicode.org/reports/tr10/ Best regards, Markus Scherer