L2/04-140

Markus Scherer/Cupertino/IBM
2003-07-31 10:17

To "Stein, Dr. Astrid (VIII 1)" 
cc "'PETER.HORTIG@din.de'" , Mark 
Davis/Cupertino/IBM@IBMUS, "Marc Wilhelm Kuester" , 
"Kenneth Whistler" , "Asmus Freytag" 

Subject Re: AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?"

Sehr geehrter Herr Hortig,

Bezüglich unserer untenstehenden Anfrage würden wir Sie gerne bitten, uns 
eine Präferenz der Sortierung des scharfen s (ß) mitzuteilen: Sortierung 
zweiten Ranges, wie wir dem Normentext entnehmen, oder dritten Ranges, 
entsprechend dem Verhalten aller anderer Textzeichen, deren 
Unterscheidungen bei Groß-/Kleinschreibungswechsel verschwinden. Bitte 
berücksichtigen Sie unsere untenstehenden Ausführungen und Beispiele unter 
"Bitte um Klarstellung".

Es wäre von großem Vorteil, diesen Fall bis Ende August abzuklären, weil 
im September die Vorbereitungen für eine neue Version der ISO/IEC 14651 
und UCA Normen abgeschlossen werden.

Vielen Dank und herzliche Grüße,

Markus Scherer

Markus Scherer  マルクス  IBM GCoC-Unicode/ICU  San José, CA 
markus.scherer@us.ibm.com


"Stein, Dr. Astrid (VIII 1)" 
2003-06-09 23:18
 
        To:     Markus Scherer/Cupertino/IBM@IBMUS
        cc:     "'PETER.HORTIG@din.de'" 
        Subject:        AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?"


Sehr geehrter Herr Scherer, 
herzlichen Dank für Ihre Anregungen und Informationen. Ich habe Ihre Mail 
an das zuständige Nomungsgremium bei DIN, Herrn Peter Hortig, geschickt, 
damit Ihre Bemerkungen bei den Beratungen berücksichtigt werden.
Mit freundlichen Grüßen 
Dr. Astrid Stein 
-----Ursprüngliche Nachricht----- 
Von: Markus Scherer [mailto:markus.scherer@us.ibm.com] 
Gesendet am: Dienstag, 10. Juni 2003 00:57 
An: Stein, Dr. Astrid (VIII 1) 
Cc: Mark Davis; Marc Wilhelm Kuester; Kenneth Whistler; Asmus Freytag 
Betreff: DIN 5007 Bemerkungen - "Wohin mit dem ä?" 
Sehr geehrte Frau Dr. Stein, 
Ich habe mit großem Interesse Ihren WIN-Beitrag "Wohin mit dem ä?" gelesen 

(http://www.bva.bund.de/aufgaben/win/beitraege/00173/) und habe ein paar 
Bemerkungen. Untenstehend ist auch eine Bitte um Klarstellung. 
Falls wir uns an jemand anderen wenden sollten, könnten Sie bitte diese 
email weiterleiten oder uns einen anderen Kontakt empfehlen? 
Ich arbeite in den USA an einem Projekt, das unter anderem das Ordnen von 
Schriftzeichenfolgen in Dutzenden von Sprachen und Schriften in EDV 
bereitstellt. Wir unterstützen deutsche Ordnungsverfahren ähnlich DIN 
5007, mit einer "normalen" Variante und einer für Namensverzeichnisse. 
(Unser Projekt ist "ICU", ein von der IBM geführtes Projekt zur 
Unterstützung weltweiter Datenverarbeitung. Es ist frei verfügbar (open 
source) unter http://oss.software.ibm.com/icu/) 
Mir ist aufgefallen, daß die Beschreibung der Ordnungsverfahren in der DIN 

5007 und in Ihrem Beitrag offenbar auf Verfahren basiert, die nicht dem 
Stande der Technik entsprechen. Mein Kollege Dr. Mark Davis und ich haben 
uns gerade DIN 5007 genauer angeschaut. 
Bemerkungen: 
Wir empfehlen, die Darstellung so zu verändern, daß sie modernen 
Ordnungsverfahren in EDV besser entspricht. ISO/IEC 14651 "International 
String Ordering" und die parallele Industrienorm "Unicode Collation 
Algorithm" (UCA) definieren eindeutige Verfahren, die Schriftzeichen 
mehrstufige numerische Wichtungen zuordnen, anstatt Schriftzeichen 
aufeinander abzubilden. 
Zum Beispiel: Um auszudrücken, daß A wie a sortiert, aber bei sonstiger 
Gleichheit nachgeordnet ist, werden beiden Buchstaben Wichtungen wie z.B. 
a=(101, 0, 0) und A=(101, 0, 1) zugeordnet; die vorderen Wichtungen (101) 
werden zuerst verglichen (für die gesamte Zeichenfolge), dann die 
mittleren (0), dann die hinteren (0 < 1). 
DIN 5007 ordnet Schriftzeichenfolgen anders als vergleichbare 
internationale Normen, z.B. ISO/IEC 14651 und UCA: 
- Ziffern nach Buchstaben (üblich: umgekehrt) (5.1.2) 
- Römische Zahlzeichen gemäß Zahlwert (schwierig in EDV) (5.1.2.1) 
- Zahlen bestehend aus Arabischen Ziffern müssen gemäß ihrem Zahlwert 
geordnet werden 
  (üblicherweise nur bei Bedarf und nicht immer erwünschenswert - z.B. 
Teilenummern); 
- Für Zahlordnung ist es nicht definiert, ob dies auch für negative Zahlen 

und Dezimalen anzuwenden ist (5.1.2.2) 
- Verschiedene Ordnungen für dasselbe Zeichen : (Doppelpunkt) je nach 
Gebrauch (4.2.2 & 4.2.3) 
Bitte um Klarstellung: 
Gemäß DIN 5007 Abschnitte 5 und 6, ß (scharfes s) wird ss gleichgesetzt; 
wenn aber sonst kein Unterschied besteht, dann ist ß ss nachgeordnet, 
bevor(!) Groß- und Kleinschreibung zu beachten (Abschnitt 6.3). Dies ist 
ein Unterschied zweiten Ranges (secondary difference) in the obengenannten 

Normen. 
Dies widerspricht dem Verhalten wenn der gleiche Text in Großbuchstaben 
umgewandelt wird, wobei ß zu SS wird. Solcher Text sollte die gleiche 
Ordnung haben bis auf Betrachtung von Abschnitt 6.3 Groß-/Kleinbuchstaben, 

also werden SS und ss ein Unterschied dritten Ranges (tertiary 
difference). 
Dieses Verhalten ist anders als andere Ligaturen, bei denen die Ordnung 
sich nicht ändert je nach Groß- oder Kleinschreibung. 
Zum Beispiel: 
1: Geissbock Gunther 
2: Geissbock Günther 
3: Geißbock Gunther 
4: Geißbock Günther 
Die Ordnung verändert sich wenn die Zeichenfolgen großgeschrieben werden: 
1: GEISSBOCK GUNTHER 
3: GEISSBOCK GUNTHER 
2: GEISSBOCK GÜNTHER 
4: GEISSBOCK GÜNTHER 
Dieses Verhalten ist anders als mit Ligaturen (z.B. æ und Æ), bei denen 
die Ordnung gleichbleibt: 
1: Caesar Gunther 
2: Caesar Günther 
3: Cæsar Gunther 
4: Cæsar Günther 
-> 
1: CAESAR GUNTHER 
2: CAESAR GÜNTHER 
3: CÆSAR GUNTHER 
4: CÆSAR GÜNTHER 
Wir glauben, daß dies den Zielen der Norm und Erwartungen von Anwendern 
widerspricht. 
Können Sie dies bestätigen? 

Wir würden es begrüßen, wenn diese Unklarheiten in einer Folgeversion 
behoben werden könnten, in Zusammenarbeit mit dem Unicode Consortium (für 
UCA) und dem ISO/IEC SC22/WG20 Kommittee (für ISO/IEC 14651). 

Anhang: 
ISO/IEC 14651 "International String Ordering": 
http://std.dkuug.dk/jtc1/sc22/wg20/ 
UCA "Unicode Collation Algorithm": http://www.unicode.org/reports/tr10/ 

Mit freundlichen Grüßen, 
Markus Scherer 
Markus Scherer  マルクス  IBM GCoC-Unicode/ICU  San José, CA 
markus.scherer@us.ibm.com

English summary of an email request to state the
preferred sorting of ß (sharp s) in relation to ss.

Date/time: 2003-07-31 10:17 PDT
From: Markus Scherer (markus.scherer@us.ibm.com)
To: "Stein, Dr. Astrid (VIII 1)" 
Cc: "'PETER.HORTIG@din.de'" ,
  "Mark Davis" ,
  "Marc Wilhelm Kuester" ,
  "Kenneth Whistler" ,
  "Asmus Freytag" 

Subject: Re: AW: DIN 5007 Bemerkungen - "Wohin mit dem ä?"

Dear Mr. Hortig,

Re our request below, we would like to ask you to tell us the preferred sorting
of sharp s (ß): Sorting on secondary level, which is how we interpret the text
of the standard, or sorting on tertiary level, which would be consistent with
other characters whose distinctions are removed by lowercasing or uppercasing.
Please take into account our explanation and examples below in the section
"Request for Clarification".

[...]

----

In response to an email reply from Dr. Astrid Stein on 2003-06-09
saying that she forwarded the earlier request to the relevant standards
committee at DIN, represented by Mr. Peter Hortig, for consideration of my
comments for their consultations.

----

In response to my (Markus Scherer's) original request email from 2003-06-10:

Dear Dr. Stein,

I read with great interest your article "Wohin mit dem ä?"
("Where to put the ä?", http://www.bva.bund.de/aufgaben/win/beitraege/00173/
about the revision of DIN 5007) and have a few comments. Below is also a request
for clarification. If we should direct our questions to someone else, could you
please forward this request or recommend a different contact person to us?

[Mentioning ICU (http://oss.software.ibm.com/icu/) and that it provides
collation including two tailorings similar to the sorting orders in DIN 5007.]

I noticed that the presentation of sorting/collation in DIN 5007 and in your
article appears to be based on techniques that are not up to date. My colleage,
Dr. Mark Davis, and I just took a closer look at DIN 5007.

Comments:

We recommend to modify the presentation to more closely match modern computer
sorting/collation algorithms. ISO/IEC 14651 "International String Ordering"
and the parallel standard "Unicode Collation Algorithm" (UCA) define unambiguous
algorithms that assign multi-level numeric weights to characters instead of
mapping some characters to others.

[Example for how tertiary-level difference between a and A is expressed with
such weights.]

DIN 5007 sorts sequences of characters differently than comparable international
standards like ISO/IEC 14651 and UCA:
- digits after letters (usually the reverse) (5.1.2)
- roman numerals according to their numeric value (difficult with computers)
  (5.1.2.1)
- numbers consisiting of arabic digits must be sorted according to their numeric
  value (usually only when necessary, and not always desirable - e.g. for part
  numbers)
- for number sorting it is not defined whether this also applies to negative
  numbers and fractions (5.1.2.2)
- different sorting for the same character : (colon) depending on usage
  (4.2.2 & 4.2.3)

Request for Clarification:

According to DIN 5007 sections 5 and 6, ß (sharp s) is treated as equal to ss;
however, when there is no other difference, then ß sorts after ss, before(!)
considering letter case (section 6.3). This is called a secondary difference
in the above-mentioned standards.

This contradicts the behavior of when the same text is uppercased, which turns
ß into SS. Such text should have the same sort order except for the
consideration of case differences in section 6.3, therefore SS and ss have a
tertiary difference.

This behavior is different than other ligatures, for which the sort order
does not change with case mappings.

For example:

1: Geissbock Gunther
2: Geissbock Günther
3: Geißbock Gunther
4: Geißbock Günther

The sort order changes when the strings are uppercased:

1: GEISSBOCK GUNTHER 
3: GEISSBOCK GUNTHER 
2: GEISSBOCK GÜNTHER 
4: GEISSBOCK GÜNTHER 

This behavior differs from that of ligatures (e.g., æ and Æ), where the sort
order remains the same:

1: Caesar Gunther 
2: Caesar Günther 
3: Cæsar Gunther 
4: Cæsar Günther 
-> 
1: CAESAR GUNTHER 
2: CAESAR GÜNTHER 
3: CÆSAR GUNTHER 
4: CÆSAR GÜNTHER 

We believe that this contradicts the goals of the standard and the expectations
of users.
Could you please confirm this?

We would welcome the remediation of these unclear cases in a future version,
in cooperation with the Unicode Consortium (for UCA) and the ISO/IEC SC22/WG20
committee (for ISO/IEC 14651).

References: 
ISO/IEC 14651 "International String Ordering": 
http://std.dkuug.dk/jtc1/sc22/wg20/ 
UCA "Unicode Collation Algorithm": http://www.unicode.org/reports/tr10/ 

Best regards,

Markus Scherer