Re: Ligaturing (was: Yet Another I-Dotting Proposal)

From: Alain LaBont\i SCT (alb@sct.gouv.qc.ca)
Date: Thu Aug 14 1997 - 16:24:31 EDT


A 10:13 97-08-14 -0700, Otto Stolz a écrit :
>Content-Description: Text
>Content-Type: text/plain ; charset=iso-8859-1
>X-Zm-Decoding-Hint: mimencode -q -u
>
>On Aug 14, 7:46, Michael Everson wrote:
>> Then operations such as ligaturing [...] could be achieved globally
>> vis à vis the _script_ without language-tagging and so on.
>
>This will not work, in the general case.

Just by pure chance, I just wrote an article (in French about searching OE
on the web and saerching ingeneral for this sophisticated case)... I don't
have time to translate it into English (I'm overloaded by my work and more
than 540 unread messages accumulated in the half of my vacation where I did
not connect to Internet!) so don't flame me, if it displeases you, just
discard this message and we'll remain good friends (;

Alain LaBonté
Québec

Here it is for those who read French:
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
A 10:50 97-08-14 -0700, Pierre Bastarache a écrit :
>Dans Altavista tu peux rechercher oeuvre ou oeuf écrit "œuvre" ou "œuf"
>car Altavista permet de chercher une chaîne de caractères telle qu'elle
>est écrite avec ses symboles et accents.

[Alain] :
Donc, ce n'est pas indifférent, et c'est à mon avis pervers, puisque si
l'on cherche « oeuf », on ne retrouvera pas « œuf », si je te comprend bien...

Pour être bien sûr que j'avais compris la phrase que tu me disais, mais
aussi pour vérifier au-delà de ce qu'elle pouvait impliquer dans ta
compréhension, j'ai vérifié moi même... Je te propose un test... J'ai
trouvé en Allemagne¹ une page web française qui comporte la chaîne "Fête du
gros œuvre"... Si je cherche exactement cette chaîne avec Altavista en
utilisant des guillemets anglais, ça marche, comme tu le dis (je retrouve
même deux autres pages web!)... Je m'y attendais, c'est trivial, bien sûr,
Altavista ne filtrant aucun caractères, contrairement à d'autres moteurs de
recherche...

Mais si je cherche plutôt "Fête du gros oeuvre", Altavista ne trouve rien!
Il y a donc place à amélioration... Bon, il y a un premier problème, c'est
que le « œ » codé dans cette page allamande est un caractère Windows,
utilisant donc un codage non normalisé... L'alphabet latin n° 0 proposé à
l'ISO corrigera cela pour les jeux de caractères à 8 bits. Mais tout cela,
ce sont des considérations de techniciens... « Pauvre utilisateur moyen »,
me dis-je! Même avec UNICODE, ce soutien ne sera pas évident, à moins que
l'on exprime le besoin clairement.

Bien sûr, faire référence à ISO/CEI 14651, comme ta page web² le fait,
implique que les deux seront retrouvés si la recherche se fait avec « oeuf
»... Il y a dans la façon fondamentale de procéder d'Altavista tout ce
qu'il faut pour un soutien correct en deux temps, trois mouvements (tout
est indexé en double : en accentué intégral [ce qui devrait comprendre les
ligatures telles quelles, et c'est le cas], et en équivalent non accentué
[ce qui devrait comprendre l'équivalent de œ en « oe », mais là ce n'est
pas le cas pour l'instant]).

Je suggère donc de donner un exemple, car je vois que tu n'avais pas saisi
l'ampleur du problème.

Il ne faut pas faire l'erreur de penser que si les caractères sont reconnus
par un système, la recherche ne présente aucune difficulté a priori. C'est
l'erreur que commettent, entre autres, la plupart des développeurs
américains, qui, n'utilisant eux-mêmes que l'anglais dans leur vie de tous
les jours, ne font pas ce genre de tests (les natifs francophones ne
pensent même pas automatiquement que c'est un problème, alors, ça explique
bien des choses).

Tous les caractères n'ont pas les mêmes propriétés.

Comme je l'ai dit précédemment, c'est quand même Altavista qui s'en tire
aujourd'hui le mieux. Mais il y a toujours place à amélioration,
heureusement pour ceux qui y travaillent d'ailleurs. Il y a un côté positif
à tout.

Alain LaBonté
Québec

¹ http://www.saarbruecken.de/sbnet/03/03_42f.htm

² http://www.sgo.gouv.qc.ca/sgo/sertir/sernou01.htm
   (attention, cette page est susceptible d'être mise à jour et
    l'information à laquelle l'on se réfère ici pourrait disparaître)



This archive was generated by hypermail 2.1.2 : Tue Jul 10 2001 - 17:20:36 EDT