...ne pas se fier aux logiciels informatiques qui promettent monts et merveilles, et connaître par coeur son Bescherelle http://www.bescherelle.com/
:wink:
***************************************************************************************************
lundi 22 juin 2009 | Publié 17:50
Les correcteurs d'orthographe ont encore de gros progrès à faire. Comme pour d'autres segments de l'informatique moderne, la solution pourrait venir d'une approche totalement différente impliquant les statistiques et l'internet.
Frédéric Filloux
S'il est un domaine où l'informatique individuelle est encore à l'âge de pierre, c'est bien celui des correcteurs d'orthographe. Qui n'a pas pesté contre la sottise crasse de son logiciel qui fait toujours les mêmes erreurs, les mêmes propositions ineptes et n'apprend rien, sauf à forcer la bête (et encore)? Cela vaut pour les traitements de textes d'ordinateurs personnels comme pour certains dispositifs de langage prédictifs de téléphones portables.
Sur toutes les plates-formes, pour toutes les marques, la médiocrité fait l'objet d'une compétition serrée. Microsoft a pour lui la domination d'un logiciel (Word) qui en est à sa douzième version, mais qui a la persistance des cancres. Ainsi, malheur à celui qui emploie des termes techniques, des noms propres, des anglicismes, bref, tout ce qu'on peut trouver dans une chronique comme celle-ci. Exemples au hasard:
* la "carte-mère" d'un PC devient "carte Méré"
* la "Newspapers Association", même dûment identifiée avec force majuscules devient "Espales Association"
* le mot "Research" employé pour une institution devient invariablement "Resarci"
* un nom d'entreprise comme "Craigslist" devient "Craig List", et "Comscore" devient "Co Scoré", etc.
Non seulement cette novlangue ne veut en général rien dire, mais pire encore, Word croit savoir et impose ces corrections de façon automatique. On peut certes désactiver la fonction mais alors on perd aussi les (quelques) bénéfices. De toute façon, sur un MacBook comme celui utilisé pour cette chronique -un "McCook", selon Word- le processus appliqué à un texte long se termine deux fois sur trois par un message indiquant : "Une erreur s'est produite pendant la vérification grammaticale. Word met fin à la session en cours". Explication sur le site officiel de Microsoft: "Ce problème se produit lorsque le vérificateur de grammaire essaie d'évaluer une phrase longue et complexe comprenant plusieurs conjonctions telles que "ou" et "et", avec au moins une préposition telle que "de", "à"," par" ou "depuis". On se pince.
Ne pas croire qu'Apple fait mieux avec son traitement de texte Pages. Celui-ci fonctionne aussi mal, tout comme le système d'écriture prédictif de l'iPhone qu'il vaut mieux désactiver.
La faiblesse des correcteurs d'orthographe et plus encore de grammaire illustre la difficulté pour un ordinateur d'appréhender le langage. Ces modules logiciels sont construits sur des dictionnaires communs, des dictionnaires utilisateurs censés s'enrichir au fur et à mesure de l'usage, et des algorithmes supposés contextualiser les mots. Les faibles progrès accomplis ces dernières années tendent à démontrer que ce système a atteint ses limites.
Une fois de plus, Google change la donne avec une toute autre approche. Au lieu de partir d'un dictionnaire contenant un corpus de mots, les ingénieurs ont construit un énorme "modèle de langage" nourrit de milliards de pages du web analysées de façon statistique. Avantage du système: le mot n'est plus considéré isolément, mais dans son contexte statistiquement le plus employé. Et comme le corpus sur lequel s'appuie Google est fort de milliards de phrases, la dominante de l'usage reflète à coup sûr le mot et le contexte exacts.
Il y a quelques semaines, lors d'une conférence pour programmeurs, les ingénieurs de Google on présenté Google Wave, un outil de collaboration puissant, très complexe (la présentation de 1h20 mérite le détour) qui intègre ce modèle de langage. Exemple (en anglais): le démonstrateur tape en anglais la phase suivante Can I have some been soup? en commettant une erreur : au lieu du mot bean (haricot), il met le mot been qui est le participe passé du verbe être et est donc fondé à se trouver dans une phrase en anglais. Par une analyse du contexte, le logiciel va détecter que le verbe n'a rien à faire dans ce contexte précis et que, statistiquement, bean est le mot exact. (Une brève démo est ici)
Et comme le logiciel est suffisamment sûr de lui, on va l'autoriser à corriger lors de la frappe cette phrase décrivant l'Islande comme une île et comportant une double erreur sur le mot "Iceland": Icland is an icland va instantanément être corrigé en: Iceland is an island, grâce à une analyse statistique et en temps réel, du contexte. En fait, chacun peut mesurer l'efficacité du recours à l'analyse statistique sur un large corpus.
Il suffit de taper dans Google une phrase complète comportant une tournure grammaticale incertaine. La bonne tournure apparaîtra de façon dominante. Très utile quand on écrit dans une langue étrangère par exemple. Et bien plus performant que n'importe quel correcteur grammatical. Le gros défaut est qu'il est nécessaire d'être connecté à l'internet pour s'en servir. Un modèle de langage ne peut être stocké sur le disque dur d'un PC.
C'est sur cette approche d'un modèle statistique de langage que Google entend s'imposer dans le domaine de la traduction. Il est de bon ton de critiquer Google Translate. Certes, il donne des résultats médiocres pour des tournures littéraires, mais il est suffisant pour faire un mail professionnel par exemple. De plus, il s'affine constamment. Pour preuve cette démonstration d'un système de traduction à la volée (on tape dans une langue l'autre s'affiche) effectuée lors de la présentation de Google Wave. Spectaculaire. Surtout en 40 langues. Et ce n'est que le début, car l'étape ultime étant un traducteur vocal simultané. Google y travaille.