L’atténuation statistique des surdétections d’un correcteur grammatical symbolique

Fabrizio

Gotti

Master's thesis

2012

Université de Montréal

Keywords:

grammar checking, robust parsing, supervised machine learning, false alarm identifiication, statistical language models, word sense disambiguation

Gotti_Fabrizio_2012_memoire.pdf

Summary:

Les logiciels de correction grammaticale commettent parfois des détections illégitimes (fausses alertes), que nous appelons surdétections dans cette étude. Leur présence dans un outil de correction grammaticale en diminue la fiabilité et l’utilité telles que perçues par les utilisateurs.

Ce mémoire de maîtrise décrit les expériences de mise au point d’un système créé pour identifier et mettre en sourdine les surdétections produites par le correcteur du français conçu par la société Druide informatique. Pour ce faire, nous avons combiné approches symbolique et statistique : nous avons placé un classificateur en aval du moteur de correction grammaticale afin de déterminer si une détection donnée est légitime ou pas.

Les classificateurs ont été entraînés de manière supervisée sur 14 types de détections faites par le correcteur, en employant des milliers de traits (« features ») couvrant diverses informations linguistiques extraites de phrases avec et sans surdétections, fournies par notre partenaire commercial. Ces traits s’intéressent notamment aux dépendances syntaxiques entre les mots, à leurs catégories morphosyntaxiques, à leur contexte, et emploient également des scores issus de modèles statistiques.

Une première expérience a exploré des milliers de configurations de classificateurs pour chaque détection. Huit des 14 classificateurs développés sont maintenant intégrés à la nouvelle version d’un correcteur commercial très populaire. Cette partie du travail s’avère un exemple réussi de déploiement d’une approche d’apprentissage machine au service d’une application langagière grand public robuste.

Une seconde expérience, libérée de contraintes techniques liées à l’intégration commerciale, a montré que les modèles de langue probabilistes, les classificateurs de type SVM (séparateurs à vaste marge) et la désambiguïsation sémantique améliorent significativement la qualité de ces classificateurs, au prix d’une plus grande complexité calculatoire et informatique.

Ce travail tente également de pousser plus loin ce travail de fouille d’erreurs en proposant un ensemble d’idées qui concourraient à automatiser les coûteux procédés d’annotation des exemples, d’entraînement et sélection de classificateurs de surdétections, et de repérage des cas de figure linguistiques les plus susceptibles de faire apparaître des surdétections. Une telle chaîne de traitement serait éminemment utile, à notre avis, pour améliorer n’importe quel correcteur grammatical doté d’une API autorisant l’extraction de traits riches.