Back to list

Detail of contribution

Auteur: Pierre ZWEIGENBAUM

Titre:
Apport des classes de mots induites à la détection supervisée d'entités nommées: succès et limites


Abstract/Résumé: Les classes de mots induites à partir de corpus, typiquement par analyse distributionnelle, sont employées de façon croissante pour aider à effectuer des tâches traitées par classification supervisée, comme la détection d'entités nommées. Le principe consiste à pallier le manque de données sémantiques précises en constituant des classes adaptées à un domaine et à un genre de texte. Plus spécifiquement, l'insertion de ces classes dans un processus d'apprentissage supervisé mène à la sélection de sous-ensembles de ces classes et de leurs mots qui sont pertinents pour la tâche visée. Nous présentons une étude expérimentale, dans le cadre d'une tâche de détection d'entités médicales dans des comptes rendus hospitaliers, dans laquelle nous examinons la contribution effective des classes induites : quelles classes et quels mots sont effectivement sélectionnés, quel rapport cela a-t-il avec les fréquences des mots concernés, avec leur présence ou pas dans le corpus d'entraînement du système supervisé, ces connaissances induites à partir de corpus sont-elles utiles lorsque l'on possède déjà des informations sémantiques sur les mots concernés ? Nous espérons ainsi aider à mieux comprendre la contribution effective de ces classes induites et leur rapport avec des classes sémantiques que l'on pourrait constituer ou étendre de façon traditionnelle.