Detail of contribution
Auteur: Jorge Antonio LEONI DE LEON
Titre:
Système de gestion et annotation (semi-)automatique de corpus linguistiques numériques
Abstract/Résumé: Le projet 'Interface pour le traitement de corpus linguistiques numériques' (Iprocoldi) cherche à développer un système permettant le stockage, l’encodage, la navigation et la consultation de corpus annotés et non annotés pour l’espagnol et les langues indigènes du Costa Rica. Ce choix est justifié étant donné le manque de ressources de ce genre dans ces langues. Par exemple, bien que l’espagnol soit une langue très importante au niveau international, elle ne compte pas avec de corpus assez larges ou en bon nombre, librement disponibles pour la recherche scientifique. Dans ce qui concerne les langues indigènes du Costa Rica, les données écrites ne sont pas facilement accessibles, d'où l'importance de compter avec un système centralisé permettant la consultation de transcriptions. Notre point de départ pour le développement d'Iprocoldi a été le Corpus numérique de messages présidentiels du Costa Rica (Jara Murillo, 2011). Tout corpus inclu dans Iprocoldi est décrit avec un ensemble d’étiquettes du Text Encoding Initiative (TEI) indiquant la date de création, les modifications subies et tout autre information que les chercheurs considèrent nécessaire. Iprocoldi permet l'annotation lexico-syntaxique des corpus stockés avec un code que nous avons développé sous le nom de Iprocoldi Marked Language (IML). L’annotation peut être réalisée manuellement ou automatiquement. Toute codification de corpus différente de IML doit être faite manuellement, ainsi que toute modification d'une annotation existante. IML a été créé à partir d’un formalisme lexico-syntaxique mettant en évidence les fonctions syntaxiques, les traits morphologiques et les rapports de hiérarchie afin de rendre possible, à terme, l’extraction de données pour l’induction de grammaires ou la création de données lexicales. L’annotation automatique est effectuée à l’aide de l'analyseur syntaxique Fips (Wehrli 2007), lequel est systématiquement interrogé pour obtenir les structures syntagmatiques; les traits morphologiques, étiquetés selon le formalisme EAGLES (1996), sont calculés avec Freeling (Padró, 2011). Ces résultats sont fusionnés et interprétés en termes de IML pour l'annotation automatique. Un validation manuelle est nécessaire. Bien que Iprocoldi soit un projet en développement, dans notre présentation nous le comparerons avec d'autres environnements de gestion et d'analyse de corpus afin de mieux souligner ses avantages. En somme, Iprocoldi est un système de stockage, navigation et consultation de corpus multilingues permettant l’annotation de fichiers en espagnol. Cette annotation est possible grâce à l’intervention des différents analyseurs syntaxiques, dont les résultats sont corrigés manuellement.
Titre:
Système de gestion et annotation (semi-)automatique de corpus linguistiques numériques
Abstract/Résumé: Le projet 'Interface pour le traitement de corpus linguistiques numériques' (Iprocoldi) cherche à développer un système permettant le stockage, l’encodage, la navigation et la consultation de corpus annotés et non annotés pour l’espagnol et les langues indigènes du Costa Rica. Ce choix est justifié étant donné le manque de ressources de ce genre dans ces langues. Par exemple, bien que l’espagnol soit une langue très importante au niveau international, elle ne compte pas avec de corpus assez larges ou en bon nombre, librement disponibles pour la recherche scientifique. Dans ce qui concerne les langues indigènes du Costa Rica, les données écrites ne sont pas facilement accessibles, d'où l'importance de compter avec un système centralisé permettant la consultation de transcriptions. Notre point de départ pour le développement d'Iprocoldi a été le Corpus numérique de messages présidentiels du Costa Rica (Jara Murillo, 2011). Tout corpus inclu dans Iprocoldi est décrit avec un ensemble d’étiquettes du Text Encoding Initiative (TEI) indiquant la date de création, les modifications subies et tout autre information que les chercheurs considèrent nécessaire. Iprocoldi permet l'annotation lexico-syntaxique des corpus stockés avec un code que nous avons développé sous le nom de Iprocoldi Marked Language (IML). L’annotation peut être réalisée manuellement ou automatiquement. Toute codification de corpus différente de IML doit être faite manuellement, ainsi que toute modification d'une annotation existante. IML a été créé à partir d’un formalisme lexico-syntaxique mettant en évidence les fonctions syntaxiques, les traits morphologiques et les rapports de hiérarchie afin de rendre possible, à terme, l’extraction de données pour l’induction de grammaires ou la création de données lexicales. L’annotation automatique est effectuée à l’aide de l'analyseur syntaxique Fips (Wehrli 2007), lequel est systématiquement interrogé pour obtenir les structures syntagmatiques; les traits morphologiques, étiquetés selon le formalisme EAGLES (1996), sont calculés avec Freeling (Padró, 2011). Ces résultats sont fusionnés et interprétés en termes de IML pour l'annotation automatique. Un validation manuelle est nécessaire. Bien que Iprocoldi soit un projet en développement, dans notre présentation nous le comparerons avec d'autres environnements de gestion et d'analyse de corpus afin de mieux souligner ses avantages. En somme, Iprocoldi est un système de stockage, navigation et consultation de corpus multilingues permettant l’annotation de fichiers en espagnol. Cette annotation est possible grâce à l’intervention des différents analyseurs syntaxiques, dont les résultats sont corrigés manuellement.