scieee Science in your language
[en] (orig) [de] [fr]

Génération de langage naturel multilingue à partir d'une représentation du concept médical

Judith Wagner

Le docteur Sc. Hum. Génération de langages naturels multilingues à partir d'une représentation de concepts médicaux Geboren am 30.07.1963 à Weinheim Reifeprüfung am 12.05.1982 à Weinheim Studiengang der Fachrichtung Medizinische Informatik vom WS 1982 bis SS 1988 Vordiplom am 10.01.1985 an der Universität Heidelberg Diplom am 9.09.1988 an der Universität Heidelberg Promotionsfach: Biometrie médicale et informatik Doktorvater: Prof. Dr. rer. biol. hum. R. Haux Un certain nombre de systèmes de représentation de concepts médicaux compositionnels sont en cours de développement afin de permettre la réutilisation et le partage des connaissances et des données médicales. Ces expressions doivent être présentées sous forme de phrases de langue de surface pour être utilisées par les utilisateurs finaux et les applications. Ceci est réalisé en générant un langage naturel, en fournissant la traduction de représentations conceptuelles dans une ou plusieurs langues "naturelles". Il s'agit d'un moyen potentiel de concilier deux exigences, qui sont toutes deux essentielles pour de nombreux développements actuels de l'informatique médicale, et en particulier pour un dossier informatique des patients, mais qui sont parfois contradictoires: une communication efficace et le partage et la réutilisation des informations médicales.

Les principaux objectifs de ce travail étaient de décrire et de représenter les connaissances nécessaires à la génération multilingue à partir d'une représentation de concepts médicaux, ainsi que de développer une méthode et de concevoir et de mettre en œuvre un outil de génération multilingue, qui peut être adapté spécifiquement aux exigences et au langage du domaine médical. Le langage médical typique est devenu un sous-linguage télégraphique avec des caractéristiques et des conventions particulières, et avec une grande densité d'information exprimée par des phrases courtes et complexes: le "jargon" médical.

Cette thèse présente une approche multilingue et sémantique de la

génération de langages. L'approche repose sur l'hypothèse selon laquelle un modèle conceptuel du domaine et des connaissances linguistiques doit être clairement distingué et relié par des structures définies. La base de connaissances comprend le modèle de domaine, les connaissances linguistiques et les liens entre les deux. Le processus comprend les opérations de transformation, les opérations de sélection et la réalisation linguistique dans une langue particulière, en mettant l'accent sur la façon de paramétrer ces opérations par les paramètres linguistiques individuels. Le lien entre les structures conceptuelles et linguistiques est alors établi à deux niveaux: d'une part, les annotations relient les entités conceptuelles (concepts, relations) aux entités linguistiques (words, structures syntactiques). D'autre part, les opérations de transformation adaptent les représentations conceptuelles en utilisant des définitions à un niveau où elles peuvent être directement traduites dans des structures linguistiques.

Cette approche a été appliquée à la génération de phrases substantives dans plusieurs langues européennes pour les représentations conceptuelles d'une représentation médicale existante: le modèle de référence commun GALEN. Une expérience à grande échelle a été réalisée sur la partie urologique de la Nomenclature française Commune des Actes Médicaux . Cette partie comprend 522 procédures chirurgicales, qui ont été représentées conceptuellement à la suite d'un schéma général de procédures chirurgicales, et les phrases ont été reproduites dans différentes langues. L'outil de génération a également été utilisé pour une interface utilisateur clinique structurée qui recueille des informations sur les infections urinaires: les informations sont recueillies dans une langue par formulaires et peuvent être résumées dans des phrases de la même ou d'une autre langue.

Ces expériences ont démontré que l'outil de production peut être adapté à

différents systèmes de modélisation source et dans différentes langues de destination, ou

L'introduction de nouvelles langues a été facilitée par l'approche générique. La génération de résultats dans plusieurs langues pour un domaine s'est révélée relativement simple une fois qu'un domaine est couvert du côté conceptuel.

Les opérations de transformation ont été un moyen central de relier différentes façons de représenter les mêmes choses conceptuellement - différents styles de modélisation - et différentes, mais différentes, façons d'exprimer les mêmes concepts dans le langage - différentes langues et styles linguistiques. Les opérations sont basées sur le formalisme des graphiques conceptuels et sont paramétrées par la disponibilité d'annotations spécifiques à la langue, de définitions indépendantes de la langue et de stratégies générales de génération. Ils permettent non seulement de combler les lacunes terminologiques et l'absence d'équivalents de traduction exacts, mais aussi la création de stratégies de génération différentes, qui permettent d'adapter le style du langage généré aux fins d'application et aux utilisateurs. Parallèlement à des définitions spécifiques qui reflètent un schéma conceptuel, elles permettent de s'adapter aux caractéristiques spécifiques d'un schéma de modélisation.

L'expérience a démontré qu'il est important de s'appuyer sur un modèle de domaine existant pour la génération afin d'atteindre une couverture de domaine pertinente pour l'application. Il a également montré l'importance de la représentation des relations conceptuelles et de la distinction entre les modèles conceptuels et linguistiques. L'utilité des outils de génération de langage naturel en tant qu'outil de validation pour la modélisation conceptuelle complexe dans les systèmes de représentation des concepts médicaux est également apparue. Enfin, il a été démontré qu'il est possible pour différentes applications de s'appuyer sur une seule représentation conceptuelle commune, en adaptant la génération de langage de surface à ces applications.