scieee Science in your language
[en] (orig) [de] [fr]

Mehrsprachige Erzeugung natürlicher Sprache aus einer medizinischen Konzeptrepräsentation

Judith Wagner

Dr. sc. hum. Multilingual Natural Language Generation from a Medical Concept Representation Geboren am 30.07.1963 in Weinheim Reifeprüfung am 12.05.1982 in Weinheim Studiengang der Fachrichtung Medizinische Informatik vom WS 1982 bis SS 1988 Vordiplom am 10.01.1985 an der Universität Heidelberg Diplom am 9.09.1988 an der Universität Heidelberg Promotionsfach: Medizinische Biometrie und Informatik Doktorvater: Prof. Dr. rer. biol. hum. R. Haux

Die Hauptziele dieser Arbeit waren die Beschreibung und Darstellung der Kenntnisse, die für die mehrsprachige Erzeugung von einer medizinischen Konzeptvertretung erforderlich sind, sowie die Entwicklung einer Methode und die Entwicklung und Umsetzung eines Werkzeugs für die mehrsprachige Erzeugung, das speziell an die Anforderungen und die Sprache des medizinischen Bereichs angepasst werden kann. Die typische medizinische Sprache ist zu einer telegraphischen Untersprache mit besonderen Merkmalen und Konventionen geworden und mit einer hohen Informationsdichte, die in kurzen und komplexen Sätzen ausgedrückt wird: dem medizinischen "Jargon".

Diese These präsentiert einen mehrsprachigen, semantisch orientierten Subsprachenansatz zur

Der Prozess umfasst Transformationsoperationen, Auswahloperationen und die sprachliche Realisierung in einer bestimmten Sprache, wobei der Schwerpunkt darauf liegt, wie diese Operationen durch die einzelnen Sprachparameter parametriert werden können. Die Verbindung zwischen konzeptionellen und sprachlichen Strukturen wird dann auf zwei Ebenen etabliert: einerseits verknüpfen Anmerkungen konzeptionelle Einheiten (Konzepte, Beziehungen) mit sprachlichen Einheiten (Wörter, sprachliche Strukturen). andererseits passen Transformationsoperationen konzeptionelle Strukturen durch die Verwendung von Definitionen zu einer Ebene an, in der sie direkt in synthetische Repräsentationen übersetzt werden können.

Dieser Ansatz wurde in mehreren europäischen Sprachen für die Konzeption einer vorhandenen medizinischen Konzeptrepräsentation angewendet: das GALEN Common Reference Model. Ein groß angelegtes Experiment wurde auf dem Urologie-Teil der französischen Nomenklatur Commune des Actes Médicaux durchgeführt. Dieser Teil umfasst 522 chirurgische Verfahren, die konzeptionell nach einem Gesamtchirurgischen Verfahrensschema repräsentiert wurden, und die Phrasen wurden in verschiedenen Sprachen neu generiert. Das Generierungstool wurde auch für eine strukturierte Klinische Benutzeroberfläche verwendet, die Informationen über Harninfektionen sammelt: Informationen werden in einer Sprache durch Formen gesammelt und in Phrasen der gleichen oder einer anderen Sprache zusammengefasst.

Diese Experimente haben gezeigt, dass das Erzeugungswerkzeug an

verschiedene Quellmodellierungssysteme und verschiedene Zielsprachen, oder

Die Einführung neuer Sprachen wurde durch den generischen Ansatz erleichtert. Die Erzeugung von Ergebnissen in mehreren Sprachen für eine Domain hat sich als relativ einfach erwiesen, sobald eine Domain auf der konzeptionellen Seite abgedeckt ist.

Die Transformationsoperationen waren ein zentrales Mittel zur Überbrückung verschiedener Wege, die gleichen Dinge konzeptionell darzustellen - unterschiedliche Modellierungsstile - und unterschiedliche, aber unterschiedliche, Wege, die gleichen Konzepte in Sprache - unterschiedliche Sprachen und Sprachstile auszudrücken. Die Operationen basieren auf der Formalismus der Konzeptionellen Graphen und werden durch die Verfügbarkeit von sprachspezifischen Annotationen, sprachunabhängigen Definitionen und generationsstrategien insgesamt parametriert. Sie ermöglichen nicht nur die Überbrückung terminologischer Lücken und das Fehlen genauer Übersetzungsäquivalenten, sondern auch die Schaffung verschiedener Generationsstrategien, die es ermöglichen, den Stil der generierten Sprache an Anwendungszwecke und Benutzer anzupassen. Zusammen mit spezifischen Definitionen, die ein Modellschema widerspiegeln, ermöglichen sie die Anpassung an die spezifischen Merkmale eines Modellierungsschemas.

Die Erfahrung hat gezeigt, dass es wichtig ist, sich auf ein vorhandenes Domain-Modell für die Erzeugung zu verlassen, um eine anwendungsrelevante Domain-Abdeckung zu erreichen. Es zeigte auch die Bedeutung der Darstellung von konzeptionellen Beziehungen und der Unterscheidung von konzeptionellen und sprachlichen Modellen. Die Nützlichkeit von Natural Language Generation-Tools als Validierungswerkzeug für komplexe konzeptionelle Modellierung in medizinischen Konzeptvertretungssystemen kam auch in den Vordergrund. Schließlich wurde gezeigt, dass es für verschiedene Anwendungen möglich ist, sich auf eine einzige gemeinsame konzeptionelle Darstellung zu verlassen und die Erzeugung von Oberflächensprache an diese Anwendungen anzupassen.