scieee Science in your language
[en] (orig)

NER: Von lexikon- bis chatbasiert

Author: Beyer, Andrea; Schulz, Konstantin
Publisher: Zenodo
DOI: 10.5281/zenodo.15722725
Source: https://zenodo.org/records/15722725/files/ner_lexikon-bis_chatbasiert.pdf
NER: Von lexikon-bis
cha basie
Uni e si ä F eibu g, 27.6.2025
D . And ea Beye & Kons an in Schulz (Humbold -Uni e si ä zu Be lin)
NER
01 NER-Me hoden
02
NER & Cha bo s
03 NER-Einsa z
04
NER:
Lexikon – KI-Me hoden – LLM
01 | NER
Named En i y Recogni ion & Classi ica ion (NER)
─Me hode des In o ma ion Re ie al, d.h. de au oma ischen Ex ak ion on
In o ma ionen aus einem Tex ko pus
─Named En i ies: Beg i e, die übe einen Namen eindeu ig eine Ka ego ie
zugewiesen we den können, z.B. Cice o = Pe son, Roma = O , Galli = Volk,
ecclesia = O ganisa ion, consulibus An onio e Cice one = Da um
─Ziel: Iden i izie ung und Klassi ika ion on En i ä en
─Anwendungs elde : Tex gene ie en, Meinungs o schung, Übe se zen,
Tex klassi ika ion, soziale Ne zwe kanalysen, Zei leis en, …
─E wei e es Ziel: Disambiguie ung on En i ä en, Ve linkung on En i ä en
Ressou cen zu En wicklung on NER-Sys emen
─Typologien: Quelle ü Guidelines on Anno a ionen
─Lexika und Wissensda enbanken: Lexika bie en wo wö lich En i ä en,
Wissensda enbanken bie en In o ma ionen übe e e enzie e En i ä en
─Vek o basie e Sp achmodelle: Wo ek o en ep äsen ie en die Bedeu ung
eines Wo es im Kon ex (Wo d Embeddings); sie en s ehen du ch das
T ainie en eines Modells ohne gelabel e Da en (Fea u e Lea ning)
─Ko po a:
Da en ohne Label: Einsa z beim T aining on gene ischen Sp achmodellen und Wo ek o en
Da en mi Label: Einsa z beim E aluie en und beim T aining spezialisie e KI-Modelle

He aus o de ungen: Da en und Me hoden
─Kleine Communi y, ehe un e inanzie und wenig da ena in; Da ena bei
wi d nich als Fo schung be ach e
─La ein und Al g iechisch = sog. low- esou ce languages, d.h. ehe kleine
Ko po a
─Ge inge Ressou cen, .a. exis ie en zu wenig quali a i hochwe ig anno ie e
Da ense s ü das T aining
─Ge inge Anzahl an obus en Sp achmodellen
─Mangelnde S anda ds, z.B. bei Anno a ions ich linien, Dokumen a ion e c.
He aus o de ungen: Ko po a
P obleme au g und dynamische Sp achen wicklung
─No malisie ung, z. B. pa um s. pa uum
─Gen e-Spezi ika: Me aphe n, Me onymien, poe ische Ausd ücke e schleie n
die En i ä , z.B. u bs ü Roma, onans ü Jupi e
─Ambigui ä : Homonyme, z.B. Name des Sohnes = Va e name, Romanus ü
ömisch ode Röme
─Meh wo -Ausd ücke, d.h. meh als ein Wo
mi e schiedenen Kons uk ionsmöglichkei en, z.B. allum Had iani, Se . Sullae Se . Filii
mi un e schiedliche Spannwei e, z.B. ebus Sanc i Vincen ii Ma iscensis, ode
mi Übe lappungen, z.B. Guillelmus de Sanc i S ephano de Pon e
Lösungsansä ze
─E höhung de Da enmenge
Meh anno ie e Tex e ü un e schiedliche Gen es und Epochen
Auswei ung de Anno a ionska ego ien
─Ve besse ung de Da enquali ä
S anda disie e Guidelines ü Anno a ionen
Mul i-Laye -Anno a ionen, z. B. Pompeianam illam = 1. Laye : O sangabe, Villa in Pompeji; 2.
Laye : O sangabe, Villa des Pompeius; 3. Laye : O sangabe; Villa on Cice o (Pompeianum)
─semi-au oma ische Anno a ion
KI anno ie au oma isch und Mensch ko igie Fehle de KI
02 | NER-Me hoden
Fo schungs o haben: Ps.-Sallus
In Cice onem
─F age: Welche Un e schiede gib es zwischen au hen ischen In ek i en und
declama iones als In ek i e?
─Beispiel Ad essa : We is de eigen liche Ad essa eine In ek i e? De
Di amie e, die Sena o en, de Sp eche (als in e ie es Lob)?
Welche Namen kommen wie o o ? Zu welche Ka ego ie on En i ä gehö en sie?
Wie e eilen sich die namen lichen An eden übe eine Rede?
Wie häu ig wi d de Di amie e di ek (2.Sg.) ode die Sena o en (2.Pl.) angesp ochen?
Wie häu ig und wie wi d übe den Di amie en indi ek (3.Sg.) gesp ochen?
In welche Beziehung s ehen die Ich-Aussagen (1.Sg.) und die di ek e An ede?
─Ka ego ie: Gen eme kmal, Disku ss uk u
─Re e enzko pus 1: Ps.-Cice o, In Sallus ium
─Re e enzko pus 2: Cice o, In Pisonem

Iden i ika ion und Klassi ika ion on NE
Iden i izie e und klassi izie e alle Named En i ies im la einischen Tex (Anhang) nach Pe son (PERSON), Loca ion (LOC),
O ganisa ion (ORG) und Na ionali ies o eligious o poli ical g oups (NORP) . Gib eine Lis e diese En i ä en nach
olgendem Mus e aus:
Beispiel 1: M. Tulli = PERSON / Beispiel 2: Romam = LOC /Beispiel 3: omanus = NORP
Zähle alle Named En i ies und gib das E gebnis nach
dem Schema an:
PERSON: | LOC: | ORG: | NORP:
Claude-Sonne -4, 28.5.2025:
h ps://poe.com/s/ghbVWYE43HIn8NO4wk7M
Ve gleich Claude-Sonne -4 und NER-Tagge
Cha bo :
Fabios, Scipiones e c. ich ig
Romule A pinas ko ek
NER-Tagge :
Gö e e kann , abe IOM
nich als eine En i ä
Pompeianum und
Tusculanum als Pe son,
nich als O
Plau iae alsch als Pe son
Dy hachio nich als O
Vo kommen Typ
Bibulum PERSON
Caesa em PERSON
Cice o PERSON
Cice o PERSON
Cice o PERSON
Dy hachio PERSON
Iuppi e PERSON
M. C assi PERSON
M. Pisonem PERSON
M. Tulli PERSON
M. Tulli PERSON
M. Tullius PERSON
Maximus PERSON
Mine a PERSON
P. C assi PERSON
Plau iae PERSON
Pompeianam PERSON
Pompeianum PERSON
Scipionis A icani PERSON
Ses io PERSON
Sullam PERSON
Te en ia PERSON
Tusculanum PERSON
Va ini PERSON
Ve gleich Claude-Sonne -4 und NER-Tagge
Vo kommen Typ
Tusculanam LOC
Romam LOC
Po cia LOC
I alia LOC
A pinas LOC
A pinas LOC
Scipiones NORP
Romule NORP
Romanum NORP
Paulos NORP
Fabios NORP
Cha bo :
alle O e ko ek
A pinas als NORP 1x alsch
Romanum ich ig
pa es consc ip i ich ig
Gese zesnamen zu ech
nich au ge üh
NER-Tagge :
Scipiones, Romulus, Paulos,
Fabios alle alsch als NORP
Po cia alsch als O
Rang eihen olge de En i ä en PERSON
Cha bo :
Cice o ko ek
M. C assi ehle ha mi 2
NER-Tagge :
pa es consc ip i manuell
e gänz
Fehle de Iden i ika ion
se zen sich o , s.
Dy hachio, Plau iae e c.
Gib die En i ä PERSON in eine Rang eihen olge abs eigend aus. M. Tulli, M.
Tullius und Cice o sind die gleiche Pe son. Zähle diese En i ä nu als eine einzige.
Beispiel 1: Cice o: Anzahl | Beispiel 2: Te en ia: Anzahl
Claude-Sonne -4, 28.5.2025:
h ps://poe.com/s/ sGYP32RaBsOn6JQsBI
Be echne ü die En i ä en "Cice o" und "pa es consc ip i" ü jede Nennung die p ozen uale Posi ion im Gesam ex (x-
Achse) und die Anzahl de E wähnung p o Abschni (y-Achse). Gib das E gebnis als s acked a ea plo aus, bei dem die
Fläche ü Cice o blau und die Fläche ü "pa es consc ip i" o ange ausge üll is .
Claude-Sonne -4, 28.5.2025:
h ps://poe.com/s/ WYU5sYCl7dQT9IUgF R

Ve gleich Cha bo –NER-Tagge
Ve gleich Cha bo –Mo phologie-Tagge
Claude-Sonne -4, 31.5.2025:
h ps://poe.com/s/pkAISA3xMbW2O9yG kKK
Fazi
Cha bo s können übe wiegend ehle ei En i ä en
iden i izie en und klassi izie en, sowei sie mode n als
En i ä en e s anden we den (Gö e gehö en nich dazu).
Sie können die Da en nich zu e lässig agg egie en, d.h. nich
ko ek mi den E gebnissen echnen.
Sie können Da en isualisie en, alle dings gil auch hie :
kein Zahlen e s ändnis (z. B. Nullpunk , 100%)
ga bage in = ga bage ou
04 | NER-Einsa z