STROJNO PREPOZNAVANJE NAZIVA U SUVREMENIM HRVATSKIM TEKSTOVIMA

 

 

Božo Bekavac

 

 

 

SAŽETAK:

 

 

U radu je opisan sustav za prepoznavanje i klasifikaciju naziva za hrvatski jezik nazvan OZANA. Sustav se sastoji od modula za segmentaciju na rečenice, općeg leksikona, specijaliziranih popisa imena i konačnih transduktora za automatsko prepoznavanje brojeva i nekih oblika pridjeva. Nakon segmentacije teksta na rečenice, obilježavaju se pojavnice teksta (leme i morfosintaktičke osobine općih riječi, te potencijalne kategorije naziva s pomoću specijaliziranih popisa imena) bez razrješenja mogućih višeznačnosti. Sama srž sustava su regularne gramatike (pravila) za prepoznavanje i klasifikaciju naziva koje se izvode nad obilježenim tekstovima. Pravila se zasnivaju na opisanim strategijama (poput unutarnjih i vanjskih dokaza), a primjenjuju se kaskadno određenim redoslijedom. Rezultat su obrade obilježeni nazivi u tekstovima u XML obliku prema specifikaciji s konferencije MUC-7. Pravila sustava primijenjena su na novinske i prozne tekstove, a zatim su uspoređene razlike i uzroci odstupanja. F-mjera sustava izmjerena na tekstovima novinskog korpusa iznosi 90 %.

 

SHEMA SUSTAVA:

 

 

 

PRIMJER OBRADE TEKSTA:

 

a)    ULAZNI TEKST

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


b)   OBRAĐENI TEKST