ka | en

ავტორიზაცია

ქართული ენის წინასწარი დამუშავების ეტაპები ინფორმაციულ ძებნის ამოცანაში

ავტორი: მაია არჩუაძე
თანაავტორები: მანანა ხაჩიძე, მაგდა ცინცაძე
საკვანძო სიტყვები: ბუნებრივი ენის ანალიზი, ინფორმაციული ძებნა, სტემინგი, ლემატიზაცია, ტექსტების კლასიფიკაცია
ანოტაცია:

მოხსენებაში განხილულია ტექსტის საწყისი დამუშავების პროცესები, რომელთა განხორციელება აუცილებელია კლასიფიკაციის საწყის ეტაპზე. განხვიხილეთ სტემინგისა და ლემატიზაციის პროცესი, რომელიც წარმოადგენს დოკუმენტების დამუშავების უმნიშვნელოვანეს ეტაპს. საუბარია სტემინგის პოპულარულ ალგორითმებზე - ლოვინსის(Lowins), პორტერის (Porter) და პაის/ჰასკის (Pice/Hask) ალგორითმებზე. განხილულია სტემინგის ალგორითმების გამოყენების თავისებურებანი ანალიზურ და სინთეზურ ენებში და, ამ თავისებურებათა გათვალისწინებით, მათი მოდიფიკაციის აუცილებლობა სხვადასხვა ენის კორპუსისათვის, თუმცა არსებობს ისეთი ენებიც, რომელთა დამუშავება მოითხოვს საერთოდ ახალი სტემერის შექმნას. არსებული სტემინგის ალგორითმების გამოყენება ქართული ენის თავისებურებებიდან გამომდინარე შეუძლებელი გახდა, ამიტომ ქართულენოვანი ტექსტების კლასიფიკაციის ამოცანაში (მსგავსად სხვა ენებისა), ტექსტის დამუშავებისათვის შემუშავებულ იქნა სტემინგის ახალი ალგორითმი. იგი ეფუძნება სიტყვების და სუფიქსების ბაზას და ეფექტურად მუშაობს სიტყვის კვეცის პრობლემებზე.