Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja

Mentor Prof. Nebojša Bačanin-Džakula, PhD

Institucija Univerzitet Singidunum, Beograd, Beograd, Srbija, 2024

Apstrakt
U poslednje vreme, usled rapidnog rasta veb stranica, društvenih medija i drugih savremenih digitalnih aplikacija, količina tekstualnih podataka postaje enormna. Zbog velikog obima heterogenih informacija, nestruktuiranog formata tekstualnih podatka, izdvajanje relevantnih informacija i njihova analiza postaju veoma izazovni i predsavljaju značajnu oblast naučnog istraživanja. Klasterovanje tekstualnih dokumenata je krucijalni proces za pronalaženje i ekstrakciju informacija kao i za organizaciju dokumenata, stoga klasterovanje je značajan zadatak u radu sa ogromnim količinama tekstualnih podatka. Klasterovanje tekstualnih dokumenata je proces rudarenja teksta koji deli skup dokumenata zasnovanih na tekstu u međusobno isključive klastere na način da su dokumenti unutar iste grupe imaju veliki stepen sličnosti, dok se dokumenti iz različitih klastera razlikuju po sadržaju. Jedan od najvećih izazova u klasterovanju teksta je particionisanje kolekcije tekstualnih podataka merenjem relevantnosti sadržaja u dokumentima. Jedan od često korišćenih algoritma za klasterovanje je algoritam K-srednjih vrednosti koji je jednostavan i lak za implementaciju, međutim ima određenih nedostataka, kao što je problem inicijalizacije i zaglavljivanje u lokalnom optimimu što iziskuje potrebu razvoja nove inovativne tehnike koja efikasno rešava problem klasterovanja tekstualnih dokumenata. Baveći se ovim problemom, glavni doprinos ove disertacije je novi poboljšani hibridni algoritam koji je baziran na inteligenciji roja i kombinovana sa algoritmom K-srednjih vrednosti za klasterovanje tekstualnih dokumenata. Eksplicitno, algoritam voćne mušice je hibridizovan sa algoritmom svica, dodatno u proces pretraživanja algoritma svica je implementirana strategija dinamičnog prilagođavanja adaptivnog parametra α. Radi bržeg i efikasnijeg pronalaženja optimalnijeg rešenja, u algoritam je ugrađen i popularan delotvorni koncept učenje zasnovanog na opoziciji. U cilju dokazivanja efikasnosti algoritma, kao standardna procedura kod bilo kog novouvedenog metaheurističkog algoritma, benčmark test funkcije se koriste za kritičko razmatranje procene performanse i merenje kvaliteta. Algoritmi koji su uspešni u rešavanju numeričkih optimizacionih problema, smatraju se uspešnim i efikasnim metodama za rešavanje problema iz realnog sveta. Skladno tome, predloženi poboljšani hibridni metod voćne mušice je prvo validiran na deset modernih neograničenih CEC 2019 benčmark funkcija. Zatim se predloženi metod kombinovan sa algoritmom K-srednjih vrednosti i primenjen za problem klasterovanja tekstualnih dokumenata, korišćenjem šest standardnih benčmark tekstualnih skupova podataka. Dobijeni rezultati simulacije na neograničenim funkcijama potvrđuju pouzdanost i potencijal fuzije kvalitetnih komponenata u novom predloženom algoritmu. Statistički pokazatalji simulacije i komparativna analiza sa drugih deset metaheurističkih pristupa potkrepljuje pogodnost predloženog hibridnog pristupa koji ima snažnu sposobnost u pronalaženju globalnog optimalnog rešenja u razumnom vremenu. U drugoj simulaciji, algoritam je primenjen na problem klasterovanja tekstualnih dokumenata, dobijeni rezultati eksperimenta klasterovanja i komparativna analiza pokazuju da je predloženi pristup robustan i superioran u odnosu na druge najsavremenije metaheurističke i nemetaheurističke metode.
Ključne reči klasterovanje tekstualnih dokumenata, mašinsko učenje, K-srednjih vrednosti, metaheuristički algoritmi, algoritam optimizacije voćne mušice.
Priložene datoteke

Preuzimanje citata:

BibTeX format
@phdthesis{Bezdan-2024-phd,
  author = {Timea Bezdan}, 
  title  = {Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja},
  school = {Univerzitet Singidunum, Beograd, Beograd, Srbija},
  year   = 2024
}
RefWorks Tagged format
RT Dissertation
A1 Timea Bezdan
T1 Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja
AD Univerzitet Singidunum, Beograd, Beograd, Srbija
YR 2024
SF doctoral dissertation; research
Unapred formatirani prikaz citata
T. Bezdan. (2024). Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja (Doctoral dissertation), Univerzitet Singidunum, Beograd