Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja
Kandidat
Timea Bezdan
Mentor Prof. Nebojša Bačanin-Džakula, PhD
Institucija Univerzitet Singidunum, Beograd, Beograd, Srbija, 2024
Apstrakt
U poslednje vreme, usled rapidnog rasta veb stranica, društvenih medija i drugih savremenih digitalnih aplikacija, količina tekstualnih podataka postaje enormna. Zbog velikog obima heterogenih informacija, nestruktuiranog formata tekstualnih podatka, izdvajanje relevantnih informacija i njihova analiza postaju veoma izazovni i predsavljaju značajnu oblast naučnog istraživanja. Klasterovanje tekstualnih dokumenata je krucijalni proces za pronalaženje i ekstrakciju informacija kao i za organizaciju dokumenata, stoga klasterovanje je značajan zadatak u radu sa ogromnim količinama tekstualnih podatka. Klasterovanje tekstualnih dokumenata je proces rudarenja teksta koji deli skup dokumenata zasnovanih na tekstu u međusobno isključive klastere na način da su dokumenti unutar iste grupe imaju veliki stepen sličnosti, dok se dokumenti iz različitih klastera razlikuju po sadržaju. Jedan od najvećih izazova u klasterovanju teksta je particionisanje kolekcije tekstualnih podataka merenjem relevantnosti sadržaja u dokumentima. Jedan od često korišćenih algoritma za klasterovanje je algoritam K-srednjih vrednosti koji je jednostavan i lak za implementaciju, međutim ima određenih nedostataka, kao što je problem inicijalizacije i zaglavljivanje u lokalnom optimimu što iziskuje potrebu razvoja nove inovativne tehnike koja efikasno rešava problem klasterovanja tekstualnih dokumenata. Baveći se ovim problemom, glavni doprinos ove disertacije je novi poboljšani hibridni algoritam koji je baziran na inteligenciji roja i kombinovana sa algoritmom K-srednjih vrednosti za klasterovanje tekstualnih dokumenata. Eksplicitno, algoritam voćne mušice je hibridizovan sa algoritmom svica, dodatno u proces pretraživanja algoritma svica je implementirana strategija dinamičnog prilagođavanja adaptivnog parametra α. Radi bržeg i efikasnijeg pronalaženja optimalnijeg rešenja, u algoritam je ugrađen i popularan delotvorni koncept učenje zasnovanog na opoziciji. U cilju dokazivanja efikasnosti algoritma, kao standardna procedura kod bilo kog novouvedenog metaheurističkog algoritma, benčmark test funkcije se koriste za kritičko razmatranje procene performanse i merenje kvaliteta. Algoritmi koji su uspešni u rešavanju numeričkih optimizacionih problema, smatraju se uspešnim i efikasnim metodama za rešavanje problema iz realnog sveta. Skladno tome, predloženi poboljšani hibridni metod voćne mušice je prvo validiran na deset modernih neograničenih CEC 2019 benčmark funkcija. Zatim se predloženi metod kombinovan sa algoritmom K-srednjih vrednosti i primenjen za problem klasterovanja tekstualnih dokumenata, korišćenjem šest standardnih benčmark tekstualnih skupova podataka. Dobijeni rezultati simulacije na neograničenim funkcijama potvrđuju pouzdanost i potencijal fuzije kvalitetnih komponenata u novom predloženom algoritmu. Statistički pokazatalji simulacije i komparativna analiza sa drugih deset metaheurističkih pristupa potkrepljuje pogodnost predloženog hibridnog pristupa koji ima snažnu sposobnost u pronalaženju globalnog optimalnog rešenja u razumnom vremenu. U drugoj simulaciji, algoritam je primenjen na problem klasterovanja tekstualnih dokumenata, dobijeni rezultati eksperimenta klasterovanja i komparativna analiza pokazuju da je predloženi pristup robustan i superioran u odnosu na druge najsavremenije metaheurističke i nemetaheurističke metode.
Ključne reči klasterovanje tekstualnih dokumenata, mašinsko učenje, K-srednjih vrednosti, metaheuristički algoritmi, algoritam optimizacije voćne mušice.
Priložene datoteke
- Timea Bedzan - Doktorska disertacija ( 6,24 MB, broj pregleda: 198 )
- Timea Bezdan-Odluka Senat ( 209,32 KB, broj pregleda: 112 )
- Timea Bedzan - Izveštaj ( 6,41 MB, broj pregleda: 140 )
- Timea Bezdan - Antiplagijat izveštaj ( 18,67 MB, broj pregleda: 128 )
- Timea Bezdan - Izjava o autorstvu ( 457,24 KB, broj pregleda: 135 )
- Timea Bezdan - Karton mentora ( 1,37 MB, broj pregleda: 143 )
- Timea Bezdan - Odluka o obrazovanju komisije ( 572,38 KB, broj pregleda: 143 )
Zahvaljujemo se što ste preuzeli publikaciju sa portala Singipedia.
Ukoliko želite da se prijavite za obaveštenja o sadržajima iz oblasti ove publikacije, možete nam ostaviti adresu svoje elektronske pošte.
Preuzimanje citata:
BibTeX format
RefWorks Tagged format
Unapred formatirani prikaz citata
BibTeX format
@phdthesis{Bezdan-2024-phd, author = {Timea Bezdan}, title = {Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja}, school = {Univerzitet Singidunum, Beograd, Beograd, Srbija}, year = 2024 }
RT Dissertation A1 Timea Bezdan T1 Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja AD Univerzitet Singidunum, Beograd, Beograd, Srbija YR 2024 SF doctoral dissertation; research
T. Bezdan. (2024). Klasterovanje tekstualnih dokumenata poboljšanom hibridnom metodom metaheuristike I algoritmom nenadgledanog mašinskog učenja (Doctoral dissertation), Univerzitet Singidunum, Beograd