Napredna podatkovna analitika po vzoru narave

Kaj?

Množica naprednih metod in algoritmov, temelječih na pristopih po vzoru narave, ki naslavljajo aktualne izzive podatkovne analitike.

Problem

Razvoj informacijskih tehnologij je pripeljal do obdobja, v katerem ljudje ustvarjamo, delimo in si izmenjujemo čedalje večje količine podatkov. Zavedajoč se pomena znanja, skritega v obilici ustvarjenih podatkov, so se odločevalci znašli pred zahtevnim izzivom – kako analizirati množico prepletenih podatkov in iz nje izluščiti relevantne informacije. Ker količina razpoložljivih podatkov presega zmožnosti računalniških sistemov za njihovo učinkovito analizo z uporabo običajnih pristopov in metod, je postalo področje inteligentne analize podatkov oz. napredne podatkovne analitike ključno za spopadanje s tem izzivom.

Cilj

Razviti množico naprednih metod in algoritmov, ki naslavljajo ključne izzive podatkovne analitike in temeljijo na pristopih po vzoru narave, kot so evolucijsko računanje, umetne nevronske mreže ter inteligenca rojev:

  • metoda alokacije za pametno delitev podatkov, ki značilno izboljša točnost klasifikacije, preciznost in priklic nad kompleksnimi podatkovnimi množicami,
  • več-populacijski evolucijski algoritem, ki zagotavlja značilno bolj uravnotežene rezultate klasifikacije,
  • delno nadzorovan učni algoritem na osnovi samo-učenja za povečanje obstoječih učnih množic s samodejno uporabo informacij, pridobljeno iz neoznačenih in nestrukturiranih podatkov, ter
  • binarna metoda optimizacije roja delcev za izbiro informativnih atributov v visoko-dimenzionalnih podatkih.

Rešitev

Razvili smo metode ob upoštevanju prednosti za uporabnika (analitika). Le-te zagotavljajo gradnjo transparentnih in uravnoteženih modelov znanja z nizko stopnjo kompleksnosti, ki omogoča validacijo odkritega znanja. Razvite metode ob tem ne zahtevajo praktično nobene interakcije.

Razvite metode in tehnike smo aplicirali v sklopu inteligentnega sistema za analizo podatkov v obliki spletne aplikacije za industrijskega partnerja. Sistem zbira podatke iz množice heterogenih spletnih virov, išče relevantne poslovne novice ter iz njih izlušči potrebne informacije. Sistem smo preskusili na domeni zbiranja informacij o načrtovanih infrastrukturnih poslovnih vlaganjih podjetij po svetu. Razvita rešitev izkorišča tako moč uveljavljenih metod strojnega učenja (npr. Random Forest) kot najsodobnejših metod globokega učenja (rekurentne in konvolucijske nevronske mreže) in jih združuje z lastnimi razvitimi metodami podatkovne analize. Z ustrezno uporabo nevronskih metod za obdelavo naravnega jezika in prepoznavanje specifičnih entitet se sistem nauči povsem samodejno zbirati in izluščiti relevantne informacije. Razvito rešitev dopolnjuje spletna aplikacija za upravljanje z inteligentnim sistemom, ki omogoča preprosto vrednotenje rezultatov in nastavljanje parametrov delovanja.

Avtorji

Prof. Dr. Vili Podgorelec, Sašo Karakatič, Črtomir Majer, Jernej Flisar, Miha Pavlinek, Lucija Brezočnik, Prof. Dr. Marjan Heričko

Slika 1. Napovedna moč (skupna točnost)

Slika 2. Uravnoteženost napovedi (povprečna točnost po razredih)

Slika 3. Kompleksnost zgrajenega modela (velikost modela)

Slika 4. Razvito orodje podatkovne analitike, ki samodejno prepoznava in zbira informacije o infrastrukturnih poslovnih investicijah

Comments are closed