Säännölliset hajotelmat tiedonlouhinnassa

 

VTT on kehittänyt uuden geneerisen menetelmän monimutkaisen datan rakenteen ja satunnaisuuden erotteluun

Suurilla datamassoilla on usein merkittäviä rakenteita, jotka eivät paljastu tarkastelijalle ilman laskennallisia menetelmiä. Ns. klusterointimenetelmät jäsentävät datan tyypillisesti ryhmiin, joiden jäsenet sijaitsevat jonkin metriikan suhteen lähellä toisiaan. VTT:n kehittämä säännöllisten hajotelmien menetelmä (Regular Decomposition, RD) pyrkii sen sijaan suorittamaan ryhmittelyn informaatioteoreettisesti parhaalla tavalla luoden vahvasti kompressoidun esityksen datasta.

Menetelmän idea liittyy Szemerédin lemman nimellä tunnettuun kombinatoriseen tosiasiaan: hyvin suurilla verkoilla on aina likimääräisesti jokin ns. säännöllinen hajotelma suhteellisen harvoihin osiin, ja tätä hajotelmarakennetta vähäisemmät yksityiskohdat ovat likimain satunnaisia. Tämä klassinen tulos on myöhemmin yleistetty monille yksinkertaisia verkkoja rikkaammille rakenteille kuten matriiseille ja hypergraafeille.

VTT on havainnut, että tämäntyyppinen säännöllinen hajotelma on löydettävissä mitä erilaisimmista suurista datajoukoista: vertaisverkkoliikenne, aineenvaihduntaverkostot, kotitalouksien sähkönkäyttö ym. Merkittävää on myös, että hajotelma on löydettävissä laskennallisesti tehokkaalla tavalla, eikä mitään ennakkoarvauksia rakenteesta tarvita. Menetelmä on kehitetty osittain yhteistyössä unkarilaisten tutkijoiden kanssa.

Menetelmä on kuvattu artikkelissa: Hannu Reittu, Fülöp Bazsó, Robert Weiss. Regular Decomposition of Multivariate Time Series and Other Matrices. Structural, Syntactic, and Statistical Pattern Recognition (S+SSPR 2014). Lecture Notes in Computer Science 8621, 2014, pp 424-433.

Tulevaisuuden perusväline datamassojen analyysiin?

Säännöllisten hajotelmien menetelmä on perinteistä klusterointia (esim. k-means) syvällisemmin perusteltu yleinen menetelmä suurien rakenteiden löytämiseen datasta. VTT tarjoaa säännöllisten hajotelmien etsimistä uutena työkaluna tiedonlouhintavälineistössään. Se on myös kiinnostunut yhteistyöstä menetelmän uusien soveltamistapojen kehittämisessä.