Dark data? Ihan pimeetä

Mitä on Dark data?

Dark data on kaikki se tuntematon data ympäri organisaatioita, jota ei osata hyödyntää. Siihen on vaikeata päästä käsiksi tai ei edes tiedetä, että sitä on olemassa. Lyhyesti se on mikä tahansa data, päivittäisen yritystoiminnan sivutuote, jota ei käytetä. Kuitenkin tuosta Dark datasta sanotaan, että se olisi yritysten arvokkain käyttämätön resurssi. Sitä ollaan kutsuttu jopa uudeksi öljyksi tai uudeksi yritysvaluutaksi. Sanotaan, että jopa puolet yritysten datasta on pimennossa, toisin sanoen täysin hyödyntämättä. On uskomatonta, kuinka noin arvokas yritykselle hyödyllinen voimavara jää huomiotta ja käyttämättä. Asiaa on kommentoitu näin: “Jos et halua tulla eliminoiduksi ankarilla markkinoilla vaan haluat olla eturintamassa, tarvitset koneoppimisen apua. Suurin osa tärkeästä informaatiosta löytyy kaaosmaisesta datasta.” Tai “Organisaatiot, jotka pystyvät käyttämään tuota dataa, tulevat myös voittamaan”.

Dark data pysyy pimennossa ilman koneoppimisen tarjoamaa apua

Organisaatiot joutuvat nyt miettimään, kuinka tuoda tuo Dark data päivänvaloon. Uudessa tutkimuksessa yritysvaikuttajat ympäri maailmaa myöntävät haastatteluissa tuon datan arvon ja datanlukutaidon tärkeyden. Erityisen tärkeänä datanlukutaitoa ja koneoppimisen hyödyntämistä pidetään Kiinassa verrattuna yrityksiin muissa maissa. Kiinassa yritysten ylemmiltä johtajilta vaaditaan datataitoja ja sitä pidetään myös edellytyksenä uralla etenemiseen. Haastatteluissa käy ilmi yritysten tietoisuus siitä, että tuota dataa olisi hyödyllistä louhia, mutta heillä ei välttämättä ole työkaluja siihen tai edes tietoa mistä kaivaa. Datan tehokkaaseen käyttöön tarvitaan kokonaisvaltainen menettelytapa, jotta selvitään organisatorisista ja teknillisistä esteistä. Datastrategia ei voi olla vain ulkopuolisten konsulttien vetämä “projekti”, vaan sen pitää olla yrityksen johdon ja asiantuntioiden yli organisaation ylittävä ykkösprioriteetti.

Kun lusikka ei riitä, tarvitaan ämpäriä

Kun ihmisten äly ja käytössä olevat resurssit eivät riitä dark datan käsittelyyn, tarvitaan koneoppimista. Dark data on sille polttoainetta. Koneoppimisella voidaan hyödyntää Dark datan tarjoamat valtavat käyttämättömät resurssit. Vaikka koneoppiminen ei pärjää ihmisen päättelykyvylle ja luovuudelle, se pystyy prosessoimaan nopeasti valtavat määrät dataa eikä se väsy. Tämän jälkeen on ihmisen vuoro arvioida, mitä tehdä koneoppimisen löydöksille. Mitä enemmän koneelle annetaan analysoitavaksi dataa, sitä virheettömämpiä ja tarkempia sen tarjoamat kiteytykset ovat. Uusimmat koneoppimista hyödyntävät analyyttiset työkalut helpottavat dark datan analysointia, mikä on ollut mahdotonta nykyisillä menetelmillä. Näin Dark data ei ole enää ihan pimeetä.