ARTIKKELI

Kohti rakenteista tietoa

Suurten tietomäärien saattaminen rakenteiseen muotoon on tällä hetkellä useissa yrityksissä haaste. Oli tieto sitten paperisessa tai digitaalisessa muodossa, sen jalostaminen vaatii usein suuria määriä manuaalista työtä, jos käytössä ei ole nykyaikaista järjestelmää.

kohti rakenteista tietoa

Rakenteisella datalla tarkoitetaan koneluettavaa tietoa, johon on metatietojen avulla määritelty datan jäsentelyn mahdollistava rakenne. Tämä taas tarkoittaa sitä, että rakenteista tietoa on helpompi muun muassa hakea, arkistoida, hyödyntää, analysoida ja julkaista. Käytännössä yritykset tavoittelevat tällä seuraavanlaisia asioita:

•   tehokkuus - tiedon löydettävyys ja hyödynnettävyys nopeasti ihmisten ja järjestelmien toimesta
•   vaatimustenmukaisuus - tiedonhallintasuunnitelman ja ulkoisten vaatimusten mukainen tiedon elinkaarenhallinta
•   tiedolla johtaminen - tiedon hyödyntäminen päätöksenteon tukena.

Yksinkertaistettuna tiedon rakenteisuudessa on kyse tiedon esitystavasta. Koneille ja järjestelmille on helpointa käsitellä rakenteista tietoa, ihmiselle taas on luontevaa käsitellä dokumentti- tai muussa ihmiselle helposti ymmärrettävässä muodossa olevaa tietoa. Usein paras ratkaisu on hybridimuoto, jossa tieto on rakenteisessa muodossa, mutta järjestelmät mahdollistavat tiedon tarkastelun myös visuaalisemmassa, esimerkiksi dokumenttimuodossa.

Rakenteeton ja rakenteinen tieto

Myös rakenteettomalle tiedolle on paikkansa organisaatiossa. Esimerkiksi yritysten sisäiset sosiaaliset mediat ovat esimerkki lähes rakenteettomasta tiedosta. Toki julkaisuja voidaan merkitä hashtageilla, tai kirjoituksista voidaan jopa hakea rakenteita ja yhteyksiä tekoälyä hyödyntäen, mutta usein tämän kaltaista tietoa ei ole tarpeen esimerkiksi analysoida, arkistoida, tai julkaista muualle. Tällöin myöskään sen rakenteettomuus ei osoittaudu ongelmaksi.

Puhtaasti rakenteista tietoa on kuitenkin parasta käyttää organisaatioiden ja järjestelmien välillä tiuhaan tapahtuvissa täysin automaattisissa transaktioissa. Tällöinkin on huomioitava, että myös dokumenttimuotoiselle tiedolle on yhä paikkansa. Verkkolaskut ovat hyvä esimerkki rakenteisesta tiedosta, jota järjestelmät osaavat käsitellä täysin automaattisesti, mutta joita ihmisen on poikkeustilanteissa kyettävä tarkastelemaan. Monia prosesseja tukee siis parhaiten tieto, joka on rakenteisessa muodossa, mutta se voidaan esittää myös ihmiselle helposti tulkittavassa muodossa, kuten dokumenttina.

Tiedon julkaisu ihmisille tulkittavaan muotoon voidaan mahdollistaa hallinnoimalla esimerkiksi dokumenttimuotoista tietoa rinnan rakenteisen muodon kanssa, tai säilyttämällä tieto ainoastaan rakenteisessa muodossa, ja julkaisemalla se tarpeen mukaan tulosteena, sähköisenä dokumenttina, web- julkaisuna tai vaikka interaktiivisena graafina.

Usein käytännön haasteena on jo olemassa olevan dokumenttimuotoisen tiedon saaminen rakenteiseen, liiketoiminnan tavoitteita palvelevaan muotoon. Organisaatioissa sijaitsee valtavia määriä rakenteetonta tietoa, niin paperisena kuin sähköisinä dokumentteina. Jotta tämän tiedon tehokas ja vaatimustenmukainen käsittely voidaan varmistaa, ja jotta tietoa voidaan hyödyntää päätöksenteossa, on se ensin saatava rakenteiseen muotoon.

Yksikään päätös ei ole laadukkaampi kuin lähtötiedot, johon päätös perustuu

Ennen kuin tietoja aletaan viemään rakenteiseen muotoon, on tärkeää tunnistaa lähtökohdat ja pohtia, mitä halutaan saavuttaa.

Ensimmäiseksi tulisi olla perillä siitä, mitä tietoa organisaatiossa sijaitsee ja mikä osa tiedosta on tärkeää. Ennen kaikkea on oltava selkeä kuva, mihin tietoa käytetään. Tämän pohjalta voidaan määritellä, millaisia metatietoja tiedosta tarvitaan. Tavoitteita tarkasteltaessa on myös otettava huomioon tiedon luotettavuus: pitääkö tieto paikkansa ja kuvaako tieto todella sitä, mitä tavoittelemme? Kun nykytilanne on selkeä ja tavoitteet kirkkaana, voidaan alkaa miettiä toteutusta.

Koneoppiminen avuksi

Tiedon rakenteiseksi saaminen tarkoittaa tässä esimerkissä dokumentin sisällön ja merkityksen tunnistamista ja metatietojen kirjaamista näiden pohjalta. Suurten dokumenttimäärien läpikäynti on ihmiselle puuduttavaa, virhealtista ja etenkin hidasta toimintaa, mutta kone pystyy suoriutumaan samasta tehtävästä motivoituneena, tehokkaana ja tasalaatuisena.

Koneoppiminen on loistava työkalu dokumenttien lajitteluun sekä rakenteiseen muotoon saattamiseen. Tällaisten järjestelmien yhteydessä puhutaan tiedon haltuunotosta. Tiedon haltuunoton yhteydessä järjestelmä käy läpi näytteet eri tyyppisistä lähdemateriaaleista ja tunnistaa sääntöjä liittyen niiden ulkoasuun sekä sisältöön. Kone oppii siis esimerkiksi, miltä sopimus näyttää, mitä sanoja ja merkityksiä sopimuksessa on, mitä tietoja sopimuksesta tulee poimia, ja minne nämä tiedot tallennetaan. Lopputuloksena saadaan tietoa organisaation tavoitteita palvelevassa muodossa: puhtaasti rakenteisena tai rakenteisilla metatiedoilla rikastettuna dokumenttina.

Tunnistatko omasta yrityksestäsi rakenteettomia tietovarastoja? Jos haluat lisätietoja koneoppimisen hyödyntämisestä tiedon rakenteistamisessa, tutustu Tiedon haltuunotto -ratkaisuumme.



Ota selvää, kuinka Canon ratkaisut voivat auttaa liiketoimintaasi.

OTA YHTEYTTÄ


Kirjoittaja Jaakko Heinola
Business Development Manager

Aiheeseen liittyvät ratkaisut