Data on kaikkialla

Mitä on data?

”Data on uusi öljy,” väitetään usein – ja tänä päivänä dataa löytyykin kaikkialta yhteiskunnasta. Yritykset tekevät datasta uutta liiketoimintaa, tutkijat keräävät dataa tutkimuksiinsa, ja tavalliset käyttäjät törmäävät data-käsitteeseen esimerkiksi puhelintensa asetuksissa. Moni saattaa silti pohtia mielessään, mikä on data ja mitä se oikeastaan tarkoittaa. Tässä artikkelissa perehdytään syvällisesti siihen, mitä on data, miten data liittyy informaatioon ja tietoon, sekä tarkastellaan erikseen mitä on big data (massadata) ja millainen on big data -ilmiön määritelmä. Lopuksi pohdimme myös, mitä tarkoittaa data varoitus arkikäytössä ja miten data näkyy tavallisen ihmisen arjessa.

Mitä on data?

Data viittaa yleensä raaka-aineena pidettyyn tietoon – faktoihin, lukuihin, havaintoihin – joilla sellaisenaan ei välttämättä ole merkitystä ennen käsittelyä. Toisin sanoen data on pohjatietoa tai havaintoaineistoa, josta voi jalostaa ymmärrettävää informaatiota analysoimalla ja tulkitsemalla sitä. Esimerkiksi mittalaitteen tuottamat numerot tai tietokannasta löytyvät tiedot ovat dataa: ne kertovat jonkin asian arvon tai tilan, mutta ilman asiayhteyttä tai tulkintaa ne ovat vain kokoelma merkkejä tai lukuja.

Kuvassa on havainnollistettu tieto-opin hierarkia: data muodostaa pohjatason, josta nousevat informaatio, tieto, tietämys ja viisaus. Esimerkissä raakadatan arvot ”#FFA07A, 60.169870, 24.747606” (merkkejä ja symboleita) jalostuvat ensin informaatioksi (”punainen, risteyksen koordinaatit Espoossa”), sitten kontekstin kera tiedoksi (”liikennevalo on punainen risteyksessä”), edelleen tietämykseksi (”punainen valo risteyksessä tarkoittaa pysähtymistä”) ja lopulta viisaudeksi (”pysäytä auto rauhallisesti”). Kuten esimerkistä näkyy, informaatio on dataa, jolla on merkitys, ja tieto on informaatiota, jolla on oikea konteksti. Data itsessään on siis hyödyllistä vasta, kun se on muutettu ymmärrettävämpään muotoon.

Datan muodot ja rakenteellisuus

Arkikielessä data mielletään usein numeroiksi tietokoneen taulukoissa, mutta tosiasiassa data voi olla monenmuotoista. Dataa voivat numeroiden lisäksi olla esimerkiksi tekstidokumentitkuvatvideot tai ääni – käytännössä lähes mitä tahansa digitaalisessa muodossa olevaa materiaalia, jota voidaan analysoida. Oleellista on, että data edustaa jotakin mitattua tai tallennettua asiaa: se voi olla vaikkapa säähavaintoja, asiakasrekisterin tietoja, auton sensorien lukemia tai sosiaalisen median tapahtumia.

Lisäksi data jaotellaan usein jäsenneltyyn ja jäsentämättömään dataanJäsennelty data (structured data) tarkoittaa hyvin organisoitua dataa, joka noudattaa tiettyä mallia – esimerkiksi Excel-taulukossa rivit ja sarakkeet sisältävät selkeää, rakenteistettua dataa. Jäsentämätön data (unstructured data) puolestaan on vapaamuotoisempaa tietosisältöä, jota ei ole järjestetty ennalta määrättyyn rakenteeseen – kuten vapaatekstikenttien sisältö, kuvat tai videot. Suuri osa reaalimaailman datasta on jäsentämätöntä tai vain osittain jäsenneltyä, ja sen käsittely vaatii edistyneempiä menetelmiä. On tärkeää huomata, että rakenteisuuden aste ei suoraan kerro datan arvokkuudesta: tehokkaasti analysoitu jäsentämätön data voi paljastaa arvokkaita oivalluksia, joihin kilpailijat eivät pääse käsiksi, vaikka heillä olisi käytössään sama data.

Data vs. informaatio vs. tieto

Dataa, informaatiota ja tietoa käytetään arjessa joskus toistensa synonyymeina, mutta tieto-opissa näillä käsitteillä on eri roolit. Kuten edellä kuvattu hierarkia osoittaa, data on yksittäisiä symboleita tai arvojainformaatio on merkityksellistä dataa ja tieto on informaatiota kontekstissa. Esimerkiksi pelkkä lukuarvo ”42” on dataa – se on tieto ilman asiayhteyttä. Jos tiedämme, että ”42 °C” on kuumeen lukema ihmiselle, datasta on tullut informaatiota, jolla on merkitys. Kun lisäämme vielä kontekstin, että ”42 °C kuumeena on hengenvaarallisen korkea ihmisellä”, informaatiosta on tullut tietoa. Data muodostaa siis perustan, jolle informaatio ja varsinainen ymmärrys rakentuvat.

Data arjessa ja käytännössä

Data ei ole vain teknologia-alan muotisana, vaan näkyy myös jokaisen arkipäivässä. Mobiililaitteiden yhteydessä datatarkoittaa usein mobiilidataa, eli matkapuhelinverkon kautta siirrettyä tietoa. Esimerkiksi puhelinliittymässä puhutaan datan määrästä gigatavuina: kuinka paljon netin selailu, videon suoratoisto tai sovellusten käyttö kuluttaa dataa. Moni onkin nähnyt puhelimensa asetuksissa erikoisen ilmoituksen tai varoituksen, kun tietyn verran dataa on käytetty.

Mitä tarkoittaa data varoitus?

Usein Android-älypuhelimet antavat ilmoituksen nimeltä ”datan käyttövaroitus” (tai lyhyesti data varoitus) kun mobiilidataa on kulunut tietyn rajan verran. Tyypillisesti tämä oletusraja on asetettu esimerkiksi 2 gigatavuun kuukaudessa. Kun puhelimessa ilmestyy data varoitus, se tarkoittaa, että kyseisen laskutuskauden aikana on käytetty mobiiliverkon dataa vähintään asetetun rajan verran. Tämä on vain huomautus käyttäjälle eikä itsessään aiheuta lisäkuluja – tarkoitus on auttaa hahmottamaan datankäyttöä, jotta käyttäjä voi halutessaan rajoittaa käyttöä tai hankkia lisäpaketteja. Varoitusasetusta voi yleensä muokata: käyttäjä voi asettaa omiin tarpeisiinsa sopivan rajan tai kytkeä varoituksen pois. On hyvä huomata, että data varoitus puhelimessa ei liity datan laatuun tai vaarallisuuteen, vaan ainoastaan käytetyn datamäärän seurantaan. Arkikielessä sanaa dataa käytetäänkin usein juuri tässä yhteydessä viittaamaan internet-tiedonsiirtoon (esim. “kuinka monta gigaa dataa sinulla on jäljellä tämän kuun paketista?”).

Toisessa arkisessa merkityksessä data voi tarkoittaa yleisesti tietoa tai faktoja. Esimerkiksi voidaan sanoa: ”Tutkimus perustuu dataan”, jolloin viitataan tutkimusaineistoon, tai ”Päätöksenteko on datalähtöistä”, jolloin tarkoitetaan, että päätökset tehdään kerättyjen tietojen perusteella. Data on siis löytänyt tiensä osaksi kielenkäyttöä monilla eri tasoilla, teknisistä termeistä yleiskieleen.

Mitä on Big Data?

Kun datan määrä kasvaa valtavaksi ja monimuotoiseksi, aletaan puhua Big Datasta. Big data (suomeksi joskus massadata tai iso data) viittaa ilmiöön, jossa käsitellään niin suuria ja monimutkaisia datakokonaisuuksia, etteivät perinteiset tietojenkäsittelyn menetelmät enää riitä. Yksi laajasti siteerattu big data määritelmä kuvaa sitä “erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämiseksi, säilyttämiseksi, jakamiseksi, etsimiseksi, analysoimiseksi sekä esittämiseksi tilastotiedettä ja tietotekniikkaa hyödyntäen”. Käytännössä big datalla tarkoitetaan siis valtavia tietomääriä, joita kertyy jatkuvasti esimerkiksi Internetin palveluista, antureista, koneiden tuottamasta lokitiedosta tai vaikkapa genomiikasta – ja joiden hyödyntämiseksi tarvitaan uusia tapoja tallentaa, käsitellä ja analysoida dataa.

Big datan tunnuspiirteet (3Vs)

Usein big data määritellään sen keskeisten ominaispiirteiden kautta. Alan kirjallisuudessa puhutaan 3V-mallista, jolla viitataan big datan kolmeen V-kirjaimeen alkavaan ominaisuuteen:

  • Volume (määrä): Big data sisältää valtavan määrän dataa. Datan määrä voi olla petatavuja tai jopa eksatavuja, ja sitä kertyy jatkuvasti lisää. Esimerkiksi sosiaalisessa mediassa käyttäjät tuottavat päivittäin suunnattoman määrän sisältöä (kuvia, viestejä, videoita), joka muodostaa massiivisen datavolyymin.
  • Variety (monimuotoisuus): Big data on monimuotoista – se koostuu monentyyppisestä datasta, kuten tekstistä, kuvista, numerodatoista, sensorien tuottamasta datasta, videosta, äänihausta jne. Data ei ole yhtenäisessä formaatissa, vaan yhteen tuotuina nämä vaihtelevat muodot muodostavat rikkaan mutta haastavan kokonaisuuden.
  • Velocity (nopeus): Big data on usein huippunopeasti syntyvää ja päivittyvää. Datan tuottamisen tahti on kiihtyvä – esimerkiksi verkkosivujen klikkaukset, anturidata tai finanssitransaktiot generoivat uutta dataa jatkuvasti hurjalla vauhdilla. Lisäksi velocity-ominaisuus voi tarkoittaa, että dataa myös käsitellään ja analysoidaan hyvin nopeasti reaaliajassa, jotta sen hyöty voidaan hyödyntää viiveettä.

Nämä kolme V:tä (määrä, monimuotoisuus, nopeus) ovat yleisesti pidetty minimivaatimuksena big datan määritelmässä. Joissakin yhteyksissä määritelmää on laajennettu neljänteen V:henValue (arvo), jolla viitataan datan hyödyllisyyteen tai taloudelliseen arvoon liiketoiminnalle. Viidentenä V:nä mainitaan joskus Veracity (totuudenmukaisuus) eli datan laatu ja luotettavuus – koska suurissa aineistoissa voi olla paljon virheellistä tai epäluotettavaa dataa. Myös Variability (vaihtelevuus) esiintyy joissain määritelmissä kuvaamassa sitä, että datan jakelussa tai muodossa tapahtuu muutoksia. Kaiken kaikkiaan big data -käsitteellä ei ole yhtä tarkkaa rajaa: ei ole olemassa tiettyä pistettä, jossa tavallinen data “muuttuu” big dataksi. Yleensä termiä käytetään, kun datan määrä ja monimutkaisuus ylittävät tavanomaiset hallinta- ja analyysikyvyt, jolloin tarvitaan erikoistuneita ratkaisuja.

Big data käytännössä ja merkitys

Mikä on big data käytännössä arkielämässä tai liiketoiminnassa? Yksi esimerkki on vaikkapa suosittelujärjestelmät: Netflix ja Spotify keräävät valtavasti dataa käyttäjien katselu- ja kuuntelutottumuksista ja hyödyntävät tätä big dataa tarjotakseen personoituja suosituksia. Samoin terveydenhuollossa big datalla voidaan tarkoittaa genomitiedon, sairauskertomusten ja vaikka puettavien laitteiden sensoridatan yhdistelmiä, joiden analysointi voi paljastaa uusia lääketieteellisiä oivalluksia. Big datan analytiikka pyrkii löytämään laajoista aineistoista piileviä kaavoja, korrelaatioita ja hyödyllisiä tietoja, joilla voidaan tehostaa päätöksentekoa. Nykyaikaiset tekoäly– ja koneoppimismalliterityisesti hyötyvät big datasta: mitä enemmän opetusdataa on käytettävissä, sitä tarkempia ja älykkäämpiä malleja voidaan kehittää. Vastaavasti tehokkaat tekoälymenetelmät auttavat analysoimaan big dataa ja löytämään siitä olennaiset asiat.

On hyvä huomata, että vaikka big data avaa huimia mahdollisuuksia – ennustavista malleista täysin uusiin palveluihin – siihen liittyy myös haasteita. Suuri datamäärä tuo mukanaan huolenaiheita tietosuojastatietojen laadusta sekä siitä, kuinka datasta erotellaan oikeasti merkityksellinen informaatio massan keskeltä. Oikein hallittuna ja analysoituna big data on kuitenkin voimavara, joka muuttaa tapaa, jolla teemme tutkimusta, liiketoimintaa ja jopa arjen päätöksiä. Ei siis ole sattumaa, että data-aikakautta verrataan öljyyn: siinä missä öljy synnytti teollisen vallankumouksen, data (ja big data) on digitaalisen vallankumouksen polttoainetta.

Yhteenveto

Data on pohjimmiltaan kaikkea sitä tietoa, jota kerätään ja tallennetaan – kirjaimellisesti merkkejä ja symboleita vailla merkitystä ennen tulkintaa. Kun dataa käsitellään ja analysoidaan, siitä syntyy informaatiota ja edelleen tietoa, jota voidaan hyödyntää päätöksenteossa ja uuden ymmärryksen luomisessa. Arkipäivässä dataa kohtaa esimerkiksi puhelimen mobiilidatan yhteydessä, ja termi onkin vakiintunut osaksi jokapäiväistä kieltä. Mitä on data?Ytimekkäästi: data on raaka-aine, josta nykymaailman informaatio rakentuu. Mitä on big data? Se on tätä raaka-ainetta valtaisissa mittakaavoissa – niin suurena määränä ja vauhdilla, että sen hallitsemiseksi tarvitaan uusia keinoja. Big datan määritelmä tiivistyy sen 3V-ominaisuuksiin: määrämonimuotoisuus ja nopeus. Elämme ajassa, jossa datan merkitys korostuu jatkuvasti; sen ymmärtäminen auttaa hahmottamaan niin teknologian kehitystä, talouden muutoksia kuin arjen ilmiöitäkin. Data ei ole vain bittivirtaa kovalevyillä – se on nyky-yhteiskunnan arvokas resurssi, jonka hyödyntämisessä piilee sekä suuria mahdollisuuksia että vastuullisuuden velvoite.

Lähteet:

  1. Wikipedia (fi): “Data on tietoa, jolla itsessään ei ole välttämättä semanttista merkitystä…”
  2. Opetushallitus – Tieto-opin hierarkia: data, informaatio, tieto esimerkein
  3. Data.fi – “Data voi numeroiden lisäksi olla myös kuvia sekä ääntä… data voi olla jäsenneltyä, jäsentämätöntä tai osittain jäsenneltyä.”
  4. Data.fi – Jäsentämättömän datan analysointi ja arvo
  5. SCFHuolto & Puhelinvertailu – Datan käyttövaroitus puhelimessa (2 Gt oletusraja)
  6. Procom (viitaten Wikipediaan) – Big data -määritelmä: erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen käsittely…
  7. Data.fi – Big datan 3V: Volume (määrä), Variety (monimuotoisuus), Velocity (nopeus)
  8. Data.fi – Big data “Velocity” – nopea datan synty ja käsittely
  9. Data.fi – Big datan laatu (Veracity) ja vaihtelevuus (Variability)
  10. Data.fi – “On käytännössä mahdotonta määritellä pistettä, jossa data muuttuu big dataksi.”
  11. Data.fi – Big datan yhteys tekoälyyn

Saatat pitää myös näistä

Hakukonekeisari.fi –sivusto sisältää affiliate-linkkejä. Tämä tarkoittaa sitä, että saamme pienen osan myynnistä tehdessäsi ostoksia meidän kauttamme.

→ Tästä ei koidu sinulle kustannuksia.