Kuidas mõista andmestunud maailma. Anto Aasa, Mare Ainsaar, Mai Beilmann, Marju Himma Muischnek,
Чтение книги онлайн.
Читать онлайн книгу Kuidas mõista andmestunud maailma - Anto Aasa, Mare Ainsaar, Mai Beilmann, Marju Himma Muischnek, страница 5
Nagu paljusid uusi nähtusi, selgitati ka suurandmeid algselt arvukate metafooride kaudu (Puschmann, Burgess 2014) – suurandmeid kirjeldati allutamist vajava loodusjõu ja tarbitava ressursina. Eriti levinud on (suur)andmete nimetamine naftaks, mis loob Luke Starki ja Anna Lauren Hoffmani (2019) sõnul spetsiifilise ettekujutuse sellest, mida andmetega peaks tegema, ja tekitab mitmeid andme-eetika ja andmeõigluse probleeme, kuna on suunitletud konkurentsile, olelusvõitlusele ja võimuahnusele. Maavarametafooride asemel soovitavad kriitikud lähtuda pigem „katkiste andmete“ metafoorist, mis rõhutab, et andmed pole kunagi täiuslikud (Pink et al. 2018). Kui siiski loodusvara metafooride juurde jääda, peaks õppima ehk looduskaitse või metsamajanduse valdkonnast ja andmekaevandamise ning väärindamise asemel mõtlema näiteks andmehooldusest (data stewardship) või pakkuma välja sootuks alternatiivseid metafoore (Stark, Hoffman 2019).
Teine grupp olulisi turumajanduslikke metafoore, mis andmesuhteid vormivad, on andmeõigluse kontekstis kasutatavad ekspluateerimise (Mühlhoff 2019), isegi koloniseerimise (Chun 2018) metafoorid. Sotsiaalmeediaplatvormide kasutajaliidesed näiteks innustavad inimesi sisu jagama, laikima ja postitama, kuna see võimaldab maksimeerida turundus- ja reklaamiklientidele kasulike andmete teket. Kui tavakasutaja jaoks on andmed kõrvalprodukt, siis platvormiomanike ärimudeli perspektiivist on suhtlus väärtuslik seetõttu, et selle tagajärjel tekivad müüdavad andmed. Samas ei ole tavakasutajatel võimalik nn andmedoonorlusest loobuda või sellest mingit kasu saada. Käesoleva kogumiku kolmandasse ossa oleme koondanud indiviidide kognitiivse ekspluateerimise tagajärjel loodud tekstiandmete analüüsimise meetodite ja ka nende tajuprotsesside süstemaatilisele hindamisele keskenduvate meetodite peatükid, kuna neis toetutakse peamiselt nn andmedoonorluse käigus tekkinud andmete analüüsile.
Andmetega seotud ühiskondlikke protsesse on tabavalt kirjeldatud kui sotsiaal-kultuurilist koodi (Chun 2018) või andmeteekonda (Bates et al. 2016), mille mõtestamiseks peame aduma andmete loomise, kasutamise ja mõtestamise terviklikku protsessi. Selliselt pole andmed mitte üksnes nähtuste konstrueerimise ja mõistmise vahend, vaid ka oluline sisend lugude jutustamisel maailmas toimuvast. Andmete kui koodi mõistmine ja selle põhjal lugude jutustamine on muutunud oluliseks uurimisvahendiks, aga ka -objektiks. Sel põhjusel oleme kogumiku neljanda osa pühendanud lugude jutustamisele andmetest ja andmetega. Andmed ei ole kunagi neutraalsed ega teki „iseenesest“, neid loovad konkreetses ajalises ja ruumilises kontekstis inimesed. Tunnustatud informaatikaprofessor Geoffry Bowker (2005: 183–184) on nentinud, et „toorandmed on oksüümoron“, väites, et andmed on alati mingil moel „küpsetatud“. Kohe, kui määratleme mingite fenomenide vaatlemise, mõõtmise ja märkamise tulemused andmetena, tegeleme nende andmeteks „küpsetamisega“, see tähendab, et andmetesse on alati küpsetatud teatud tähendused, eeldused, küsimused ja muidugi võimusuhted.
Iga andmetöötaja ja uurija peaks seega olema teadlik oma rollist andmete „küpsetamisel“ – nii siis, kui ta andmeid „kogub“, kui ka siis, kui ta andmetest söödava ja kasuliku produkti loob (vt ka ptk 1.1). Bowkeri väidet edasi arendades kirjutavad Lisa Gitelman ja Virginia Jackson (2013), et toorandmete mõiste mõjub analüütikutele peibutavalt, sest sellesse on peidetud pika ajalooga ja ideoloogiliselt võimas positivistlik eeldus (vt ka Markham 2016), et arvulised andmed on kuskil meist sõltumata olemas, et andmed eelnevad faktidele, et need on meie teadmiste alus, midagi objektiivset, ilmselget ja läbipaistvat, mis on vaja üksnes kokku korjata ja hoolikalt ära mõõta. Paljudes era- ja ka uurimissituatsioonides räägitakse lisaks „isetekkelistest“ (mõnikord ka „loomulikult esinevatest“) andmetest, mida kriitikute sõnul samuti tegelikult olemas ei ole. Nendele diskussioonidele tuginedes oleme sõnastanud andmestunud maailma mõistmise kuuenda postulaadi: andmed ei teki iseenesest, vaid luuakse uurija valikute tulemusel, mis tähendab, et uuringu ülesehitusest sõltub, milliseid järeldusi on uuringu põhjal võimalik teha.
Andmestunud ühiskonna kontekstis pole muutunud niisiis mitte ainult andmed, nende loomine ja kasutamine, vaid andmetöö üldiselt (Fuchs 2018; Rossi 2019), hõlmates lisaks traditsioonilisele andmeanalüütiku tööle aina enam ka internetikasutajate valdavalt teadvustamata tööd ja veebipõhiste andmelahenduste testijate (n-ö klikitööliste) sageli halvasti tasustatud panust. Andmeid loovad platvormid on seega muutunud nii oluliseks andmeallikaks kui ka sotsiaalseks reaalsuseks. Selle kogumiku viiendas osas käsitlemegi lähemalt nihet platvormipõhisele uurimusele ning näitlikustame seda, millist rolli võivad platvormid jt andmetaristud mängida uurimisvahendi ja -objektina.
Metodoloogilised nihked
Andmestumise kontekstis on teadmusloome aruteludesse põimitud kaks keskset teemat (Veltri 2017; Thylstrup et al. 2019): 1) vaidlused mõõtmistehnikate üle, st loodetakse, et uued andmed võimaldavad objektiivsemalt mõõta inimeste loodud reaalsust, ning 2) vaidlused traditsiooniliste (nt statistiliste) ja arvutuslike (nt masinõppe) meetodite üle. Tuntumad näited on siin käsitlused „teooria lõpust“ (Anderson 2008) ning „kirjeldavast empirismist“ (Kitchin 2014b), kus väidetakse, et hüpoteeside ja mudelite testimise ning teoreetiliste mudelite kinnitamise meetod on aegunud ja selle asemel tuginevad andmetest juhitud (data-driven) analüüsid korrelatiivsetele seostele, selgitamata nende seoste aluseks olevaid sotsiaalseid mehhanisme (Anderson 2008). Selle arusaama kohaselt väheneb teooria roll uuringutes märkimisväärselt. Hiljutises empiirilises uuringus, kus analüüsiti teooria lõpu hüpoteesist inspireeritult teadmiste loomise praktikaid, need arengusuunad siiski kinnitust ei leidnud (Masso et al. 2020).
Vastusena teooria lõpu hüpoteesile ja arvutuslike meetodite kaitseks on rõhutatud arvutuslike meetodite suurt varieeruvust (Hindman 2015), mis peaks võimaldama igale uurimisprobleemile vastamiseks sobivaima lahenduse leidmise. Arvutuslikud meetodid võivad olla nii deduktiivsed kui ka induktiivsed. Mõni autor väidab koguni, et teatud nähtuste esinemise põhjusi selgitada võimaldavate arvutuslike meetodite populaarsusega kaasneb induktiivne hüpe sotsiaalteadustes (Bengio et al. 2019). Üks induktiivsel loogikal põhinevaid arvutuslikke meetodeid on masinõppe kasutamine analüüsis (vt ptk 2.4; aga ka mujal, nt ptk-d 2.1, 2.2, 2.3, 3.3). Masinõpet peetakse ideaalseks lahenduseks komplekssete nähtuste selgitamisel, sest see ei testi hüpoteesi, vaid genereerib küsimused varasemate kogemuste süstemaatilise hindamise tulemusena (Breiman 2001; Bengio et al. 2019). Hiljutised edusammud masinõppe meetodites (Bengio et al. 2019) püüavad lisaks mustrite tuvastamisele andmetes selgitada ka kausaalseid seoseid. Teisisõnu, selle asemel et vastata küsimusele mis, püütakse leida vastuseid küsimusele miks ehk siis selgitada sisust lähtuvaid, seni vastamata küsimusi. Nende diskussioonide ning varasema empiirililise uurimistöö põhjal oleme sõnastanud andmestunud maailma uurimise seitsmenda postulaadi: teooria pole surnud, ehk vaatamata uutele andmetele, analüüsitehnikatele, tarkvarale ja meetoditele algab andmestunud maailma uurimine endiselt küsimuse püstitusest.
Pluralism meetodites
Esimeseks vastuseks uute andmete tekkele ja andmemahu suurenemisele on olnud arvutuslik sotsiaalteadus (computational social science; vt nt Cioffi-Revilla 2014), kus (sageli suure võimsusega) arvutustehnoloogiaid kasutatakse sotsiaalsete nähtuste analüüsimiseks, modelleerimiseks ja simuleerimiseks. Arvutusliku sotsiaalteaduse rakendamisest on arvukalt näiteid (Cioffi-Revilla 2014; Park et al. 2015). Näiteks töötasid Emmanuel Lazega ja Tom Snijders (2016) välja võrgustikuanalüüsi meetodi dünaamiliste ja suuremahuliste andmete analüüsimiseks; Daniel Dellaposta koos kolleegidega (2015) meetodid veebiandmete abil poliitilise orientatsiooni ruumilise ja ajalise dünaamika analüüsiks; Dirk Helbing (2013) simulatsioonimeetodid võrgustunud riskidega7 toimetuleku analüüsimiseks.
Neid algselt absoluutse tõena esitatud arvutuslikke
7
Võrgustunud risk on olukord, kus omavahel ühendatud globaalsed võrgustikud loovad üksteisest sõltumatud süsteemid, mida on keeruline mõista ja kontrollida.