Nebesugalvoju kažko dvasingo parašyti į blogą. Vis schemos ir schemos. Bet tikiuosi, kad kam nors įdomu bus ir tai.
VRK atvėrė visus Lietuvoje balsavusiųjų rinkėjų biuletenių duomenis.
ATVĖRĖ BIULETENIŲ DUOMENIS!!! Tai yra didžiulis kokybinis šuolis skaidrumo ir įdomumo link. Ponas Jonas Bačelis, kuris yra pats geriausias duomenų analitikas, kokį žinau (jis dar, jeigu neklystu, Švedijos Geteborgo universiteto genetikos mokslų daktaras) truputį parodė ką galima su tokiais duomenimis padaryti:
Aš, ta proga, sudėjau visus tuos biuletenius į savo mėgstamą Gephi. Gephi per maždaug ~1 naktį nupiešia vienos partijos žemėlapį. Tai aš per porą naktų paprašiau kompo nupiešti man LRLS i TS-LKD žemėlapius. Šiuose žemėlapiuose yra tik tie rinkėjai, kurie reitingavo nors vieną kandidatą balsuodami už sąrašą:
Kas yra informacija? Kuo daugiau apie tai galvoju, tuo man aiškiau, jog čia visai yra neaišku viskas. Tai tarsi filosofinė „būties“ prasmė.
– Kas yra būtis? – Retoriškai klausė mūsų filosofijos dėstytoja per filosofijos paskaitą.
– Nežinau. – Atsakau sau dabar, nes per filosofijos paskaitas miegojau kaip užmuštas. Dėstytoja sugebėdavo kalbėti kaip dvasininkas per pamokslą: balsas ramus, monotoniškas: šiek tiek pakeliamas, šiek tiek nuleidžiamas pagal tą pačią sakinių struktūrą. Kartą bandžiau specialiai nemiegoti – sunku. Labai sunku. O ir atsimenu tik tą žodį iš savo filosofijos paskaitų.
Girdėjau netgi tokių idėjų, jog svarbiausias dalykas mums yra sąmonė. Bet koks reiškinys Visatoje egzistuoja tik todėl, kad mes žinome apie tai – tiksliau, kas nors žino apie tai. Tokia tai Šriodingerio katė.
Informacija yra viskas. Juo labiau, kad informacija apie informaciją yra informacija. Bet informacija apie informaciją (meta informacija) gali būti tik tada kai yra ta pirminė informacija, apie kurią yra ta meta informacija. Informacijos apie nieką arba nieko nebuvimą matyt negali būti. Biblijoje (ar tai kažkuriame testamente) irgi parašyta: „pirmiausiai buvo žodis“ (ar panašiai).
Informacija viešajame sektoriuje
Štai pavyzdžiui esu aš: Lietuvos pilietis. Turiu kojas, rankas, galvą (tpfu-tpfu-tpfu). Turiu dokumentų – t.y. pasą. Kaip sakė vienas žymus paštininkas: jei yra dokumentas – siuntinį galima atiduoti, o jei ne, tai ne. Ūsai, kojos ir uodega nėra dokumentai.
Mano pase yra duomenys apie mane įvairiais kontekstais: registruota gimimo data, dokumento numeris, nuotrauka dar ten kažkas. Ir yra susijusios informacijos apie dokumentą išdavusią įstaigą bei šalį, kurioje ta įstaiga dirba.
Tai štai, ta įstaiga šią informaciją apie mane gavo iš manęs. Įstaiga visa tai užrašė į savo laikmenas ir padėjo ją saugoti. Įstaigos darbuotojai gauna už tai atlyginimus, nustatytą įstatymais iš to biudžeto, į kurį moku mokesčius. Moku pinigais, kurie irgi yra informacija apie tai kiek naudos ir gero sukūrė organizacija, kurios pavedimu ir su kurios žinia pinigus atspausdino spaustuvė. Na, gerai, pinigai turėtų bent jau koreliuoti su ta informacija, nes jeigu nekoreliuoja, tai gaunasi krizė.
Kai kada man prireikia duomenų, tai yra informacijos apie mane ir informacijos apie tai, jog tą informaciją apie mane turi viena ar kita įstaiga. Ir tada aš einu į valdišką įstaigą, sumoku pinigų vėl ir tada gaunu informaciją ir patvirtinimą, jog tą informaciją turi ta įstaiga ir kad ji tai patvirtina.
Tos valdiškos įstaigos, kurios gauna mūsų duomenis, dirba su jais ir kuria savo pridėtinę vertę. Įvairios valdiškos įstaigos kuria skirtingą vertę ir dirba su skirtingais duomenimis, bet dažnai, efektyvumui didinti jos dalinasi informacija tarpusavyje. Ir, žinoma, kai ta pridėtinė vertė ima silpnai koreliuoti su įstaigos gaunamais pinigais iš biudžeto – vėl prasideda problemos.
Apie uždarą standartą viešajame sektoriuje
Štai viena kita valdiška įmonė turi sąsajas tarpusavyje ir dalinasi „žaliais“[1] duomenimis. Trečia-ketvirta turi sąsają su tokiu TDS (tarpžinybinė duomenų saugykla). Pastaroji duomenis pasiima ir išverčia juos į savo formatus (sako naudoja „business objects“ kažkokius). Tada anot jų:
TDS duomenų vitrinos sudarytos tiek iš tiesiogiai teikiamų į TDS duomenų, tiek ir pagal juos apskaičiuotų išvestinių rodiklių. Duomenų vitrinas kuria, tobulina ir jų duomenis reguliariai atnaujina aptarnaujantys TDS darbuotojai. Jie daro tai reaguodami į pagrįstus TDS naudotojų poreikius ir TDS veiklos koordinavimo grupės rekomendacijas. Dirbdamas su TDS įgaliotas ja naudotis darbuotojas pirmiausia pasirenka duomenų vitriną. Pasirinkęs ją jis savo kompiuterio ekrane mato suskirstytus į klases objektus – jam leidžiamų naudotis duomenų pavadinimus ir keliamas duomenims sąlygas. Pasirinkdamas tuos objektus jis suformuoja duomenų užklausą, paspausdamas kompiuterio klavišą ją pateikia ir, TDS programinei įrangai surinkus arba apskaičiavus reikalingus duomenis, juos gauna savo kompiuteryje, kaip specialią BusinessObjects programinės įrangos bylą. Po to, naudodamasis BusinessObjects programinės įrangos galimybėmis, jis gali gautus duomenis analizuoti, rengti savo ataskaitas ir dokumentus, juos formatuoti, išsaugoti, eksportuoti į kitus formatus bei kitas informacines sistemas, siuntinėti kitiems informacijos naudotojams.
Taigi, programuotojas, norėdamas sukurti programinę įrangą, kuri dirbtų su valdiškose įmonėse kaupiamais duomenimis, kuriuos šios perduoda į TDS, turėtų nusipirkti iš vertelgų programinę įrangą už kokius nors niekingus ~500 – ~2500 USD, pasidaryti iš gautų duomenų[3] kokį nors xml’ą ar json’ą ir suprogramuoti visuomenei labai naudingą dalyką[4].
Bet juk galima ir kitaip!
Aš nežinau kodėl TDS duomenų apdorojimui pasirinko „business objects“ programinę įrangą. Nelabai čia tai ir svarbu – tegu naudoja ką nori, jei jiems tai labiau patinka ar jeigu jiems taip geriau.
Bet visai kitas dalykas yra duomenų pateikimas. Man susidaro įspūdis, jog jų pozicija yra tokia: nenori – neimk. Jei nepatinka tai kaip duodu – tavo problemos. Čia mano. Aš tau darau paslaugą, todėl turi būti patenkintas, kad apskritai dalinuosi. Kas gi dabar bus, jeigu aš su visais turėsiu dalintis savo nuosavybe?! O jei dalinuosi, tai dar, žiūrėk, atsiranda nepatenkintų, nes mat jiems paduodam ne taip kaip jie nori! Tai kaip kokie Užkalnio komentatoriai – sako kad neįdomu, kad nyku, bet būtinai ateina, perskaito ir dar prikomentuoja visokių nešvankybių!
Ar tikrai čia kalba eina apie dalinimąsi savo nuosavybe?
Ar tikrai TDS yra turimų duomenų savininkai?
Ar tikrai jie yra savininkai tų duomenų, kuriuos gauna iš valdiškų įstaigų?
Ar tų duomenų savininkai yra valdiškos įstaigos?
Ar vis dėlto duomenų savininkai yra tie fiziniai ir juridiniai asmenys, iš kurių tuos duomenis paėmė valdiška įstaiga?
O jeigu valdiška įstaiga yra viešojo sektoriaus administracija, t.y. administruoja viešus reikalus, t.y. renka ir kaupia viešus duomenis, tai gal tie duomenys yra vieši?
Valdiškas, arba viešojo sektoriaus įmones išlaikome mes – mokesčių mokėtojai (tame tarpe ir komercinės įmonės). Tad mes jiems sumokame už tai, kad jie surenka duomenis ir kad juos saugo. Mes esame tų duomenų savininkai, todėl turime gauti tuos duomenis nemokamai (apie sąsajų standartus mes diskutavome vienoje konferencijoje).
Jei taip nebūtų, tai čia gautųsi tas pats lyg mes padėtumėm pasaugoti savo krepšį į saugyklą, mokėtumėm už paslaugą abonentinį mokestį, o paskui, norėdami atsiimti dar privalėtumėm sumokėti tiek, kiek užsimanytų saugyklos savininkas. Aš tikiu kad taip nėra. Aš tikiu, jog galima kreiptis į TDS ir duomenis, kurie man priklauso, jie pateiks nemokamai. Tačiau aš dar turiu sumokėti kažkokiai užsienio kapitalo įmonei vien dėl to, kad galėčiau tuos duomenis iškoduoti ir juos suprasti.
Čia jau gaunasi panašiai, kaip senas verslo planas, kurį seniau taikė visokie negeri žmonės: susirasdavo plytą ir pardavinėdavo tamsesniu paros metu nuošalesnėse vietose praeiviams. Tiem, kas neperka plytos – su ja pačia gaudavo į galvą.
Bet man nereikia plytos. Man tiesiog reikia savo duomenų, kuriuos galėčiau skaityti ir suprasti naudodamas programinę įrangą, kurią galėčiau nemokamai gauti Internete.
Čia taip gaunasi, kad mes, mokesčių mokėtojai, mokame kažkokiai trečiai šaliai už licenciją, kurią naudoja valdiška įstaiga ir paskui dar sumokame tai pačiai trečiai šaliai už tai, galėtumėm pasinaudoti savo duomenimis.
Aš nieko prieš sumokėti savo mokesčiais už trečiosios šalies licenciją, jei valdiškai įstaigai tai padeda greičiausiai ir efektyviausiai dirbti su mano duomenimis, bet jeigu aš noriu savo duomenų, tai būkite geri atiduokite juos taip, kad man nereikėtų dar pirkti kažkokių licencijų vien tam, kad sugebėčiau juos suprasti.
Bet problema ne vien tik TDS naudojamoje uždaro kodo programinėje įrangoje, tvarkančioje duomenis. Problema yra ir su visomis kitomis valdiškomis įstaigomis, kurios naudoja programines įrangas, pateikinėjančias duomenis visokiais uždarais standartais, t.y. paima iš mūsų mūsų nuosavybę ir tada ja naudojasi, bei dalinasi tarpusavyje ją užkoduodami visokių trečiųjų šalių uždarais standartais. Šitaip mes net negalime patikrinti ką su mūsų duomenimis jie daro. Mes net negalime (ar bent jau stipriai apribojami) patikrinti ar mūsų duomenys nenaudojami kokioje nors atkatų sistemoje, kur koks nors populistas politikas savo vienmandatėje apygardoje žino kada kiekvieno rinkėjo jubiliejus ir vėliau išsiunčia jam pasveikinimą atviruku arba pasveikina su naujagimiu ar panašiai. Juk kūrybiškas duomenų panaudojimas ir statistinė jų analizė suteikia didžiules galimybes.
Duomenų panaudojimas
Taip. Kūrybiška ir protingai naudojama duomenų statistinė analizė duoda įvairiausių ir įdomiausių rezultatų.
Esu girdėjęs ir gan įdomių statistinės analizės metodų pritaikymų tose pačiose valdiškose įstaigose, kurios pvz. matuoja kiek kas moka mokesčių ir analizuoja kokie tai subjektai ir jei panašių subjektų mokamų mokesčių sumos į biudžetą labai skiriasi – reiškia, jog tas įmones reikia tikrinti atidžiau.
Išvados
Atviri duomenys, tai laisva informacija. Tai mūsų laisvė. Tol kol turime laisvą Internetą, kol galime, nebijodami represijų, viešai diskutuoti apie svarbius dalykus, kol mes galime spausti valdiškas įstaigas dirbti skaidriai ir kol joms mūsų spaudimas yra svarbus – tol turime savo laisvę.
Už laisvę reikia kovoti visada. Todėl visada reikalaukime savo atvirų duomenų!
_____________________
[1]– „Žali“ duomenys tai griežtai struktūrizuota informacija, suskaidyta iki smulkiausių kintamųjų. Iš „žalių“ duomenų vėliau galima kurti įvairius atvaizdavimus, juos gražiai sulipdyti ir pateikti vizualiai. Dar kitaip tariant, duomenis įvairios programos tvarkosi ir „pasideda“ taip, kaip jos užprogramuotos – kaip patogu programuotojui, kuris sukūrė tą programą. Tačiau kita programa, kito programuotojo suprogramuota jau „nebežinos“, kur yra, pavyzdžiui, karvės veislė, o kur pieno riebumas. Antrasis programuotojas, žinoma, gali atsidaryti programos kodą (jeigu, žinoma, jį gaus) ir ten analizės būdu išsiaiškinti kaip tvarkomi duomenys, tada juos sugebėtų pasiimti į savąją, bet tam užtruktų nemažai laiko ir ar tai veiktų korektiškai niekas negarantuotas (ypač, jei negaus pirmosios programos kodo ir jam teks aiškintis kur kokie duomenys mokslinio badymo keliu[2]). Čia visai neseniai internete paklausiau dalį paskaitos apie duomenų bazes. Taigi turiu dabar bazines žinias apie tai kas yra XML ar JSON. O tai yra standartizuoti duomenų formatai, kurių standartas viešas ir todėl bet koks programuotojas gali suprogramuoti, kad jo programa mokėtų skaityti duomenis iš JSON ar XML failo. Ir dabar bet kuris padorus programuotojas žino, jog kurdamas programą, kuri dirba su duomenimis, jis privalo išmokyti savo programą išsaugoti duomenis standartizuotu formatu. Tai dar vadinama programavimo kultūra. Žinoma, darbas su duomenimis – tai tik dalis programavimo kultūros, apie kitus dalykus nesigilinsiu, nes neišmanau.
[2]– „Mokslinio badymo“ metodas, arba rusiškai „Метод научного тыка“, tai toks metodas, kai įvairių tikslingų badymų keliu analizuojama situacija, tada kuriamos įvairios prielaidos, kurios vėliau tikrinamos tikslingais testais. Tokiu būdu patikrintos prielaidos gali tapti faktais, bet niekada negali žinoti ar tikrai. Savo darbe esu susidūręs su šio metodo taikymu – „juodos dėžės“[6] problemos dažnai yra išsprendžiamos, bet sprendimo palaikymas (t.y. sprendimo galiojimas, kai keičiasi situacijos aplinkybės) tampa komplikuotu – vėl reikia taikyti tą patį metodą. Ypač negerai būna, kai šis metodas yra nuolat taikomas ir įvairūs procesai apauga tokiu dumblu, kur jau niekas nesupranta ką kur programavę (nes paprastai šiuo metodu kuriami pataisymai dokumentacijos tvarkingos neturi), nes tas programuotojas, kuris kūrė vieną sritį įmonėje jau nebedirba, o tas kur dirba aiškina, jog daug lengviau bus viską padaryti iš naujo, jei bandyti analizuoti ir taisyti esamą situaciją. Žodžiu vienas jums patarimas: „mokslinio bandymo“ metodas turi būti išskirtinė išimtis ir taikoma išskirtinai retai, o geriausia, tai kad nereikėtų jo taikyti, nes tai jau kompromisas, o kompromisas, kaip žinia, yra negerai, nes pralošia visi. Palikime šį metodą vaikams ir mokslininkams, o ypač tiems, kurie šio metodo rezultatus aprašo labai tvarkingai.
[6]– juoda dėžė tai tokia black box. Tai tokia koncepcija kai mes matome kas įeina į dėžę ir kas išeina, bet kas vyksta toje dėžėje nežinome ir neturime tiesioginių priemonių tam patikrinti. Galime tik keisti įeities duomenis ir analizuoti išeities – šitaip mes sužinome kas yra padaroma duomenims. Tačiau nežinome kaip, todėl atsiradus netikėtiems pokyčiams įėjime arba pačioje juodojoje dėžėje, pokyčiai išėjime taip pat netikėti.
This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.AcceptRead More