Laisvės Partijos viename iš FB groupsų paklausiau ar įdomu būtų visiems tokia analizė, kurią esu padaręs praėjusios kadencijos Seimui. Gavau tik pozityvius vaibus. Ko daugiau žmogui reikia?
Man taip jau gaunasi, kad negaliu padaryti lygiai to paties, o vis ką nors pridedu papildomai, vis ką nors patobulinu. Vienas iš šio proceso didžiausių malonumų – vis išmokstu/pastebiu kažką naujo. Šį kartą Seimo balsavimo duomenis apjungiau su klausimais. Tai nebuvo taip trivialu, kaip man galėjo atrodyti iš pradžių, nors Seimo administracija yra gan kokybiškai atvėrusi duomenis. T.y. kiekvienas balsavimas, kiekvienas klausimo aptarimas turi atskirą key, kuriuos galima apjungti. Jeigu kam bus įdomu – dalį savo veiksmų įkelsiu į youtube ir kažkada paviešinsiu. Galbūt geresni už mane programuotojai/analitikai pažiūrės ir padarys dar įdomesnių dalykų.
Taip pat šį kartą papasakosiu daugiau apie mano grafikų reikšmę ir kaip juos skaityti. O taip darysiu dėl to, kad į facebook įmečiau keletą grafikų ir reakcijų susilaukė daugiau tik tie, kurie buvo visiškai paprasti (pvz. surūšiuoti Seimo nariai pagal kalbėjimo kartų kiekį).
Bus daug paveiksliukų ir raidžių – tikiuosi bus įdomu. Važiojeeem!
Gali būti, kad ne visi supras šių šūkių prasmę taip, kaip aš. Todėl pasakysiu kaip tai suprantu aš Man atrodo, kad svarbu yra paaiškinti savuosius šūkius. Galbūt tai kam nors paskambins skambučiu*.
Žiūriu aš į tų profesionalių rašytojų straipsnius ir galvoju, kad gal ir aš kada galėčiau panašiai. Bet reikia praktikuoti. Bet nesigauna, nes randu vis įdomesnių užsiėmimų. Pavyzdžiui: daryti duomenų analizę. Pavarčiau aš savo Gephi įrankiu pagamintas diagramas ir prisiminiau vieną darytą Seimui. Tada prisiminiau visokius pokyčius vykusius šiemet (LSDP skilimas, Šakalienės frakcijų keitimai, frakcijų koalicija ir t.t. ir pan.). O kai prisiminiau, tai pagalvojau, kad būtų įdomu pažiūrėti kas gausis jeigu nupieščiau tą diagramą dabar su šviežesniais duomenimis.
Šį kartą akis užkliuvo už darželių. Šitie duomenys gan aktyviai yra naudojami, tai aš nežinau ar ką nors įdomaus ar naudingo galėsiu pasiūlyti. Visko nežiūrėjau. Pažiūrėjau tik laukiančių eilėje ataskaitą. Man regis šita skausmingiausia Vilniui, Vilniaus mamoms ir tėvams.
Pradžiai nusibraižiau laukiančių eilėje vaikų gimimo metų histogramą:
Kaip jau rašiau anąkart – einu į github.com/Vilnius, žiūriu į duomenis, medituoju, ką nors sugalvoju ir dedu čia.
Šį kartą užsimeditavau ties Grinda. O dar tiksliau gatvių avarine tarnyba.
Duomenys baisiai netvarkingi. Vieni failai CSV, kiti XLS, kiti vienas kito kopija. Išmėtyti padieniui. Bet mes jau pripratę. Dažnai tenka gauti excelius su baisiai įmantriu visokių lentelių formatavimu, fontais, tarpais tarp skaičių, kableliais vietoje taško ir kitokia velniava. Duomenų tvarkymas būna total-košmar.
Reiktų vieningo formato failų. O dar geriau – vieno failo. Jokių formatavimų. Geriausia CSV. Bet visi viską žino. Džiugu, kad tie duomenys ten yra.
Paanalizavau tik vėliausią ten rastą kovo mėnesį. Ir taip pavargau dėlioti tas kiekvienos dienos lenteles į vieną failą. Garantuotai privėliau kažkokių klaidų, nes tos lentelės ten net ne vienodos. Bet per daug nesinervavau, o tiesiog paėmiau tuos duomenis, kurie išsiparsino vienu ar kitu būdu.
Iš ten esančios informacijos man pasirodė vertingi tik registracijos laikas, sprendimo laikas ir problemos aprašymai. Iš registracijos ir sprendimo laikų gavosi histogramos, o iš aprašymų – žodžių debesys.
Kas yra informacija? Kuo daugiau apie tai galvoju, tuo man aiškiau, jog čia visai yra neaišku viskas. Tai tarsi filosofinė „būties“ prasmė.
– Kas yra būtis? – Retoriškai klausė mūsų filosofijos dėstytoja per filosofijos paskaitą.
– Nežinau. – Atsakau sau dabar, nes per filosofijos paskaitas miegojau kaip užmuštas. Dėstytoja sugebėdavo kalbėti kaip dvasininkas per pamokslą: balsas ramus, monotoniškas: šiek tiek pakeliamas, šiek tiek nuleidžiamas pagal tą pačią sakinių struktūrą. Kartą bandžiau specialiai nemiegoti – sunku. Labai sunku. O ir atsimenu tik tą žodį iš savo filosofijos paskaitų.
Girdėjau netgi tokių idėjų, jog svarbiausias dalykas mums yra sąmonė. Bet koks reiškinys Visatoje egzistuoja tik todėl, kad mes žinome apie tai – tiksliau, kas nors žino apie tai. Tokia tai Šriodingerio katė.
Informacija yra viskas. Juo labiau, kad informacija apie informaciją yra informacija. Bet informacija apie informaciją (meta informacija) gali būti tik tada kai yra ta pirminė informacija, apie kurią yra ta meta informacija. Informacijos apie nieką arba nieko nebuvimą matyt negali būti. Biblijoje (ar tai kažkuriame testamente) irgi parašyta: „pirmiausiai buvo žodis“ (ar panašiai).
Informacija viešajame sektoriuje
Štai pavyzdžiui esu aš: Lietuvos pilietis. Turiu kojas, rankas, galvą (tpfu-tpfu-tpfu). Turiu dokumentų – t.y. pasą. Kaip sakė vienas žymus paštininkas: jei yra dokumentas – siuntinį galima atiduoti, o jei ne, tai ne. Ūsai, kojos ir uodega nėra dokumentai.
Mano pase yra duomenys apie mane įvairiais kontekstais: registruota gimimo data, dokumento numeris, nuotrauka dar ten kažkas. Ir yra susijusios informacijos apie dokumentą išdavusią įstaigą bei šalį, kurioje ta įstaiga dirba.
Tai štai, ta įstaiga šią informaciją apie mane gavo iš manęs. Įstaiga visa tai užrašė į savo laikmenas ir padėjo ją saugoti. Įstaigos darbuotojai gauna už tai atlyginimus, nustatytą įstatymais iš to biudžeto, į kurį moku mokesčius. Moku pinigais, kurie irgi yra informacija apie tai kiek naudos ir gero sukūrė organizacija, kurios pavedimu ir su kurios žinia pinigus atspausdino spaustuvė. Na, gerai, pinigai turėtų bent jau koreliuoti su ta informacija, nes jeigu nekoreliuoja, tai gaunasi krizė.
Kai kada man prireikia duomenų, tai yra informacijos apie mane ir informacijos apie tai, jog tą informaciją apie mane turi viena ar kita įstaiga. Ir tada aš einu į valdišką įstaigą, sumoku pinigų vėl ir tada gaunu informaciją ir patvirtinimą, jog tą informaciją turi ta įstaiga ir kad ji tai patvirtina.
Tos valdiškos įstaigos, kurios gauna mūsų duomenis, dirba su jais ir kuria savo pridėtinę vertę. Įvairios valdiškos įstaigos kuria skirtingą vertę ir dirba su skirtingais duomenimis, bet dažnai, efektyvumui didinti jos dalinasi informacija tarpusavyje. Ir, žinoma, kai ta pridėtinė vertė ima silpnai koreliuoti su įstaigos gaunamais pinigais iš biudžeto – vėl prasideda problemos.
Apie uždarą standartą viešajame sektoriuje
Štai viena kita valdiška įmonė turi sąsajas tarpusavyje ir dalinasi „žaliais“[1] duomenimis. Trečia-ketvirta turi sąsają su tokiu TDS (tarpžinybinė duomenų saugykla). Pastaroji duomenis pasiima ir išverčia juos į savo formatus (sako naudoja „business objects“ kažkokius). Tada anot jų:
TDS duomenų vitrinos sudarytos tiek iš tiesiogiai teikiamų į TDS duomenų, tiek ir pagal juos apskaičiuotų išvestinių rodiklių. Duomenų vitrinas kuria, tobulina ir jų duomenis reguliariai atnaujina aptarnaujantys TDS darbuotojai. Jie daro tai reaguodami į pagrįstus TDS naudotojų poreikius ir TDS veiklos koordinavimo grupės rekomendacijas. Dirbdamas su TDS įgaliotas ja naudotis darbuotojas pirmiausia pasirenka duomenų vitriną. Pasirinkęs ją jis savo kompiuterio ekrane mato suskirstytus į klases objektus – jam leidžiamų naudotis duomenų pavadinimus ir keliamas duomenims sąlygas. Pasirinkdamas tuos objektus jis suformuoja duomenų užklausą, paspausdamas kompiuterio klavišą ją pateikia ir, TDS programinei įrangai surinkus arba apskaičiavus reikalingus duomenis, juos gauna savo kompiuteryje, kaip specialią BusinessObjects programinės įrangos bylą. Po to, naudodamasis BusinessObjects programinės įrangos galimybėmis, jis gali gautus duomenis analizuoti, rengti savo ataskaitas ir dokumentus, juos formatuoti, išsaugoti, eksportuoti į kitus formatus bei kitas informacines sistemas, siuntinėti kitiems informacijos naudotojams.
Taigi, programuotojas, norėdamas sukurti programinę įrangą, kuri dirbtų su valdiškose įmonėse kaupiamais duomenimis, kuriuos šios perduoda į TDS, turėtų nusipirkti iš vertelgų programinę įrangą už kokius nors niekingus ~500 – ~2500 USD, pasidaryti iš gautų duomenų[3] kokį nors xml’ą ar json’ą ir suprogramuoti visuomenei labai naudingą dalyką[4].
Bet juk galima ir kitaip!
Aš nežinau kodėl TDS duomenų apdorojimui pasirinko „business objects“ programinę įrangą. Nelabai čia tai ir svarbu – tegu naudoja ką nori, jei jiems tai labiau patinka ar jeigu jiems taip geriau.
Bet visai kitas dalykas yra duomenų pateikimas. Man susidaro įspūdis, jog jų pozicija yra tokia: nenori – neimk. Jei nepatinka tai kaip duodu – tavo problemos. Čia mano. Aš tau darau paslaugą, todėl turi būti patenkintas, kad apskritai dalinuosi. Kas gi dabar bus, jeigu aš su visais turėsiu dalintis savo nuosavybe?! O jei dalinuosi, tai dar, žiūrėk, atsiranda nepatenkintų, nes mat jiems paduodam ne taip kaip jie nori! Tai kaip kokie Užkalnio komentatoriai – sako kad neįdomu, kad nyku, bet būtinai ateina, perskaito ir dar prikomentuoja visokių nešvankybių!
Ar tikrai čia kalba eina apie dalinimąsi savo nuosavybe?
Ar tikrai TDS yra turimų duomenų savininkai?
Ar tikrai jie yra savininkai tų duomenų, kuriuos gauna iš valdiškų įstaigų?
Ar tų duomenų savininkai yra valdiškos įstaigos?
Ar vis dėlto duomenų savininkai yra tie fiziniai ir juridiniai asmenys, iš kurių tuos duomenis paėmė valdiška įstaiga?
O jeigu valdiška įstaiga yra viešojo sektoriaus administracija, t.y. administruoja viešus reikalus, t.y. renka ir kaupia viešus duomenis, tai gal tie duomenys yra vieši?
Valdiškas, arba viešojo sektoriaus įmones išlaikome mes – mokesčių mokėtojai (tame tarpe ir komercinės įmonės). Tad mes jiems sumokame už tai, kad jie surenka duomenis ir kad juos saugo. Mes esame tų duomenų savininkai, todėl turime gauti tuos duomenis nemokamai (apie sąsajų standartus mes diskutavome vienoje konferencijoje).
Jei taip nebūtų, tai čia gautųsi tas pats lyg mes padėtumėm pasaugoti savo krepšį į saugyklą, mokėtumėm už paslaugą abonentinį mokestį, o paskui, norėdami atsiimti dar privalėtumėm sumokėti tiek, kiek užsimanytų saugyklos savininkas. Aš tikiu kad taip nėra. Aš tikiu, jog galima kreiptis į TDS ir duomenis, kurie man priklauso, jie pateiks nemokamai. Tačiau aš dar turiu sumokėti kažkokiai užsienio kapitalo įmonei vien dėl to, kad galėčiau tuos duomenis iškoduoti ir juos suprasti.
Čia jau gaunasi panašiai, kaip senas verslo planas, kurį seniau taikė visokie negeri žmonės: susirasdavo plytą ir pardavinėdavo tamsesniu paros metu nuošalesnėse vietose praeiviams. Tiem, kas neperka plytos – su ja pačia gaudavo į galvą.
Bet man nereikia plytos. Man tiesiog reikia savo duomenų, kuriuos galėčiau skaityti ir suprasti naudodamas programinę įrangą, kurią galėčiau nemokamai gauti Internete.
Čia taip gaunasi, kad mes, mokesčių mokėtojai, mokame kažkokiai trečiai šaliai už licenciją, kurią naudoja valdiška įstaiga ir paskui dar sumokame tai pačiai trečiai šaliai už tai, galėtumėm pasinaudoti savo duomenimis.
Aš nieko prieš sumokėti savo mokesčiais už trečiosios šalies licenciją, jei valdiškai įstaigai tai padeda greičiausiai ir efektyviausiai dirbti su mano duomenimis, bet jeigu aš noriu savo duomenų, tai būkite geri atiduokite juos taip, kad man nereikėtų dar pirkti kažkokių licencijų vien tam, kad sugebėčiau juos suprasti.
Bet problema ne vien tik TDS naudojamoje uždaro kodo programinėje įrangoje, tvarkančioje duomenis. Problema yra ir su visomis kitomis valdiškomis įstaigomis, kurios naudoja programines įrangas, pateikinėjančias duomenis visokiais uždarais standartais, t.y. paima iš mūsų mūsų nuosavybę ir tada ja naudojasi, bei dalinasi tarpusavyje ją užkoduodami visokių trečiųjų šalių uždarais standartais. Šitaip mes net negalime patikrinti ką su mūsų duomenimis jie daro. Mes net negalime (ar bent jau stipriai apribojami) patikrinti ar mūsų duomenys nenaudojami kokioje nors atkatų sistemoje, kur koks nors populistas politikas savo vienmandatėje apygardoje žino kada kiekvieno rinkėjo jubiliejus ir vėliau išsiunčia jam pasveikinimą atviruku arba pasveikina su naujagimiu ar panašiai. Juk kūrybiškas duomenų panaudojimas ir statistinė jų analizė suteikia didžiules galimybes.
Duomenų panaudojimas
Taip. Kūrybiška ir protingai naudojama duomenų statistinė analizė duoda įvairiausių ir įdomiausių rezultatų.
Esu girdėjęs ir gan įdomių statistinės analizės metodų pritaikymų tose pačiose valdiškose įstaigose, kurios pvz. matuoja kiek kas moka mokesčių ir analizuoja kokie tai subjektai ir jei panašių subjektų mokamų mokesčių sumos į biudžetą labai skiriasi – reiškia, jog tas įmones reikia tikrinti atidžiau.
Išvados
Atviri duomenys, tai laisva informacija. Tai mūsų laisvė. Tol kol turime laisvą Internetą, kol galime, nebijodami represijų, viešai diskutuoti apie svarbius dalykus, kol mes galime spausti valdiškas įstaigas dirbti skaidriai ir kol joms mūsų spaudimas yra svarbus – tol turime savo laisvę.
Už laisvę reikia kovoti visada. Todėl visada reikalaukime savo atvirų duomenų!
_____________________
[1]– „Žali“ duomenys tai griežtai struktūrizuota informacija, suskaidyta iki smulkiausių kintamųjų. Iš „žalių“ duomenų vėliau galima kurti įvairius atvaizdavimus, juos gražiai sulipdyti ir pateikti vizualiai. Dar kitaip tariant, duomenis įvairios programos tvarkosi ir „pasideda“ taip, kaip jos užprogramuotos – kaip patogu programuotojui, kuris sukūrė tą programą. Tačiau kita programa, kito programuotojo suprogramuota jau „nebežinos“, kur yra, pavyzdžiui, karvės veislė, o kur pieno riebumas. Antrasis programuotojas, žinoma, gali atsidaryti programos kodą (jeigu, žinoma, jį gaus) ir ten analizės būdu išsiaiškinti kaip tvarkomi duomenys, tada juos sugebėtų pasiimti į savąją, bet tam užtruktų nemažai laiko ir ar tai veiktų korektiškai niekas negarantuotas (ypač, jei negaus pirmosios programos kodo ir jam teks aiškintis kur kokie duomenys mokslinio badymo keliu[2]). Čia visai neseniai internete paklausiau dalį paskaitos apie duomenų bazes. Taigi turiu dabar bazines žinias apie tai kas yra XML ar JSON. O tai yra standartizuoti duomenų formatai, kurių standartas viešas ir todėl bet koks programuotojas gali suprogramuoti, kad jo programa mokėtų skaityti duomenis iš JSON ar XML failo. Ir dabar bet kuris padorus programuotojas žino, jog kurdamas programą, kuri dirba su duomenimis, jis privalo išmokyti savo programą išsaugoti duomenis standartizuotu formatu. Tai dar vadinama programavimo kultūra. Žinoma, darbas su duomenimis – tai tik dalis programavimo kultūros, apie kitus dalykus nesigilinsiu, nes neišmanau.
[2]– „Mokslinio badymo“ metodas, arba rusiškai „Метод научного тыка“, tai toks metodas, kai įvairių tikslingų badymų keliu analizuojama situacija, tada kuriamos įvairios prielaidos, kurios vėliau tikrinamos tikslingais testais. Tokiu būdu patikrintos prielaidos gali tapti faktais, bet niekada negali žinoti ar tikrai. Savo darbe esu susidūręs su šio metodo taikymu – „juodos dėžės“[6] problemos dažnai yra išsprendžiamos, bet sprendimo palaikymas (t.y. sprendimo galiojimas, kai keičiasi situacijos aplinkybės) tampa komplikuotu – vėl reikia taikyti tą patį metodą. Ypač negerai būna, kai šis metodas yra nuolat taikomas ir įvairūs procesai apauga tokiu dumblu, kur jau niekas nesupranta ką kur programavę (nes paprastai šiuo metodu kuriami pataisymai dokumentacijos tvarkingos neturi), nes tas programuotojas, kuris kūrė vieną sritį įmonėje jau nebedirba, o tas kur dirba aiškina, jog daug lengviau bus viską padaryti iš naujo, jei bandyti analizuoti ir taisyti esamą situaciją. Žodžiu vienas jums patarimas: „mokslinio bandymo“ metodas turi būti išskirtinė išimtis ir taikoma išskirtinai retai, o geriausia, tai kad nereikėtų jo taikyti, nes tai jau kompromisas, o kompromisas, kaip žinia, yra negerai, nes pralošia visi. Palikime šį metodą vaikams ir mokslininkams, o ypač tiems, kurie šio metodo rezultatus aprašo labai tvarkingai.
[6]– juoda dėžė tai tokia black box. Tai tokia koncepcija kai mes matome kas įeina į dėžę ir kas išeina, bet kas vyksta toje dėžėje nežinome ir neturime tiesioginių priemonių tam patikrinti. Galime tik keisti įeities duomenis ir analizuoti išeities – šitaip mes sužinome kas yra padaroma duomenims. Tačiau nežinome kaip, todėl atsiradus netikėtiems pokyčiams įėjime arba pačioje juodojoje dėžėje, pokyčiai išėjime taip pat netikėti.
This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.AcceptRead More