Atviri duomenys! Statistinė analizė! Duomenimis remti sprendimai!

Pavadinime yra mano pagrindiniai rinkimų šūkiai.

Gali būti, kad ne visi supras šių šūkių prasmę taip, kaip aš. Todėl pasakysiu kaip tai suprantu aš Man atrodo, kad svarbu yra paaiškinti savuosius šūkius. Galbūt tai kam nors paskambins skambučiu*.

Atviri duomenys

Continue reading Atviri duomenys! Statistinė analizė! Duomenimis remti sprendimai!

Schema #40. Šiek tiek statistikos apie 2016 kandidatus į Seimą

Per Laisvės TV, kur mes ir jie laikomės ten, Andrius Tapinas panagrinėjo kandidatų mokesčių ir pajamų statistiką:

 

Tai man pasirodė visai įdomu ir aš pagalvojau, kad galiu irgi paanalizuoti tuos duomenis kažkaip. Viena tik bėda – duomenis gauti gan keblu. VRK.lt viskas yra, bet duomenys sumėtyti į subpage’us visokius. Jeigu reiktų rankiniu būdu rinktis duomenis, tai užsi…tum. Ėmiau ieškoti kokių nors įrankių, kurių pagalba tą procesą galėčiau automatizuoti. Kažką radęs papostinau į Feisbook’ą džiaugsmingą “ParseHub” atradimą.

Continue reading Schema #40. Šiek tiek statistikos apie 2016 kandidatus į Seimą

Schema #36. 2015 išrinktų VMS tarybos narių balsavimai

Man patiko burbulai. Tai dar papaišiau.

O buvo taip: susirinkime pas merą dėl atvirų duomenų. Aptarėme ką padarėme, ką darome, ką darysime ir kaip sekasi. Viena išvada piršosi gan akivaizdi: duomenys yra atveriami, bet vangokai naudojami. Mažoka duomenimis grįstų sprendimų.

Ta pati išvada man galvoje sukosi ir parašius apie tuos burbulus ar kitas mano įvairių rinkimų analizes anksčiau. Žmonės nemato naudos, nes nepaaiškinama jiems aiškiai kas tai per nauda.

Tad aš nusprendžiau peržvelgti mūsų sukauptus atviruosius duomenis ir kokį kartą į savaitę pateikti kokį nors duomenų analizės pavyzdį tiesiog šiaip – smagumui.

Šį kartą stabtelėjau ties taryba. Jau pažįstami duomenys – t.y. balsavimo rezultatai 😀

Continue reading Schema #36. 2015 išrinktų VMS tarybos narių balsavimai

Atviras Vilnius

Vilnius kartu su Remigijus Šimašius, kartu su Povilu Poderskiu įgauna pagreitį. Atvirumo ir skaidrumo didėjimo pagreitį.

Povilas, žinia, yra Vilniaus mero patarėjas IT (ir atvirų duomenų) reikalams ir štai mestelėjo į github’ą šiek tiek duomenų apie mažaverčius viešuosius pirkimus.

Duomenis jis gavo iš savivaldybės sistemų padedant savivaldybės darbuotojams. Tikimės, kad šie duomenys  bus nuolat atnaujinami ir kad duomenų dar daugės.

O tuo tarpu aš savo labai mėgėjišku būdu (ir menkomis matematikos beigi statistinės analizės žiniomis) padariau tokia gal net analizę:

30 pirkimų 0>100
32 pirkimų 100>500
320 pirkimų 1000>15000
59 pirkimų 15000>100000
13 pirkimų >100000 LTL

147 pirkimų 1000>5000
121 pirkimų 5000>10000
30 pirkimų 10000>15000

58 pirkimų 1000>2500
90 pirkimų 2500>5000
49 pirkimai 5000>7500
73 pirkimai 7500>10000

Iš pradžių žvilgtelėjau koks maždaug pinigų pasiskirstymas. Tada sugalvojau analizės žingsnį, o tada pusę per pusę skaidydamas pinigų sumas suskaidžiau viską į <100 pirkimų žingsnelius.Gavosi štai toks grafikas:

Čia kažkokie taškučiai. Matau dvi tokias tieses: vieną ant X ašies, kitą ant Y. Ką tai galėtų reikšti? Kol kas nežinau.
Čia kažkokie taškučiai. Matau dvi tokias tieses: vieną ant X ašies, kitą ant Y. Ką tai galėtų reikšti? Kol kas nežinau.

Man atrodo, kad naudojantis teisingais įrankiais galima būtų padaryti ką nors kur kas įdomesnio ir tikslesnio. Ir gal net ką nors įdomaus sakančio.

Tikiuosi protingi žmonės tai pamatys, įvertins ir padarys ką nors gražaus ir naudingo iš to.

Geras botnetas išmatavo Internetą

Straipsnis pasirodęs NK. Dabar čia, pas mane.

 

Botnetas, tai tinklas sudarytas iš įvairių įrenginių. Bot – robot arba robotas, net – network arba tinklas.

Kai sakoma “Botnetas” tai dažniausiai turima omenyje tinklą, sudarytą iš įvairių kompiuterių ir galbūt kitokių įrenginių, gebančių apdoroti IP informaciją. O tą tinklą valdo žmogus ar organizacija ir naudoja tai įvairiems blogiems kėslams.

Blogi kėslai, tai:

  • Spamo generavimas ir siuntimas
  • Slaptažodžių ir paskyrų vagystės
  • Serverių atakos
  • Kitokie blogi kėslai[1]

Na, tai gali veikti maždaug taip, kaip paišiau pasakodamas apie E-balsavimo trūkumus:

Jūsų kompiuteris gali dirbti piktajam troliui, kuris savo zombiais ima iš jūsų kompiuterio duomenis ir teikia jums savo duomenis, nors jūs matote tik savo geruosius nykštukus.
Jūsų kompiuteris gali dirbti piktajam troliui, kuris savo zombiais ima iš jūsų kompiuterio duomenis ir teikia jums savo duomenis, nors jūs matote tik savo geruosius nykštukus.

Vienas fizikas, geras linuksistas, jis gi vardu Nerijus parodė man tokią nuorodą.

Toje nuorodoje parašyta, kaip vienas protingas žmogus, išmanantis tinklo technologijas ir Internetą sukūrė gerąjį botnetą. T.y. tokį robotų tinklą, kuris neatlieka nieko blogo, ką išvardinau čia aukštėliau. Šis žmogus tiesiog surinko šiek tiek statistikos apie Internetą ir tai paskelbė.

Bet pats įdomiausias dalykas tai, kaip jis gavo prieigą prie visų 420 000 kompiuterių ar šiaip įrenginių (maršrutizatoriai, video stebėjimo kameros ir taip toliau) prijungtų prie interneto.

O prieigą gavo vien naudodamas patį paprasčiausią dalyką: standartinį vartotojo vardą ir slaptažodį, kurie būna nustatyti įvairiuose įrenginiuose ir tokiais lieka, jei kas nors jų nepakeičia.

Tie vartotojų vardai:slaptažodžiai yra: root:root, admin:admin ar tiesiog šie vartotojų vardai apskritai be slaptažodžių.

Kadangi šis žmogus ne šiaip sysadminas, kuris svaidosi pergėriančiosiomis ataskaitomis ir žiūrinėja nepadorią video medžiagą, o rimtas sysadminas, tai jis linksminasi gaudamas pažinimo džiaugsmo.

Visus kompiuterius, ar įrenginius, prie kurių jis prisijungė, įdarbino IP adresų skanavimui, statistinės informacijos apdorojimui ir saugojimui. Kiekvienas iš tų robotų skanavo IP adresus, radęs neapsaugotą įrenginį, į ten įdiegdavo programinį kodą, o šis tada darė tą patį.

Tinklas plėtėsi ir jo paieškos bei statistikos rinkimo greitis didėjo geometrine progresija (t.y. labai greitai). Greitai, tai reiškia, kad per vieną parą nuskanavo 3,6 milijardo IP adresų (milijardas tai čia tikriausiai 10^9). Vikipedija sako, kad dabar žemėje yra ~7 milijardus gyventojų.

Šis žmogus surinko gan įdomios vizualinės informacijos. Man labiausiai patiko (gal dėl to, kad šį labiausiai supratau) šis gif’as:

Internetas keičiantis paros laikui
Internetas keičiantis paros laikui

Visai smagus dalykas dar ir tai, kad kol šis protingas žmogus leido savo botnetui (pavadino jį Carna) dirbti, jis savo apkrėstuose įrenginiuose aptiko kito botneto (Aidra) pėdsakus. Aidra gi, pagal įvairius požymius, pasirodė esąs tuo bloguoju… Tai štai, šis tinklo specialistas su savo Carna darė taip, kad ta Aidra taptų neveiksnia.

Čia rNDS'ų *.lt pasiskirstymas pagal sub-domenus, kurie, mano galva atspindi Lietuvos Interneto tiekėjų klientų kiekį.
Čia rNDS'ų *.lt pasiskirstymas pagal sub-domenus, kurie, mano galva atspindi Lietuvos Interneto tiekėjų klientų kiekį.

Ir dar vienas įdomus dalykas, iš visos surinktos statistikos: 2012 metais Carna aptiko 1 327 852 IP adresų, kurių rDNS yra *.lt. Daugelis jų turi šiuos sub-domenus:

  • 417 601 – Zebra.
  • 126 061 – Meganet.
  • 106 206 – LRTC
  • 102 072 – Erdvės
  • 80 114 – Tele2
  • 69 624 – Cgates

Čia galite pasityrinėti subdomenų statistikos, o čia sub-subdomenų statistikos.

Pasižiūrėjau dar RRT, tai jie duoda tik 2011 metų statistikos. Pasižiūrėjau pagal pajamas Interneto rinkoje, tai paveiksliuke tik TEO atrodo panašiai:

RRT 2011 metų statistika
RRT 2011 metų statistika

Daugiau detalių ir įdomios informacijos rasite žmogaus, kuris visa tai atliko puslapyje. Ir apskritai jis visą interneto meta informaciją išsisaugojo ir dabar su visais dalinasi. Kaip aš supratau, 2012 metų internto meta informacija užima 9 TB (10^12 B). Ten yra informacija apie:

  • Ping’us tarp IP adresų  – 52 milijardai įrašų, nesuspausta info užima 1.8 TB
  • DNS (IP adresų skaičiukai pakeisti raidikėmis) informacija – 10.5 milijardų įrašų, nesuspausta info užima 366 GB.
  • Service probes (nesu tikras ką tai reiškia, bet lyg ir įrenginių atvertus portus įvairioms paslaugoms, pvz. http, ftp ar pan.)  – 180 milijardų įrašų, nesuspausta info užima 5.5 TB
  • Host probes (irgi nesu tikras, gal tai įrenginiai gebantys leisti programas, valdyti kitus įrenginius) – 9.5 milijardai įrašų, nesuspausta info užima 771 GB.
  • Sinchronizacijai skirti skanavimai – 2.8 milijardai įrašų, nesuspausta info užima 435 GB
  • TCP IP informacija – 80 milijonų įrašų, nesuspausta info užima 50 GB
  • IP ID seka (šita savoka man išvis nauja, bet kiek supratau kiek paskaitinėjęs, tai kiekvienas IP paketas turi identifikatorių, tai čia gal yra informacija apie tai kiek IP paketų išsiuntinėjo Carna užkrėsti įrenginiai) – 75 milijonai įrašų, nesuspausta info užima 2,7 GB.
  • Traceroute (informacija apie IP paketų nukeliautą kelią) – 68 milijonai įrašų, nesuspausta info užima 18 GB.

Tokia gausybė informacijos turėtų būti didžiuliu saldainiu statistikos mėgėjams.  Gal kas susigundysite ją patyrinėti? Aš kiek per skystas tokiai gausybei informacijos. Bet numanau, jog iš šios informacijos galima pasidaryti tokių išvadų, už kurias kas nors sumokėtų kažkiek nemažai. Galbūt 2012 metų informacija nėra per daug pasenusi net ir Internetui.

Taip pat raginu jus pasitikrinti savo įrenginius ir pakeisti standartinius root:root ir admin:admin dabar. Gali būti, kad kitas protingas žmogus bus mažiau geranoriškas.

Vietoje P.S.

Ten tą gif’ą pasižiūrėjus didesnėje rezoliucijoje ir patyrinėjus Šiaurės Korėjos žemėlapį, tai aktyvumas yra viename taške, bet ne sostinėje. Arba tai paklaida žemėlapio. Bet jeigu tai ne paklaida, tai gan įdomu. Kur ten Kim Jong-un’as browsina? Kodėl ne sostinėj?

Pasižiūrėjus kitą vizualinę medžiagą, paaiškėjo, kad Carna botų Šiaurės Korėjoje nebuvo. Tačiau nuskanuoti IP pavyko:

Internetas Š. Korėjoje
Internetas Š. Korėjoje

O čia štai veikę Carna bot’ai Lietuvoje:

Carna Lietuvoje
Carna Lietuvoje
Botnetų skalė
Botnetų skalė

O čia nuskanuoti IP Lietuvoje:

Lietuvos Internetai pagal Carna.
Lietuvos Internetai pagal Carna.
O čia skalė
O čia skalė

 

_________________________________________

[1]– Nepaminėjai kelių “tradicinių” botnetų užsiemimų: Ad-clicking (dabar dažnai nesimato, nes minimizuoja IE langą) ir PC resursų išnaudojimo (Bitcoin minning) kaip pvz.  Lietuvoje tikrai ne vienintelis “blogas” botnetas. Beje, IRC – gerasis botnetas irgi 🙂 (Ačiū Giedriui iš G+)

Atviri duomenys

Informacija – kas tai?

Kas yra informacija? Kuo daugiau apie tai galvoju, tuo man aiškiau, jog čia visai yra neaišku viskas. Tai tarsi filosofinė „būties“ prasmė.

– Kas yra būtis? – Retoriškai klausė mūsų filosofijos dėstytoja per filosofijos paskaitą.

– Nežinau. – Atsakau sau dabar, nes per filosofijos paskaitas miegojau kaip užmuštas. Dėstytoja sugebėdavo kalbėti kaip dvasininkas per pamokslą: balsas ramus, monotoniškas: šiek tiek pakeliamas, šiek tiek nuleidžiamas pagal tą pačią sakinių struktūrą. Kartą bandžiau specialiai nemiegoti – sunku. Labai sunku. O ir atsimenu tik tą žodį iš savo filosofijos paskaitų.

 

Kai akys merkiasi ir ima raibuliuoti, kai trūkinėja dėmesys ir atsiranda haliucinacijos.
Kai akys merkiasi ir ima raibuliuoti, kai trūkinėja dėmesys ir atsiranda haliucinacijos.

Girdėjau netgi tokių idėjų, jog svarbiausias dalykas mums yra sąmonė. Bet koks reiškinys Visatoje egzistuoja tik todėl, kad mes žinome apie tai – tiksliau, kas nors žino apie tai.  Tokia tai Šriodingerio katė.

Informacija yra viskas. Juo labiau, kad informacija apie informaciją yra informacija. Bet informacija apie informaciją (meta informacija) gali būti tik tada kai yra ta pirminė informacija, apie kurią yra ta meta informacija. Informacijos apie nieką arba nieko nebuvimą matyt negali būti. Biblijoje (ar tai kažkuriame testamente) irgi parašyta: „pirmiausiai buvo žodis“ (ar panašiai).

Informacija viešajame sektoriuje

Тай иштраука иш баусяй геро мултико. Дабар токю некуря - пракейкти капыталистай.
Тай иштраука иш баусяй геро мултико. Дабар токю некуря - пракейкти капыталистай.

 

Štai pavyzdžiui esu aš: Lietuvos pilietis. Turiu kojas, rankas, galvą (tpfu-tpfu-tpfu). Turiu dokumentų – t.y. pasą. Kaip sakė vienas žymus paštininkas: jei yra dokumentas – siuntinį galima atiduoti, o jei ne, tai ne. Ūsai, kojos ir uodega nėra dokumentai.

Mano pase yra duomenys apie mane įvairiais kontekstais: registruota gimimo data, dokumento numeris, nuotrauka dar ten kažkas. Ir yra susijusios informacijos apie dokumentą išdavusią įstaigą bei šalį, kurioje ta įstaiga dirba.

Tai štai, ta įstaiga šią informaciją apie mane gavo iš manęs. Įstaiga visa tai užrašė į savo laikmenas ir padėjo ją saugoti. Įstaigos darbuotojai gauna už tai atlyginimus, nustatytą įstatymais iš to biudžeto, į kurį moku mokesčius. Moku pinigais, kurie irgi yra informacija apie tai kiek naudos ir gero sukūrė organizacija, kurios pavedimu ir su kurios žinia pinigus atspausdino spaustuvė.  Na, gerai, pinigai turėtų bent jau koreliuoti su ta informacija, nes jeigu nekoreliuoja, tai gaunasi krizė.

Kai kada man prireikia duomenų, tai yra informacijos apie mane ir informacijos apie tai, jog tą informaciją apie mane turi viena ar kita įstaiga. Ir tada aš einu į valdišką įstaigą, sumoku pinigų vėl ir tada gaunu informaciją ir patvirtinimą, jog tą informaciją turi ta įstaiga ir kad ji tai patvirtina.

Tos valdiškos įstaigos, kurios gauna mūsų duomenis, dirba su jais ir kuria savo pridėtinę vertę. Įvairios valdiškos įstaigos kuria skirtingą vertę ir dirba su skirtingais duomenimis, bet dažnai, efektyvumui didinti jos dalinasi informacija tarpusavyje. Ir, žinoma, kai ta pridėtinė vertė ima silpnai koreliuoti su įstaigos gaunamais pinigais iš biudžeto – vėl prasideda problemos.

Apie uždarą standartą viešajame sektoriuje

Platūs žabtai ir dantys, tai grėsmė ir skausmas. Prie ko čia uždaras standartas? Ką aš žinau?
Platūs žabtai ir dantys, tai grėsmė ir skausmas. Prie ko čia uždaras standartas? Ką aš žinau...

 

Štai viena kita valdiška įmonė turi sąsajas tarpusavyje ir dalinasi „žaliais“[1] duomenimis. Trečia-ketvirta turi sąsają su tokiu TDS (tarpžinybinė duomenų saugykla). Pastaroji duomenis pasiima ir išverčia juos į savo formatus (sako naudoja „business objects“ kažkokius). Tada anot jų:

TDS duomenų vitrinos sudarytos tiek iš tiesiogiai teikiamų į TDS duomenų, tiek ir pagal juos apskaičiuotų išvestinių rodiklių. Duomenų vitrinas kuria, tobulina ir jų duomenis reguliariai atnaujina aptarnaujantys TDS darbuotojai. Jie daro tai reaguodami į pagrįstus TDS naudotojų poreikius ir TDS veiklos koordinavimo grupės rekomendacijas. Dirbdamas su TDS įgaliotas ja naudotis darbuotojas pirmiausia pasirenka duomenų vitriną. Pasirinkęs ją jis savo kompiuterio ekrane mato suskirstytus į klases objektus – jam leidžiamų naudotis duomenų pavadinimus ir keliamas duomenims sąlygas. Pasirinkdamas tuos objektus jis suformuoja duomenų užklausą, paspausdamas kompiuterio klavišą ją pateikia ir, TDS programinei įrangai surinkus arba apskaičiavus reikalingus duomenis, juos gauna savo kompiuteryje, kaip specialią BusinessObjects programinės įrangos bylą. Po to, naudodamasis BusinessObjects programinės įrangos galimybėmis, jis gali gautus duomenis analizuoti, rengti savo ataskaitas ir dokumentus, juos formatuoti, išsaugoti, eksportuoti į kitus formatus bei kitas informacines sistemas, siuntinėti kitiems informacijos naudotojams.

Taigi, programuotojas, norėdamas sukurti programinę įrangą, kuri dirbtų su valdiškose įmonėse kaupiamais duomenimis, kuriuos šios perduoda į TDS, turėtų nusipirkti iš vertelgų programinę įrangą už kokius nors niekingus ~500 – ~2500 USD, pasidaryti iš gautų duomenų[3] kokį nors xml’ą ar json’ą ir suprogramuoti visuomenei labai naudingą dalyką[4].

Bet juk galima ir kitaip!

Aš nežinau kodėl TDS duomenų apdorojimui pasirinko „business objects“ programinę įrangą. Nelabai čia tai ir svarbu – tegu naudoja ką nori, jei jiems tai labiau patinka ar jeigu jiems taip geriau.

Bet visai kitas dalykas yra duomenų pateikimas. Man susidaro įspūdis, jog jų pozicija yra tokia: nenori – neimk. Jei nepatinka tai kaip duodu – tavo problemos. Čia mano. Aš tau darau paslaugą, todėl turi būti patenkintas, kad apskritai dalinuosi. Kas gi dabar bus, jeigu aš su visais turėsiu dalintis savo nuosavybe?! O jei dalinuosi, tai dar, žiūrėk, atsiranda nepatenkintų, nes mat jiems paduodam ne taip kaip jie nori! Tai kaip kokie Užkalnio komentatoriai – sako kad neįdomu, kad nyku, bet būtinai ateina, perskaito ir dar prikomentuoja visokių nešvankybių!

Bet palaukite[5]!

Ar tikrai čia kalba eina apie dalinimąsi savo nuosavybe?
Ar tikrai TDS yra turimų duomenų savininkai?
Ar tikrai jie yra savininkai tų duomenų, kuriuos gauna iš valdiškų įstaigų?
Ar tų duomenų savininkai yra valdiškos įstaigos?
Ar vis dėlto duomenų savininkai yra tie fiziniai ir juridiniai asmenys, iš kurių tuos duomenis paėmė valdiška įstaiga?
O jeigu valdiška įstaiga yra viešojo sektoriaus administracija, t.y. administruoja viešus reikalus, t.y. renka ir kaupia viešus duomenis, tai gal tie duomenys yra vieši?

Meškutis pykst.
Meškutis pykst.

 

Valdiškas, arba viešojo sektoriaus įmones išlaikome mes – mokesčių mokėtojai (tame tarpe ir komercinės įmonės). Tad mes jiems sumokame už tai, kad jie surenka duomenis ir kad juos saugo. Mes esame tų duomenų savininkai, todėl turime gauti tuos duomenis nemokamai (apie sąsajų standartus mes diskutavome vienoje konferencijoje).

Jei taip nebūtų, tai čia gautųsi tas pats lyg mes padėtumėm pasaugoti savo krepšį į saugyklą, mokėtumėm už paslaugą abonentinį mokestį, o paskui, norėdami atsiimti dar privalėtumėm sumokėti tiek, kiek užsimanytų saugyklos savininkas. Aš tikiu kad taip nėra. Aš tikiu, jog galima kreiptis į TDS ir duomenis, kurie man priklauso, jie pateiks nemokamai. Tačiau aš dar turiu sumokėti kažkokiai užsienio kapitalo įmonei vien dėl to, kad galėčiau tuos duomenis iškoduoti ir juos suprasti.

Pirk plytą
Pirk plytą.

 

Čia jau gaunasi panašiai, kaip senas verslo planas, kurį seniau taikė visokie negeri žmonės: susirasdavo plytą ir pardavinėdavo tamsesniu paros metu nuošalesnėse vietose praeiviams. Tiem, kas neperka plytos – su ja pačia gaudavo į galvą.

Bet man nereikia plytos. Man tiesiog reikia savo duomenų, kuriuos galėčiau skaityti ir suprasti naudodamas programinę įrangą, kurią galėčiau nemokamai gauti Internete.

Čia taip gaunasi, kad mes, mokesčių mokėtojai, mokame kažkokiai trečiai šaliai už licenciją, kurią naudoja valdiška įstaiga ir paskui dar sumokame tai pačiai trečiai šaliai už tai, galėtumėm pasinaudoti savo duomenimis.

Aš paprastai į tokią vietą neinu kvepalų ir kitokių smulkmenų pirkti.
Aš paprastai į tokią vietą neinu kvepalų ir kitokių smulkmenų pirkti.

Aš nieko prieš sumokėti savo mokesčiais už trečiosios šalies licenciją, jei valdiškai įstaigai tai padeda greičiausiai ir efektyviausiai dirbti su mano duomenimis, bet jeigu aš noriu savo duomenų, tai būkite geri atiduokite juos taip, kad man nereikėtų dar pirkti kažkokių licencijų vien tam, kad sugebėčiau juos suprasti.

Tad, jeigu tie „business objects“ moka importuotis iš xml’o į savo uždarą standartą, tai reiškia, kad turi mokėti ir eksportuoti iš uždaro į atvirą. Tad, prašome taip ir darykite.

 

Sako amerikiečiai apskrido mėnulį ir pamatė kaip jis atrodo iš kitos pusės.
Sako amerikiečiai apskrido mėnulį ir pamatė kaip jis atrodo iš kitos pusės.

Bet problema ne vien tik TDS naudojamoje uždaro kodo programinėje įrangoje, tvarkančioje duomenis. Problema yra ir su visomis kitomis valdiškomis įstaigomis, kurios naudoja programines įrangas, pateikinėjančias duomenis visokiais uždarais standartais, t.y. paima iš mūsų mūsų nuosavybę ir tada ja naudojasi, bei dalinasi tarpusavyje ją užkoduodami visokių trečiųjų šalių uždarais standartais. Šitaip mes net negalime patikrinti ką su mūsų duomenimis jie daro. Mes net negalime (ar bent jau stipriai apribojami) patikrinti ar mūsų duomenys nenaudojami kokioje nors atkatų sistemoje, kur koks nors populistas politikas savo vienmandatėje apygardoje žino kada kiekvieno rinkėjo jubiliejus ir vėliau išsiunčia jam pasveikinimą atviruku arba pasveikina su naujagimiu ar panašiai. Juk kūrybiškas duomenų panaudojimas ir statistinė jų analizė suteikia didžiules galimybes.

Duomenų panaudojimas

Taip. Kūrybiška ir protingai naudojama duomenų statistinė analizė duoda įvairiausių ir įdomiausių rezultatų.

Čia apie tai kaip šilumą pigina Vilniuje (ačiū Rokiškiui Rabinovičiui):

Šilumos kainos
iš http://rokiskis.popo.lt: Taip, beveik tokį patį grafiką jūs jau matėte. Šitas tiesiog pagerintas, vietoje tiesinių trendų yra kreivės, atspindinčios pokyčių tendencijas lokaliai. Grafikas paprastas: šilumos ūkių administratoriai surūšiuoti pagal šilumos suvartojimo pokyčius 2010-2011 metų lapkričio mėnesiais, o tą rodo raudonoji linija, žyminti tuos skirtumus tarp suvartojimo (deltas). Kairėje yra tie, pas ką šilumos sąnaudos sumažėjo, dešinėje yra tie, pas ką padidėjo. Padidėjimą ar sumažėjimą procentais žymi kairioji Y ašis. Violetinė ir geltona kreivė - tai polinominiai 6 laipsnio trendai, rodantys vidutiniškus suvartojimo lygius, jie pažymėti dešinėje Y ašyje. Taškučiai - konkretūs suvartojimo atvejai. X ašis - tai tiesiog pagal vartojimo pokytį surūšiuoti šilumos administratoriai, kiekvienas eina už vienetą.

Čia apie tai kaip rinkimai Lietuvoje praėjo (ačiū Linui Kilikevičiui):

Tas blynas, o ne kometa reiškia, kad pas mus viskas OK.
Tas blynas, o ne kometa reiškia, kad pas mus viskas OK.

Čia dar vienas apie rinkimus iš Kaišiadorių-Elektrėnų 59’osios rinkimų apygardos, kur labai įdomiai atrodo Pravieniškės (ačiū Linui):

Štai kaip ten viskas buvo
Štai kaip ten viskas buvo

O čia bandžiau būti šmaikštus analizuodamas google paieškos rezultatus ir lygindamas juos su kai kuria statistika.

O čia dėjau iš peties: sugalvojau visiškai „ataušusį“ metodą, kuriuo sukergiau horoskopus su google paieškos rezultatais, tai ir gavosi visiška vėsaitė.

Esu girdėjęs ir gan įdomių statistinės analizės metodų pritaikymų tose pačiose valdiškose įstaigose, kurios pvz. matuoja kiek kas moka mokesčių ir analizuoja kokie tai subjektai ir jei panašių subjektų mokamų mokesčių sumos į biudžetą labai skiriasi – reiškia, jog tas įmones reikia tikrinti atidžiau.

Išvados

Laisvę!
Laisvę duomenims!

 

Atviri duomenys, tai laisva informacija. Tai mūsų laisvė. Tol kol turime laisvą Internetą, kol galime, nebijodami represijų, viešai diskutuoti apie svarbius dalykus, kol mes galime spausti valdiškas įstaigas dirbti skaidriai ir kol joms mūsų spaudimas yra svarbus – tol turime savo laisvę.

Už laisvę reikia kovoti visada. Todėl visada  reikalaukime savo atvirų duomenų!

_____________________

[1]– „Žali“ duomenys tai griežtai struktūrizuota informacija, suskaidyta iki smulkiausių kintamųjų. Iš „žalių“ duomenų vėliau galima kurti įvairius atvaizdavimus, juos gražiai sulipdyti ir pateikti vizualiai. Dar kitaip tariant, duomenis įvairios programos tvarkosi ir „pasideda“ taip, kaip jos užprogramuotos – kaip patogu programuotojui, kuris sukūrė tą programą. Tačiau kita programa, kito programuotojo suprogramuota jau „nebežinos“, kur yra, pavyzdžiui, karvės veislė, o kur pieno riebumas. Antrasis programuotojas, žinoma, gali atsidaryti programos kodą (jeigu, žinoma, jį gaus) ir ten analizės būdu išsiaiškinti kaip tvarkomi duomenys, tada juos sugebėtų pasiimti į savąją, bet tam užtruktų nemažai laiko ir ar tai veiktų korektiškai niekas negarantuotas (ypač, jei negaus pirmosios programos kodo ir jam teks aiškintis kur kokie duomenys mokslinio badymo keliu[2]). Čia visai neseniai internete paklausiau dalį paskaitos apie duomenų bazes. Taigi turiu dabar bazines žinias apie tai kas yra XML ar JSON. O tai yra standartizuoti duomenų formatai, kurių standartas viešas ir todėl bet koks programuotojas gali suprogramuoti, kad jo programa mokėtų skaityti duomenis iš JSON ar XML failo. Ir dabar bet kuris padorus programuotojas žino, jog kurdamas programą, kuri dirba su duomenimis, jis privalo išmokyti savo programą išsaugoti duomenis standartizuotu formatu. Tai dar vadinama programavimo kultūra. Žinoma, darbas su duomenimis – tai tik dalis programavimo kultūros, apie kitus dalykus nesigilinsiu, nes neišmanau.

[2]– „Mokslinio badymo“ metodas, arba rusiškai „Метод научного тыка“, tai toks metodas, kai įvairių tikslingų badymų keliu analizuojama situacija, tada kuriamos įvairios prielaidos, kurios vėliau tikrinamos tikslingais testais. Tokiu būdu patikrintos prielaidos gali tapti faktais, bet niekada negali žinoti ar tikrai. Savo darbe esu susidūręs su šio metodo taikymu – „juodos dėžės“[6] problemos dažnai yra išsprendžiamos, bet sprendimo palaikymas (t.y. sprendimo galiojimas, kai keičiasi situacijos aplinkybės) tampa komplikuotu – vėl reikia taikyti tą patį metodą. Ypač negerai būna, kai šis metodas yra nuolat taikomas ir įvairūs procesai apauga tokiu dumblu, kur jau niekas nesupranta ką kur programavę (nes paprastai šiuo metodu kuriami pataisymai dokumentacijos tvarkingos neturi), nes tas programuotojas, kuris kūrė vieną sritį įmonėje jau nebedirba, o tas kur dirba aiškina, jog daug lengviau bus viską padaryti iš naujo, jei bandyti analizuoti ir taisyti esamą situaciją.  Žodžiu vienas jums patarimas: „mokslinio bandymo“ metodas turi būti išskirtinė išimtis ir taikoma išskirtinai retai, o geriausia, tai kad nereikėtų jo taikyti, nes tai jau kompromisas, o kompromisas, kaip žinia, yra negerai, nes pralošia visi. Palikime šį metodą vaikams ir mokslininkams, o ypač tiems, kurie šio metodo rezultatus aprašo labai tvarkingai.

Badymo metodo iliustracija
Badymo metodo iliustracija

[3]– duomenis gali gauti TDS naudotojai, kuriais tapti kažkaip galima. Tikriausiai pradžiai reikia paskambinti ar parašyti į TDS.

[4]– Va tokių naudingų dalykų: „mano valstybė“, „ką veikia valdžia?“, „mano Seimas“, „mano balsas“, „Seime“, „viešai“; užsienyje: „My Society“, „The Sunlight Foundation“, VotaInteligente.cl, GovTrack.us. Dar yra ir toks projektas Ūkio ministerijoje: „Atviri duomenys“. Šis projektas sukurtas iniciatyvių žmonių, kurie supranta, jog pradžiai, norint užtikrinti efektyvų ekonomikos skatinimą, privalu įmonėms leisti sparčiai ir laisvai apsikeisti reikalinga informacija, kuria remiantis daromi geri sprendimai.

[5]– Skaityti TVshop’o diktoriaus intonacija.

[6]– juoda dėžė tai tokia black box. Tai tokia koncepcija kai mes matome kas įeina į dėžę ir kas išeina, bet kas vyksta toje dėžėje nežinome ir neturime tiesioginių priemonių tam patikrinti. Galime tik keisti įeities duomenis ir analizuoti išeities – šitaip mes sužinome kas yra padaroma duomenims. Tačiau nežinome kaip, todėl atsiradus netikėtiems pokyčiams įėjime arba pačioje juodojoje dėžėje, pokyčiai išėjime taip pat netikėti.

Kas kaltas?

Manau, jog žinau koks yra alkoholio poveikis žmogui. Turiu omenyje socialinį poveikį[1]. Apie tai žinau ne tik aš. Didelė dalis mano draugų ir pažįstamų tai supranta.

Vienoje iš savo penktadienio schemų buvau papaišęs apie vieną iš galimų šios “mirties spiralės” priežasčių. Jų yra ir daugiau: įvairūs kompleksai (nepilnavertiškumo pavyzdžiui), progresuojanti didybės manija, stresas ir jį lydinti depresija.

Alkoholizmas yra liga. Su lengvesnėmis jos formomis esu susidūręs tiesiogiai. Apie šios ligos sunkesnes formas skaičiau Jono Katkevičiaus “Ties bedugne“. Šią knygutę rekomenduoju perskaityti visiems. Ypač tiems, kurie galvoja, jog kartą į savaitę su draugais alučio iki paryčių, tai čia normaliai, nes juk reikia atsipalaiduoti nors truputį – išmesti tą mėšlą, susikaupusį per darbo savaitę, iš savęs.

Žinokite, kad jau pasiekėte ribą, kai jau imsite ieškoti pateisinamos priežasties vartoti alkoholį. Kai pagausite save mąstant, jog išgerti darbiniuose vakarėliuose yra “legalu” ir šeima, bei kiti artimi žmonės neturi teisės jūsų už tai teisti.

Artėja šventės. Facepalm season is comming. Ankstesniame poste publikuota apklausa parodė, jog daugelis mano blogo skaitytojų mieliau būtų patys facepalm’o priežastimi, nei patirtų svetimos gėdos jausmą:

Balsavimo rezultatai
Balsavimo rezultatai (didinasi paspaudus)

Mokė mane visi žmonės, jog negalima kažkuo kaltinti savo skaitytojų[2]! Negalima, nes niekam neįdomūs save už kitus teisesniais laikantys žmonės.

Tai aš jūsų, mano brangieji, atsiprašau iš karto. Atsiprašau, bet supraskite ir visos mūsų alkoholinės kultūros beprasmiškumą: “man gėda matyti savo kolegas, kurie negrabiai stengiasi išlipti iš savo komforto zonų ir atverti savo kompleksus, todėl aš prisigersiu ir nė nepajusiu, kaip dėl manęs, mano kolegos, pajus tą patį jausmą”. Vėliau dar sako: “blogas buvo vakarėlis, jei iš ryto nebuvo gėda”.

Čia, supraskite, jau yra alkoholizmo požymis: “gydau tuo, nuo ko susirgau”. Šis paradoksas nėra nei šmaikštus nei veikiantis. Čia, atleiskite, jau galima net ir suicidinių savigraužos požymių įžvelgti: “manęs nieks nemyli, todėl aš nusižudysiu”. Man ši frazė tapati “gydau tuo, nuo ko susirgau”.

Iracionalus elgesys būdingas žmonėms, kurie bėga nuo problemų vietoje to, kad jas spręstų. Vartoti alkoholį dideliais kiekiais įvairiuose vakarėliuose yra iracionalu[3]. Gal geriau padainuokime dubstepą, jei jau norime, kad dėl mūsų žmonės patirtų svetimos gėdos jausmą?

Artėja Kalėdiniai vakarėliai visokie. Neracionalaus elgesio periodas artėja.

_____________________

[1]– Apie fiziologinį paklauskite Justės.

[2]– Šiai taisyklei yra išimčių: išimtis nr.1, išimtis nr.2

[3]– dėl to kai kurie žmonės vartoja kitus narkotikus, pvz. kanapes. Bet apie tai kitą kartą.

Penktadienio schema #2

Tai štai, atėjo penktadienis. Buržujus, reikia tikėtis nepasi…s su savo “Penktadienio internetais“, o aš šiukšlinuosi su “Penktadienio schema”. Praėjusį kartą buvo apie tai kaip mes praleidžiame normalią dieną. O dabar štai toks mano išminties blykstelėjimas, kuriame lyginau tai ką žmonės daro internetuose su tuo ką jie daro… lovose ir… metrikacijose 🙂 Tad spauskit čia (ans didinasi):

Jei skaitote iš apačios į viršų, tai žinokite, kad paspaudus didinasi, o jei iš viršaus į apačią, tai žinokite, kad jau pasididino ;)
Jei skaitote iš apačios į viršų, tai žinokite, kad paspaudus didinasi, o jei iš viršaus į apačią, tai žinokite, kad jau pasididino 😉

Grafikai paimti iš Eurostat’o neturi matavimų vienetų “Y” ašyje. Man jų ir nereikia, nes man įdomus tik pokytis. Jeigu jums įdomūs ir absoliutiniai dydžiai, tai prašome į Eurostat.