Schema #37. Grindos duomenys

Kaip jau rašiau anąkart – einu į github.com/Vilnius, žiūriu į duomenis, medituoju, ką nors sugalvoju ir dedu čia.

Šį kartą užsimeditavau ties Grinda. O dar tiksliau gatvių avarine tarnyba.

Duomenys baisiai netvarkingi. Vieni failai CSV, kiti XLS, kiti vienas kito kopija. Išmėtyti padieniui. Bet mes jau pripratę. Dažnai tenka gauti excelius su baisiai įmantriu visokių lentelių formatavimu, fontais, tarpais tarp skaičių, kableliais vietoje taško ir kitokia velniava. Duomenų tvarkymas būna total-košmar.

Reiktų vieningo formato failų. O dar geriau – vieno failo. Jokių formatavimų. Geriausia CSV. Bet visi viską žino. Džiugu, kad tie duomenys ten yra.

Paanalizavau tik vėliausią ten rastą kovo mėnesį. Ir taip pavargau dėlioti tas kiekvienos dienos lenteles į vieną failą. Garantuotai privėliau kažkokių klaidų, nes tos lentelės ten net ne vienodos. Bet per daug nesinervavau, o tiesiog paėmiau tuos duomenis, kurie išsiparsino vienu ar kitu būdu.

Iš ten esančios informacijos man pasirodė vertingi tik registracijos laikas, sprendimo laikas ir problemos aprašymai. Iš registracijos ir sprendimo laikų gavosi histogramos, o iš aprašymų – žodžių debesys.

Continue reading Schema #37. Grindos duomenys