Анти-opengov или премеждията ми с регистъра за ражданията

„Ако пуснем свободно данните, те ще ги вземат!“

Вероятно си спомняте, че в началото на годината отворих данните на регистъра за ражданията. Министерството на здравеопазването създаде система, в която болниците са длъжни да вписват всички раждания, подробности за бебето и майката, кой е водил процедурата, дали има инвитро и прочие. Много полезна информация, от която за жалост имаме достъп само до общата бройка раждания за регионите. И това обаче е нещо. От съобщението на министерството става ясно, че всеки ще има достъп до тези данни на страницата на министерството.

Да, ама не…

Още от самото начало забелязах, че сайта не е достъпен от чужбина. Успях да го отворя през прокси в България и не ми хареса как са го направили. Затова направих своя визуализация. Тъй като данните от техния сайт не бяха отворени, направих скрипт, който да ги тегли и да ги предоставя свободно в лесен за анализ формат. Всичко течеше добре, докато от министерството не блокираха първо сайта ми, а след това и всички прокси сървъри. Така известно време читатели на този блог теглеха данните и ми ги пращаха докато не блокираха и тях. В началото на февруари проведох няколко разговора с отдел „Електронно здравеопазване“, които поддържат платформата. Те твърдят, че не са блокирали никой.

Сега виждам, че сайта е променен отново. В началото на статията ще намерите снимка на голямото нововъведение – на всеки 10 заявки иска анти-спам код. Това само по себе си обезсмисля публикуването на данни. Голям плюс е, че вече показват цифрите в табличен вид с възможност за сваляне (вероятно след като го споменах 3-4 пъти), но и там има два проблема – първо данните не са разделени по дни, а сумарно за избрания период. Второ – данните са с Windows-1251 кодировка, което противоречи на всички стандарти.

Тези „подобрения“ са една малка стъпка напред и няколко големи назад. Точно това имам предвид, когато говоря за псевдо-отворени данни и илюзия за прозрачност. В случая наистина имаме информация, които е публична. Ако обаче се опитате да я вземете за анализ, процедурата е максимално усложнена. Да не говорим, че автоматичното сваляне е практически невъзможно.

Днес се опитах да се свържа с отдел „Електронно здравеопазване“ към министерството, но всички експерти там ме насочваха към шефа им – Благой Миров. Точно с него говорихме преди. За жалост ми казаха, че е бил зает през целия ден и вероятно затова не ми вдига. Всъщност след като по някое време му писах мейл обяснявайки написаното горе, веднъж ми вдигна жена от неговия телефон с „Да моля“ и ми затвори веднага като разбра кой съм.

Както и да е… Вчера успях да обновя отворените данни в моя сайт и са актуални към 19-ти март. Има няколко грешки през февруари заради стария скрипт за теглене, но ще ги оправя скоро. За да ги обновя, се наложи първо да сваля ден по ден данните за последните 7 седмици (5-6 анти-спам кода), да ги прекодирам в UTF-8, да ги сортирам по региони, да ги обединя в един файл, да добавя дати и да ги синхронизирам с наличните данни на сайта ми. От там може да свалите таблицата такава, каквато министерството трябваше свободно да предостави на първо място. Аз знам как да направя всички тези трансформации и то сравнително бързо. Колко обаче го могат и биха седнали да се занимават?

Впрочем, преди месец добавих още една интересна метрика – сравнение с раждаемостта през 2010-та. Изчислявам средно колко деца са се родили дневно във всеки регион тогава и сравнявам с избрания период от 2012-та. Вижда се много ясно в проценти кои региони изостават и кои са напред. На тази страница ще откриете и други отворени данни, които съм публикувал.

21 коментара

  1. Хората просто не се отказват лесно от възможността да контролират нещо, веднъж получили я. Не, че в случая имат право на този контрол, но това тях не ги интересува.

  2. @mdam – То това не е дори контрол – просто чувство за собственост на информацията. „Как така някой ще я взима просто така“. Философията е, че всичко трябва да се затваря и пази.

  3. Малко се обърках като четох статията ти.

    Аз като потребител виждам данни. Предполагам и ти ги виждаш като влезеш. Вярно не са най-детайлно ниво, но са прилично поднесени.

    Погледнах и следния документ:
    http://lex.bg/laws/ldoc/2134929408

    Не съм правист, но не намерих текст дето директно да се нарушава?
    Явно си навътре в нещата. Обясни с накратко къде е нaрушението.

    Доколкото схващам ти искаш АВТОМАТИЧЕН ДОСТЪП ДАННИТЕ? Това аз мога ли да го поискам от други институции? Например разпределение на престъпността и т.н…

  4. @Цанко Стойков – Първо, ти виждаш данните, но тези работещи зад прокси или в чужбина не могат да ги видят.

    Второ, законът за достъп до обществена информация е доста остарял и за жалост не обхваща отворените данни. Могат да се регламентират чрез него, но далеч не е достатъчен и не гарантира принципите на прозрачност и структурираност. OpenGov трябва да поддържа и да разчита на отворени данни. В самият закон има заложени вратични, чрез които може лесно да бъде отказана иначе публична информация.

    Трето, аз не искам автоматичен достъп до данните, а някакъв достъп. Това, което ти виждаш не са данни, а визуализация на такива. Наскоро добавиха сваляне на цифрите, но както писах в статията, направено е неправилно и непълно, а това ги прави много трудни за използване. Няма възможност да се взенат наведнъж суровите данни по дни, от което се губи въобще идеята за сваляне на Excel таблица.

    Ето, сега ако искаш да направиш справките, които аз правя в моят сайт, какво би трябвало да направиш според теб? Не говоря за графиките – просто да си сметнеш цифрите в една таблица. Какви данни ще свалиш от сайта на министерството и как ще ги обработиш? Това в крайна сметка е полезността на тази информация. Да си стоят някъде на някаква си страница е хубаво, но какво от това. Данните са ценни, когато се свързват с други данни и се правят изводи. Иначе са просто отговор на чиновническото „абе направи нещо там да има“ и отбиване на номера.

    Четвърто, дори да има приемлив начин да се вземат данните, защо беше нужно да блокират сайта ми? Автоматичното сваляне е общо понятие – както ти можеш да свалиш цифрите, така мога и аз да направя скрипт да го прави. Защо след като пуснах визуализацията първо блокираха мен, а после един по един тези, които ми помагаха? Определено не е заради спам и натоварване, защото става дума за 10-тина виртуални посещения на ден. Какво обяснение имаш ти за това?

  5. @Боян Юруков
    Съгласен съм с теб с една уговорка!
    OpenGov – доктрината трябва да се отнесе към НСИ.

    Какво мислиш са тези данни ? Не знам как се обновяват, но са по-подробни!

    (1.1.1.Раждания по местоживеене, статистически райони, области и пол)

    Да блокират достъпа ти е си е дискриминация. Как разбра, че са те блокирали?

  6. @Цанко Стойков – Това е много погрешно схващане. НСИ публикува вече много статистика в удобен за обработване формат, но това не са отворени данни и opengov. Статистиката е обобщение на нещо най-често базирано на изследвания, допитвания или преброявания.

    Отворените данни са текуща информация за работата, документооборота, проблемите, финансите, успехите и прочие. Това е оперативна информация, която не представлява следствена тайна или не съдържа лична информация. Дори и в тези случаи има възможност да се обобщи и пусне, както виждаме при регистъра за ражданията – средно по регион и ежедневно.

    Разбрах, че ме блокират, като един ден работеше от моя сайт тегленето, а на следващия – не. В същото време работеше на други сайтове. След това спряха прокситата, защото минавах през няколко. Спираха ги едно по едно докато не спряха всички. Разбрах, че е насочено и че е на програмно ниво, защото имам достъп до сайта на министерството и някои ресурси, но точно до данните и този сайт нямам.

    До сега не съм получил никакъв отговор от екипа поддържащ системата. Не ми вдигат вече телефона и не си отговарят на мейла. Това е.

  7. Каква е логиката на анти-спам филтър на място, където не може да се публикува?

  8. @Vasil Svetoslavov – ако питаш мен няма никакъв смисъл от антиспам филтри по принцип. Това е илюзия за защита от спамъри докато в същото време се унищожава полезността на системата.

  9. Днес прекарах половин час в точене на данни на ръка, но в крайна сметка ги обнових до края на май. Вече са актуални

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *