Данни за раждаемостта в България

Вероятно сте попаднали на новината в Дневник, че Здравното министерство е пуснало информационна услуга, с която всеки може да провери колко деца в кой регион са се родили. Има разбира се едно „но“ – информацията се подава в рамките на максимум 3 дни и вероятно в някои болници все още не са наясно, че трябва да го правят. Все пак е напредък, че за всяко АГ отделение има определен човек, който носи персонална отговорност, ако данните не са въведени. Това е нещо, което трябва да се направи за всички отворени данни в администрацията, когато бъдат пуснати.

Период 01.11.11-10.01.12. Непълни данни!

Тъй като ми е хоби да се ровя в правителствени данни, реших да дръпна и тези тук. Оказа се (почти) невъзможно. Системата може да им е струвала само 28 хиляди, но е направена максимално усложнено. Не знам дали целта е била да не може да се изкарват каквито и да е било справки, освен тези, които те искат, но (почти) успяха. Ако трябва да го сравяня с нещо, то логиката на системата прилича на бюрокрацията – попълваш молба на едно място без да разбираш половината неща защо са, после обикаляш да си събереш цифрите от други гишета и така за всяка справка.

И все пак… ето тук може да свалите данните въведени от всички общини от началото на ноември насам в CSV формат, а това тук е скрипта, с който ги свалих. Всъщност единствено Силитра, София – град и Добрич са въвеждали данни от ноемрви – останалите са започнали в последната седмица. По малката бройка раждания съдя, че явно не всички болници дори го правят. Затова би било добре да видим и разбивка по АГ отделения.

Напоследък доста ви говоря за отворени данни, електронно правителство и прочие. Скоро ще ви пусна документите с идеи, предложения и технически изисквания, който подготвям. Похвално е, че Здравното министерство е пуснало такава информационна услуга. Намеренията им очевидно са добри и както се вижда – цената не е въобще висока като се има предвид, че са използвали Oracle Application Express. Все пак, това далеч не е прозрачност и отворени данни. Точно обратното – това е типичен пример за система, която по дизайн е несъвместима с други такива. За да може тази услуга да е полезна, трябва да се гарантират три неща:

  • надеждност – трябва да сме сигурни, че всички раждания се въвеждат и че пропуските наистина се наказват
  • отворен формат – данните за определен период трябва да могат да се свалят в XML, CSV и/или Excel формат
  • документация – формата, работата на услугата и лиценза и трябва да бъдат добре описани, достъпни и лесни за комбиниране и разпространение
  • Допълнение

    След като свалих данните за раждаемостта, взех тези от последното преброяване и направих следния инструмент:

    Не него може да видите на карта в абсолютни стойности колко раждания има за всеки регион. Тази функционалност е подобна на тази на официалната страница, но тук много по-удобно се сменя периода, а цифрите на картата се показват на скала с цветове. Ако изберете опцията за относително показване на ражданията, ще се покаже лента с възрастови групи. Щом изберете такава група, картата автоматично ще се обнови като покаже колко раждания има за всеки регион на 10000 души от на зададената възраст.

    Това дава възможност да видите, например, колко раждания има в Сливенско на 10000 души между 15 и 30 години. Или пък в коя община има най-много деца родени в съотношение с деца до 4 годишна възраст (т.е. къде има потенциален бум в последните години).

    Под картата ще видите графика с разпределението във времето на общия брой раждания. Данните се обновяват на всеки 3-4 часа и може да ги свалите от линка в тази статия.

    Кажете какви други данни искате от държавата тук.

    49 коментара

    1. Pingback: Боян Юруков
    2. Картата е снимка от сайта им. Представя информацията за раждания от АГ отделенията в страната от 1 ноември 2011 до 10 януари 2012. Със сигурност не са всички данни и не всички отделения в страната ги подават.

    3. Предполагам си погледнал че всъщност се ползва AnyChart за графенето и си забелязал параметърчето XMLFile=http://isr.mh.government.bg/pls/mhrb/apex_util.flash?p=365:112:2347949874901822:FLOW_FLASH_CHART5_R1399822002449976_bg …

    4. Да, видях го и се зарадвах в първия момент. Само че я го отвори тоя файл – показва данните по подразбиране – между 01.01 и днешния ден. Няма параметаризиране на дата. Последното става като извикаш wwv_flow.accept със съответните POST аргументи в точно определен ред и стойности. След това направиш един GET или към тоя линк дето даде, или към основната станица, но съдържайки session ID-то в адреса. Те това е глупавото. Погледнах и js-а и там се прави явно така – след зареждане на основната страница, данните се вкарват в един input и при onload се вкарват в самия anychart.

    5. Не ме питай колко време ми трябваше да изкарам това като информация. Дори да има начин да се параметаризира този скрипт за изкарване на данните, не е документиран и не се ползва от самия сайт.

    6. Ето каква визуализация направих за час работа:
      http://yurukov.net/opendata/birth/
      Ще я променям след време.

      Всичко на всичко ми трябваха 3 часа за да изкарам данните и да направя визуализация. Това на обществена поръчка колко ли ще струва и колко ли време ще се прави?

    7. Завърших визуализацията като добавих данните от преброяването. Сега може да се изкарва полезна информация от актуалните цифри за ражданията.

    8. Преди малко ми отговори администаторът на въпросната услуга. В момента почти всички АГ отделения подават информация. Тъй като още е нов проекта, са им дали 14 дни срок за въвеждание на данните. В рамките на следващите няколко седмици този срок ще бъде намален до 3 дни, както е по проект.

      Това означава, че до седмица ще имаме всички данни от първите дни на януари и след това ще знаем, че поне 2 седмици назад данните са точни. Услугата, която съм написал изтегля всички данни със стара дата и затова винаги ще има най-последната информация.

    9. Заниманията Ви са похвални. Работи ли ви се за Министерството на здравеопазването? Имаме доста идеи и проекти за развиване и реализация. Ако темата Ви е интересна – пишете на мейла

    10. Обнових отново страницата с визуализацията.

      Вече графиката с колоните се обновява в зависимост от избрания период, а когато натиснете върху картата, в графиката с показват ражданията за този редион за дадения период. От линка над графиката може да се изкарат отново колоните с ражданията за цялата страна.

      Друга промяна е допълнителни опции за изчисление на относителните раждания спрямо възрастова група – може да се показват спрямо избрания период или нормализирани към цял месец. Така ще може да се покаже колко раждания има средно на месец за 10000 души.

    11. От министерството за пореден път са променили кода на сайта. При това все още не е възможно лесно да се изкарват данните. Така за няколко дни отново скрипта не ми работи и се налага пак да откривам как да извадя данните. Това въобще не е начина да се публикува информация от институциите.

    12. Изглежда е по-лошо дори – администраторите са блокирали изцяло сървъра ми и така практически са ме спрели да извеждам данни от системата им, въпреки, че е публична собственост.

    13. Бояне, щом човек с твоя програмистки опит и при това работил за болнични системи е почти невъзможно до извади информация, какво остава за обикновената публика. 28000 лева са твърде много пари за това, което се предлага като възможности, а числото е подбрано нарочно до 30000лв, защото по-нагоре се усложнява с обществена поръчка. Аз лично не разбирам защо се прави система само за ражданията и след това се бие мощно тъпана? Това е прекалено частен случай. Би трябвало в подобна система да постъпват всички операции и по-важни дейности, както и финансирания по здравната каса и извън, за да има база за анализи.

    14. Реших проблема. Оказа се, че промяната е малка, но не тя е спряла достъпа на данни от сайта ми – просто са блокирали почти целия достъп на сървъра ми до тях.

      Благодаря на @arhivatora, @m00ncho, @ShadowmarN, @elinoir, @zashto, @kpacuma, @Momchil, @sKru4a, @_gradinko, @senseiski, @p0pa, @reguligence и най-вече на @Lucifer4o, за това, че ми помогнаха да открия блокажа.

    15. Като всичко друго в държавата ни… Ушким е публична собсвеност за общо ползване и т.н. Пък постоянно да променят скрипта и да блокират да не може да им се вземат данните… Какъв е смисъла? Вместо сами да ги дават.

    16. @Dyankov – Всъщност снощи пак промениха нещата и пак са ме блокирали софтуерно. Сигурен съм, че е на скриптово ниво, а не през firewall-а. Това го прави някой от тия дето им прави системата.

    17. Поредната манипулация, уж ги правят публични тези данни, пък всъщност не ти позволяват да ги свалиш. А още по-странното е, че това няма как да са реалните данни. Поне тези за Варна, мога да се обзаложа, че са много повече. Това просто е поредния опит да впечатлят народа.

    18. Данните би трябвало да се подават до три дни след всяко раждане. В момента са позволили забавяне от 14 дни докато се изчистят нещата, но някъде през февруари ще бъде намалено до 3. Това е официалната ми информация. Не можаха да ми отговорят защо съм блокиран, но ще настоявам да разбера. По моя преценка някой от разработчиците на проекта го е направил това, защото не съм изцяло блокиран, а по-скоро ми е спрян достъпа програмно до една точно определена услуга, която е ключова в тегленето на данни. Вече за точността на данните не мога да говоря. Презумпцията е, че са максимално точни.

    19. Другия интересен въпрос е, защо системата е достъпна само от територията на България? Предполагам достъпа все още е блокиран?

    20. @Димитър Петров – За жалост съм все още блокиран и не мога да получа данните от 16-ти насам. Блокирани са всички проксита и сървъра ми. От Здравното министерство ми обещаха контакт с тези, които поддържат сайта – фирмата, която го е направила – но не съм получил нищо. Не знаят защо е блокирано нещо. Нямало причина това да е така, а аз съм сигурен, че всичко е на софтуерно ниво.

    21. Като се прибера вкъщи по-късно ще си пусна един тунел до БГ и ще се опитам да помогна. От друга страна в страница на МЗ пише, че регистъра се поддържа от отдел „Електронно здравеопазване“. Т.е. при възникване на проблеми (трудности) би трябвало те да са отговорни?

    22. @Димитър Петров – Те отговарят, но го изпълнява фирма. Точно с тях говорих и ми обещаха, че ще ми пратят мейл с контактите.

      Един тунел ще свърши прекрасна работа. Ако имаш php, мога да ти пратя скрипт, който ще свали последните данни.

    23. Да имам, скрипта не е ли този по-горе (към който си дал линк)? Но иначе бих си поиграл да напиша и аз един, но използвайки Perl.

    24. @Димитър Петров – Ами не точно той. Обнових го, но не го пуснах, защото реших, че по него взимат информация, с която да ме блокират. Ако искаш може да ти го пратя. Имат едни много специфични неща, които трябва да се пратят като POST преди да се вземе информацията.

    25. Виждаш ми мейла от коментарите нали? Изпрати го там най-добре и ще го погледна и по-късно ще го пусна и ще върна отговор на мейла. Мерси

    26. Обнових графиките на данните:
      http://opendata.yurukov.net/birth/
      Сега са доста опростени. Добавил съм пояснения. Новостта е сравнение на ражданията за даден период със средното за 2010-та. Тъй като нямаме разбивка по дни и месеци за предишни периоди, изчислявам спрямо средната стойност за годината. Ще потърся и данни за 2011 и предишни години.

    27. Добавих още един аспект в графиката – сравнение със средната раждаемост за 2010. За жалост нямаме данни по месеци къде колко деца са се раждали, затова взимам средното за цялата година и сравнявам за избрания период. Също така, опростих графиката.
      http://opendata.yurukov.net/birth/

    28. Ще развиват въпросната система по думите на министъра:
      Регистърът на ражданията ще се свърже със системата на ЕСГРАОН

      Междувременно, аз още съм блокиран, а разбира, че и други хора биват блокирани. Последните данни са благодарение на Димитър Петров. От 2-3 седмици не мога да се свържа с техните IT-та, а последния път като говорихме те бяха много учудени, че са ме блокирали. Явно някой админ се е олял с инициативността и е решил, че нападат системата им щом някой посещава сайта 10-20 пъти на ден. Сигурно това са им половината посещения.

    29. Pingback: Посещението на Клинтън и какво е Open Government Partnership | К+
    30. Pingback: Анти-opengov или премеждията ми с регистъра за ражданията | К+
    31. Здравейте, г-н Юруков, тъй като подканвате при нужда от информация да ви пишем реших да се възползвам. Можете ли да ми дадете информация за раждаемостта в община Троян и област Ловеч за 2009, 2010 и 2011 години? Надявам се да!

      Страхотен блог – вече е сред фаворитите ми! Успех!

    32. Здравейте отново!
      Всъщност данните за област Ловеч са лесно достъпни, така че остава въпросът за община Троян!

    33. Нова идея.
      А можете ли да свържете данните със коефициента на смъртност за същият период?

    34. За жалост данните трябва да се обноявяват на ръка. Направих го днес и са актуални към 31 май. Добавих и нова функция – сравнение не само с раждаемостта през 2010-та, но за всяка година от 2004-та насам. Всичко е достъпно на:
      http://opendata.yurukov.net/birth/

      @Лора – Данните за раждаемостта ги има в НСИ. От там ги взех. Даже ги има по градове, ако не се лъжа.

    Вашият коментар

    Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *