Днес Томислав Дончев съвсем без ирония помоли да отбележи, че не трябвало да се чака съгласие за публикуване на най-големите получатели на поръчки и проекти по еврофондовете, а можело просто да се видят в портала на ИСУН.
Да, наистина – там са… почти. Липсват онези прибрали стотици милиони скрити зад Автомагистрали ЕАД и подобните паравани за безконтролно харчене. Но какво са това няколко стотин милиона между приятели?
Да, наистина може да се намерят. Дори като пуснаха портала се похвалиха, че имат отворени данни. Т.е. пак имат отворени данни, защото бяха платили за такива в стария ИСУН, който беше много хубав, ама не беше готов, особено от гледна точка на прозрачността и трябваше да го ремонтират.
Та аз като чух това се засилих към портала за отворени данни на същия този кабинет, в който Дончев така дейно работеше за електронни услуги пръснати тук-таме, че да ги пише за egov и да мирясаме. Да, там имаше данни за бенефициентите – от 2015-та. Малшанс.
Отворих ИСУН и о, чудо! – има бутон за сваляне на отворени данни. Най-накрая! Затърсих къде мога да направя подобни справки и да сваля нужното ми, но уви – нямаше. Трябваше да се сваля всичко програма по програма.
Пуснах първата и зачаках. Свали се файл от 1.7Mb за Транспорт и транспортна инфраструктура. Повторих същото още 20 пъти докато след 20-тина минути не получих 307 Mb в XML файлове.
Ако не знаете какво е XML и как се работи с него, съжалявам, ония курс по Excel в офиса дето проспахте няма да ви помогне. За практически всички журналисти данните в този формат са безполезни. Затова често се обръщат към хора като мен да ги сдъвкват в нещо потребно. Аз с така отворена информация мога да работя. Повечето, които имат нужда от нея веднага – не.
Разбира се, с данните следва да има схема и описание кое какво означава, каква е структурата и номенклатурите, но такова нещо почти не се среща в родната администрация. Затова не следва да се учудваме, че не са си документирали собствените данни. По имената на полета избрани наслуки от навярно разбрал значението им програмист аз догадих какво би трябвало да значат изначално. След това написах няколко скрипта на bash да извадя статистика за структурата, за да знам с какво си имам работа. 41280 проекта, 54451 юридически лица със 122049 взаимодействия между тях. Тръгнах да пиша нещо набързо на bash да извади имената им, взаимовръзките и прочие. Т.е. да сдъвква тия 300Mb от машинно четима информация. Утре ще си играя още.
Междувременно намерих и доста грешки и липсваща информация. Вземете например АНИВА ЕООД с ЕИК 121282600. Няма специална причина да избера тях. Нямам и идея кои са – просто бяха първите в търсачката. Уникалният код в данните им е b1be295ec5e347a7081ff257e61ab5e6f2ea4982. Според търсачката са изпълнители в 5 проекта. В отворените данни обаче се виждат само в двата от Развитие човешки ресурси, но не и в трите от Иновации и конкурентоспособност. Но какво толкова? Тук само за едни 812156.50 лв. говорим – даже за половин чехмедже няма.
Та дори сваляйки суровите данни и с нужните технически умения да се борави с тях, пак няма да получим вярна справка за реално получилите еврофондове. Нищо от това всъщност не е ново – за проблемите с данните от еврофондовете, достъпността и грешките говорим от години. То дори цели проекти изчезваха в портала с обяснение за системни грешки. Една съвсем явна управленска „грешка“ беше дългото криене на данните за селските райони. ПРСР нарочно години наред не беше вкарван в ИСУН, за да може ДПС да се нахрани скрита от погледите на обществеността.
Затова, да драги мои – наистина в ИСУН ги има данните. Повечето поне. И ако искате въпросната справка, а хора като мен не си вдигат телефона, защото изработват данъците за вилите за тъщи на заместници и съветници, за които същия този Томислав Дончев мижеше почти десетилетие по коридорите на МС, то хващайте молив и тетрадка и започвайте да смятате на ръка прелиствайки търсачката на ИСУН.
Така или иначе все още искат всичко на хартия – с мокър печат и „вярно с оригинала“. Та и отворените данни на ИСУН те така.