Две добри новини за отворените данни в България

През изминалата седмица се случиха няколко интересни неща около отворените данни в България, които не трябва да пропускаме. Не са скандални, не са пикантни и макар да идват със ситен шрифт, имат потенциал да променят много в положителна посока.

Първата е, че благодарение на Общество вече имаме държавен портал за отворени данни. Какво прави Общество ще намерите и тук. Базиран е на CKAN разработвана от Open Knowledge Foundation. Там вече ще намерите няколко качени източника на данни. Идеята е порталът да се попълни с всички организации и данните, които предоставят. Към момента регистърът е предимно демонстрация какво може да се направи. Той предлага документация и интерфейс, който обогатява отворените данни. Има известни ограничения, но не те са пречката. Основният проблем е, че са единици институциите с данни, които може да наречем дори условно отворени. За да се попълни портала, трябват усилия от страна на Министерски съвет и самите институции. Това е в известна степен тест за заявките на политиците ни за прозрачност и ангажиментите на страната към Open Government Partnership.

Другата добра новина е, че най-накрая има реален шанс да бъде отворен Търговският регистър. Както писах многократно до сега, Агенцията по вписванията позволява интеграция с публичната база данни и достъп до цялата информация срещу скромната такса от 30000 лв. Последната е напълно неоправдана от гледна точка на разходите им. Няколко фирми са я заплатили и предлагат комерсиални продукти около тези данни, което само по себе си е прекрасно. Междувременно на повечето ни се налага да се борим със сайта на ТР, който редовно се претоварва. Ново предложение на служебния кабинет ще свали таксата на 100 лв., колкото са реалните разходи по интеграцията. След подписване на договор ще получаваме FTP акаунт за сваляне на данните и ще дадем адрес, където системата на ТР да ни изпраща обновления. Това ще позволи създаването на редица приложения и алтернативи на сайта на ТР. Единствените ми притеснения са свързани с лиценза и следващия кабинет. Те може да отменят постановлението или да наложат лиценз, който на практика да блокира свободното използване на данните. Има много начини да се баламира достъпът до публична информация. Добавянето на captcha на сайта на ТР е един от тях.

Третата новина е новият проект за Административен регистър. Не мога все още да кажа дали е добра, защото малко ще бъде променено в достъпността на информацията. Административният регистър, също както Търговския, присъства редовно в предложенията ми към МС за нови мерки в посока прозрачност. Той съдържа както цялата структура на администрацията, така и данни за нормативните актове, регистрационните режими, предоставяните услуги, ръководните кадри и броят на заетите и свободните места. Тази информация е налична за последните 10+ години. Сериозен недостатък на сегашния регистър обаче е, че може да правите справки само за отделна структура и то за настоящия момент. Няма възможност, например, да сравните броя заети места в една агенция сега и преди година. Не може да свалите информацията за цяло министерство и да визуализирате структурата му и броят услуги, които предлага или как са се променяли през времето. Опитах се няколко пъти да получа цялата база данни по ЗДОИ, но без успех. Новият проект наистина предлага подобрения, но запазва недостатъците на публичността на досегашния сайт. Затова пуснах становище с конкретни промени на точки в проекта и се надявам да бъде разгледано. Никоя от промените не нарушава неприкосновеността на личната информация на служителите или изисква допълнителен бюджет за разработка. Ефектът от тях ще бъде обаче значителен, особено ако получим достъп до историческите данни на настоящия регистър.

23 коментара

  1. Вчера прочетох новината за проекта на Общество и много е зарадва. Единствения проблем е сайта. За UX едва ли са чували…

  2. Това е само начална фаза, а и използват стандартна платформа. Може да се направи още доста, но трябва първо да видим данни и тогава. Всъщност Общество трябва да види първо ангажимент на кабинета – сега всичко са направили те, а отворени данни не са подадени от другата страна. Порталът обаче е добра отправна точка за конкретни проекти за отваряне на данни.

  3. Първото впечатление е най-важно..след като нищо не е готово, защо тръбят?

  4. @Иван Иванов – кое не е готово? Първото впечатление е доста добро. Порталът изглежда и работи прекрасно. Не знам какъв UX очакваш. Това не е социална мрежа или новинарско сайтче, а портал за намиране на данни.

  5. Под готово имам предвид следното: когато посетиш даден сайт, да има какво да правиш в него.
    Аз когато разбрах за този сайт – влязох веднага и след минута напуснах…за това голямо време хвърлих поглед над качените материали и видях как се визуализират.

    Всичко е качено преди месец..от тогава като гледам нищо не е качвано. Сега свалих два документа – текстов и таблица. И двата не са четими при мен..да.. ще кажеш, че проблема е у моя компютър – но не се сещам преди колко време съм попадал на не четим текст.
    А и този сайт би трябвало да е приспособен към всякакви хора . Т.е. различни формати на информацията.

    Не искам да се приема коментара ми като хейт! просто изразявам мнение относно това, защо се рекламира сайт в който няма качено (почти) нищо.
    За без пари – толкова. Похвална е инициативата и дано работата по нея не спира.

  6. Соросоиде защо не напишеш за Скандала в Румъния – Майкрософт и Фуджидцу Сименс..
    Докато има Майкртософт никакви отворени дании , стандарти не може има..

    Ти Соросоиде имаш ли въобще електронен подпис , подавал ли си данни , да видиш , ако нямаш windwos не може да си подадеш ДДС -то. защото иска Active-X контроли..
    На Линукс единствено годишната декларация можеш да подадеш.. Декларация за осигуровките и трудовите договори иска предварително подписан файл.. А българските доставчици за елекстронен подпис не предоставят програма на линукс за подписване на файл.. трябва в команден ред да подпишеш файла.

    И нека да видим каква системата на НАП подаваш данни и това което ти връща системата е кога си подал файла .. Неможеж да направиш какво е имало в този файл даже , а никакви справки за контрол не можеш да извадиш , трябва да идеш да се помолиш и в 7дневен срок да ти дадат някоя стандартна справка..

    Цялата държава може да се направи много по-ефективна – като се стандартизират електроните фактури , Данъците да се внасят по индивидуален IBAN..

    Защо не се прави : Защото Икономиката е Религия това не е наука , и като всяка господстваща религия , тя трябва да осигурява работа на повече свещеници на мрака..
    Защо студентите по икономика на запад и в България са повече от инженерите – защото Икономиката е религия .. Това са училища , медресета на дявола.

  7. Пиша още един път защото те виждам , че си пълен бот или ламер. Не подхожда на човек учил CS дори и един два семестъра преди прехвърли изчислителна наука..

    Какви FTP какви 5-лв. . данните трябва да са в база данни , отчетите са се стандартизират да се качават xml файлове.
    Отчетите се предават в Статистиката до 31 март , търговския регистър може спокойно да вземе отчетите от статистиката .. както прави НАП. И не трябват никакви FTP-та защото статистиката е с informix или IBM-DB2 ..

    Базите от данни са скъпо нещо , а робите забранено да ползват OpenSource..

    Този сайт на Търговския Регистър е подарен от твоите господари САЩ и ЦРУ. В началото когато го пуснаха пишеше с подкрепата на Фондация на ЦРУ , агенция на САЩ..

  8. @Иван Иванов – Както писах в началото, сайтът е демострационен на този етап. Има доста какво да се прави по него, но като за начало е добре да се дадат данни и да се напълни с информация и примери. Целта му не е да бъде инструмент за анализ на данните, а портал, където да се намират по-лесно.

    @Дарина – две добри. Третата не е ясно още каква е. 🙂

    @nachia – Колко дебело алуминиево фолио използваш за шапката си?

  9. Едно не си разбрал от тъпото си обучение в Германия..

    Ако една теория има математически модел , не значи , че е вярна..

    И не всяка задача има алгоритмично решение..

    Юруков се опитва да ни представя математически модели на соросоидната теория.. Да беше се пробвал в Бизнес-математиката.. Най-ще ти подхожда на соросоидния скопен мозък.

  10. @nachia – извинете за наивния въпрос, но какъв точно Ви е проблемът? Ако имате желание да направите нещо по-добро, моля – запретвайте ръкави, направете го, покажете способностите си, ще получите публично признание 🙂

    П.С. Линуксът е най-готиното нещо изобретено след нарязания хляб, но аргументите Ви са в стил „путиновска пропаганда“ – „Ама вие що биете негрите“? 🙂

  11. Доста безмислена иниациатива, нали уж се дадоха доста пари за портала на електронното управление, който трябваше да прави същото. Това за ftp-то не го разбрах, да не смяташ, че всеки ден някой ще влиза и ще ти копира всичките подписани документи от търговския.

  12. @r3v0lv3r – Порталът за електронно управление към момента няма общо с отворените данни. Имаше вътрешен регистър, който трябваше да категоризира всички регистри, но така и не излез от тестова фаза. Основната задача на портала обаче не е само категоризацията, а предоставянето на единен интерфейс, през който да може да се използват разнородни ресурси. Порталът изтегля и обогатява данните.

    Това с FTP-то не си го разбрал, наистина. Базата данни се точи веднъж от FTP, защото е огромна. После с автоматичен интерфейс се получават отделните обновления. Документите не се точат наведнъж, а се предоставя на постетителя линк, който да отворви. Последните ще се отварят в един момент само с електронен подпис.

  13. @Боян Юруков – Зависи какво разбираш от огромна, без сканираните документи едва ли е над 30 GB. Все пак е обеспокоително, че всеки ще може да получава за такава малка сума данни, които не е ясно как ще използва – дали ще има егн-та и лична информация.
    Въпросът ми е ти имаш ли въобще право да имаш достъп до лични данни ?
    Как Агенцията ще гарантира, че ти няма да злоопотребиш с тази информация ?
    Друг интересен въпрос е, ако в момента се плаща 30к от Апис и Сиела, които продават софтуер, какъв точно интерес може да се очаква от свободни разработчици, за които 100 лв. са нищо.
    Интересен въпрос е също дали сървърите ще издържат евентуален наплив на клиенти искащи да теглят базата ?

  14. Данните са в XML формат и съдържат цялата история на всички фирми поне 10 г. назад. Затова не знам колко ще са големи. FTP е удачен начин за сваляне.

    Не, няма да има никакви лични данни. Всичко, което виждаме на сайта в момента го има – имена, позиции, капитал и прочие. Не се дава достъп до повече информация на никого. Просто се прави много по-лесна обработката на данните. Това е достъпно за няколко фирми и ще могат много повече да го правят.

    Резултатът ще бъде много повече услуги, които дават по-добър достъп до информацията, отколкото сакта на ТР. Някой ще са платени, други – не. Всичко това ще разтовари много сървърите на ТР и ще се фокусират върху изпращане на обновленията до много разработчици веднъж, а не същите данни на дестки хиляди посетители всеки ден.

    Всичко това плюс анализа ще помогне да хващаме измамите много по-лесно. Порочните връзки и дори кражбата на фирми ще се откриват бързо.

  15. @Боян Юруков – Сиела ,Апис и Лакорда са готови да плащат по 30к годишно за тези данни, явно има интерес и те изкарват добри пари, банките използват търговския, за да гонят длъжниците, от което те също печелят. Същевременно фирмите си плащат за да обновяват данните в регистъра, които, евентуално всеки ще може да получава за 100 лв. Много по-добре е да се увеличи таксата за тази интеграция и да се намалят таксите на за регулярните услуги, отколкото да се раздават на практика безплатно данни, които са стрували на данъкоплатците милиони. До колкото разбирам, реално натоварването на сървърите на АВ няма да се промени, даже може да има негативен ефект, защото ще се осигури по-лесна възможност за теглене на документи, без да се минава през графичния интерфейс. Нормален човек прави справка и тегли документите само на лицата, които го интересуват, докато ти например ще получаваш всичко без изключение. На всички е ясно, че една автоматизирана услуга генерира много повече натоварване от 1 потребител, защото обработва всички данни, а не се ограничава само с тези, които пряко интересуват потребителите. Допълнително твоята система ще може да прави само справки, тоест натоварването от потребителите, които работят с регистъра ще си остане.
    Тази инициатива ще се окаже поредната недомислица в нашата държава, да не се окаже, че ТР е на загуба и трябва пак да се качват такси, доста хора са доволни от по-ниската такса за подаване на ГФО по електроннен път.

  16. @r3v0lv3r – Всъщност сайтът генрира много повече натоварване, защото данните се трансформират и за една елементарна справка се затеждат поне 5 различни страници и множество заявки до базата данни. Умножи това по няколко десетки хиляди на ден и ще получиш огромно натоварване за елементарни справки.

    Когато данните са достъпни на други услуги, които предоставят безплатно или много по-евтино от Сиела и Апис информацията, натоварването на сървътите на ТР ще са само колко да се дръпнат еднократно обновяванията за деня. Това е. При това интерфейсът на другите услуги ще са много по-удобни. Документите ще се теглят отново според нуждата, а не всичко наедно. Скоро и те ще са с електрнен подпис, така че потребителите ще използват своя директно на сайта на ТР, но намирането им ще е по-лесно и няма да натоварва ТР.

    Относно цената – въпрос на решение е. Парите събрани от продажбата на базата данни до сега не оправдават разходите и са капка в морето спрямо тези за списване на фирмите. Данъкоплатците са дали само няколко милиона за генериране на базата данни и точно затова би трябвало да имат лесен достъп до нея. Това го има в закона, но на практика не се осъществява, защото сайтът на ТР нарочно е направен неизползваем. И да, това го знам от хората участвали в проекта – ръководството е искало да е така.

    Ако не искаш данъкоплатците да плащат милиони, най-добре е точно да се отвори базата данни. И сега всички държавни институции могат да я използват безплатно, но нямат ресурс да я интегрират в системите си. С отварянето ще се появят инструменти за това и ще е много по-лесно за тях. Реално повечето държавни институции плащат десетки милиони на година да купуват софтуера на Сиела, Апис и прочие. Вместо това ще могат да използват по-лесни и по-евтини продукти, ще има софтуер за анализ с отворен код и по-голяма конкуренция. Да не говорим за по-достъпния анализ на данните за журналисти и разследващи.

  17. @Боян Юруков
    Темата с изискването за сертификати няма да е почвам, защото тя си е доста дълбока, все пак свободните данни ще направят информацията доста по-достъпа и намирането на изсточника доста по-трудно, все пак злоопотреби с данните има и ще има. Другият момент е дали хората ще се доверят на справките от трети сайтове или отново за по-сигурно ще си ги пускат в сайтът на ТР. Друг въпросът отново е дали справките на потребителите са по-тежки, от процесите за генериране и изпращане на хмл-ите или каквото и там да тече по жицата. Все пак един човек пуска няколко справки на ден, а машината не спира да изпраща данни.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван.

Този сайт използва Akismet за намаляване на спама. Научете как се обработват данните ви за коментари.