„Освободете данните!“ или какво би направил Че в дигиталната ера

отворени данни, свободни, egov, open data, българия, статистика, анализ, демокрация, информация, карти, lipsva, революция, социални медии, журналистика

„Тишината е спор, който се води с други средства.“
Ернесто „Че“ Гевара

Смятам, че може да приложим думите на този символ на революцията в ерата на интернет. Липсата на яснота за състоянието на собствената ни държава в наши дни има съпоставими последствия за отделния гражданин, както по времето на Че. Тук обаче няма да говоря за сваляне на правителства и вдигане на оръжие. В наши дни информацията е по-силно оръжие и в следващите редове ще се опитам да ви покажа, че отворените (или свободни) данни ще променят начина, по който общуваме с и контролираме управляващите.

Какво са отворените данни? Това е статистическа информация, анализи, сурови цифри от преброявания и най-вече – отчети на различни ведомства. В една администрация има постоянен поток от най-разнородни данни, на базата на които би трябвало да се вземат решения. Пример за такива данни са заболеваемостта разпределена по региони, възрастови групи и месеци от годината. Затварянето на болници сега е тежка тема у нас и точно анализ на такава информация би помогнала да се оптимизира къде какви здравни заведения и инвестиции са нужни.

В основата си, цялата тази информация е принципно публична и всеки (на теория) може да я получи, ако се позове на закона за достъп до информация. Проблемът с това е, че 1. трябва да знаеш каква информация търсиш, 2. получаваш моментно състояние, а не постоянен поток от данни и 3. често документите се бавят или въобще не ги получаваш. Идеята на отворените данни е, че правителството предоставя цялата тази информация в публичното пространство през определен период във формат, който е удобен за визуализация или анализ. Това най-често са Excel таблици, XML или RDF*.

Когато предложих идеята за нещо такова в България като кауза на Капитал, от Програма „Достъп до информация“ са отговорили, че на този етап се борим въобще да дадат някакви данни, пък какво остава да пуснат голяма част от тях ей така в мрежата. За жалост са прави за нежеланието и мудността на администрацията, но има няколко светлинки в тунела. Първата от тях откриваме точно в Капитал, където комбинират данни от НСИ, за да покажат разпределението и растежа на заплатите по градове, както и такива от БНБ за увеличаването на лошите кредити в последно време. За целта, използват един уникален инструмент – GapMinder, на сайта на който ще намерите подобни данни в световен мащаб. Подобна информация показах и аз, но за смъртността и сърдечно-съдовите заболявания.

Друг пробив в посока отворени данни е успешната акция за публикуване на разпечатките от гласуванията на депутатите. Законът беше обнародван наскоро и сега очакваме първите документи. Тази информация може да се използва например, за да се сравнят публичните изказвания на депутати и предизборните им речи с реалните им действия. Друг проект, който започнах наскоро, е регистър на безследно изчезналите в България. В него с времето може да се събере информация за това къде, какви хора и с каква честота изчезват. В едно от предложенията, които получих, имаше идея тези данни да се сравнят с общата престъпност в региона. За жалост, събирането на такава информация е изключително трудно дори и с полицейските бюлетини. Затова след заявеният от говорителя на МВР интерес към проекта ми се надявам всичко това да се публикува в отворен формат, за да може да се анализира свободно.

Ползата от отворените данни е описана много добре в The Guardian от Симон Роджърс. Там той посочва един нов тип журналистика – този на данните, където хората в медиите ще се гмуркат в море от свободни документи, ще ги анализират и ще вадят пикантни подробности около резултати и провали на стратегии. В социалните мрежи хората пък ще могат да комбинират и визуализират информацията така, че да обяснят на другите по-добре различни процеси и проблеми.

Ако си мислите, че това бъдеще е още далеч, помислете пак! В същата статия се говори за плановете на британското правителство да „освободи“ огромни масиви от публични данни по начина, за който говорих горе. В щатите пък, Обама в слизането си на власт създаде портала Data.gov, където вече десетки хиляди правят анализ за правителството на добра воля и вадят изводи на базата на отворени данни. И в момента виждаме хиляди „иконографики“, които визуално ни обясняват сложни данни за икономическата криза, разливът от петрол или климатичните промени. Тези данни са и от голяма полза най-вече на бизнеса, защото помагат за планиране, предвидимост на разходите и намиране на нови ниши в пазара. Други уникални примери може да видите под статията ми.

Инструментите са налице. Липсват данните.

В един друг цитат, приятелят ни Че казва „Революцията не е ябълка, която пада когато узрее. Ти трябва да я накараш да падне.“ В този смисъл не мисля, че трябва да изчакаме моментът да узрее, за да поискаме отворени данни. Тези решения се взимат от хора на горните етажи и с подходящи аргументи и софтуер, може да се заобиколи неефективността на администрацията под тях. Същността е да им покажем, че отваряне на данните не означава, че разкриват грешките си, а че дават възможност на всички да помогнат с решението. Ако не го сторим, както ние – гражданите, така и самите управляващи ще трябва още дълго да се борят с дребни чиновници за всяко парче информация.


Следва лекцията на Тим Бърнърс-Лий за годината, през която данните станаха отворени по цял свят. Той дава прекрасни примери за важността на отворените данни и нуждата правителствата да го осъзнаят. Втората лекция е на Ханс Розлинг – човекът зад GapMinder, който разбива представите ни за разпределението бедността, СПИН и детската смъртност по света. Поселеният пример, който искам да ви дам, идва от Тед Дейвънхол, който показва че здравето ни зависи от това къде живеем като комбинира данни за индустриални комплекси, замърсяване и прочие.

* :XML е формат, които предава данните в структуриран вид, подходящ за четене от компютър. RDF се базира на XML, но включва и семантична информация – такава, че компютъра да разбере какво всъщност чете и сам да може да намери връзка с други бази данни. RDF е един от езиците, който стои в основата на третото поколение интернет.

Благодаря на Радо, че във Facebook ме насочи към статията на The Guardian.

51 коментара

  1. Сами бих допълнил мнението на Дейвид Камерън, лидерът на Консервативната партия във Великобритания за данните и отворените стандарти.

    http://www.ted.com/talks/lang/bul/david_cameron.html

    След като пое министър-председателският пост веднага обяви нови стандарти за прозрачност.

    http://nellyo.wordpress.com/2010/06/11/uk_transp/

    Кога ли ще доживеем същото отношение и от нашите политици?

  2. @Кирил Кирилов – да, бях пропуснал неговата лекция. Мисля си, че има желание за нещо подобно у някои политици, но не смятат, че е толкова наложително, особенно при лошата администрация, липсата на пари и реформи. От друга страна самите хора не осъзнават нуждата от такива данни и липсва какъвто и да е натиск от обществени очаквания.

  3. @Боян Юруков – А аз мисля, че е точно обратното. Една от причините да имаме лоша администрация е, че има много малко прозрачност е тяхната дейност, от където идва и слабият обществен контрол. Само ще допълня, че в България масово се злоупотребява със засекретяване на държавни данни и сме водещи в света по искане да данни от държавата чрез съдебни дела на базата на закона за достъп до обществена информация.

    А иначе си прав, че все още малко хора осъзнават ползата от такива данни, което е наистина жалко.

  4. Айде сега и да се качват и стенограмите от дискусиите в парламента и всичко да е организирано(свързано): закони, изкзвания,теми,реплики,дуплики и т.н.

  5. @Кирил Кирилов – Засекретяването е налице и наистина се злоупотребва. Пример за това е договорът с Microsoft. Мисля си обаче, че ако по подразбиране трябва да се публикува всичко в един портал, дупките в информацията ще се виждат много по-лесно.

    @Богомил Шопов – о, сайта е потръгнал. Дай да добавим feed-овете от законите и комисиите. Казвай, ако има нещо за правене там.

    @rda – това е планирано в следващия сайт на парламента. Виж статиите ми за него. Говорих с тези, които са изготвили поръчката и имат доброто намерение всичко да се индексира и вързва с профилите на депутатите. До колко фирмата изпълнител ще го осъщество обаче е друг въпрос.

  6. Pingback: Капитал
  7. На тази страница Бого Шопов е започнал прекрасна инициатива точно за това, за което говоря горе:

    Ще се опитам да пусна там данните, които имам в момента.

  8. Pingback: Boris Hristov
  9. Аз постоянно работя статистика и чакам този ден, когато данните ще са много и на разположение. Но докато чака човек поне се научава от как да намира данни, колко са надеждни, как да ги дозапълва и дори сам да си събира данни. Така намерих сайт с ужасно много метереологични данни за България http://www.stringmeteo.com/
    Тренирах с характеристики на поведение на хората от листа ми с приятели от социалните мрежи. Но и там не се знае дали са реално съществуващи хора.
    Нали знаете, че според официалната координатна система на България тя е на 4 части, застъпващи се или отдалечени! И не знам дали вече някой може да върне тези данни реално обратно, а не приблизително.
    Така, че кой ще може да гарантира, че ще се публикуват истински и изчерпателни данни? Иначе поне сега се знае, че са леко или много нагласени данни.

  10. @Боряна – това за координатната система не го разбрах. Когато данните са от различни ведомства и са в повече, дупките и напасванията ще се виждат по-лесно. Просто усилието нужно за подправяне на всички данни ще е твърде голямо, за да има смисъл, освен, ако не искат да направят нещо като ония финансови финтове в Гърция.

  11. Pingback: Pirate Party
  12. Pingback: Int. Pirate News
  13. Идейните и всякакви други съратници на Гевара правят с информацията точно обратното на това, което искаш ти. Наистина ли мислиш, че този титан на насилието и кръвопролитието се връзва с освобождаване на данни? Според мен се връзва с поробване, диктатура и лъжлива пропаганда.

  14. @Георги – мисля, че имаме много различна представа за труда на Ернесто. Дай ми пример за нещо в лекциите или акциите му, което говори за поробване или диктатура.

    Освен това, такова понятие като лъжлива пропаганда няма. ЕС води активна политика на пропаганда към приобщаване и стандартизиране, а в България се води също толкова силна пропаганда за развитие на демокрацията и гражданското общество. Кой казва дали една или друга пропаганда е правилна или лъжлива?

  15. @Боян Юруков – Извън основната тема но понеже стана на въпрос…

    Че Гевара е професионален партизанин подпалил граждански войни в половин дузина държави. Като един от ръководителите на кубинската революция той създава революционен трибунал, който екзекутира без съд и присъда стотици служители на предишната власт и създава трудово-възпитателните концлагери където са хвърлени десетки хиляди интелектуалци, доктори, юристи и други които отказват да се подчинят на режима на Фидел Кастро. Гевара е обвиняван в организирането и извършването на убийства на политически опоненти в крепостта Ла Кабаня, считан е за демагог, обикновен садист, който получава удоволствие от убийствата.

    Хуанита, сестра на Фидел и Раул Кастро, която познава Гевара отблизо, в биографичната си книга „Фидел и Раул, моите братя. Тайната история“ е написала за него:

    „За него нямаха значение ни съд ни следствие. Той веднага започваше да разстрелва, защото беше човек без сърце“

    По нейна оценка и мнение появяването на Гевара в Куба е „най-лошото, което можеше да и се случи“. И още, че Че Гевара е „далече от това, което мислят за него.“

    Ако човек вярва в демократичните ценности няма как да симпатизира на хора като Че Гевара. Само хора симпатизиращи на недемократичните комунистически режими като тези на Фидел Кастро и Уго Чавес симпатизират на Гевара (всички знаем комунистите колко бяха открити и склонни да споделят държавните данни). Аз също смятам, че употребата на неговата личност в тази иначе хубава статия е напълно неуместно.

  16. Как реално може да се използува RDF и семантична информация за създаване на отворенни данни? Има ли реални приложения? Може ли реалния бизнес да ползува RDF и да прави сайтовете си семантични?

  17. @Кирил Кирилов, @Георги – За Ернесто нещата са двуяки. Не забравяй, че тогава е имало много тежка очерняща кампания срещу него от страна на щатите и „анти комунистическия“ блок, затова е трудно да се прецени какво от това, което цитираш е вярно. Факт е, че хората са го обичали. Както намекнах по-горе – историята се пише от победителите. Реално и Левски и Ботев можем да ги опишем по подобен начин.

    Второ, не можеш да сочиш с пръст комунизма, че е бил потив отворените данни, защо на практика сега и демокрацията не е много за и то не само в България. Не е до социалния и политическия строй, а до това колко е развито едно общество, за да приеме концепцията и да я използва. Както виждаме по цял свят едва в последно време изникват такива инициативи и това се дължи както на технологичното развитие, така и на разбирането у властите, че няма да им се размине, ако не сътрудничат.

    На последно място – дадох пример с Че като символ на една борба. Сам знаеш, че символите често се разминават от реалните личности и историята им приписва хипер състрадание, идеали и морал. Това се дължи на чисто човешка нужда и не смятам, че има нещо лошо в нея. Самата статия няма нищо общо с живота или работата на Че, а използва метафората около него, за да илюстрира, че използването на такива данни би било революционно за журналистиката и политическият ни живот.

    @HotMonitor – на този етап реално няма практическо приложение освен самите разработчици да разбират по-добре данните. В същото време е вярно, че от гледна точка на автоматицазията и компютърните системи, фирмите в България така или иначе са доста назад. Използването на RDF обаче е подготовка за близкото бъдеще, когато този формат ще се използва много повече. Вече има доста разработки за семантично откриване и интегриране на данни и е въпрос на време да станат част от процесите на по-големите компании. Очаква се малко след това тези инструменти да бъдат на разположение на малкия и среден бизнес.

  18. Кога се очаква RDF да стане стандарт и достъпен за корпоративните сайтове? Има ли реално използуване на семантични техники за създаване на потребителски профили, изготвяне на персонализрани предложения, автоматично създаване на промо брошури базирани на потребителските продажби? В крайна сметка данните за продажбите и касовите бонове могат да се интегрират точно с такива отворени данни и да се получи семантичния ефект който представя Тим на ТЕД Така се връзват макроикономика (отворени данни) и микроикономика (корпоративни данни) а също и профили от социални мрежи.

  19. @HotMonitor – RDF отдавна е W3C стандарт (май от 6 години някъде). В същността си той е структура от данни с мета информация. Ако искаш конкретни брошури или профили, ти имаш тясно приложение, за което ще трябва да вземеш конкретни източници на данни, формата на които е достатъчно да е RSS или прост XML.

    Семантичната информация е полезна тогава, когато не знаем какво търсим или бързо трябва да напаснем чужда структура от данни към нашата. За целта в момента се обособяват различни инструменти за alignment, matching, mapping и т.н., които да помогнат в тази насока. Затова споменах, че ще трябва време докато те влязат в реалното моделиране на процеси – защото не са изчистени и достатъчно надеждни на този етап.

    Use-case-а със социалните мрежи е интересен, но за жалост никоя от тях не е пуснала семантично описание на данните си. Има частни модели, но на този етап не са много полезни.

  20. Под стандарт разбирам да започне да се използува масово не само да е W3C стандарт . Най-вероятно инструментарума не е надежден. Да не забравяме че фирмените продажби и оферти са също огромен източник на информация който никога не е бил анализиран семантично. Основно се провеждат масови кампании които в повечето случай не са таргетирани а поради свърхселекцията на човешкия мозък просто отминават покрай клиентите. Създаването на семантични данни в интеграция с други отворени данни е истинското приложение на информацията. Тогава може да задедеш и конкретен въпрос към собствената си база? Използува ли се пролог или други езици съвместно с RDF?

  21. @HotMonitor – първо трябва тези фирми или някаква организация да опишат продажбите и данните си въобще семантично. Европейската Комисия е започнала с процесите си, в щатите го имат като изискване от преди 10 години, но няма особен напредък, а в България ще го видим 1-2 години след крайния срок за изготвянето му, което ЕС ще постави.

    Инструментите наистина не са надеждни в смисъла на бизнес операциите, но не това е проблемът – липсва яснота и съгласуване между разработките и както при всички други стандарти – върви се в различни посоки. Ще трябва време технологиите да се съберат. Има бизнес приложения, но са под формата на модули в големи продукти. Приложението най-често е анализ и интеграция на данни.

    RDF е само един начин на описване и то не много добър. Аз предпочитам OWL2 (излезе преди година и нещо и май още не е минал W3CИзле). Май с него ще работя по Lipsva. За reasoning се използват различни езици – забелязвал съм Flogic най-често. Prolog сякаш не толкова. Има опити за създаване на семантичен query език, но проблемът е, че синтактично и логично записването на данните е твърде различно между форматите, за да има 1. универсален език и 2. трансформация без загуба на данни или идентификация на обектите.

  22. В крайна сметка сме заляти от огромно количество информационен боклук и технологиите ще разчистят този безпорядък и ще направят данните по смислени. Разбира се че да се направи сематична мрежа в глобален мащаб е много сериозна задача да не говорим че големите играчи ще насочват проекта според собствените си нужди. Да наистина живота става все по-сложен а кой ще надделе RDF, OWL или нещо друго предстой да видим но е добре да сме запознати с технологиите и тенденциите както и какво са постигнали водещите до момента и най-важното къде сме ние?

  23. Аз съм работила три години ГИС и го знам. Естествено е да имам и някакви данни. Това не е всичко. В земеделието изпозват мякакви малко изместени координати. В община София използват орязани координати и т.н. И всички са официални.

  24. Официално има агенция по кадастър, в която няма данни. Нали се сещате, ако имаше щеше да е абсолютно ясна цялата собственост. Но много дейности не могат без такава информация, така че има някаква такава. За всеки проект от стоителството, електрото, водоснабдяване, кабели и т.н. се предават данни в ОФИЦИАЛНАТА координатна система. Някои ги правят сами (защото може от съответната институция да не им ги признаят), а повечето вероятно плащат за трансформация. Може да са публикуват параметрите на координатната система. Но не може да се очаква да се публикуват координати на поредици от точки по принцип. Веднага ще възникне въпроса за формата и т.н.

  25. Хора,осъзнайте се!Стига с тая демокрация!Светът е в демократично робство,в една про-масонска-илюминатска-юдейска-американска-антихристка система,имаща си за цел да унищожи човечеството!Световната конспирация е наяве!Ес,Нато,Сащ,Нафта,Уефа,Фифа,Макдоналдс,Холивуд-всичко е глобализация и демокрация!Че Гевара се опълчи на този строй,на либерализма и капитализма,да го направим и ние!

    „По делата им ще ги познаете!“
    Исая 2:33

  26. ЗДОИ непрекъснато се заобикаля. Аз работих в кабинета на главния секретар на Народното събрание до септември миналата година. Познавам административните процедури и практики – в НС има около 20 вътрешни правилника за работа и там се работи по тях. Със сигурност има промени в правилниците, но новите също трябва да са достъпни. А не са! Може да се изработи много интересен въпросник. За мен проблемът е именно в ЗДОИ – ако работата на управлението е прозрачно, ще се спестят куп глупости и разходи. По принцип в държавната администрация не обичат процедурите, наричат ги негодни и това е повод да ги заобикалят, а всъщност най-вече не желаят да изготвят качествени правила, защото им пречат.

  27. @Gouliashka – Това е точно така. Мисля, че едно възможно решение е да има ясни отговорници за публикуването на такива данни. По сегашния закон за да получим информация, трябва да си я поискаме. Ако са длъжни да публикуват всичко, дупките ще си личат и ще можем да търсим сметка на определени хора.

    Какво друго може да ми кажеш от работата на парламента?

  28. Pingback: Сайтовете на полицията | Безследно изчезнали - Lipsva

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *