Снимка: Sofia Photo Agency
Доста се забавих с тези данни. Причината за това беше новината, че новият сайт на парламента ще тръгне изцяло в началото на 2011. За жалост, имаше голямо забавяне и тъй очакваните отворени данни не бяха пуснати тогава. Сега имам уверението на екипа занимаващ се с поръчката, че в началото на Март вече ще ги имаме. Става въпрос за пълна информация за индивидуалните гласове, участието в пленарна зала, комисии, изказванията, отсъствията, предложенията и законите за всички депутати. Същите данни ще бъдат разбити и по закони, а стенограмите от пленарна зала и комисиите ще бъдат индексирани, структурирани и свързани с профилите на депутатите. Въпреки, че вече имаме отсъствията и гласовете, много е трудно да се обработват. Дори след като по наша молба започнаха да ги пускат като Excel таблици, автоматичният анализ пак е труден.
Когато излязат XML файловете, ще може всичко, което виждате по-долу и в предишните статии, да се вижда в реално време, да е по-точно, по-богато на информация и да може да се разбива по периоди. Така ще може да се направи графика на промените в активността на една или друга партия, да се разбие тази активност по събития, теми обсъждани в залата и конкретни закони, да се съпостави активността на отделен депутат или група с обещанията в Politikat и да се провери до колко една партия реално подкрепя законите на друга и как това се променя във времето. Възможностите са безкрайни. Чакаме само данните.
Статистиката
Ето и последните цифри за сесията септември-декември. Още не съм изкарал данните за текущата сесия – ще изчакам да свърши. Всичко може да свалите като Excel файл, а тези за старите сесии – от предишните две статии (тук и тук). Ако желаете, може да ги комбинирате и да направите статистика за цялата 2010. В графиката долу се вижда съпоставка между зимната сесия и лятната.
Реално присъствие | Партия | Средно послушание |
---|---|---|
. (88.8%) 87.5% | ГЕРБ | . 86.1% (91.4%) |
. (88.8%) 88.7% | КБ | . 76.3% (77.2%) |
. (76.6%)68.3% | ДПС | . 80.9% (78.9%) |
. (83.3%) 84.1% | АТАКА | . 78.8% (87.4%) |
. (89.9%) 86.5% | СК | . 80.8% (86.1%) |
Положително гласуване | Активност при гласуване * | |
. (81.8%) 74% | ГЕРБ | . 71.8% (68.7%) |
. (58%) 53.6% | КБ | . 27.8% (26%) |
. (67.5%)62.3% | ДПС | . 18.4% (18.8%) |
. (78.8%) 73.4% | АТАКА | . 27.3% (33.8%) |
. (80.5%) 68.6% | СК | . 23.6% (25.4%) |
*: показва в какъв процент от гласуванията са участвали докато са били на работа. Не отчита пропуснатите гласувания докато са отсъствали.
Някои изводи
Що се отнася до отделни депутати, Доган пак не се е явявал нито един ден на работа. През изминалата сесия същият навик има и Пламен Петров от ГЕРБ. Метин от ДПС пък има цели 73% присъствие, при условие, че миналата сесия го е нямало никакъв. Най-послушни по партии са били Гюнай Сефер от ДПС с 94.3%, Галина Банковска от ГЕРБ с 92.2%, Мая Манолова от КБ с 87.9%, Ваньо Шарков от СК с 87.5% и Цвета Георгиева от АТАКА с 87.1%. С най-голямо участие пък е Нели Калнева-Митева от ГЕРБ, която е гласувала в 94% от случаите и винаги е била на работа. Лили Иванова има 96.3% участие, но то се смята за случаите, когато е била в зала, а тя е пропуснала 40 от 47 заседания. Въобще първите 106 места по участие в гласуванията са ГЕРБ, което ги прави най-редовни в парламента. На 107-мо място е Анна Янева от КБ с 56.6% участие при 75% реално присъствие. От АТАКА най-много има Павел Шопов с 51.7% при 94% присъствие. ДПС – Христо Бисеров с 51% гласуване, но той е присъствал едва на 4 заседания. От СК – Любомир Иванов с 44.3% и само 4 пропуснати заседания.
По партии се забелязва, че ГЕРБ участват в пъти по-активно, когато са на работа, спрямо своите колеги. За сравнение, дори когато от ДПС се появят в парламента, те участват едва в 18.4% от гласуванията. Това означава, че просто се регистрират, гласуват един от всеки 6 закона, а през останалото време са из коридорите. Социалистите, сините и Атака не са далеч от тези цифри. В послушанието се забелязва, че няма голяма разлика между партиите – всички се движат между 76 и 80%, с изключение на ГЕРБ, които са с 86%. Разликата не е много голяма, но може да е доказателство, че се гласува по-чинно от останалите. За жалост по статистиката за положителните гласове не може да се направи сметка коя партия коя подкрепя най-много. Би могло да се направи такава матрица едва когато излязат отворените данни и има връзка между конкретни гласове, законите и техните вносители. И сега това е възможно, но би отнело страшно много време и труд.
Отворени данни
Както е видно, с отворените данни могат да се правят доста интересни изводи. В последните седмици има доста раздвижване по темата или поне аз забелязвам повече неща. Едно журналистическо сдружение обмисля да събира база данни с източници на отворени данни и линкове за визуализация. Покрай активността в Twitter около конференция за отворени данни в Берлин, няколко човека подеха новината ми, че НС ще пуска данни. В последната ми статия писах за данните за енегийните източници в Европа. Покрай това се свързах и с международната фондация OKFN, която развива такива визуализации и проекти. През юни в София пък ще има Opencamp, където ще бъдат поканени международни специалисти по темата и представители на институциите. За него обаче ще пиша по-късно, когато излезе програмата. Снощи разбрах за един доста интересен проект за София, който също има изглед да пуска свободно информация за обработване. За жалост, нямам все още успех с полицията и идеята поне да пускат структурирани съобщения за изчезнали. Крайната ми цел е да пускат отворени данни за всички престъпления и решаването им, както се прави в Англия, щатите, Германия и много други страни. Усилията обаче продължават. Междувременно пуснах данни за вече решените случаи излезли от системата на Lipsva. Файлът ще намерите тук – XML (форматиран), JSON и CSV. Обновява се при всеки решен случай и се надявам да има повече такива.
За парламента – браво. Заглавието виж – „сесия“.
Да, така е като сменям заглавията на статиите в движение от телефона…
Поздравления за изследването! Както и преди съм ти казвал, мисля че такива статии са много необходими за България. Все пак искам да направя едно уточнение.
„В послушанието се забелязва, че няма голяма разлика между партиите – всички се движат между 76 и 80%, с изключение на ГЕРБ, които са с 86%. Разликата не е много голяма, но може да е доказателство, че се гласува по-чинно от останалите.“
За претенции за такива изводи си има статистика. Като се започне с уговорката, че изследването не е контролиран експеримент и може да има други влияещи фактори, освен партийната принадлежност, с твоите данни могат да се направят няколко теста. В случая ANOVA (http://bg.wikipedia.org/wiki/Дисперсионен_анализ) може да ти свърши работа (включва допускането, че разпределението на депутатите клони към нормално). Аз лично за целта ползвам OOO Statistics, а това ) е файлът с резултатите. Предвид, че имаме доста данни, не е трудно да покажем статистическа значимост.
Ако пуснем теста на всичките данни, директно излиза много висока значимост (p>0.001). За съжаление това ни казва, че има значима разлика между данните, но не и каква точно е тя. Аз пуснах и тестове, които сравняват някои от партиите по двойки (което е еквивалентно на t-test). Сравних ГЕРБ със ДПС и СК (защото те са най-близо като среден процент), ГЕРБ със КБ (защото те са най-голямата опозиционна партия, въпреки че и ДПС са близо) и ДПС със СК и с КБ (просто за съпоставка). Съчетано със осреднените данни, които ти си дал, може да се направи по-конкретен извод. Така например отново с висока значимост (p>0.001) излиза, че ГЕРБ са били статистически по-послушни от всички други проверени партии. В същото време когато съпоставяме другите партии, излиза, че между послушанието на ДПС и СК няма разлика, а ДПС са по-послушни от КБ с вероятност (p>0.007), което отново е доста добра значимост.
Прави ми впечатление, че в предишната сесия осреднените данни са били по-различни, така че май няма как да говорим за дългосрочна тенденция.
Може цялото това упражнение да ти се струва безмислено в случая, но се опитах да покажа, че в зависимост от данните, резултатите могат да бъдат много трудни за интерпретиране на пръв поглед, а твърдения като твоето са доста силна заявка.
Определено не твърдя, че алгоритъма ми е точен. Най-малкото не успях да направя толова сложни формули в Excel. Трябва да се прави по-точен статистически анализ и за целта трябва да се седне и да се разпишат формулите, но има и друг момент – не малка част от тези гласувания са за процедурни предложения. Има и такива, които са отменени или прегласувани. Тези трябва да се извадят. Не съм поправил алгоритмите точно в очакване на въпросните данни. Тогава ще ми е доста по-лесно да ги смятам и разпиша. При файловете горе дори съм почти сигурен, че съм изпуснал нещо в копирането, защото имаше разминаване с няколко десети. Точно това е проблемът като се смятат големи масиви от данни на ръка в таблици.
предполагам ще се разочароваш но имам новина за теб
целия ти труд е отишъл напразно
всички депутати могат да бъдат сложени в една единствена екселска клетка под името
„долни корумпирани гъзоблизци загрижени единствено за собствения си интерес“
@deepzone – не есъвсем така и се вижда от данните. Има и такива, които редовно ходят на работа и участват в гласуванията. Тепърва ще смятаме до колко са участвали и в дискусиите.
не виждам как „ходенето им на работа“ и „участието им в гласуванията“ ги изважда от клетката в която съм ги сложил
Не ги извежда, но можем да научим до колко са спазвали обещанията си и са се придържали към изказвания в зала. С категоризиране на законите като социални, лобистки и т.н., можем да направим профил на всеки депутат и група.
предполагам че цялото това занимание ти е интересно иначе нямаше да го правиш
също така предполагам, че изводите биха били правилни….ако се отнасяше за американския сенат а не за българския парламент
и да облечеш една маймуна в смокинг тя пак няма да може да танцува валс
надявам се да схванеш примера ми правилно
@deepzone – схващам ти метафората, но си мисля, че няма голяма разлика между нашия парламент и американския сенат. Може би в цената на подкупите и интересите. Вярвам обаче, че при наличие на данни и добро следене ще можем да изкараме някои от тези нищки от интереси наяве. Всичко е в активността, изказванията и гласовете им. Въпросът е да можем да ги анализираме и да извеждаме тенденции. Например ще е интересно да се види как се променя политиката на един депутат когато е от мнозинство или когато не е. Или пък дали гласува различно на един и същи закон според това кой го предлага.
и какво като изкараш тия нишки наяве ?
какво ще се случи ?
ето излиза доган и си казва всичко сам без чака да му изкарваш нишките
и какво стана?
едно голямо нищо!
разбирам оптимизма ти но определено не го споделям
@deepzone – не, няма да накра никой да работи повече. Но ще покаже персонална отговорност и ще посочи къде откровено се лъже. Ще има повече прозрачност, а където има повече прозрачност, там има и повече отговорност. Това е надеждата ми. Дали ще стане е друг въпрос.
Впрочем от тази седмица вече половината XML-и са наяве. Скоро ще ги индексирам и ще ги пусна улеснени за употреба.
@deepzone, според мен мисленето „всички са маскари“ е в сърцевината на проблемите на българския парламентаризъм. На практика да можеш да видиш нюансите (а не само черно и бяло) е много важно умение, защото хората не са съвършенно добри или съвършенно лоши – всеки има добри и лоши страни. А когато можеш да различиш по-добрия от по-лошия (независимо кой какъв смисъл влага в тези думи) и покажеш това чрез гласуване, вторият започва да има стимул да е като първия. Това е своеобразна конкуренция и тя пробива навсякъде където има плурализъм. Мисля, че сме виждали и много примери как това сработва дори при фиктивен плурализъм (напр. http://mapto-on.blogspot.com/2008/07/blog-post_27.html, http://bg.wikipedia.org/wiki/Нощен_градски_транспорт#В_България). Разбира се, в момента в България други фактори са по-силни от конкуренцията, например различните форми на влияние от Русия, Турция и други страни, но ако не се опитаме да усилим нашето вътрешно влияние, няма кой друг да промени това неизгодно статукво в наша полза.
Бойко Пенчев вече е обяснил надълго и нашироко на кого е удобно всички да са маскари: http://www.dnevnik.bg/analizi/2009/06/02/728997_na_kogo_e_udobno_vsichki_da_sa_maskari/
мартине
значи това било сърцевината на проблемите
проблема викаш не е това че крадат ,проблема е че мислим че крадат
много сте ми забавни това феновете на „позитивното“ мислене
даже бих казал че изпитвам страхопочитание граничещо с възхищение към изумителната ви способност да похапвате едни и същи лайна толкова години представяйки си че са трюфели с розмарин
после се сещам че и на мен ми се налага да ги ям тия говна само че без тази ваша способност и бе хваща бяс