След поредицата от скандали в съдебната система, решихме да вмесем поне частица яснота. Всеки ден в съдилищата из страната се водят хиляди дела. За жалост данните за тези дела не са достъпни в мрежата, но се оказва, че актовете от тях са публични за повечето съдилища. Затова решихме да свалим всички и да ги предоставим свободно в мрежата за анализ.
Макар повечето актове да могат да се намерят на сайта на justice.bg, там може да се намират само по 1000 акта наведнъж и възможността за сложни справки почти липсва. За целта ни трябват всички актове като отворени данни. Към 5-ти август 2012 имаме вече 580049 акта и 607656 документа (някои от тях мотиви). Свалянето на актовете се правеше автоматично, но с такава честота, че да наподобява работа на обикновен потребител. Целта беше да не претоварим сървърите на съдебната система. Така свалянето отне около 3 седмици.
На този сайт ще намерите данните в две части – мета данни и документи. Мета данните съдържат номер и тип на делото, съдия и съдебен състав, тип и дати на актове и мотиви, дали делото е предадено на горна истанция, дали има свързани дела и прочие. Тази информация се съдържа в SQL база данни. В таблици са отделени имената и местоработата на съдии и съдебни състави (общо 3789), като всеки от тях е свързан с издадените актове (общо 1152969 връзки). Тази структура позволява по-лесно изготвяне на справки.
Втората част от данните са самите документи. На сървърда на justice.bg те са предимно HTML и DOC файлове с общ размер 21Gb. За да се намали размера им и да са по-лесни за анализ, само текстовата информация беше извлечена като параграфите бяха запазени. Това намали размерът на документите до 10G (~ 2.1Gb zip). В този си вид те са говори за text mining. В архива те са подредени по години и месеци на издаване. Имената им се състоят от номера на акта и a/m в зависимост дали става въпрос за акт или мотив. Например, файлът в 2000/12/430449_a.txt е издаден през декември 2000, отнася се до акт с номер430449. Тъй като размерът на архива с документи е доста голям, моля пишете ни, за да ви пратим линк.
Качеството на данните е друг важен въпрос. Открихме, че някои актове липсват е системата. Пример за това е, че има само два акта на ВАС и ВКС. При ВАС може да се намерят актовете на техния сайт (където е много трудно да се извлекат), но не и в централната система. Мета данните имаха очевидни грешки при 19 акта – предимно дати на издаване. При 80 други акта документите са развалени. Възможно е да има още от тези 600000 документа, при които автоматичният анализ да не е хванал грешки, но нямаме възможност да прегледаме всички. Ако откриете такива, моля пишете ни, за да ги оправим.
Данните са актуални към края на юли 2012. Подготвяме механизъм за автоматично ежеседмично обновяване на последните качени актове. В тези случаи ще предоставяме само обновления на базата данни и архива с документи. Ако имате интерес към обновления или искате да анализирате данните, моля пишете ни. На страницата на данните ще намерите няколко графики изготвени от бързи справки.
Тази статия беше публикувана по-рано в българската версия на блога на OKFN.
Супер си. Мерси.