Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват

11 януари 2025 11 януари 2025 / Боян Юруков / 7 минути четене / 20 коментара

Преди седмица писах за това как новата система на кадастъра предоставя отворени данни. Те включват както географска информация за парцели, сгради и самостоятелни имоти, така и записи за собствеността на последните от публични и частни юридически и физически лица. За тези няколко дни данните предизвикаха сериозен интерес. Забелязаха се доста добри въпроси, критика, но и откровено подвеждаща информация – къде от притеснение, къде от зла умисъл. Затова искам да разясня няколко неща, включително какво не знаем и какво очакваме да видим.

Защо ги има тези данни?

Първите, които ги вкараха в употреба отвъд GIS системите изглежда бяха BIRD.bg. Аналогично на справките от търговския регистър, те добавиха и тези към търсачката си, която свързва данни за смяна на ръководство, обществени поръчки, еврофондове, споменавания в различни изтекли данни, а сега и собственост на имоти из страната.

Тъй като сайтът на кадастъра все още не предоставя лесна възможност за сваляне да отворените данни, аз го направих автоматично и предоставих архива на BIRD и други. Ще го намерите в края на тази статия, както и скрипта за сваляне. Това, както и факта, че явно първи писах за тях, накара някои да коментират, че аз съм отворил данните. В действителност, за да бъдат тези публично достъпни за свободна употреба данни част от новата система на кадастъра, имат заслуга много хора както в институциите, така и извън нея. На първо място за изискването в закона въобще да има отворен код и отворени данни в такива системи има голяма заслуга Божидар Божанов. Въпреки това виждаме как много често това изискване се пропуска, така че трябва да се даде заслуженото на множество хора, включително политически назначения и отделни хора сред изпълнителите на поръчката, които са направили така, че да се случи. Иначе информацията за тези данни вече беше известна и се е обсъждала в професионалните групи и форуми още през декември.

Доста често да отварям данни, които следва да са достъпни, но не са. Последно така направих с разрешителните за сеч, от години го правя за документите за застрояването и авариите в инфраструктурата. Аналогично от още по-отдавна отварях данните на Столична община за замърсяването на въздуха, когато ресорната агенция отказваше твърдо да публикува навременни данни с разбивка по часове. Когато започнаха да го правят по задължение отвън спрях този поток. В този случай обаче просто разпространих новината, че кадастъра са ги пуснали и може да се използват свободно.

Критика и проблеми

Имаше, разбира се, критика както към новата система, така и към данните. Кадастърът отдавна има проблеми с натоварването, но в случая има оплаквания от функционалността за няколкото хиляди специалисти въвеждащи информация. Доколкото те имат смисъл, осъзнаването защо са важни и какви ще са последствията от тях изисква вникване в материята. Тази седмица е имало среща на министерството, изпълнителите и целевата група на тези системи за оправяне на проблемите и разбирам, че се работи по тях. Има също критика по заданието, следенето на изпълнението и отново срещу определени практики на Информационно обслужване.

Самите данни също имат проблеми и те са в две групи. Първата е за самата справка. Първоначално липсваха данни за няколко общини и селища като Варна, например. На 6-ти добавиха Варна, но пак изглежда, че липсват някои селища. Причината навярно е непълнотата на самия кадастър за цялата територия. В предишната си статия писах, че идентификаторите за физически лица са кодирани, за да не се разкрива лична информация. Първоначалната информация е, че макар кодирани, те са еднакви между различните файлове и така може да се проследи общата собственост на лице без да се разкрива. След статията ми обаче бяха открити редица несъответствия, което може да говори за проблем с алгоритъма. Аналогичен се прилага без проблем при Търговския регистър. Трябва кодирането на ЕГН-тата тук да следва същите правила и настройки както в ТР, за да може информацията да се съпоставя между двете. Не на последно място, свалянето на данните е почти невъзможно на ръка в пълния си мащаб предвид хилядите архиви. Аз написах скрипт за целта, поради което бях сред първите споделили го.

Втората група проблеми са свързани не с новата система, а с качеството на въведената информация, практиките на специалистите работещи с кадастъра, нормативните изисквания към него и исторически причини. Дали даден имот е въведен с очертания, собственост, правилен адрес и прочие информация зависи в голяма степен от това дали е имало нужда за самия собственик. Пример може да бъдат ипотека и продажба. Качеството на тези данни, както и такива в миналото е доста спорно поради редица проблеми от двете страни на масата. Забелязват се грешни адреси, дублирани идентификатори на индивидуални обекти, сгрешени ЕИК на фирми и прочие. Важното тук е, че данните не съответстват непременно с това, което виждаме в имотния регистър, а следва да бъдат само отправна точка за по-нататъшни разследвания.

Имаше, разбира се, оплаквания произтичащи от искрено неразбиране или нарочен опит за внасяне на смут. На няколко пъти се видяха твърдения, че така изтичали лични данни, че толкова голям архив щял да се използва за имотни измами, кражби и изнудване. Риск за измами винаги има, но тези данни по-скоро биха го намалили, отколкото да го увеличат. Данните са достъпни в дори по-голяма пълнота срещу заплащане в имотния регистър. Отворените данни не съдържат лична информация, а тази на компании и общински фирми не е лична или търговска тайна в случая. Аналогични възгласи имаше когато бешемотворен търговския регистър и се видя, че са кухи. Най-любопитна ми беше нишката, която плетат няколко души пишещи по групите и най-вече замесени в имотния бизнес, че тази прозрачност била комунизъм, защото само комунистите ги интересува кой къде какво има, придобива от общински и държавни имоти, национални и градски паркове и сменя като предназначение. Тук не знам какво да отговоря освен, че видимо изкарването на все повече неща на светло притеснява доста хора. Най-сигурен признак за това би бил, ако някой се опита да премахне или ограничи отворените данни на кадастъра с каквото и да е извинение.

Полезни по множество начини

Няма масив от данни, който да е идеален и абсолютно верен към датата на публикуване. Особено в такива мащаби. Ключът към използването правилно на данните винаги е бил да се разбере методологията на събирането им, ограниченията и условностите. Затова винаги прекарвам толкова време в описване именно на тези три неща. Пример са данните за раждаемостта и абортите. Когато писах, че данните от кадастъра са невероятни, имах точно това предвид – въпреки всички описани проблеми и нуждата от чистене на определени очевидни грешки, това е много добър източник, който ще помогне не само за анализи и разследвания сам по себе си, но и е важен базов масив, който да се използва за визуализации на други данни.

В не по-малка степен ще помогне на откриването на проблемите в старите данни, за които говоря по-горе, с въвеждането и практиките на специалистите. Прозрачността в тази си форма изкарва често на преден план дълбоки проблеми в една или друга институция и бранш. Това е причината много министерства и агенции да се опитват всякак да избягват заложеното в закона изискване за отворен код и данни. Отчасти заради лобизъм и активно прикриване на нередности, но в чувствително по-голяма степен страх от видимост на пороците и неефективността. Изисква се смелост и откритост сам да публикуваш подобна информация. Това е най-добрият начин да имаме разбиране и разговор по тези теми и път към поправянето на дефектите.

Може да свалите всички отворени данни на кадастъра от този архив (актуални към 4-ти фев 2025). Там ще намерите json-ите с линкове и дати на всеки отделен архив с документи, zip с всички свалени документи, един с обърнати всички данни за собственост в csv файл от 24 млн. записа и един с всички shp файлове обърнати в geojson формат и намалена точност на координатите до половин метър, който е по-лесен за използване във визуализации. Ако искате сами да свалите документите, може да използвате полу-автоматичния ми скрипт на bash. Надявам се, че от кадастъра ще направят това по-лесно, например като общ архив от 5Gb.

Нещо ново, нещо старо и нещо вече отворено. Какво всъщност е Сигма?

Избори 2026 – четири карти за секциите в България и чужбина

Карта на собствеността на парцелите в Елените

Избори 2026 – секциите в България и брой избиратели според ГРАО

20 коментара

ignis каза:
11 януари 2025 в 18:00:41
Област Ловеч все още липсва почти изцяло. Предполагам, че е по-скоро заради технически проблем, а не от непълноти в регистъра.
Боян Юруков каза:
11 януари 2025 в 18:04:27
Изгледа като да има повечето селища. Не съм отварял shp файловете, но поне има доста записи.
ignis каза:
11 януари 2025 в 18:11:02
https://i.imgur.com/xilXMmM.png уви, засега изглежда така
Георги Крушков каза:
13 януари 2025 в 14:38:56
– Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив.
– Бояне, не отива само да кажа „Поздравления за всичко, сторено до тук!“, защото все едно, че нищо съществено не съм казал! Всеки път се изумявам както от огромния обем работа, която вършите при всяко изследване/разследване, така и от Вашите познания и работоспособност. Имам основание да изрека тези суперлативи, защото последните 40-45 години се занимавам с обработка на подобни обеми данни.
Обръщам се за съдействие, защото може би неправилно тълкувам думите „Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив.“ След регистрация в PCloud и опит за сваляне получавам съобщение „Папката не е достъпна.“ Не изпращам снимка, защото това не е предвидено. Можете ли да споделите къде греша, за да ми се връща това съобщение?
Боян Юруков каза:
13 януари 2025 в 18:41:54
Благодаря за думите. Дано повече хора използват данните.
Като пуснах статията имаше правописна грешка в адреса на pcloud. Час след това оправих линка. Възможно е да се е заредил при вас кеширана версия. Обновете страницата и би трябвало да се оправи.
Георги Крушков каза:
13 януари 2025 в 22:58:15
– Като пуснах статията имаше правописна грешка в адреса на pcloud.
– Благодаря, Бояне, това е била причината.
Боян Юруков каза:
14 януари 2025 в 22:58:24
Всъщност, разбрах какъв е проблемът със свалянето – pcloud има дневен лимит за сваляне на споделено съдържание от 57Gb. До тук има 60 сваляния за три дни и явно днес също е надвишило лимита. Ще направя втори mirror на файловете утре.
Георги каза:
15 януари 2025 в 12:54:26
Благодаря за уточнението, Бояне.
Не бях срещал, че PCloud имат такова ограничение.
Приятен и успешен ден!
Боян Юруков каза:
15 януари 2025 в 22:20:06
@Георги и аз не знаех, но явно го удрям всеки ден. Сега качвам на mirror.
Боян Юруков каза:
15 януари 2025 в 22:26:23
Обнових архива на това място, защото pCloud имат ограничение от 50Gb на месец, който с това споделяне минах за три дни.
https://drive.google.com/drive/folders/1YO0Az2DHPibhjQuS6STl95hhpDmL3MOq
Мимитко каза:
24 януари 2025 в 22:40:47
Като мина през всички 10000 файла и намеря имотите, които притежавам, се оказва, че имам около 60 пъти повече имоти, отколкото си мислех.
Дайте да гласуваме. Колийзите в енкодинга („идентификационен номер на субекта“) са:
1. Напълно умишлени
2. Толкова си могат
Боян Юруков каза:
2 февруари 2025 в 10:36:54
Данните в кадастъра са обновени към 31 януари. Ще ги сваля наново и обновя архива горе.
Simon K каза:
11 февруари 2025 в 09:57:13
Отлична работа г-н Юруков. Благодаря.
Може ли дадете инструкция за подходящ софтуер за работа с каченият от вас архив?
Nasko каза:
4 март 2025 в 15:26:52
Здравейте, при отваряне на шеип файл за дадено землище го позиционира в Африка, има неточности в файла за позициониране .PRJ. Идея как може да се оправи това.
Боян Юруков каза:
9 март 2025 в 18:12:52
@Simon K – препоръчвам https://qgis.org/ за SHP файловете. Данните за собствеността може и с Excel или Google docs да се отворят.
@Nasko – за кой SHP файл става въпрос? Верифицирах всички след като ги обърнах в geojson и излязоха добре. Да не са били обърнати координати lat/lng?
Pingback: Намерих къде са онези 4400 имота, които държавата ще разпродава | Блогът на Юруков
Pingback: Каква е собствеността на земята в България? | Блогът на Юруков
Кольо Христов каза:
4 декември 2025 в 20:38:36
Прекодирането на ЕГН не е днозначно даже за едно землище! Има ЕГН с няколко различни кода и различни ЕГН-та в един код! Така, че определяне на всички имоти на даден човек е невъзможно дори да откриете един код на ЕГН-то му!
Pingback: Имотния пазар в София, панелките и „хубавото ново“ – Блогът на Юруков
Pingback: Имотите на вероизповеданията в България – Блогът на Юруков