За данните на МВР в Черна писта, проблемите с тях и защо са ни нужни

В разговори и интервюта съм споменавал, че публикувам около 30% от всички данни, които събирам. Обработвам ги, защото искам да разбера по-добре някакъв проблем. Публикувам онези, които виждам, че показват нещо ясно, където съм запознат с ограниченията и мога да ги обясня. Не на последно място – където имам време да направя визуализация или друг начин помагащ на останалите да разберат данните както аз ги виждам в главата си. Друга основна причина е, че често има доста и/или неясни проблеми с качеството при източника, което поставя всякакви анализи и изводи под въпрос.

Когато Мартин пусна Черна писта, той публикува и оригиналната справка предоставена от МВР за катастрофите между 2021 и март 2025-та. Таблото му показва лесно точно какво му е предоставено с възможност за филтриране, което е правилния начин и дава добра представа за измеренията на проблема. Всичко, което е направил той е супер.

Когато се вгледах в картата му няколко неща изпъкнаха и исках да се вгледам по-дълбоко. Вкарах данните в няколко мои инструмента и съмненията ми се потвърдиха. Бях обещал да ги опиша по-рано, но честно казано се разсеях с демографски данни от Германия показващи, че диаспората ни там намалява, както и crowdsourcing-а на данни за строящи се и довършени сгради в София.

Вникване в проблемите на данните

Снимките, които виждате долу са по-специално от Mapbox heatmap. Коригирах малко формата на справката оправяйки дати, часове и разделителите, за да е нормален csv файл. Може да го свалите тук. Махнах и 30% от записите, които нямат географски координати. Така остават почти 178 хиляди записа за 4 години.

Концентрация на инциденти с пострадали или починали в София
Места с висока концентрация на инциденти в София

Надеждата при използването на такива данни е да откриваме къде са проблемите места и да помогнем да се намалят ранени и жертви. Първата карта горе показва всички катастрофи в София, където е имало поне един ранен или смъртен случай в последните четири години. Виждаме няколко „горещи точки“ оградени. Те са … дворът на КАТ в Дианабад, паркингът пред Пирогов, едно конкретно крило на УМБАЛ Св. Анна и сградата на СДВР. Увеличение на тези места виждате на втората снимка.

Веднага се разбира, че въвеждането на координатите е ставало не при катастрофата, а в офиса на съответните полицаи или където са откарани жертвите. Тук виждаме най-честият проблем при такива данни – лоша или неясна методология на събиране и недобро следене на качеството. Аналогичен проблем показах с данните от регистъра на ражданията. Виждаме го и по веригата между болниците, РЗИ-тата и НСИ при смъртните актове и данните за причини за смърт, особено когато са свързани с бременност.

Това, разбира се, далеч не се ограничава до София. Колкото и критика да търпи СДВР заради отказа им да приемат сигнали за проблеми в движението в София или да съблюдават закона за пиротехниката, аналогични концентрации на координати за инциденти виждаме в Пловдив и Варна – около КАТ, РПУ и болница.

Места с висока концентрация на инциденти с пострадали или починали в Пловдив
Места с висока концентрация на инциденти с пострадали или починали във Варна

Това може да се обясни просто с грешно въвеждане на данните за местоположението. Докато тези случаи са ясни различими, няма начин да знаем дали патрулките не засичат географски координати просто докато отпътуват нанякъде ефективно „премествайки“ инцидент с убийство на съседна улица. Друг, често независещ от патрулките въпрос, е точността на засичането. При лошо време, липса на търпение или лоша техника е възможно точката, която виждаме да е на десетки или дори стотици метри от правилното място. Затова виждаме инциденти в средата на паркове, градинки, блокове и въобще места където коли няма.

Всичко това поставя под въпрос доколкото може да си правим изводи за конкретни кръстовища или пешеходни пътеки. Особено, когато пресеем данните за блъскания на пешеходци не се откроява някакъв модел или място и това може да се дължи именно на тези недъзи. Въвеждането на категорията и други метаданни също може да е засегната от такива проблеми и зависи изцяло от обученията, колко лесно се използва формуляра за въвеждане и контрола на качеството, какъвто не се забелязва.

Полезни изводи от данните

Нищо от това не значи обаче, че данните не са полезни. Напротив. Пример е дефилето на Кресна. През 2022-ра бяха сложени колчета да разделят лентите. Широко се тиражира, че това е спряло смъртните случаи. На следващата снимка виждаме разликата във всички инциденти. Има пак катастрофи и повечето от тях са с ранени, но както се вижда в дефилето е имало по-малко инциденти между 2022 и март 2025, отколкото цялата 2021-ва. Интересно е обаче, че има изглежда увеличение в самата Кресна. Може да спекулираме, че нетърпеливите дават газ и изпреварват там.

Сравнение на брой инциденти в Кресненското дефиле

Ако разгледаме смъртните случаи, се потвърждава ефикасността на колчетата. Няма фатални случаи след 2022-ра, с изключение на един в Кресна през март 2025-та. Само през 2021-ва е имало поне четири в дефилето.

Сравнение на брой смъртни случаи в Кресненското дефиле

За друг пример се връщаме към София. Имаше отчетливо увеличение на трафика и задръстванията от началото на 2023-та. Моето обяснение е указанията на много работодатели за връщане към офиса, което накара много хора да прекарват повече време в пътуване към офиса и обратно. В същото време обаче видимо се забелязва намаление на инцидентите спрямо предходния период, независимо, че включваме три месеца от 2025-та г.

Сравнение на брой инциденти в София

При анализ на такива данни не трябва да забравяме, че отвъд качеството им, има и други променливи – ремонти на пътя, смяна на интензивност трафик и регулиране на движението, различни метеорологични условия и дори дали големи празници се събират и в кой ден от седмицата се падат. Всичко това трябва да се вземе под внимание като се сравняват периоди правят изводи.

Може, разбира се, да погледнем други аспекти от данните като ден от седмицата. Тук се вижда, че има доста по-малко катастрофи и пострадали в събота и неделя като пикът е в петък. Най-много смъртни случаи се случват в събота и понеделник. Тази картина, разбира се, може да е промени, ако разглеждаме конкретни периоди от годината, части от страната и/или видове катастрофи. В повечето случаи извадките няма да ни покажат нищо значимо, но поне ще ни насочат в какво да се вглеждаме. Какви други справки смятате, че ще са интересни?

Разбира се, всичко описано до тук предполага постоянство в метода на въвеждане на данните. Както описах при проблемите данни на НЦОЗА за абортите, разчитаме на това, че има постоянство дори в недъзите на въвеждането, за да може да правим сравнения със стари периоди. Това обаче е невъзможно да се установи без контролите изброени горе.

От това имаме нужда

Нищо от това не е непременно заклеймяване на МВР и патрулките или критика към Мартин. Както писах по повод на Черна писта – именно това трябва да виждаме и това е правилната стъпка в посока отворени данни и прозрачност. Точно така следва да се използват. Повтарял съм многократно, че данните най-често ни помагат да научим повече са работата на институциите и процесите, с които се изготвят, както и да може да задаваме по-добри въпроси. Виждаме го и тук.

Видимо има проблем с въвеждането – най-малкото 30% от записите на катастрофите са без геолокация, а още доста са на нелогични места. Причината много институции да се дърпат да дават данни или изцяло да отказват достъп с глупави извинения, е че ги е страх именно от такива изводи. Точно обратното следва да се случва – подобна прозрачност може само да доведе до по-добро качество на данни, на които те самите следва да разчитат за работата си. Това може да става чрез контрол на случайна извадка, по-удобни инструменти и обучение на служителите, автоматизация и сверяване с други записи – например застрахователите. Това не е самоцелно, а подобрява нещо, от което самите служители се жалват.

Също толкова важно е обаче хората, които боравим с тези данни, медиите, както и обществото като цяло да не реагира първосигнално, да разбира ограниченията и условностите на данните и практическите възможности за събирането им. Да скачаме, че някой лъже с данни или ги крие е лесно, но пропуска възможността, че спуснатите процеси или обективната реалност може би позволяват само толкова добри данни да бъдат събирани. Виждал съм няколко пъти такава истерия, например при смъртните случаи от пандемията или безследно изчезналите. Неизменно води до един вид парализа в комуникацията с и без това не особено търпящи критика или промяна институции. Не казвам, че не следва да посочваме проблеми – все пак точно това правя с тези редове.

Обикновено нещата се случват, защото някой чиновник пробива апатията и се нарамва да оправи нещо на своя глава. Ако ги изтикваме същите пред камерите и началството със соц манталитет да се обясняват, никой няма да иска да вдигне глава. Призивът ми е да се подхожда конструктивно към администрацията и политическото ръководство да обира негативите, а не обратното.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

This site uses Akismet to reduce spam. Learn how your comment data is processed.