За въздуха, праха и как го мерим – опит за сравнение

През февруари пуснах статия, в която се оборих твърдение в Труд, че на AirSofia не може да се вярва. В нея казвах, че да, измерванията не отговарят на тези на ИАОС и има недостатъци в по-евтината апаратура и поставянето ѝ, но сайтът е важен и достатъчно точен инструмент за целите, за които се използва. Именно на работата на всички доброволци от проекта се дължи фактът, че днес темата за въздуха е поставена така на дневен ред за разлика от преди 4 години.

В онзи текст написах, че измерванията на станциите от мрежата на LuftDaten, от която е част AirSofia, се разминават с 5% от тези на агенцията. Впоследствие ме питаха за това число, което ме накара да се замисля. Бях цитирал сравнение, което направихме в началото на проекта. Тогава станциите бяха малко, също както и извадката. Това само по себе си не беше качествено сравнение – поне не достатъчно за стандартите, към които се опитвам да се придържам.

Затова започнах да събирам данни от станциите и да правя по-добър алгоритъм за сравнение. Първият прототип показах на среща на Заедно в час в Берлин в края на март, където говорих за отворени данни и как да ги използваме. Тогава още използвах данните за 2018-та. После реших да изчакам да мине зимата и да направя сравнението за месеците около Нова година.

В следващите седмици се връщах към анализа ми, добавях данни, поправях грешки, пробвах с отстояния, изчистване на пикови стойности и прочие. Често нямах време и малко по малко се видя, че има риск този анализ да последва пътя на данните за санкциите за пушене и тези за жертвите от войните ни – все числа, които съм събрал, но така и не съм публикувал в разбираем вид.

С началото на този сезон постовете за класации на градове, маски и поредните извинения на Фандъкова ме върнаха към темата. Все още не съм доволен от резултата, но ако не го пусна сега, надали ще види бял свят. Проблемът е, че има много данни и начин да се гледат, затова избрах най-същественото. Цялата таблица с формулите ще добавя под статията в следващите дни, когато успея да я оформя в по-четим вид.

Изводите

Основният проблем с числото, което съм посочил, е до какво точно се отнася. 5% разминаване в какво? Затова разгледах различни аспекти от данните и статистиката – абсолютни стойности, средни по часове и дни, индикация за проблем с въздуха и колко пъти над нормата е.

Накратко:

  • В 94.2% от случаите AirSofia и ИАОС показват еднакво дали през деня замърсяването е надвишило лимита и с колко пъти. Т.е. разминаване с 5.8%.
  • В 91.3% от случаите показват еднакво дали в същия час е надвишен лимита и с колко пъти
  • В 81% от случаите среднодневната разлика между двете е под 20 µg/m3, а ако сравняваме час по час – 90.5%.
  • Ако вземем само дните с до 70% влажност, 96.5% от случаите познават колко пъти е надвишил лимита и в 90% от случаите разликата е под 20 µg/m3.
  • Средната абсолютна разлика в отчитането е 7 µg/m3 по дни и 9.7 – по часове.
  • Най-малко разминаване има между станциите в Надежда и Дружба.

Методология

Данните покриват периода юли 2017 до юни 2018. Тези на ИАОС тегля още от началото на 2016-та, а тези за станциите на AirSofia съм взел вече обработени от AirTube, който определено препоръчвам. При последните липсват две седмици, както виждате на графиките долу, но са във време с ниско замърсяване. За усредняване на данните и лимитите използвам методологията на ИАОС и ЕК.

За сравнението избирам станции на AirSofia, които са на по-малко от 500 м. от тези на ИАОС. Тук виждате карта кои са точно. Вдясно може да сменяте филтри за избраните станции. В крайния резултат за София използвам средни стойности между всички.

Пробвах сравнение и със станциите на 1 и 1.5 километра, но вариацията стана твърде голяма. Резултатите всъщност бяха близки, но смятам, че по-малък кръг ги прави по-значими. Средната стойност между избраните изчислявах като давах по-голяма тежест на по-близките като квадрат от отстоянието.

Това, което не направих е да изчистя пиковите стойности в оригиналните данни. 95-ти и дори 99-ти квентил щяха да свършат добра работа. Така щях да изключа случайни моментни замърсявания като мръсна кола под сензора. Нямах време да обработя обаче изходните данни и затова използвах наготово тези на AirTube. Ефектът от това е понижаване на оценката за точност в ущърб на AirSofia.

Тъй като по спецификация сензорите в т.н. „частни станции“ следва да работят до 70% влажност, направих отделна оценка на база само дните отговарящи на този критерий. Също така махнах всички измервания над 1000 µg/m3, колкото е лимита на сензора. Тези условия не означават непременно, че данните са грешни, а че производителят не гарантира за предвидената точност от 10%. Ето изследване по тази тема в лабораторни условия. В този индекс значителна част от измерванията отпаднаха – до 80% в някои дни.

Сравнение

Когато сравним измерванията между ИАОС и AirSofia като процент, виждаме, че се движат между 20 и 40%. Това, в известен смисъл, е измамно, тъй като дори разлика от 5 µg/m3 в ден с ниско замърсяване може да е 50%. Все пак дава представа за разминаванията. Виждаме и по-малко разминаване в изчистените стоности. Пиковете там се дължат до голяма степен на дни с малко останали данни.

Тъй като данните са доста обширни, а горните графики не особено преглежни, не намерих друг начин да ги представя, освен като календар. Обозначил съм седмиците от годината и дните. В сиво са маркирани липсващите данни.

Това, например, е разликата в проценти между ИАОС и AirSofia. По-тъмно червено показва по-голяма разлика. Средното отклонение е 21%.

Когато използваме изчистените данни (под 70% влажност), получаваме тези разлики в проценти. Това, всъщност са горните графики, но като календар. Тук средното отклонение намалява до 14.5%.

Следващият календар отново показва кои дни от годината са „отпаднали“ най-много данни заради влажност над 70% и отчитане над 1000. Средно 34.2% от измерванията.

Макар да не е особено полезна за сравнение, тази графика е интересна да покаже измеренията на проблема през зимата. Показва измерените нива от всички станции за всеки час от измерения период. Вижда се ясно, че както ИАОС, така и „частните“ станции са единодушни, че проблемът е огромен независимо каква скала се използва или колко е червена картата.

Дискусия

Проблемът с което и да е такова сравнение е, че няма правилен подход или отговор. Дори с условностите, които съм посочил горе, има няколко начина да се обработят данните, които биха довели до близки, но различни резултати. Отчасти това беше причината да отлагам толкова време публикуването на тези числа – пробвах доста подходи и търсех този, който дава най-смислен резултат.

Истината е, че частните и сертифицираните станции не могат да дават еднакви резултати и причините бяха обсъждани многократно навсякъде.

Първата, разбира се, е технологията. Евтините станции имат висок праг на грешка (10%) и проблем с влажността (<70%). Дори да се използва по-добър сензор от този вид, пак мъглата изкривява резултатите, тъй като бива засичана като прах. Има методи за намаляване на този ефект, но те или оскъпяват и усложняват отделната станция и я правят нерентабилна за такава масовост, или не дават достатъчно постоянни резултати.

Втората е средата, в която се поставят. Тези на ИАОС отговарят на изисквания за отстояние, класификация и прочие. Умишлено не се слагат директно до източници на замърсяване, защото целта им е да отчитат фоновото замърсяване. За него допринасят всички замърсители в града, които се разсейват, така и прах донесен от съседни държави и дори отвъд Средиземно море.

В известен смисъл AirSofia показват много повече какво всъщност дишаме конкретно в собствения си дом. Това може да е както въпросното фоново замърсяване, така и отопление на съседни сгради или жилища, горене на боклук, барбекю наблизо, коли под прозореца и дори вятър вдигащ прах от мръсната фасада и ерозиралата почва на градинката пред блока. Така обаче страдат много повече от инцидентни пикове, които гледайки целия град се трупат и изкривяват данните.

Третата е поддръжката. Докато ИАОС чисти и поддържа станциите си, при частните това е рядкост. Някои сензори имат режим на почистване, но пак с времето се натрупва прах и точността намалява. Аз самият не съм чистил дори веднъж моята станция, а трябва. Спорно е, всъщност, доколко това е проблем. AQICN, колкото и критика да отнасят от мен за данните и представянето си, правят доста такива експерименти и бяха показали, че нечистенето добавя още 5-6% неточност на данните.

Взимайки всички тези фактори ще видим, че дори две частни станции поставени в непосредствена близост една до друга вероятно не биха отчели еднакви стойности. Именно това е основата на отказа на ИАОС да използва станциите на AirSofia за анализите си. По мое мнение са прави в контекста на специфичната им работа. Докато техните отговарят на ясно зададените критерии на ЕК, частните станции дават добра представа за топологията на замърсяването. В този анализ използвам данните от само 29-те най-близо до тези на агенцията, а в София има вече стотици.

Друг важен аспект от данните е не само качеството им, но и представянето. Числата са си числа, но малко хора могат да ги осмислят в таблица. Затова практически всички сайтове и приложения опират до цветови скали и сравнения. Те, разбира се, са различни по цветове, нива и дори смисъл. Това не пречи на много да ги снимат и цитират.

Тук съм направил кратко сравнение. До преди няколко месеца AirSofia използваше същата гама като AirTube, но намалиха границите на проблемни и опасни стойности. Тези на европейския индекс пък са далеч по-високи поне цветово. При AQICN и AirVisual пък говорим за индекс според EPA стандарта, който взима предвид 6 замърсителя и различни интервали. При праховото замърсяване се взимат среднодневни стойности. Затова скалите изглеждат така.

AirVisual, впрочем, е сайтът, който доста хора споделят заради класацията по градове. Там София излиза все в топ 10. Тези дни някои забелязаха, че причината е в мистериозна станция във Васил Левски, която дава нереалистични стойности – такива в пъти над тези както на ИАОС, така и на AirSofia. На този етап май никой няма представа каква е станцията. Доколкото знам AirVisual черпят данни от AQICN заедно с индекса и методологията. Последните също не казват как получават данните си и съм хващал значителни разминавания. Но тази станция не е тяхна явно.

Възприятието е силно нещо. Цветовете по карти и графики са само част от нещата, които ни влияят. Несъмнено въздухът е много мръсен и почти нищо не се прави от общината по въпроса. Вярно е също така, че има леко, но стабилно намаление на замърсяването. Трудно е да се каже дали вина за това има вариации в местния климат между годините, промяна в движението и типа коли на столицата или малкото мерки приложени преди години. Вероятно е комбинация от всички изброени. Във всеки случай твърдението, че сега е най-зле просто не е вярно.

Също не е вярно, че София е единствената с такъв проблем. Всъщност повечето големи градове са със завишено замърсяване. Това важи дори за градовете в планината. Макар източниците на замърсяване да са подобни, решенията навярно не са. Всеки град има свои особености и следва да се работи и анализира поотделно. Сега всички се фокусираме върху София, заради ефектните снимки от инверсията, а и концентрацията на население. А не трябва. При това дори не сме започнали да говорим за замърсяването с азотен диоксид, който е още по-опасен и тепърва ще става сериозен проблем у нас.

Кой според вас е следващият най-замърсен град в България?

Допълнение

Ето тук ще намерите таблицата с формулите и част от графиките. Данните за частните станции са изчислени както е описано горе на база средните стойности по часове събрани от AirTube. Тук е пресеният списък заедно с най-близката станция на ИАОС и разстоянието до нея.

Ще се радвам, ако прегледате данните и сметките ми и споделите, ако откриете неточности или предложите подобрение. Ще ги обсъдим в коментарите тук.

13 коментара

  1. @Боян Юруков Може ли да ми пратите линк от къде мога да си сваля данните на официалните станции на ИАОС в София в смислен формат като csv или txt? единственото което намерих досега е csv за периода 2011-15 тук: https://data.egov.bg/data/view/f5a7c539-c386-431a-89cc-01353de743e5
    Благодаря предварително!

  2. Браво Бояне !!!
    Отново си на висота.
    Днес научих от телевизията за системата на Софийска община.
    Меко казано побеснях.
    После прочетох и статията в „Капитал“.
    Със гражданската система се занимавах миналата зима.
    Порових тогава и за по-добри и различни сензори.
    Има и то на доста по-ниски цени.
    Тогава предложих на тогавашния ни кмет реализация на подобна система.
    Обади ми се по телефона и беше уж въодушевен, за съжаление сложиха над 200 камери и никакъв датчик.
    Колкото до данните и разминаванията с официалните.
    Знам, че притежаваш необходимата експертиза за тяхната обработка и аз като едва ли не лаик в тази област е доста глупаво да давам мнение.
    Въпреки всичко ще споделя следното.
    Височината и местата, на която се намират датчиците също има голямо значения. Станциите на гражданите се намират обикновено по балкони и прозорци. А тези на официалните на други свободни места.
    В предложенията ми беше заложено датчиците да се монтират на стълбовете и конструкциите на светофарните уредби с тръба, чийто отвор е на височина 120-160 см. от тротоарната настилка.
    Тогава да видите какви данни ще се отчетат – свят ще ви се завие.
    До тези конструкции има доведена оптична мрежа и ел. захранване.
    Събирането на данните, тяхната обработка и визуализацията им върху картографските сайтове с помощта на софтуер с отворен код е работа за специалист като теб и други ентусиасти, а не на фирми, които ще гушнат едни пари – само.
    Както стана със сайта за отворени данни.
    Мисля, че в време четене на приказката за „Новите дрехи на царя“.
    За съжаление не може да се разчита вече и европейските ни партньори да се намесят. Оказаха се да ни правят и мониторинг. И как да го правят. Изследвах различни проекти в съюза и как се водят отчитат, резултати – ужас. Въпреки, че има декларирани намерения.
    Изпратих примерите и е европейската комисия. Поблагодариха и ….
    „Царят е гол“
    Но трябва да го извикат 300 + милиона граждани данъкоплатци на съюза иначе – боза, безогледно тармъчене и корупция.
    P.S. – Толкова ли е трудно да се направи карта на къщите за гости ?

  3. @Ясен – за разположението на сензорите на luftdaten съм описал – не са въобще по изискванията на станциите измерващи фоново замърсяване. Не само височината, но и близостта до мръсни фасади, пушещи балкони и прочие води до изкривявания. Това обаче е реално праха, който влиза през прозорците на хората, така че замерванията са добри, но с друг смисъл.

    За новите сензори – чакам да се съберат данни и ще сравняваме тогава. Обещават, че макар технологията на сензорите да е същата (лазер) да са взели мерки да коригират някои от проблемите като влажност и мъгла. Освен това е полезно, че имат и сензори за азотни оксиди, озон и други.

    Иначе порталът за отворени данни си е тук http://opendata.gov.bg/

  4. Важно е да се отбележи, че държавните сензори също имат не малка грешка. И тя не се дължи само на сензора, а и на семплинг вентиалтора и неговото износване (което определя отклонението от оптималната скорост на въздушния поток), почистването, филтъра и т.н., така че по спецификация е средно до 10%. При гражданските 10% греши само самият сензор, но като знам как са „сделани“, при семплирането има още много грешка. При всички случаи, разлики в рамките на дори до 20% не бива да се отчитат за разлики, защото са в рамките на точността на по-прецизния уред, ако беше от двете страни на сравнението (ако сравнявахме данните от два седящи един до друг уреда висок клас). Моят $500 сертифициран уред (който със само едно изклчение не показва много различни данни от няколкото от тези които съм си купувал за $90) по спецификация греши в рамките на +/- 10%. За мен твоите данни показват, че Airsofia всъщност е изключително точна и разликите са достатъчно малки, за да нямат особено значение.

    По-интересен анализ би бил в коя посока имат тенденция да се разминават. При мъгла е ясно каква е тенденцията, но в останалото време?

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

Този сайт използва Akismet за намаляване на спама. Научете как се обработват данните ви за коментари.