Category

Big Data News

Mikor lassít az önvezető autó a zöldségesnél?

By | Big Data News, Data Science, Tech Trends | No Comments

Tudod, mi a különbség a sarki zöldséges és a képelemző algoritmus között? Az egyik kilóban, a másik pedig pixelekben méri a dinnyét. És mi a hasonlóság? Mindkettő úgy szereti, ha minél pirosabb belülről a gyümölcs. A poén persze komolytalan, a téma viszont nagyon is komoly – mutatjuk, hogyan került képbe a dinnye!

A 2010-es évek talán leglátványosabb technológiai vívmányai az önvezető autók, illetve a kép- és arcfelismerő rendszerek. Lassan egy évtizede sorra jelennek meg cikkek, tévériportok, blogbejegyzések a témában, melyekkel nem csupán az IT-szakma, de a laikus átlagember is gyakran találkozik, így viszonylag tájékozott lehet a felhasználással kapcsolatban. Azt azonban ma is kevesen tudják, hogyan is működnek ezek a rendszerek, miként „foghatja fel” egy gép, hogy mit is lát az elé táruló élő képeken vagy éppen fotókon.

E bejegyzésünkben segítünk kicsit megérteni, hogy milyen alapelvek szerint működik a képfeldolgozás, és hogy hogyan találnak meg egy-egy objektumot az algoritmusok a hatalmas pixelrengetegben. Ebben segített egy OpenCV (Open Source Computer Vision) csomag, mely bárki számára elérhető. A cikkben az alapfogalmak tisztázását követően bemutatunk két eljárást, ami segíthet a számítógép számára különböző objektumokat megtalálni, akár azonos képeken, akár teljesen más forrásból származó fotók esetében.

Kezdjük az alapoktól!

A kép képpontok, azaz a pixelek összessége,  amelyek egy mátrixba csoportosulnak, és vizuálisan felismerhető, értelmezhető alakzatokat jelenítenek meg. Ezen mátrixok nagyságát befolyásolja a kép szélessége és magassága, a rétegeit pedig a színrendszer határozza meg. A fontosabb színskálák az úgynevezett rgb, hsv, hls, luv és a yiq. A továbbiakban az rgb, tehát a red, green és blue színrendszer alkalmazásával bontjuk elemeire a képeket. Az rgb rendszer esetén a kép mátrix-összetétel a következő: a mátrix magassága, a szélessége és a színrétegek száma, ami jelen rendszer mellett három. A rétegek elemei 0-tól 255-ig terjedő egész értékű számok. Fekete-fehér kép esetén a 0 a teljesen sötét, míg a 255 a fehér árnyalatot jelenti, és hasonlóan oszlik el az rgb színskálán is: a piros árnyalat esetén például a 0 a fekete, míg a nagyobb értékek a piros erősségét írja le.

Az önvezető autók működésének alapjául szolgáló, komplex képfelismerő rendszerek képesek arra, hogy azonosítsák a különböző tereptárgyakat, a járműveket, a gyalogosokat, a jelzőtáblákat és útburkolati jeleket, hogy felismerjék a jelzőlámpák fényeit. Mi azonban kezdjük az alapoktól, az alábbi dinnyés fotóval szemléltetve a rendszer működését.

Ahogyan a példaképeken – vagyis a dinnyeszeleteken – is látszik, az első kép az eredeti, ami az összes színréteget tartalmazza, ezt követi a piros, a zöld és a kék árnyalatok kiemelése. Jól látszik, hogy a kép dimenziói nem változtak, azonban például a piros esetén a többi réteg elemei nulla értéket kaptak, azaz teljesen feketévé váltak, így a maradék réteggel megjeleníthetővé vált a kiválasztott piros réteg. Természetesen azonos módszerrel jeleníthetők meg a kék és a zöld árnyalatok is.

A cikkben kétféle objektum keresési eljárást fogok ismertetni, az úgynevezett template matching és a feature matching eljárásokat.

Template matching, avagy objektumillesztés

A legegyszerűbb objektumkeresési eljárások közé tartozik, hiszen a teljes kép egy kis részlete a keresett alakzat a képen, tehát a kicsi lényegében része a nagy képnek.

Ebben az esetben elegendő a kis és a nagy kép pixeleinek az összeegyeztetése, amihez többfajta műveletet is alkalmazhatunk, azonban a legismertebbek a következők:

  • két különböző kép pixeleinek vagy pixel csoportjai közötti korrelációs vizsgálat (lineáris kapcsolatot leíró metrika, mely értéke -1 és 1 között található, ahol az 1 az erős azonos irányú, -1 az erős ellentétes irányú és a 0 érték pedig a kapcsolat meg nem létét írja le),
  • differenciálszámítás a két kép pixel csoportjai között, ahol a hiba 0, ott lesz a teljes egyezés.

A következő képsor a folyamat lépéseit tartalmazza, aminek az első eleme a teljes kép, amiből származik a második kép, amit egyben szeretnénk is megtalálni a teljes képen. A harmadik kép egy korrelációs kép, ami egy részlet a teljes képből. Ezen jól látható, hogy kék színnel mutatja, ahol nincs pixelegyezés a nagy és a kis kép között, azonban a sárgával jelzett részen megvan a teljes egyezés. Az utolsó kép pedig a találat eredményét jeleníti meg immáron egy piros kerettel jelezve a kis kép helyzetét a teljes képen.

A bemutatott egyszerűbb módszertan alkalmazása több helyzetben is elegendő lehet, például akkor, amikor tudjuk, hogy a vizsgált képsokaságokon vannak pontok, melyek mindig állandók, és ezen objektumok mellett következhet be változás, így az állandó alakzatok helyzetéből meghatározható és feldolgozható az újdonság a képeken. Ezzel szemben indikátorként is alkalmazható, ha tudjuk, hogy egy képen csak egyetlen mátrixban történhet változás, és ennek a meg nem találása jelenti a változás megtörténtét.

Feature Matching, avagy sablonillesztés

A template matching esetén a hasonló pixelek feltárásánál nem volt szükség a kép előkészítésére, azonban ha a keresett kép nem része az eredetinek, hanem teljesen más forrásból származik, akkor ki kell emelni a különböző tulajdonságokat. Ezek segítségével az algoritmusok könnyebben találják meg a hasonló egységeket a képeken. Ilyen előkészítések lehetnek a következők:

  • a gray scaling, avagy szürke skála, aminek a segítségével meghatározhatjuk a színárnyalatok fokozatait. Ebben az esetben a kép fekete, fehér és szürke színeket tartalmaz és csupán egy réteget, nem pedig hármat, mint az rgb színrendszer esetén,
  • blurring, smoothing: zaj eltávolítása, egy előre definiált, pár képpont nagyságú mátrix mentén a teljes képen hajt végre képpontátlagolást → ennek következtében a megkapjuk azokat a képrészleteket, ahol a legnagyobb fényváltozások fellelhetők a képen. Fontos figyelni, hogy ennek következtében a kép veszít élességéből így ezt figyelembe tartva kell meghatározni ezeknek a beavatkozásoknak a súlyát.
A feature matching különböző algoritmusok összessége, amelyek együttes alkalmazásával képes megtalálni két különböző, azonban hasonló kép közötti hasonló egységeket. Ezekben a következő algoritmusok segítenek (a lista nem teljes):
  • edge detection, avagy az élek feltárása: alapvető fontossága van, hiszen a képek nagy részletességgel bírhatnak, így ennek a csökkentésére szolgál az algoritmus, aminek segítségével egyszerűbbé válik a képfeldolgozás a számunkra is fontos élek feltárásával.
  • contour detection, avagy a kontúrvonalak megtalálása: segít meghatározni egyes tárgyak formáját, kiterjedését, segítve az elválasztást a többi tárgytól.

A feature matching alkalmazása két pontból tevődik össze. Először is a korábbiakban felsorolt eszközök segítségével feltárja mindkét kép esetében a kulcsfontosságú részeket a képeken. Ezek lehetnek a különböző élek, kontúrok. Ezt követően a két kép esetén meghatározott kulcsfontosságú elemeket hasonlítja össze és rögzíti az összes egyezést. Mivel mindkét kép esetén több kulcsfontosságú elemet is vizsgál, így több esetben is előfordulhat, hogy lehetnek rosszabb és jobb egyezések is a két kép esetén. Tanácsos a folyamatot követően csak a legjobb egyezéseket kiválasztani.

A fent látható képeken megtörtént a feljebb említett szürke skálázás és a pixelek átlagolása. Az összeegyeztetés sikeresnek mondható, hiszen mind a mag, mind a héj esetében megtalálta az egyezéseket még akkor is, ha a képek teljesen más paraméterekkel rendelkeznek, és más körülmények között készítették azokat.

Az önvezető autók persze sokkal bonyolultabb és szofisztikáltabb rendszereket használnak, azonban az alapjai ezekből a folyamatokból tevődnek össze. Ezen alkalmazások segítségével képes meghatározni a sávokat, klasszifikációval a felismert táblákat és más alapvető funkciók összességét, ami a biztonságos vezetéshez szükséges. Talán egyszer majd az útszéli dinnyeárusnál is megáll, ha egy mézédes görögre vágyik a sofőr – azt ugyanis már tudjuk, hogy a dinnye felismerésére is képes a technológia.

CDP Proof Of Concept a MOL-nál – Projekt referencia

By | Big Data News, Business, Cloudera, Tech Trends | No Comments

A CDH (Cloudera Distribution Hadoop) egyik első magyarországi felhasználója a MOL csoport volt.

A MOL 2020 Q1 folyamán egy rövid, 3 hónapos POC projekt keretében azzal bízta meg a United Consult-ot, hogy tesztelje az új CDP (Cloudera Data Platform) platformot, integrálja azt a Cloud szolgáltató rendszeréhez és végezzen hatásvizsgálatot a CDP nagyvállalati környezetben történő használatóságra. Ezen túl pedig készítsen költség-kalkulációkat a lehetséges megoldások összehasonlítása érdekében.

A projekt keretében elkészítettünk egy közel 60 oldalas megvalósíthatósági tanulmányt, amely részletesen elemzi, hogy a Cloudera milyen infrastruktúrális alternatívákban telepíthető, legyen az on-premise, felhő, vagy hibrid megoldás. Az alternatívákat kiértékeltük és összehasonlítottuk olyan nagyvállalati igények mentén mint pl. skálázhatóság, biztonság, üzemeltetési elvárások, machine learning képességek, várható költségek, stb.

Ezt követően egy Proof of Concept projekt keretében alaposan megvizsgáltuk a Cloudera legújabb termékét a Cloudera Data Platformot (CDP). Megvalósítottuk a CDP – Active Directory integrációját, összekapcsoltuk a CDP-t a vállalat Azure környezetével, és üzembe helyeztük a CDP management konzolt. Számos use case megvalósításával megbizonyosodtunk róla, hogy a CDP alkalmazásával gyorsan és rugalmasan akár órák vagy percek alatt vagyunk képesek feldolgozási clustereket létrehozni, amelyek elérik a felhőben tárolt adatokat és hatékonyan összekapcsolhatóak más feldolgozó eszközökkel is mint pl. a PowerBI.

A projekt során performancia teszteket végeztünk, amely segítségével összemérhetőek a különböző méretű klaszterek feldolgozási képességei és költségszintjei.

A POC projekt során kollégáink (fejlesztés, üzemeltetés, IT security) értékes tapasztalatokat szereztek a CDP platform használatával járó előnyökről. A MOL meggyőződött róla, hogy a CDP enterprise data platform megfelelő irány lehet a jövőben a nagy mennyiségű adatfeldolgozás terén.” — Ott Károly, Innovation Manager, MOL Group

2020. 07. 23-án vállalati adatmanagement témakörben tartunk webinart , ahol bemutatjuk a MOL projekt során használt Cloudera Data Platform-ot. Többek között megvizsgáljuk azokat a problémákat és megoldásokat, amik manapság meghatározzák az adat-management legfontosabb elemeit.

Beszélünk azokról az üzleti kihívásokról, amelyekkel nap mint nap találkozhatunk, veszélyeztetik a vállalat fejlődését, a növekedés, és a hatékony teljesítmény útjában állnak. Bemutatjuk, hogy a CDP milyen módon képes támogatni a vállalati adat-management-et, és hogyan inthetünk búcsút játszi könnyedséggel a bemutatott problémáknak. Továbbá egy use-case-en keresztül betekintést nyújtunk abba, hogy hogy viselkedik a CDP éles akció közben.

Ha szeretne részt venni a webinaron, az alábbi linken jelentkezhet Ön is:
https://thebigdataplatform.hu/cdp-adat-management-webinar/

Kritikus sikertényezők: üzleti villámcsapások a hibrid felhők világában

By | Big Data News, Business, Cloudera, Tech Trends | No Comments

A cégeknek sosem volt annyi lehetőségük a rendelkezésükre álló adatot a saját előnyükre fordítani, mint napjainkban. De vajon élnek is ezzel a lehetőséggel? Van kidolgozott adatstratégiájuk? Egyáltalán hol állnak most és, hogyan látják a jövőt? Ezekre a kérdésekre kereste a választ a Harvard Business Review nevű menedzsment magazin a Cloudera felkérésére nemrég.

A Harvard Business Review Analytic Services felmérése olyan kritikus pontokra mutat rá, amelyek veszélyeztetik a vállalat fejlődését, és a növekedés, illetve a teljesítmény útjában állnak. A probléma általában abból fakad, hogy a vállalati IT-szempontok egyszerűen nem egyeznek meg az üzleti igényekkel, és a felhasználók fontosabbnak tartják a gyorsaságot a biztonsággal, a pontossággal és a maximális üzleti hatékonysággal szemben.

A felmérés 2019 végén készült mintegy 185 vezető pozícióban álló szakember bevonásával. A szakértők diverzitása több értelemben is magas. A szervezetek mérete – ahol a megkérdezettek dolgoznak – a száz főnél kisebb létszámtól egészen a tízezer fős cégóriásokig terjed, a cégek pedig lefedik a tech, a banki, a consulting és az ipari szektorokat is. A világ négy földrészéről érkeztek vissza kitöltött kérdőívek a kutatás szervezőihez.

Az eredményekből kiderült, hogy a megkérdezettek majd’ háromnegyede (73%) egyetért abban, hogy az adatforrások kulcsszerepet játszhatnak az üzleti érték megteremtésében, és több mint felük (51%) tervezi ezt multi-cloud segítségével megvalósítani.

A statisztikák alapján csupán a megkérdezett cégek 24%-a használ már jelenleg is multi-cloud megoldásokat, ami kevesebb, mint a technológiát használni kívánók fele. Természetesen a saját üzemeltetésű infrastruktúrának is van létjogosultsága, hiszen nem minden adatot szeretnénk kiadni a kezünkből. Ráadásul vannak különböző korlátozások, melyek egyenesen tiltják, hogy bizonyos adatok elhagyják az országot. Egyetlen felhőszolgáltatóval való együttműködés esetén fennállhat a vendor lock-in jelenség. Ez azt jelenti, hogy egy szervezet annyira függ egy felhőszolgáltatótól, hogy jelentős költségek nélkül képtelen másik szolgáltatóra váltani. Ez a kutatás szerint a cégek mintegy 21%-át fenyegeti.

Ahogyan a válaszadók szervezetei kezelik az adatokat:

multi-cloud kutatás

Az adatok tárolása mellett a másik fontos kérdés az adatfeldolgozás állapota volt. Mint kiderült, a cégek a keletkező adatok nagy részét eltárolják, de többnyire csak utólag dolgozzák fel azokat.

A cégek alig több mint ötöde rendelkezik stream-feldolgozó képességekkel és képes ezen beérkező adatok alapján valós idejű döntéseket hozni. Ez üzleti előnyhöz juttatja ezeket a cégeket a versenytársaikkal szemben, hiszen lehetőségük van valós időben ajánlatot adni a felhasználók viselkedése alapján, vagy akár valós idejű diagnosztikát is végezhetnek eszközeiken.

 

A kutatás azt is vizsgálta, hogy a szakemberek miként látják a jövőt. Az űrlapon megfogalmazott kérdés arra vonatkozott, hogy az adatelemző szervezetek mely módszereket használják most, és melyeket tervezik használni az elkövetkező három évben.

Amiket az adatelemző szervezetek bővíteni/fejleszteni terveznek az elkövetkező három évben
(összehasonlítva a jelenleg alkalmazott elemző technológiákkal)

A megkérdezett cégek szerint a hagyományos, riportok készítésére használt üzleti intelligencia és az adattárházak szerepe csökken, és a különböző, valóban intelligens feldolgozó módszerek kerülnek előtérbe. Ilyenen például a gépi tanulás módszerei, a mesterségesintelligencia-fejlesztések és az intelligens automatizációs megoldások. Ezeken a területeken 60%-os növekedést érhető el belátható időn belül a kérdőív kitöltői szerint.

A tapasztalatokat összegezve megállapítható, hogy a cégek több mint fele szeretne a multi-cloud alapú megoldások felé mozdulni, de csak a szervezetek 34%-a rendelkezik ehhez szükséges adatmenedzsment-stratégiával, és a felhőbe költözés számos egyéb nehézséget is rejt magában.

A kitöltők szerint jelentős feladat, hogy a muli-cloud környezetekben a biztonsági és governance szabályokat többszörösen kell implementálni más és más eszközökkel, hiszen a felhőinfrastruktúra használatával plusz támadási felületet biztosítunk. Úgy vélik, problémát okoz az is, hogy a jelenleg használt „legacy” alkalmazások nem felhőkompatibilisek, és egy nem felhőre optimalizált alkalmazás felhőben való futtatása jelentősen drágább lehet, mint a saját infrastruktúrán.

 

Ajánljuk figyelmébe a CDP vállalati adatmenedzsment-platformot, mely jelentősen megkönnyíti bigdata megoldások hibrid vagy multi-cloud környezetekben történő kialakítását.

Kérjük töltse ki az űrlapot a teljes angol nyelvű tanulmányhoz!

 

Mire számíthatunk a Cloudera Data Analyst vizsgáján?

By | Big Data News, Cloudera | No Comments

Nemrég sikerült teljesítenem a Data Analyst Cloudera vizsgát. De talán ne szaladjunk ennyire előre.

Készülés

Miután egy kisdiák lelkesedésével kijegyzeteltem a training videók anyagát és memorizáltam a törzsanyagot, igyekeztem arra fókuszálni, hogy közepesen bonyolult feladatokat anélkül is simán teljesíteni tudjak, hogy a doksit vadul böngésznem kelljen. Igazából nem tartom a manual/dokumentáció böngészését eredendően elítélendő dolognak, ennek mellőzésére praktikus okaim voltak – a vizsgán használt virtuális masina erőforrásokban nem bővelkedik (bár egy tabon a Hue plusz egy terminál ablak simán ment neki), illetve elég könnyű kifutni az időből. A vizsgán csak a hivatalos Apache doksikat lehet használni, így azért érdemes valamennyi időt ezek, illetve a sqoop manual megismerésére is szánni, ne ott lássuk ezeket először, ha mégis bajba kerülnénk. Alternatív forrásként a neten találtam még felkészítő videókat.

A vizsga teljesen gyakorlatorientált lásd oldal alján a példát, így mindenképpen ajánlott letölteni a QuickStart-Imaget (én a docker-es verziót használtam, a soványka 8 GB RAM-ommal vígan elkocogott az Ubuntumon). A VM-ben van egy retail_db adatbázis pár táblával, azokat ha sqoop-pal behúzod Hive-ba, már el is kezdheted a gyakorlást (a root/cloudera párossal pedig hozzáférhetsz a db-hez).

Ha alapos munkát végeztél, akkor tudni fogod a HiveQL és Impala közötti különbségeket, magabiztosan tudsz írni CTAS-t, tudod használni a beépített függvényeket és tudod, hogy mikor kell over-partition-by-t használnod.

Adminisztratív teendők

Az első lépés, hogy Clouderán lévő accountodhoz kicsengeted a megfelelő összeget, erre ő küld majd egy üdvözlő emailt. Egy ponton átirányított a PSI oldalára – ez egy oldal online vizsgákra specializálódva, különös ismertetőjegye az előző évszázadra jellemző webdesign. Következő lépésként kiválasztottam a vizsga időpontját, időzónámat (ő pedig udvariasan figyelmeztetett, hogy ugyan át tudom ütemezni más időpontra a vizsgát, de erre már nincs lehetőségem az utolsó 24 órában). A PSI oldalán van egy kompatibilitás-teszt, ahhoz hogy sikerüljön ez, fel kellett tegyem a PSI egyik chrome extensionjét.

Egy virtuális gép elérésénél kritikus tud lenni a késleltetés, így ha az ember fia nem bízik a csillagok megfelelő együttállásában, kezébe veheti sorsát és foglalhat meeting roomot a Cloudera Budapesti főhadiszállásán – bízva abban hogy ott optimális technikai feltételekkel tud dolgozni.

Maga a vizsga 120 perces, de előtte 15 perc adminisztratív teendőkkel telik, így a szobát ideális elfoglalni már a vizsga kezdése előtt fél órával. A vizsga során elméletileg lehet csúszás az időben, de nálam ez nem volt számottevő.

Érkezés

Amikor elérkezett az idő, felkaptam kabátom, esernyőm és belötyögtem a villamossal arra a pontra, amit a google maps megjelölt. Annak ellenére, hogy már-már védjegyem az, hogy mindenhonnan kések egy picit, meglepő módon sikerült időben odaérjek. Természetesen ez sem ment abszolút zökkenőmentesen, tekintve hogy naívan két méteres ‘Cloudera’ feliratot vártam, amit nem találtam sehol. Némi útbaigazítás után megtudtam, hogy a Roosevelt irodaház hat/hetedik emeletén van a főhadiszállásuk, így betoppantam az irodaházba. Miután ízléstelen barna műbőr kabátommal nem tudtam elvegyülni az ottani öltönyös úriemberek között, kértem vendégkártyát a Clouderához. A lift kártyával működik, így a gombok kétségbeesett nyomkodása nem segít abban, hogy az ember felkerüljön a hetedik emeletre. A recepción gyorsan készítettem vendég-matricát magamnak, amit büszkén felragasztottam kabátom mellrészére. Pár perc után odaért a kontaktom, és újabb pár perc után sikerült találniuk egy másik meeting roomot, majd lekísértek a teremhez. Összességében 5-10 perc után a szobában voltam, így megkezdhettem annak átrendezését. A redőnyöket lehúzták, táblát kivitték, én pedig elpakoltam az asztalról mindent amit tudtam, elővettem laptopom és izzadt tenyérrel vártam, hogy a PSI felületén rá tudjak kattintani a vizsga megkezdése gombra.

 

Vizsga


A gombra kattintás után egy felületet kaptam, egyelőre VM nélkül, ahol egy chat ablakban egy sablonszöveg fogadott, majd kértek, hogy igazoljam magam, hordozzam körbe a laptopot a szobában, mutassam meg a szoba falait alaposan, mutassam meg az asztal felületét, stb. Mivel a vizsgáról nem készíthettem képeket, így a fenti kép csak egy google képkereséssel talált illusztráció – ám arra teljesen tökéletes, hogy megmutassa a felületet. Az ablaknak háttal nem lehetett ülni, illetve a kamerában jól látszódnom kellett (utóbbi a View webcam & desktop menüpont alatt volt ellenőrizhető a felső menüsávon). A kezdés előtt a system monitort/topot kellett mutatni. Maga a vizsga kilenc rövidebb feladatot tartalmazott. Egy feladat megoldása többnyire pár percet vett csak igénybe, a neheze annak ellenőrzése volt. Gyakori kikötésként szerepelt, hogy egy másik, létező táblával megegyező formátumot kell követni (fájlformátum, tagolás, oszlopnév), így ezt reflexszerűen tudni kellett ellenőriznem. A feladatoknál nincsenek részpontszámok és automatizáltan vannak ellenőrizve, így könnyű elcsúszni az ilyen “banánhéjakon”.
Teljesítménybeli problémákat nem tapasztaltam, a lekérdezések többsége 2-3 perc alatt lefutott. Két alkalommal hiába gépeltem szöveget, kétségbeesett billentyű-csapkodásomra sem jelent meg a virtuális gépen – ez a probléma mindkét alkalommal pár perc után magától megoldódott. A touchpaddal is volt egy kevés gondom, de erről könnyen el tudom képzelni, hogy lokális probléma volt. Miután vége lett a vizsgának, kaptam egy sablonszöveget, hogy 2-3 napon belül lesznek majd eredmények. Ezeket egyébként meglepően gyorsan megkaptam – mire az immár eléggé időszerű ebédem után visszaértem az irodába, már értesítettek is arról, hogy átmentem.

Tényleg jobb lett a levegő a karantén miatt?

By | Big Data News, Data Science | No Comments

António Guterres ENSZ-főtitkár a minap felhívást intézett a világ vezetőihez, hogy használják fel a koronavírus-járvány teremtette helyzetet a világ jobbá tételére és együttműködésükkel olyan más globális fenyegetésekkel is szálljanak szembe, mint a klímaváltozás. Mivel mi magunk, a United Consult munkatársai is elkötelezettek vagyunk a zöldebb jövő mellett, saját eszközeinkkel igyekeztünk utánajárni, hogy milyen konkrét összefüggések vannak a pandémia és a légszennyezettség csökkenése között.

 

Az MTI beszámolója szerint az ENSZ-főtitkár a Petersbergi Klímadialógus című kétnapos tanácskozás keretében szólalt fel videón keresztül. Guterres szerint a járvány rávilágított, hogy mennyire ki vannak szolgáltatva társadalmaink és gazdaságaink az ilyen jellegű sokkhatásoknak. Mint mondta, az egyedüli válasz ebben a helyzetben a bátor, jövőképpel rendelkező és együttműködő vezetés. „Ugyanilyen vezetésre van szükség a klímaváltozás egzisztenciális fenyegetése esetében is” – hangoztatta Guterres, aki szerint jelentős ára lesz annak, ha nem cselekszünk a klímaváltozás feltartóztatása ügyében, ugyanakkor – mint fogalmazott – a technológia a mi oldalunkon áll.

Húszéves múltra visszatekintő IT-cégként bátran megerősíthetjük az ENSZ-főtitkár szavait. A technológia valóban a jelen és a jövő szolgálatában áll, olyannyira, hogy kollégáink például már nem először hívták segítségül az adatokat és az adatelemzés módszerét a járványhelyzet kapcsán. Néhány hete arra kerestük a választ, hogy lehet-e Magyarországon adatokkal védekezni a járvány ellen, ezúttal pedig a Covid 19-járvány miatti kijárási korlátozások és légszennyezettség állapotának összefüggéseit vizsgáltuk meg.

NO2 és a hőmérséklet kapcsolata

A koronavírus-járvány kapcsán már sokat emlegetett légszennyezettség-csökkenés lehetséges okainak jártunk utána. Kíváncsiak voltunk arra, hogy a sok negatív hatással szemben ezt a pozitív változást át tudjuk-e menteni a vírus utáni időszakra.

A légszennyezettséget a levegő NO2 (nitrogén-dioxid) koncentrációján keresztül vizsgáltuk. A NO2 elsősorban a járművek üzemanyagának égéstermékeiből, valamint energia-termelésből és fűtésből származik. Ebből adódóan a hőmérséklet és a NO2 koncentráció természetesen erős kapcsolatot mutat. Mint a következő ábrán is jól látszik, a téli időszakban, amikor csúcson jár a fűtési szezon, mindig magasabb a légszennyezettség, és ahogy melegszik az idő, csökkennek az értékek.

 

Forrás: European Environment Agency, National Centers for Environmental Information

Mivel a koronavírus éppen ebben az amúgy is leszálló ágban ért el minket, az elemzés során figyelembe kellett vennünk az időjárási változásokat is. Ennek érdekében megnéztük, hogy tavalyhoz képest az idei tavasz gyorsabban vagy lassabban ért-e el minket. Azt tapasztaltuk, hogy a vizsgált városokban nincs szignifikáns különbség a tavalyi és az idei hőmérséklet alakulások között, így összehasonlíthattuk a tavalyi és idei NO2 értékeket.

A korlátozások hatása a légszennyezettségre

De akkor mi okozhatta mégis hirtelen a légszennyezettségi mutatók javulását a legtöbb koronavírussal sújtott országban? Nem kérdés, hogy a megbetegedéseken és az azokra adott társadalmi reakciókon túl a különböző vészhelyzeti intézkedések komoly hatással voltak minden ország működésére, ezek nyomán pedig visszaesett a közlekedés és ipari tevékenységek nagy része.

Vizsgálatunk során kísérletet tettünk arra, hogy egy időskálán bemutassuk, hogyan szigorodtak a korlátozások öt európai fővárosban. Egy 10-es skálán kategorizáltuk be az adott napi intézkedéseket az alábbi szempontok szerint:

A következőkben láthatjuk a NO2 és a korlátozások kapcsolatát. Az ábrákon feltűntettük a tavalyi és az idei év NO2 koncentrációját januártól kezdve és ezzel párhuzamosan mellé tettük, hogy a különböző városokban mikor, milyen erős korlátozások léptek érvénybe. Jól látható, hogy azokban a városokban, ahol a korlátozások erőssége elérte a legerősebb, 10-es szintet, ott jelentős csökkenést tapasztalunk a tavalyi NO2 koncentrációhoz képest.


Az eredményekből az is kitűnik, hogy bár Budapesten és Berlinben – ahol a korlátozások egyelőre megálltak a 7-es szinten és a hírek szerint nem is várható további szigorítás – is volt egy kezdeti csökkenés, hamar visszaállt a koncentráció az ilyenkor megszokott szintre.

A döntések gazdasági hatásai

Ezek a megfigyelések megerősítették, hogy a járvány miatt hozott döntések nem csupán egészségügyi, hanem komoly környezeti hatásokkal is bírnak. Mindemellett fontos szempont persze – és a döntéshozóknak természetesen ezt is mérlegelni kell –, hogy a korlátozások nem csupán a vírus terjedésének sebességét és intenzitását, illetve a légszennyezettséget befolyásolják. Az ilyen intézkedések a gazdaságra is komoly, jellemzően negatív hatással vannak. Kivételt talán csak az online kereskedelemmel, illetve bizonyos egészségügyi eszközök gyártásával és forgalmazásával összefüggő üzleti területek jelenthetnek.

A GDP adatok a márciusi-áprilisi időszakra vonatkozóan még nem álltak rendelkezésünkre, ezért a gazdasági hatások alakulásának vizsgálatára az úgynevezett PMI (beszerzési menedzser index) mutatót fogjuk használni, mely egy megkérdezésen alapuló mutató. Vállalatok vezetői nyilatkoznak az új megrendelések, készletek állománya, termelés, szállító teljesítések és a foglalkoztatási környezet változásairól. Ha a PMI értéke 50 feletti szám, akkor az gazdasági növekedést, az 50 alatti érték szűkülést, míg a kerek 50 változatlanságot vetít előre az előző hónaphoz képest.

 

Forrás: Investing.com

A fentebbi ábrán jól látható, hogy a gazdaságra éppoly drasztikus, ha nem erősebb hatása lesz hosszú távon „karanténban töltött” időszaknak, mint a légszennyezettségre. Összességében tehát elmondhatjuk, hogy igen komoly döntések előtt állnak a világ kormányainak vezetői: most ugyanis – ahogyan az ENSZ-főtitkár is hangsúlyozta – fontos lépéseket tehetnének a klímaváltozás ellen, nem mindegy azonban, hogy mindezt milyen áron teszik meg. Egyelőre a jövő kérdése, hogy a világ vezetői – például a COVID 19 nyomán csökkenő légszennyezettséget látva – megtalálják-e azokat az ideális intézkedéseket, melyek hosszú távon nem teszik tönkre a gazdaságot, de mégis látható javulást hoznak a környezeti mutatókra.

babygirl

Ők az anyukák kedvencei – látványos vizualizációk a trendi keresztnevekről

By | Big Data, Big Data News, Data Visualization | No Comments

Ezen a hétvégén lesz május első vasárnapja, amit Magyarországon 1925 óta az anyák napjaként ünneplünk. Az édesanyák első ajándéka újszülött gyermekeik számára a gondosan megválasztott keresztnév, mely életük végéig elkíséri őket. Anyák napja alkalmából a névadási trendeket vizsgáltuk az 1950-es évektől napjainkig.

 

Utánanéztünk, hogy a közel hét évtized alatt az édesanyák körében melyek voltak azok a leggyakoribb keresztnevek, amiket újszülött gyermekeiknek választottak, és hogy miként alakultak a névadási trendek Magyarországon.

Érdekes megfigyelni, hogy míg a fiúknál minden korszak között vannak átfedések, addig a lányoknál sokkal nagyobb a fluktuáció, és a top 15-ös listában többször is teljesen kicserélődnek a nevek. A látványos adatvizualizációkat figyelve – miként a való életben is – a szemünk láttára tűnnek el a Máriák és az Erzsébetek, és nem sokkal szerencsésebbek az Istvánok és a Józsefek sem. Az elemzésből kiderült, hogy míg a fiúknál már 2001 óta uralkodnak a Bencék, a lányoknál csak tíz évvel később kerültek az első helyre a Hannák.

Ráadásként pedig egy igazi kuriózum: a következő vizualizáción láthatod, hogy melyek a legnépszerűbb női és férfi keresztnevek Európa országaiban.

Európai trendek

Forrás: Belügyminisztérium Nyilvántartások Vezetéséért Felelős Helyettes Államtitkárság, Magyar Keresztnevek Tára
Vizualizáció: Flourish

Lehet Magyarországon adatokkal védekezni a járvány ellen?

By | Big Data, Cloudera, Data Visualization, Machine Learning, Python, Spatial data | No Comments

A kezdeti nehézségek ellenére meglehetősen jól alkalmazkodtunk a körülményekhez és – bár a többség számára nehezen érzékeltethető – de az IT világában igenis folyik a munka. Sok esetben meglehetősen hatékonyan. Egyik véglet, amikor munka közben négy gyereket kell menedzselni egy 80 nm-es lakásban, ahol a 2 nm-es erkélyre lehet maximum kimenni, a másik véglet a szingli életmód egy belvárosi lakásban, ahol hetek óta senkivel sem találkozol. Mindkettőre könnyű példát találni. Meggyőződésem, hogy egyik sem tartható fenn huzamosabb ideig anélkül, hogy valakinek az idegállapota ne változzon jelentős mértékben. Az előrejelzések alapján azonban a jelenlegi állapot hosszú hetekig még fenn marad, hiszen ha lazítanak a szabályokon, akkor a vírus terjedése elindul. Idén tehát valószínűleg sokaknak elmarad a nyár vagy a saját lakásra/kertre, esetleg nyaralóra, de mindenképpen a szűk családi körre koncentrálódik.

Hatékony járványkezelés, lehetséges?

A híreket olvasva kerestem példákat, hogy más országokban mi a helyzet. Azt már tudjuk, hogy hogyan ne kezeljük a helyzetet, látva az olaszországi, spanyol és francia példákat, ahol százak halnak meg naponta a vírustól. Vajon azt tudjuk hogyan lehetne másképp, jobban kezelni, hogy a vírus ne terjedjen, ugyanakkor a korlátozások se legyenek ilyen drasztikusak? Van erre példa, méghozzá Dél-Korea.

Dél-Koreában ugyan több, mint 9200 fertőzést regisztáltak (2020. március 26-i adat), a lakossághoz és a népsűrűséghez mérten ez egyáltalán nem sok. A megdöbbentő azonban, hogy milyen gyorsan úrrá lettek a vírus terjedésén: február 20-án regisztálták hivatalosan az első fertőzötteket és március 4-én már meg tudták törni a lendületet, majd 8-án újra egy törés, március 12-e óta pedig átlagban, kevesebb, mint 100 új esetet regisztrálnak naponta.

Sum Cases South Korea COVID-19
Daily Increase South Korea COVID-19

A Wikipédia szerint Dél-Korea lakossága körülbelül 51 millió fő, 1960 óta megduplázódott. (Érdekesség, hogy eközben, a hasonló népességű Irán lakossága majdnem megháromszorozódott.) Földrajzilag szomszédos Kínával (ahonnan a vírus elindult), de közvetlen szárazföldi kapcsolata Kínával nincs. Szárazföldi kapcsolata Észak-Koreán keresztül van, Észak-Korea zártsága miatt arra viszonylat kevesen járnak. Így a határai jól kontrollálhatóak, vízi és légi kikötőkre korlátozódnak. Azonban nem ennek a sajátos helyzetnek köszönhetik, hogy ilyen jól kordában tudták tartani a vírus terjedését. A háborút még ők sem nyerték meg, de sok csatát már megnyertek és jók a kilátásaik a végső győzelemre.

A Max Fisher NYT újságírójának beszámolója alapján Dél Korea a felkészültségének és a hihetetlen professzionizmussal végrehajtott “hadműveletének” köszönheti a hatékony védekezését. A “hadművelet” négy fontos részből áll:

  • Gyors beavatkozás, még a krízishelyzet kialakulása előtt (Lee Sangwon, an infectious diseases expert at the Korea Centers for Disease Control and Prevention said: “We acted like an army,”)
  • Korai tesztelés, gyakran és biztonságosan (hogy nehogy az orvos/nővér is megbetegedjen)
  • Kapcsolatok követése, izolálása és megfigyelése
  • Lakosság segítségül hívása, bevonása

Ezen pontok egyike sem egyszerű önmagában, de mind a négy pont hatékony végrehajtása és összehangolása nagyon komoly felkészültséget feltételez. Dél Koreában valószínűleg tanultak a 2002-2004-es első SARS hullámból. Sajnos vagy szerencsére abból Magyarország, de még a teljes Európa is majdnem kimaradt, az EU-ban mindössze Franciaországban volt halálos áldozata és a legtöbb országban hivatalosan nem is jelent meg a fertőzés. Dél-Koreában viszont igen, igaz csak 3 igazolt esetben.

Ennél is talán fontosabb a 2012-ben kirobbant Közel-keleti légúti szindróma (MERS) járvány, ami Dél Koreát 2015-ben érte el és “küldött” közel 6800 főt karanténba.

MERS Worldwide
MERS in South Korea

Forrás: https://en.wikipedia.org/wiki/2002%E2%80%932004_SARS_outbreak

Feltehetőleg ez készítette fel a koreai hatóságokat, hogy hogyan kell védekezni egy világjárvány ellen, hogyan védjék meg a lakosságot, főként azt a ~13,6%-ot (~7 millió embert), aki 65 éven feletti.

Az első két pont (gyors beavatkozás, gyors döntéshozatal, jó stratégia megalkotása és a korai tesztelés) abszolút a felkészültségről szól. (Van-e például a raktárban tömegesen olyan teszt, ami kimutatja a vírust?) A negyedik pont számomra evidens egy hatékonyan működő társadalomban a tájékoztatás, a kommunikáció nagyon fontos, hiszen bármit kitalálhatsz, ha az embereket nem tudod magad mellé állítani, akármilyen jó is az ötlet, nem fog működni.

Technológia jelentősége a járványkezelésben

A harmadik pont az ami engem érdekel, technológiai szempontból ez a legérdekesebb. Hogyan tudunk egy 51 millió fős lakosságot hatékonyan lekövetni, izolálni és megfigyelni?

A válasz nem is olyan bonyolult az adatok világában. Egyrészt nem 51 millió embert kell egyszerre megfigyelni, csak azt, aki közvetlen kapcsolatba kerül olyan emberrel, aki fertőzött. Miután a tömeges teszteléssel hatékonyan beazonosították egy adott területen, hogy ki a fertőzött és ki nem, már csak azokra kellett koncentrálniuk, aki fertőzött. A mobiltelefonok világában technológiailag nem túl bonyolult lekövetni, hogy ki merre jár. A Google Maps Timelineon például most is meg tudom nézni, hogy két éve március 15-én éppen merre jártam. Sőt még azt is, hogy mivel közlekedtem: gépkocsi, kerékpár vagy gyalog. Persze ez nem mindenkinél engedélyezett és egy más kérdés az, hogy kivel osztom meg, de a mozgás követése évekre visszamenőleg adott, hiszen egy globális helymeghatározó eszközt hordanak az emberek a zsebükben, aminek neve: okostelefon. Mindegy, hogy Android vagy iOS, legfeljebb az a különbség, hogy melyik gyártó szerverére küldi az adatokat, ha nincs ez a funkció letiltva.

Maps Timeline Example

Magyarországi helyzetkép

Jelenleg 5,3 millió (~57,4%) okostelefon használó van Magyarországon, úgyhogy ezzel még nem oldottuk meg fertőzöttek követését, csak nagyjából minden másodikét, feltételezve, hogy megkapjuk az engedélyt az adatok beszerzésére.

A GPS koordináták követésén kívül van azonban egy nem közismert, de más kontextusban gyakran használt megoldás. Bárkinek a mozgása, aki mobiltelefont használ a mobilhálózaton keresztül, ha nem is GPS pontossággal, de lekövethető. Az adatok magyarországi használata nem is példa nélküli, a Nemzeti Turisztikai Ügynökség például vásárolt és elemzett ilyen adatokat nem is olyan régen.

A pontosság a hálózat sűrűségétől és a beállításaitól persze nagy mértékben függ, de a célnak megfelelő és azt a tévhitet is el kell vetni, hogy csak azok a mobiltelefonok követhetőek le, amelyek éppen hívásban vannak. Minden bekapcsolt állapotú mobiltelefon lekövethető. Erre egyébként a hazai mobilszolgáltatók céges gépjárműflotta követésére már több, mint 10 éve nyújtanak szolgáltatást (Mobil Flotta, Flotta Helymeghatározó vagy Flottakövetés).

Itt jön képbe a Big Data

Tegyük fel, hogy az adatok elérhetőek. Innentől egyszerűen csak össze kell vetnünk a koordinátákat időben és térben és le kell fejlesztenünk az algoritmust, ami akár valós időben megmondja, hogy egy kiválasztott időpontban ki találkozhatott az útja során fertőzött személlyel. Ha ezt a megfigyelt körnél automatikusan végezzük az elmúlt két hétre, akkor az eredmény a másodperc töredéke alatt lekérdezhető. Igen, akár Magyarországon is!

Az adatok hatékonyt tárolását számos Big Data megoldás támogatja, és kapacitáshiányban sem szenvedünk a felhőmegoldásoknak (például AWS, Azure, GCP) köszönhetően, de ha például ez nemzetbiztonsági kockázatot jelent, akkor építhetünk magunknak Hadoop rendszert, például egy on-prem Cloudera clustert, amit “olcsó” hardveren üzemeltethetünk és tárolhatunk benne akár petabyte (10^15 byte) méretű adathalmazt is, amelyet másodpercek alatt fel lehet dolgozni.

Megtalálni a megfigyelt személy útját keresztező személyeket nem triviális. Számos oldalról meg lehet közelíteni és kis kutatással, kész algoritmust is találhatunk az Interneten, például itt. Az algoritmus (akármilyen hatékony is) feldolgozó-kapacitást igényel, de ez 2020-ban szintén nem lehet akadály. Megfelelően méretezett on-prem clusteren vagy a felhőben elérhető a megfelelő “processing capacity”. Sőt manapság már a tárolás és a feldolgozás nem feltétlenül kell egy helyen legyen, “csak” a két hely között mozgatott adatmennyiségre kell figyelni, hogy a hatékonyság ne vesszen el. Költséghatékonyan megoldani persze semmit sem egyszerű, de nem is lehetetlen. Minden technológia és tudás is adott hozzá a csapatunkban.

Az algoritmus eredménye birtokában, akár a fertőzési valószínűséget számító Machine Learning modellekkel, SMS formájában értesíthető minden potenciálisan érintett személy és ezáltal elirányítható egy tesztközpontba.

Személyiségi jogok

A járványkezelés kapcsán sokszor felmerül a személyiségi jog kérdésköre, úgy ahogyan bármilyen üzleti célú adatgyűjtés, BigData és Machine Learning alkalmazása kapcsán is.

Véleményem szerint a járványkezeléssel kapcsolatban, ahol a hatékonyság elmaradása emberéleteket követelhet – szemben mondjuk egy üzleti alkamazással, ahol “egyedül” a profit áll szemben a jogokkal – a társadalmi igény magasabb szintet kell, hogy képviseljen, mint az egyén személyiségi joga.

Ettől a morális vitától függetlenül, a vázolt technológiai megoldás, a cellainformációkon alapuló kontakt kutatás anonimizált módon tudna zajlani. A szolgáltatók az adatvagyonnal jelenleg is rendelkeznek és úgy vélem, hogy az adatok anonimizált “átadása” egy központi járványkezelő szerv számára semmilyen törvényi akadályt nem sértene, de ennek a kérdésnek a megválaszolása természetesen már a szakjogászok feladata.

Hogyan tovább?

A koronavírus kapcsán talán már késő egy ilyen megoldás megvalósítása, de addig érdemes a témát napirenden tartani, amíg forró, hiszen egy esetleges következő járvány során a megvalósításba fektetett költségek elenyészőek ahhoz képest, hogy akár a társadalom az emberéleteken keresztül, akár a gazdaság a szigorú és hosszan tartó korlátozások hatására mekkora károkat szenvedhet el.

A dél-koreai példából is jól látható, hogy ha erre valaki fel van készülve és tömegesen, hatékonyan tudja végrehajtani a védekező intézkedéseket, akkor a járvány komolyabb korlátozások nélkül, meglehetősen rövid idő alatt kordában tartható.

Azt hiszem egyik ország sem kezelheti másként a helyzetet, legfeljebb ellaposíthatja a szigorú intézkedésekkel a vírus terjedésést, és elodázhatja ezeket a feladatokat. Hosszú távon – véleményem szerint – ez a rendkívüli állapot nem fenntartható anélkül, hogy komolyabb – nem feltétlenül közvetlenül a vírus okozta – károkat szenvedjünk. Így vagy úgy, mindenesetre jobb ha megtanulunk mindezzel együtt élni.

Megjósoljuk, hogy megjósolják – Facebook Prophet

By | Big Data News, Business, Data Science, Data Visualization | No Comments

Az elmúlt hetekben alapjaiban forgatta fel társadalmunkat és világról – különösen annak biztonságáról – alkotott képünket a Kínából indult koronavírus-járvány, és persze a globális felmelegedés témája is folyamatosan foglalkoztatja a közvéleményt.

A 21. században egyre nagyobb jelentőséggel bírnak és egyre pontosabbak a különböző prognózisok. Vajon az ezek mögött álló előrejelző algoritmusok tényleg alkalmasak arra, hogy megbízható információkkal szolgáljanak például az időjárásról, a közúti forgalom, esetleg a részvényárfolyamok alakulásáról, vagy akár a járványok terjedéséről? Erre is választ keresünk a Facebook Prophet gyakorlati bemutatásán keresztül.

Nem kérdés, hogy mindennapi életünket egyre jobban befolyásolják a különböző előrejelző algoritmusok. Elég, ha csak az időjárás-előrejelzésre, a forgalmi prognózisokra vagy a részvényárfolyamok előrejelzésére gondolunk. „Vajon milyen idő lesz holnap? Ha holnap arra indulok kocsival, vajon dugóba kerülök? Vajon most érdemes beszállni ebbe az üzletbe?” – annyira gyakorlatias kérdések ezek, hogy akár az elmúlt fél órában is hallhattuk volna valakitől, vagy akár mi magunk is feltehettük volna bármelyiket.

Még ha nem is tudatosul bennünk, számos előrejelzést „futtatunk” magunk is: korán indulunk, hogy legyen hely a munkahelyi parkolóban, hogy ne kelljen sorba állni a menzán; esetleg megpróbáljuk egy korai vagy éppen késői hazaindulással a dugót elkerülni; és így tovább. Mindez tapasztalataink alapján az esetek többségében működik is, ha pedig tévedünk, olyan nagy kockázattal jellemzően nem jár.

Amikor az adatok jóslásának következménye van

Az üzleti életben az előrejelzések ennél sokkal racionálisabban működnek, és persze nagyobb téttel is bírnak. A forgalmi adatok előrejelzése például egy rendszerüzemeltetéssel foglalkozó vállalatnál kulcsfontosságú. Még ha tudnák is úgy méretezi a rendszereiket, hogy azok az elképzelhető legnagyobb forgalmat is elbírják, nem lenne költséghatékony azt mindig a maximális kapacitáson üzemeltetni. Ehelyett inkább a korábbi minták alapján próbálják megbecsülni a várható forgalmat, és az IT-infrastruktúrát az előrejelzéshez méretezni. Szerencsére az elasztikus skálázhatóság ma már nem probléma.

Egy call centernél sem mindegy, hogy mikor hány operátor dolgozik. Az sem volt mindegy, hogy a 2000-es évek derekán a telekommunikációs vállalatok mekkorának becsülték az év végi SMS-forgalmat, hiszen köztudott volt, hogy akkortájt az rövid szöveges üzenetek nagy része karácsonyra és szilveszterre koncentrálódott.

Az előrejelzés-automatizálás előretörése minden területen törvényszerű, így ma már az interneten is számos algoritmus elérhető. Egyikre sem tekinthetünk természetesen mindent tudó varázsgömbként, de van egy-két említésre méltó közöttük. Ebben a bejegyzésben a Facebook által publikált generikus prediktív elemzési megoldást vizsgáljuk: kipróbáltuk a Mark Zuckerberg és fejlesztői csapata „prófétáját”.

A Facebook Prophet egy Python és R nyelven használható előrejelző eszköz, melyet Facebook data science csapata fejlesztette ki a Stan fejlesztőeszköz használatával. Szükséges bemenete egy timestamp típusú attribútum és egy hozzá tartozó numerikus érték. Ebből adódóan ez az eszköz azokra az esetekre hasznos,  mikor az adatnak szezonális tartalma van. Tapasztalataink alapján leginkább napi bontású, legalább egy évet tartalmazó adatok elemzésére alkalmas. Az implementációja követi az sklearn fit és predict függvények struktúráját.

A Prophet paraméterezhetősége

A Prophet erőssége a paraméterezhetőség, a lehetőség olyan információk átadására a modellnek, amelyek alapvetően az adatból nem következnek, de szeretnénk azokat figyelembe venni egy megbízhatóbb előrejelzés létrehozásakor.

  • Saturating Forecasts: minimum(floor), maximum(cap) érték meghatározása a perdiktálás keretek között tartása érdekében. Valamely konstans keretérték megadása, ami az adott előrejelzés logikája alapján szükséges lehet.
  • Trend Changepoints: az emberi ismeretekkel előre sejthető, jövőbeli trendben számíthatóan bekövetkező váltópontok számának meghatározása (n_changepoints), trend flexibilitásának beállítása (changepoint_prior_scale) vagy a váltópontok helyének meghatározása (changepoints). Ilyen lehet például a labdarúgó-világbajnokság fináléja.
  • Seasonality and Holiday Effects: szezonalitás meghatározása (add_seasonality), alapvetően heti és éves intervallumokkal számol a modell. Ünnepek meghatározása (holidays). Abban az esetben, ha szeretnénk meghatározni ilyen ünnepi dátumokat, akkor azt a múltra és jövőre vonatkozóan is meg kell tenni, különben nem veszi figyelembe a modell. A különböző ünnepek között meghatározható prioritás (prior_scale) és az ünnepi hatások csillapítása is lehetséges (holidays_prior_scale).
  • Outliers: Az outlier adatok kezelésére azt javasolják, hogy egyszerűen csak cseréljük le nem létező adatra, mert a Prophet jól kezeli a hiányzó adatokat.
  • Non-Daily Data: Abban az esetben, ha nem éves adatokra tanítjuk be a modellünket, akkor az előre jelzésre is olyan intervallumot használjunk, mint amit a tanító halmazban.

Időjárás-előrejelzés

A Prophet eszköztárának kipróbálására Budapest egy kerületének a hőmérsékleti adatait használtuk fel, mint erősen szezonális adatokat. Az adathalmazunk 1901. 01. 01-tól 2010. 12. 31-ig tartalmaz hőmérséklet adatokat napi bontásban. Az utolsó 2010-es évet vettük ki a tanító halmazból és használtuk fel az előrejelzés visszamérésére.

# Eredeti adathalmaz oszlopainak átnevezése
df = df.rename(columns={'#datum': 'ds', 'd_ta': 'y'})
data = df[['ds', 'y']]
# Dátum formátum megváltoztatása
training = data[data['ds']<'2010-01-01'] test = data[data['ds']>='2010-01-01']
# Modell létrehozásda és tanítása
m = Prophet(changepoint_prior_scale=0.5)
m.fit(training)
# Jövőbeli dátum intervallum létrehozása
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)
# Vizualizáció
plt.plot( forecast_2010['ds'], forecast_2010['yhat']
         ,forecast_2010['ds'], forecast_2010['yhat_lower']
         ,forecast_2010['ds'],forecast_2010['yhat_upper']
         ,forecast_2010['ds'],test_2010['y'] )
plt.show()

 

Időjárás 2010A fenti ábrán a 2010-es év valós időjárása piros vonallal látható. A Prophet által illesztett előrejelzés a kék vonal és a hozzá tartozó narancs és zöld színnel ábrázolt y_lower és y_upper, felső és alsó határérték.

 

Decemberre illesztett görbe:


forecast_december = forecast.tail(31)

test_december = test.tail(31)

plt.plot( forecast_december['ds'], forecast_december['yhat']

         ,forecast_december['ds'], forecast_december['yhat_lower']

         ,forecast_december['ds'],forecast_december['yhat_upper']

         ,forecast_december['ds'],test_december['y'] )

Időjárás 2010 december

Az decemberre vonatkozó előrejelzés megmutatta, hogy kisebb intervallumok kiemelése esetén sokkal nagyobb arányban esik a prediktált felső és alsó határértékeken is kívül a valós hőmérséklet. Mint láttuk, az éves előrejelzésnél lévő körülbelüli +/– 5 fokos felső és alsó határon belülre kerülnek az akkori valós hőmérsékleti adatok túlnyomó többsége.

Októberre illesztett görbe:


forecast_oct= forecast[forecast['ds']>='2010-10-01']

forecast_oct = forecast_oct[forecast_oct['ds']='2010-10-01']

test_oct = test_oct[test_oct['ds']<'2010-11-01']

plt.plot( forecast_oct['ds'], forecast_oct['yhat']

         ,forecast_oct['ds'], forecast_oct['yhat_lower']

         ,forecast_oct['ds'],forecast_oct['yhat_upper']

         ,forecast_oct['ds'],test_oct['y'] )

plt.show()

Időjárás 2010 október

Az októberi adatok vizsgálatakor látható, hogy egy hőmérsékletben kevésbé ingadozó hónap esetén meglehetőségen pontos előrejelzést kapunk a modelltől. Ebben az esetben például a prediktált és alsó határérték közé esik – kevés kivétellel – az összes valós hőmérsékleti érték.

Prophet a globális felmelegedésről

Érdekességképpen kipróbáltuk, milyen következtetést von le a jövő időjárásra vonatkozóan a Prophet. Megnéztük, milyen előrejelzést ad száz év hőmérsékletadatait figyelembe véve a 2039-es évre vonatkozóan.


future_forecast = forecast[forecast['ds']>='2039-01-01']

future_forecast.head()

future_forecast.tail()

test_2010_cut = test_2010[test_2010['ds']<='2010-12-24']

future_forecast.tail()

test_2010_cut.tail()

plt.plot( future_forecast['ds'], future_forecast['yhat']

         ,future_forecast['ds'],test_2010_cut['y'] )

plt.show()

Időjárás 2039 előrejelzés

Ebben az esetben a teljes adathalmazt felhasználtuk a tanításra  1901.01.01-től 2010.12.31-ig és a következő 30 évre illesztettünk egy görbét a Facebook Prophet segítségével. A kékkel látható a 2039-es évre prediktált görbe és sárgával az adathalmazunk utolsó 2010-es évének hőmérséklete. Alapozva az elmúlt 100 év hőmérsékleti trendjére, szinte az év minden napján jó pár fokkal magasabb hőmérséklet várható.

A Facebook Prophet alapvetően egy újabb nem-lineáris regresszióval dolgozó előrejelző eszköz, ami specifikus esetekben, leginkább a benne implementált paraméterezhetőségével tud hasznos segítséget adni.

via facebook.github.io/prophet/

 

Tekintsd meg a legfrissebb adatokkal kapcsolatos előrejelzéseinket:
https://datandroll.hu/2020/02/12/adatelemzes-trend-bizni-az-adatokban/

https://datandroll.hu/2020/01/29/2020-az-adatok-eve-lesz/

Nézz körbe a Big Data szolgáltatásaink között:

https://thebigdataplatform.hu/big-data-uzleti-megoldasok/

Ha érdekel a cégünk, csapatunk, esetleg csatlakoznál, látogass el a főoldalunkra:

https://united-consult.hu/

 

 

Trendinek lenni = bízni az adatokban

By | Big Data News, Business, Data Science, Machine Learning, Tech Trends | No Comments

Az esetek többségében ismeretlen területre lép az a cégvezető, aki az adatelemzés és -vizualizációt készül integrálni a vállalkozása üzleti folyamataiba. Ahogyan azonban szakértő segítséggel – a számára szükséges mértékben – egyre jobban átlátja a rendszert, és lépésről lépésre tisztul a kép a végeredményt illetően is, úgy egyre nő a bizalom, az ügyfél pedig minden tekintetben partnerré válik.

Természetesen hosszú egy megbízás útja, amíg a csapat felállításától eljutunk a felhasználók betanításáig, illetve az új rendszer élesítéséig. Kollégáink tapasztalatai szerint – közép- és nagyvállalati környezetben – átlagosan több mint fél évet vesz igénybe, mire az előkészítésből, az üzleti megértésből, a fejlesztésből, a tesztelésből, majd az átadás/átvétellel záruló üzembe állításig eljut egy projekt. Ahogyan látszik: miként a feladat, úgy az ügyfél döntése is igen komoly, hiszen a vállalkozás mindennapjaiba, üzleti folyamataiba drasztikus változásokat hoz egy ilyen rendszer.

Miért lehet bizonytalan az ügyfél?

Fejlesztőként érdemes tisztában lenni azzal, hogy az ügyfél esetleges bizonytalansága hátterében több tényező is állhat. Az ML (machine learning) modellek egyelőre viszonylag ismeretlen terepet jelentenek a hagyományos üzleti szféra számára – különösen igaz ez a KKV szektorra –; a meglévő folyamatba egy, az üzlet számára kevésbé kontrollálható elemet engednek be; szükségessé válik a megszokott működési folyamatok átalakítása, az adatelemzés beillesztése az operatív döntéshozatalba; és persze kritikus pont az is, hogy a fejlesztés érdekében külső szakértőkkel kell megosztani az üzleti információkat.

Munkatársunk, Fodor Szabolcs szerint az üzleti szféra jövőjét mindezek ellenére egyértelműen az adatvezérelt döntéshozatal jelenti, minden jel ebbe az irányba mutat. „Egyfajta hype is övezi az adatvezérelt döntéshozatalt, a BigData vagy AI megoldásokat, ami sok vezetőnek, cégtulajnak felkelti az érdeklődését, azonban a valóság és a hype között még nagy a szakadék. De ez a folyamat öngerjesztő, hiszen ha egy szektorban egy vállalat piaci előnyhöz jut egy adatvezérelt megoldással, a versenytársak lépéskényszerbe kerülnek, hiszen hosszú távon aki ebből kimarad, az lemarad” – fogalmazott kollégánk.

Széles körű felhasználás

Az adatelemzés és -vizualizáció az üzleti élet minden szegmensében hatékonyan támogatja a menedzsment munkáját, a vállalati döntéshozatalt. Zsolt és Szabolcs a BI Fórumon megtartott előadásban kitértek arra is, hogy a technológia olyan területeken is sikerrel bevethető, mint például az árkalkuláció, a termékajánlás, az ügyfelek mikroszegmentációja, a Customer Lifetime Value Prediction vagy éppen az üzlethelyiség ideális helymeghatározása.

Szabolcs ezzel kapcsolatos tapasztalatairól is beszámolt. Hangsúlyozta, mindig az adott iparág igényeitől függ, hogy a technológia mely funkcióit, lehetőségeit, előnyeit használják ki szívesebben és nagyobb bizalommal a cégek. „Egy pénzintézet esetén elsősorban az ügyfél scoring rendszerek a legfontosabbak, amellyel az ügyfelek hitelképességét vizsgálják. Egy gyártóüzemben ez nyilván nem használható eszköz, ott első sorban a predictive maintenance-nek van a legnagyobb szerepe, ami az üzem eszközeinek hatékony karbantartását, a karbantartási költségek leszorítását támogatja. Egy termékajánlási megoldás pedig főként az online termékértékesítésben érdekelt cégeknek lehet fontos, ahol széles termékkörből kell kiszolgálni az ügyfelet az egyedi igényei alapján” – osztotta meg kollégánk.

Ha érdekel még milyen újdonságot tartogat 2020 az adatok terén, olvasd el az alábbi cikkünket is:
https://datandroll.hu/2020/01/29/2020-az-adatok-eve-lesz/

Vagy tekintsd meg cégünk más témában megosztott tartalmait:
https://united-consult.hu/category/cikkek-rolunk-es-masrol/

 

2020 az adatok éve lesz

By | Big Data News, Business, Data Science, Data Visualization | No Comments

Az idei igazán különleges év lesz. A számmisztikával foglalkozó numerológusok szerint 2020-ban ugyanis az anyagiakkal összefüggő energiák uralják a mindennapjainkat, az évszámban szereplő két nulla azonban nehézségeket, komoly kihívásokat jelent majd. Mi magunk is izgalmas esztendőre számítunk, de az efféle okkult tanok helyett továbbra is a tudományos alapokon nyugvó adatelemzés segítségével tekintünk a jövőbe.

Mi már a tavalyi esztendőt is ennek szellemében zártuk, 2019 év végén kollégáink ugyanis előadóként vettek részt a Budapest BI Fórumon, mely a legnagyobb magyar, analitikával foglalkozó, független szakmai rendezvény. Az eseményen egyebek mellett szó volt a BI- és analitikai trendekről, az adatvizualizációról, a mesterséges intelligenciáról, az érdeklődők konkrét esettanulmányokat is megismerhettek az üzleti élet több területéről, Borbély Zsolt és Fodor Szabolcs kollégáink pedig a kiskereskedelemben használatos adatalapú optimalizációról tartottak előadást.

Még tartanak az ismeretlentől

Bevezetésként körüljárták a szakmai berkekben sokakat foglalkoztató kérdést, hogy az adatalapú döntéshozatal vajon csak „win-win” szituációkat eredményezhet-e. Kollégáink úgy vélik, hogy az emberi tényezőktől független folyamatok, valamint az azok eredményeképpen megszülető vagy éppen az azok hátterében álló objektív mérőszámok kétségtelenül pozitív megítélés alá esnek; ugyanakkor a titokzatos „black-box” technológia jelenlétét és a döntések feletti kontroll csökkenésének érzetét negatívan élik meg a cégvezetők és döntéshozók. 

A bizalom azonban jelentősen erősíthető, ha jól előkészített, szakmailag kifogástalanul kivitelezett projekteket adunk át a megrendelőknek, illetve a potenciális ügyfelek kizárólag ilyeneket látnak a referenciáink között. Ehhez azonban feltétlenül szükséges – mondhatni: a sikeres projekt kulcsa –, hogy az ügyféllel közösen helyesen fogalmazzuk meg az üzleti problémát, melyre megoldást keresünk; hogy megbízható és széles körű adatforrásokkal rendelkezzünk; illetve, hogy nyitottságot tapasztaljunk az ügyfél részéről is.

Szabolcs ezzel kapcsolatban úgy vélekedik: „Ma Magyarországon az adatgyűjtés már kellő fókuszban van, és azon KKV-k, amelyek erre hangsúlyt fektetnek, többnyire megfelelő adatforrásokkal is rendelkeznek. Az adatok közvetlenül az üzleti döntéshozatalban, termékfejlesztésben való felhasználásában azonban van még teendő. Itt a nyitottság, az ismeretlentől való félelem, de egyes esetekben az ellenérdekeltség is gátat szab az adatok felhasználásának. Ezen edukációval, pilot projektekkel lehet a legkönnyebben segíteni.”

Komplex szolgáltatásoké a jövő

Ha a nyitottság és a bizalom megvan, az ügyfél csak jól járhat az adatelemzéssel és az adatalapú döntéshozatallal. Kollégáink szerint ugyanis az adatelemzés alapja – némileg leegyszerűsítve –, hogy az üzleti kérdést az adatok nyelvére fordítjuk. Mindez lényegében azt jelenti, hogy az emberi vagy üzleti logika diktálta intuíciókat a meglévő adatokkal támasztjuk alá vagy cáfoljuk meg indokolt esetben; az elvárások alapján felépítjük a modellt; összevetjük a tényeket és az elvárásokat; végezetül pedig forintosítjuk az eredményt.

Egyszerűnek tűnik, a háttérben azonban idő- és energiaigényes feladatok állnak. Kollégáink szerint egy-egy projekt esetében a munka 30%-át az üzleti megértés, 50%-át az adatgyűjtés és előkészítés, adja, és csupán 20%-ot tesz ki maga a modellfejlesztés, mely önmagában is igen komoly és felelősségteljes szakmai kihívás. Ide tartozik ugyanis a Feature Engineering-gel, az ML tanítással és a modell teszteléssel kapcsolatos összes feladat, mely a jövőbeni, működő rendszer motorjául szolgál.

Zsolt és Szabolcs előadásában szó volt arról is, hogy míg sok piaci szereplő csak bizonyos részfeladatokat vállal az előbbiek közül, addig a United Consult komplex megoldásokat kínál az ügyfeleknek. Ezek alapját képezi az imént részletezett adatbányászat és -elemzés, majd a modellfejlesztés. Ezeket követően a modell rendszerbe állítása és a rendszeres modellpredikció vesz még részt a folyamatban. A projekt csúcsa a felhasználói dashboard kialakítása és maga az adatvizualizáció.

Utóbbival kapcsolatban Szabolcs úgy fogalmazott: „Maga az adatvizualizáció lehet egy adatalapú projekt végterméke, ebben az esetben a döntéshozatal közvetlen támogatásában, a működés átláthatóbb áttekintésében van szerepe. De természetesen nem szükséges végterméke az adatvizualizáció egy adatalapú projektnek, de mindenképp támogató szerepe van az adatok megértésében.” Végezetül tehát, a bevezetőben említett számmisztikára visszatérve: 2020 valóban különleges évnek ígérkezik, és ahhoz sem fér kétség, hogy a számok valóban megmutathatják a jövőt, akár üzleti értelemben is. Mi, a United Consultnál azonban abban hiszünk, hogy terveinket nem alapozhatjuk az aktuális csillagállásra. A bigdata-technológiában rejlő lehetőségeket – megfelelő szakértelemmel – azonban bárki a saját javára fordíthatja.

További adatokkal kapcsolatos bejegyzéseinket itt találod:
https://datandroll.hu/

Itt pedig cégünk más témában megosztott tartalmait tekintheted meg:
https://united-consult.hu/category/cikkek-rolunk-es-masrol/