Category

Business

Adatvédelem 2022: segítünk megérteni, miért fontos!

By | Big Data, Big Data News, Business, Tech Trends | No Comments

Január 28-a van, az adatvédelem nemzetközi világnapja. Cégünk, a United Consult számára nem csupán ma, hanem az év minden napján szakmai minimumnak számít, hogy szem előtt tartjuk a kiberbiztonságot és preventív tanácsokkal látjuk el ügyfeleinket az adataik védelmét illetően. A mai világnap azonban remek alkalom arra, hogy felelősen gondolkodó IT-cégként a laikusok figyelmét is ráirányítsuk a téma fontosságára.


Miért van világnapja az adatvédelemnek, és miért éppen ma?

Bár az adatok, adatbázisok jelentősége látszólag csak az elmúlt 10-15 évben ugrott hatalmasat, a jogalkotók valójában már sokkal korábban rájöttek, hogy milyen értékes, ugyanakkor rendkívül szenzitív kincset jelentenek a mindenkori gazdasági és politikai hatalom számára. A megfelelően strukturált, ennélfogva könnyen kezelhető adatok birtoklása az élet megannyi területén előnyhöz juttathatta az adatgazdákat, nem csoda hát, hogy hamar visszaélések tárgyává, tolvajok célpontjává váltak a különböző adatbázisok. Az információtechnika térnyerése, a számítógépek terjedése aztán alapjaiban alakította át az adatgyűjtés és -tárolás módszereit, a jogalkotók pedig a lehetőségek mellett felismerték az ebben rejlő kockázatokat is.

1981.január 28-án Strasbourgban egyezményt írtak alá az európai államok képviselői, mely az egyének védelméről rendelkezik a személyes adatok gépi feldolgozása során. Ez az úgynevezett adatvédelmi egyezmény, a dokumentum születésének dátuma pedig a mai adatvédelmi világnap apropója.

Hack, ransomware, phishing – mindenre van megoldás!

Azt gondolom, a világnap alkalmából mindenképpen érdemes elgondolkodni azon, hogy a big data megoldások elterjedésével hogyan tekintünk 2022-ben az adatvédelem kérdésére. Napjainkban a felhők, a GDPR világában, ahol és amikor már a petabyte-ban mérhető adatmennyiség szinte mindennapos, amikor ötszázórányi videót osztanak meg a felhasználók percenként a YouTube-on, egyre fontosabb szerepet kap az adatok helyes és hatékony felhasználása mellett azok védelme is.

Minden adat tárolásánál fennáll a kiszivárgás és a jogtalan felhasználás veszélye is, ezért – mint arra már a bevezetőben is utaltam – az adatbiztonság kérdésköre jóval idősebb, mint a mai értelemben vett big data története. Gondolhatunk itt a „klasszikus” hackelésre, az úgynevezett ransomware (zsarolóvírus) támadásokra vagy éppen a phishingre (adathalászatra). Ezekre a kibervédelmi kockázatokra szerencsére megvannak a megfelelő megoldási rendszerek, melyeket az adatmennyiségre való tekintet nélkül tudnunk kell alkalmazni!

A big data terjedése új kihívásokat hozott

A big data terület biztonsági kérdéseinek talán legironikusabb része, hogy rengeteg cég és technológiai megoldás éppen a nagyobb adatmennyiség segítségével próbál megoldást találni a klasszikus biztonsági problémákra, illetve ezek révén igyekszik hatékonyan detektálni a felmerülő kockázatokat. A nagy adatvolumen ugyanakkor megnehezíti a klasszikus auditálási metódusokat, valamint a szoftverekben máshol alkalmazott titkosítási módszerek használatát. Úgy vélem ez akár ahhoz is vezethet, hogy éppen egy adott on-prem vagy cloud infrastruktúra válik a legvédtelenebbé az egész hálózaton.

Egy-egy ilyen rendszernél nemcsak a tárolási, de a be- és kimeneti védelmet is alaposan át kell gondolni; legyen szó az IoT-rendszeren keresztül bevitt adatok védtelenségéről vagy éppen egy analitikai dashboard kitettségről. Ezek a problémák az új, folyamatosan fejlődő, kiforratlan technológiákból jöhetnek, melyek esetében még nem feltétlenül a biztonság az elsődleges szempont.

Már nem csak a támadásokra kell figyelni

A big data terület rohamos fejlődése, illetve a kezelt adatbázisok méretének robbanásszerű növekedése nem csupán a gyakorlati megoldásokat, az alkalmazott kiberbiztonsági technológiákat, hanem a vonatkozó jogi környezetet illetően is változásokat hozott. Az IT világában ma már nem csak „phishing” e-mailekre kell figyelni, hanem a gyakran változó jogszabályokra (például a GDPR rendelkezésekre) is megfelelően kell reagálni. Egy-egy adatvesztésnek a jogi következményeken túl más negatív hozadéka is lehet: felgyorsult, információdús mindennapjainkban sokkal gyorsabb az esetleges bizalomvesztés is a cégekkel, termékekkel szemben, ha bármilyen jele felmerül annak, hogy a személyes adatokat nem megfelelően kezelték.

Természetesen ezeket a problémákat már meglévő és új eszközökkel is kezelni tudjuk. Az infrastruktúránkat tűzfalakkal, megfelelő autentikációs rendszerekkel biztosítani tudjuk. Sorolhatnám példaként a különböző proxykat, a cloud és on-prem autentikációs rendszereket – mint a Kerberos vagy az IAM. Hozzáteszem ugyanakkor, hogy mára szerencsére maguk a nagy felhőtechnológia-szolgáltatók is hatalmas hangsúlyt fektetnek ezekre a szolgáltatásokra.

Ez azonban még mindig csak a csata fele, hiszen a legjobban tervezett rendszerek esetében is van egy gyenge láncszem: maga az ember. Hatalmas felelősség nyomja a programozók és a big data szakemberek vállát. Az ő feladatuk ugyanis a szenzitív adatokat megtisztítani, valamint a rendszerrel kapcsolatos jogosultság-visszaélesek lehetőségét a fent említett technológiák révén minimálisra csökkenteni. Továbbra is fontos szervezeti szinten figyelni a klasszikus „social engineering” támadásokra, és megfelelő védelemmel kell ellátni minden olyan végpontot, ahol az adatunk megjelenik.

Magas prioritású feladat az adatvédelem

Összességében elmondhatjuk, hogy a big data iparág folyamatos növekedésével egyre komolyabb kihívást jelentenek az adatvédelmi kérdések, melyek megválaszolása kiemelt prioritású feladat az IT-szféra egésze számára. Mi, a United Consult munkatársai hiszünk abban, hogy csak úgy nyújthatunk minőségi és szakmailag megfelelő szolgáltatásokat partnereink és ügyfeleink számára, ha mindennapi munkánk során innovatív megoldásokkal garantáljuk az általunk kezelt adatok biztonságát.

Ha részletesebben érdekel a téma és személyesen tájékozódnál az adatvédelem kérdéseiről, keress minket az elérhetőségeinek bármelyikén, illetve figyelmedbe ajánlom a Nemzeti Adatvédelmi és Információszabadság Hatóság weboldalát is, ahol hasznos információkat találsz az aktuális szabályozásokról.

Gyors döntéshozatal a kereskedelemben

By | Business, Data Science | No Comments

Az elmúlt év eddig nem ismert kihívások elé állította a kereskedelmi hálózatokat, a járvány magyarországi megjelenésekor az egyes termékek iránti felfokozott keresletet és az ellátási láncok akadozása okozott nehézséget, majd a különböző korlátozások. Az események hatására a vásárlási szokások átrendeződése is felgyorsult, és ebben a sokszor impulzívan változó időszakban pedig a megszokottnál gyorsabb reagálásra van szükség. Az adatok tudatosabb felhasználása, a pontosabb előrejelzések és a gyors döntéshozatalt támogató eszközök szerepe ezáltal felértékelődik.

 

Általánossá vált az a piaci vélemény, hogy a fizikai kiszolgáló helyek, mint a bankfiókok, élelmiszer- és egyéb kereskedelmi üzletek helyét egyre inkább felváltják a webshopok. Van ebben némi igazság, de mindeközben a világ legnagyobb online kereskedési tere az Amazon épp azon dolgozik, hogy élelmiszer boltot nyisson az egyébként már régóta üzemeltetett retail storjai mellett. Hogy ez működni fog, nem kérdés, az Amazon elképesztő méretű adat vagyonon ül, gyakorlatilag jobban ismeri az egyén vásárlási szokását, mint maga a vásárló, így pedig nagyon könnyen tud döntést hozni arról, hogy milyen lokációban, milyen termékkel érdemes fizikai üzleteket nyitnia.
Persze adatok terén nehéz az Amazont utolérni, de ma már bármilyen nagyobb magyarországi kereskedelmi szolgáltató rendelkezik központi tranzakciós rendszerrel, elterjedtek a hűségkártyák, a készletezésről hatékony nyilvántartást vezetnek és az üzletek környezetéről, a forgalomról, és vásárlóerőről is rengeteg információ áll rendelkezésre. A kérdés, hogy ezeket az információkat milyen célok mentén lehet a leghatékonyabb üzletmenet szolgáltatásába állítani. Összegyűjtöttünk pár olyan pontot, ahol az adatok üzleti értéket képezhetnek a klasszikus kereskedelmi hálózatok esetén:

Hálózat működési hatékonyságának optimalizációja

Egy több száz főt foglalkoztató vagy legalább 10-15 üzletet működtető kereskedelmi vállalat esetén a cég adataiban hatalmas költségmegtakarítási- és sales potenciál rejtőzik, ami a hálózat operatív hatékonyságának javítására használható. Erről fog szólni a következő webinárunk is.

Termékpaletta, kereslet előrejelzés, szelektív árazás

A vásárlási szokások, a vásárlói csoportok viselkedésének megértése az adatok felhasználása nélkül lehetetlen, ezek nélkül viszont az árbevétel 10-20%-tól is eleshet egy kereskedő. A kereslet pontosabb előrejelzésével, a kereslethez, a vásárlói szokásokhoz pontosabban igazodó szelektív árazással a profittermelés érdemben javítható.

Logisztika, raktározás

Az operációs költségek javítása nem csak a hálózat üzemeltetés optimalizálásán keresztül, hanem a logisztikai, raktározási költségek optimalizációjával is elérhető. Az egyes termékekre, termékcsoportokra vonatkozó pontos kereslet előrejelzés pozitív hatása a vásárlói élményben közvetlenül, a bevételi oldalon pedig közvetetten jelentkezik.
A nehezen készletezhető, vagy gyorsan romlandó termékek esetén egy pontos kereslet előrejelző modellnek pedig a veszteség minimalizálásában, közvetlen költségmegtakarításban van jelentős szerepe.

Marketing

Az szinte kézenfekvő, hogy az online marketing területén az adatok használata mennyire hasznos, de itt nem szabad csak és kizárólag a marketing eszközök által biztosított megoldásokra hagyatkozni, a belső tranzakciós adatokból feltérképezett vásárlói viselkedések, ezek alapján meghatározott célcsoportoknak eljuttatott üzenetek sokszorosan térülnek meg a nem személyre szabott üzenetekhez képest.

CDP Proof Of Concept a MOL-nál – Projekt referencia

By | Big Data News, Business, Cloudera, Tech Trends | No Comments

A CDH (Cloudera Distribution Hadoop) egyik első magyarországi felhasználója a MOL csoport volt.

A MOL 2020 Q1 folyamán egy rövid, 3 hónapos POC projekt keretében azzal bízta meg a United Consult-ot, hogy tesztelje az új CDP (Cloudera Data Platform) platformot, integrálja azt a Cloud szolgáltató rendszeréhez és végezzen hatásvizsgálatot a CDP nagyvállalati környezetben történő használatóságra. Ezen túl pedig készítsen költség-kalkulációkat a lehetséges megoldások összehasonlítása érdekében.

A projekt keretében elkészítettünk egy közel 60 oldalas megvalósíthatósági tanulmányt, amely részletesen elemzi, hogy a Cloudera milyen infrastruktúrális alternatívákban telepíthető, legyen az on-premise, felhő, vagy hibrid megoldás. Az alternatívákat kiértékeltük és összehasonlítottuk olyan nagyvállalati igények mentén mint pl. skálázhatóság, biztonság, üzemeltetési elvárások, machine learning képességek, várható költségek, stb.

Ezt követően egy Proof of Concept projekt keretében alaposan megvizsgáltuk a Cloudera legújabb termékét a Cloudera Data Platformot (CDP). Megvalósítottuk a CDP – Active Directory integrációját, összekapcsoltuk a CDP-t a vállalat Azure környezetével, és üzembe helyeztük a CDP management konzolt. Számos use case megvalósításával megbizonyosodtunk róla, hogy a CDP alkalmazásával gyorsan és rugalmasan akár órák vagy percek alatt vagyunk képesek feldolgozási clustereket létrehozni, amelyek elérik a felhőben tárolt adatokat és hatékonyan összekapcsolhatóak más feldolgozó eszközökkel is mint pl. a PowerBI.

A projekt során performancia teszteket végeztünk, amely segítségével összemérhetőek a különböző méretű klaszterek feldolgozási képességei és költségszintjei.

A POC projekt során kollégáink (fejlesztés, üzemeltetés, IT security) értékes tapasztalatokat szereztek a CDP platform használatával járó előnyökről. A MOL meggyőződött róla, hogy a CDP enterprise data platform megfelelő irány lehet a jövőben a nagy mennyiségű adatfeldolgozás terén.” — Ott Károly, Innovation Manager, MOL Group

2020. 07. 23-án vállalati adatmanagement témakörben tartunk webinart , ahol bemutatjuk a MOL projekt során használt Cloudera Data Platform-ot. Többek között megvizsgáljuk azokat a problémákat és megoldásokat, amik manapság meghatározzák az adat-management legfontosabb elemeit.

Beszélünk azokról az üzleti kihívásokról, amelyekkel nap mint nap találkozhatunk, veszélyeztetik a vállalat fejlődését, a növekedés, és a hatékony teljesítmény útjában állnak. Bemutatjuk, hogy a CDP milyen módon képes támogatni a vállalati adat-management-et, és hogyan inthetünk búcsút játszi könnyedséggel a bemutatott problémáknak. Továbbá egy use-case-en keresztül betekintést nyújtunk abba, hogy hogy viselkedik a CDP éles akció közben.

Ha szeretne részt venni a webinaron, az alábbi linken jelentkezhet Ön is:
https://thebigdataplatform.hu/cdp-adat-management-webinar/

Kritikus sikertényezők: üzleti villámcsapások a hibrid felhők világában

By | Big Data News, Business, Cloudera, Tech Trends | No Comments

A cégeknek sosem volt annyi lehetőségük a rendelkezésükre álló adatot a saját előnyükre fordítani, mint napjainkban. De vajon élnek is ezzel a lehetőséggel? Van kidolgozott adatstratégiájuk? Egyáltalán hol állnak most és, hogyan látják a jövőt? Ezekre a kérdésekre kereste a választ a Harvard Business Review nevű menedzsment magazin a Cloudera felkérésére nemrég.

A Harvard Business Review Analytic Services felmérése olyan kritikus pontokra mutat rá, amelyek veszélyeztetik a vállalat fejlődését, és a növekedés, illetve a teljesítmény útjában állnak. A probléma általában abból fakad, hogy a vállalati IT-szempontok egyszerűen nem egyeznek meg az üzleti igényekkel, és a felhasználók fontosabbnak tartják a gyorsaságot a biztonsággal, a pontossággal és a maximális üzleti hatékonysággal szemben.

A felmérés 2019 végén készült mintegy 185 vezető pozícióban álló szakember bevonásával. A szakértők diverzitása több értelemben is magas. A szervezetek mérete – ahol a megkérdezettek dolgoznak – a száz főnél kisebb létszámtól egészen a tízezer fős cégóriásokig terjed, a cégek pedig lefedik a tech, a banki, a consulting és az ipari szektorokat is. A világ négy földrészéről érkeztek vissza kitöltött kérdőívek a kutatás szervezőihez.

Az eredményekből kiderült, hogy a megkérdezettek majd’ háromnegyede (73%) egyetért abban, hogy az adatforrások kulcsszerepet játszhatnak az üzleti érték megteremtésében, és több mint felük (51%) tervezi ezt multi-cloud segítségével megvalósítani.

A statisztikák alapján csupán a megkérdezett cégek 24%-a használ már jelenleg is multi-cloud megoldásokat, ami kevesebb, mint a technológiát használni kívánók fele. Természetesen a saját üzemeltetésű infrastruktúrának is van létjogosultsága, hiszen nem minden adatot szeretnénk kiadni a kezünkből. Ráadásul vannak különböző korlátozások, melyek egyenesen tiltják, hogy bizonyos adatok elhagyják az országot. Egyetlen felhőszolgáltatóval való együttműködés esetén fennállhat a vendor lock-in jelenség. Ez azt jelenti, hogy egy szervezet annyira függ egy felhőszolgáltatótól, hogy jelentős költségek nélkül képtelen másik szolgáltatóra váltani. Ez a kutatás szerint a cégek mintegy 21%-át fenyegeti.

Ahogyan a válaszadók szervezetei kezelik az adatokat:

multi-cloud kutatás

Az adatok tárolása mellett a másik fontos kérdés az adatfeldolgozás állapota volt. Mint kiderült, a cégek a keletkező adatok nagy részét eltárolják, de többnyire csak utólag dolgozzák fel azokat.

A cégek alig több mint ötöde rendelkezik stream-feldolgozó képességekkel és képes ezen beérkező adatok alapján valós idejű döntéseket hozni. Ez üzleti előnyhöz juttatja ezeket a cégeket a versenytársaikkal szemben, hiszen lehetőségük van valós időben ajánlatot adni a felhasználók viselkedése alapján, vagy akár valós idejű diagnosztikát is végezhetnek eszközeiken.

 

A kutatás azt is vizsgálta, hogy a szakemberek miként látják a jövőt. Az űrlapon megfogalmazott kérdés arra vonatkozott, hogy az adatelemző szervezetek mely módszereket használják most, és melyeket tervezik használni az elkövetkező három évben.

Amiket az adatelemző szervezetek bővíteni/fejleszteni terveznek az elkövetkező három évben
(összehasonlítva a jelenleg alkalmazott elemző technológiákkal)

A megkérdezett cégek szerint a hagyományos, riportok készítésére használt üzleti intelligencia és az adattárházak szerepe csökken, és a különböző, valóban intelligens feldolgozó módszerek kerülnek előtérbe. Ilyenen például a gépi tanulás módszerei, a mesterségesintelligencia-fejlesztések és az intelligens automatizációs megoldások. Ezeken a területeken 60%-os növekedést érhető el belátható időn belül a kérdőív kitöltői szerint.

A tapasztalatokat összegezve megállapítható, hogy a cégek több mint fele szeretne a multi-cloud alapú megoldások felé mozdulni, de csak a szervezetek 34%-a rendelkezik ehhez szükséges adatmenedzsment-stratégiával, és a felhőbe költözés számos egyéb nehézséget is rejt magában.

A kitöltők szerint jelentős feladat, hogy a muli-cloud környezetekben a biztonsági és governance szabályokat többszörösen kell implementálni más és más eszközökkel, hiszen a felhőinfrastruktúra használatával plusz támadási felületet biztosítunk. Úgy vélik, problémát okoz az is, hogy a jelenleg használt „legacy” alkalmazások nem felhőkompatibilisek, és egy nem felhőre optimalizált alkalmazás felhőben való futtatása jelentősen drágább lehet, mint a saját infrastruktúrán.

 

Ajánljuk figyelmébe a CDP vállalati adatmenedzsment-platformot, mely jelentősen megkönnyíti bigdata megoldások hibrid vagy multi-cloud környezetekben történő kialakítását.

Kérjük töltse ki az űrlapot a teljes angol nyelvű tanulmányhoz!

 

Megjósoljuk, hogy megjósolják – Facebook Prophet

By | Big Data News, Business, Data Science, Data Visualization | No Comments

Az elmúlt hetekben alapjaiban forgatta fel társadalmunkat és világról – különösen annak biztonságáról – alkotott képünket a Kínából indult koronavírus-járvány, és persze a globális felmelegedés témája is folyamatosan foglalkoztatja a közvéleményt.

A 21. században egyre nagyobb jelentőséggel bírnak és egyre pontosabbak a különböző prognózisok. Vajon az ezek mögött álló előrejelző algoritmusok tényleg alkalmasak arra, hogy megbízható információkkal szolgáljanak például az időjárásról, a közúti forgalom, esetleg a részvényárfolyamok alakulásáról, vagy akár a járványok terjedéséről? Erre is választ keresünk a Facebook Prophet gyakorlati bemutatásán keresztül.

Nem kérdés, hogy mindennapi életünket egyre jobban befolyásolják a különböző előrejelző algoritmusok. Elég, ha csak az időjárás-előrejelzésre, a forgalmi prognózisokra vagy a részvényárfolyamok előrejelzésére gondolunk. „Vajon milyen idő lesz holnap? Ha holnap arra indulok kocsival, vajon dugóba kerülök? Vajon most érdemes beszállni ebbe az üzletbe?” – annyira gyakorlatias kérdések ezek, hogy akár az elmúlt fél órában is hallhattuk volna valakitől, vagy akár mi magunk is feltehettük volna bármelyiket.

Még ha nem is tudatosul bennünk, számos előrejelzést „futtatunk” magunk is: korán indulunk, hogy legyen hely a munkahelyi parkolóban, hogy ne kelljen sorba állni a menzán; esetleg megpróbáljuk egy korai vagy éppen késői hazaindulással a dugót elkerülni; és így tovább. Mindez tapasztalataink alapján az esetek többségében működik is, ha pedig tévedünk, olyan nagy kockázattal jellemzően nem jár.

Amikor az adatok jóslásának következménye van

Az üzleti életben az előrejelzések ennél sokkal racionálisabban működnek, és persze nagyobb téttel is bírnak. A forgalmi adatok előrejelzése például egy rendszerüzemeltetéssel foglalkozó vállalatnál kulcsfontosságú. Még ha tudnák is úgy méretezi a rendszereiket, hogy azok az elképzelhető legnagyobb forgalmat is elbírják, nem lenne költséghatékony azt mindig a maximális kapacitáson üzemeltetni. Ehelyett inkább a korábbi minták alapján próbálják megbecsülni a várható forgalmat, és az IT-infrastruktúrát az előrejelzéshez méretezni. Szerencsére az elasztikus skálázhatóság ma már nem probléma.

Egy call centernél sem mindegy, hogy mikor hány operátor dolgozik. Az sem volt mindegy, hogy a 2000-es évek derekán a telekommunikációs vállalatok mekkorának becsülték az év végi SMS-forgalmat, hiszen köztudott volt, hogy akkortájt az rövid szöveges üzenetek nagy része karácsonyra és szilveszterre koncentrálódott.

Az előrejelzés-automatizálás előretörése minden területen törvényszerű, így ma már az interneten is számos algoritmus elérhető. Egyikre sem tekinthetünk természetesen mindent tudó varázsgömbként, de van egy-két említésre méltó közöttük. Ebben a bejegyzésben a Facebook által publikált generikus prediktív elemzési megoldást vizsgáljuk: kipróbáltuk a Mark Zuckerberg és fejlesztői csapata „prófétáját”.

A Facebook Prophet egy Python és R nyelven használható előrejelző eszköz, melyet Facebook data science csapata fejlesztette ki a Stan fejlesztőeszköz használatával. Szükséges bemenete egy timestamp típusú attribútum és egy hozzá tartozó numerikus érték. Ebből adódóan ez az eszköz azokra az esetekre hasznos,  mikor az adatnak szezonális tartalma van. Tapasztalataink alapján leginkább napi bontású, legalább egy évet tartalmazó adatok elemzésére alkalmas. Az implementációja követi az sklearn fit és predict függvények struktúráját.

A Prophet paraméterezhetősége

A Prophet erőssége a paraméterezhetőség, a lehetőség olyan információk átadására a modellnek, amelyek alapvetően az adatból nem következnek, de szeretnénk azokat figyelembe venni egy megbízhatóbb előrejelzés létrehozásakor.

  • Saturating Forecasts: minimum(floor), maximum(cap) érték meghatározása a perdiktálás keretek között tartása érdekében. Valamely konstans keretérték megadása, ami az adott előrejelzés logikája alapján szükséges lehet.
  • Trend Changepoints: az emberi ismeretekkel előre sejthető, jövőbeli trendben számíthatóan bekövetkező váltópontok számának meghatározása (n_changepoints), trend flexibilitásának beállítása (changepoint_prior_scale) vagy a váltópontok helyének meghatározása (changepoints). Ilyen lehet például a labdarúgó-világbajnokság fináléja.
  • Seasonality and Holiday Effects: szezonalitás meghatározása (add_seasonality), alapvetően heti és éves intervallumokkal számol a modell. Ünnepek meghatározása (holidays). Abban az esetben, ha szeretnénk meghatározni ilyen ünnepi dátumokat, akkor azt a múltra és jövőre vonatkozóan is meg kell tenni, különben nem veszi figyelembe a modell. A különböző ünnepek között meghatározható prioritás (prior_scale) és az ünnepi hatások csillapítása is lehetséges (holidays_prior_scale).
  • Outliers: Az outlier adatok kezelésére azt javasolják, hogy egyszerűen csak cseréljük le nem létező adatra, mert a Prophet jól kezeli a hiányzó adatokat.
  • Non-Daily Data: Abban az esetben, ha nem éves adatokra tanítjuk be a modellünket, akkor az előre jelzésre is olyan intervallumot használjunk, mint amit a tanító halmazban.

Időjárás-előrejelzés

A Prophet eszköztárának kipróbálására Budapest egy kerületének a hőmérsékleti adatait használtuk fel, mint erősen szezonális adatokat. Az adathalmazunk 1901. 01. 01-tól 2010. 12. 31-ig tartalmaz hőmérséklet adatokat napi bontásban. Az utolsó 2010-es évet vettük ki a tanító halmazból és használtuk fel az előrejelzés visszamérésére.

# Eredeti adathalmaz oszlopainak átnevezése
df = df.rename(columns={'#datum': 'ds', 'd_ta': 'y'})
data = df[['ds', 'y']]
# Dátum formátum megváltoztatása
training = data[data['ds']<'2010-01-01'] test = data[data['ds']>='2010-01-01']
# Modell létrehozásda és tanítása
m = Prophet(changepoint_prior_scale=0.5)
m.fit(training)
# Jövőbeli dátum intervallum létrehozása
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)
# Vizualizáció
plt.plot( forecast_2010['ds'], forecast_2010['yhat']
         ,forecast_2010['ds'], forecast_2010['yhat_lower']
         ,forecast_2010['ds'],forecast_2010['yhat_upper']
         ,forecast_2010['ds'],test_2010['y'] )
plt.show()

 

Időjárás 2010A fenti ábrán a 2010-es év valós időjárása piros vonallal látható. A Prophet által illesztett előrejelzés a kék vonal és a hozzá tartozó narancs és zöld színnel ábrázolt y_lower és y_upper, felső és alsó határérték.

 

Decemberre illesztett görbe:


forecast_december = forecast.tail(31)

test_december = test.tail(31)

plt.plot( forecast_december['ds'], forecast_december['yhat']

         ,forecast_december['ds'], forecast_december['yhat_lower']

         ,forecast_december['ds'],forecast_december['yhat_upper']

         ,forecast_december['ds'],test_december['y'] )

Időjárás 2010 december

Az decemberre vonatkozó előrejelzés megmutatta, hogy kisebb intervallumok kiemelése esetén sokkal nagyobb arányban esik a prediktált felső és alsó határértékeken is kívül a valós hőmérséklet. Mint láttuk, az éves előrejelzésnél lévő körülbelüli +/– 5 fokos felső és alsó határon belülre kerülnek az akkori valós hőmérsékleti adatok túlnyomó többsége.

Októberre illesztett görbe:


forecast_oct= forecast[forecast['ds']>='2010-10-01']

forecast_oct = forecast_oct[forecast_oct['ds']='2010-10-01']

test_oct = test_oct[test_oct['ds']<'2010-11-01']

plt.plot( forecast_oct['ds'], forecast_oct['yhat']

         ,forecast_oct['ds'], forecast_oct['yhat_lower']

         ,forecast_oct['ds'],forecast_oct['yhat_upper']

         ,forecast_oct['ds'],test_oct['y'] )

plt.show()

Időjárás 2010 október

Az októberi adatok vizsgálatakor látható, hogy egy hőmérsékletben kevésbé ingadozó hónap esetén meglehetőségen pontos előrejelzést kapunk a modelltől. Ebben az esetben például a prediktált és alsó határérték közé esik – kevés kivétellel – az összes valós hőmérsékleti érték.

Prophet a globális felmelegedésről

Érdekességképpen kipróbáltuk, milyen következtetést von le a jövő időjárásra vonatkozóan a Prophet. Megnéztük, milyen előrejelzést ad száz év hőmérsékletadatait figyelembe véve a 2039-es évre vonatkozóan.


future_forecast = forecast[forecast['ds']>='2039-01-01']

future_forecast.head()

future_forecast.tail()

test_2010_cut = test_2010[test_2010['ds']<='2010-12-24']

future_forecast.tail()

test_2010_cut.tail()

plt.plot( future_forecast['ds'], future_forecast['yhat']

         ,future_forecast['ds'],test_2010_cut['y'] )

plt.show()

Időjárás 2039 előrejelzés

Ebben az esetben a teljes adathalmazt felhasználtuk a tanításra  1901.01.01-től 2010.12.31-ig és a következő 30 évre illesztettünk egy görbét a Facebook Prophet segítségével. A kékkel látható a 2039-es évre prediktált görbe és sárgával az adathalmazunk utolsó 2010-es évének hőmérséklete. Alapozva az elmúlt 100 év hőmérsékleti trendjére, szinte az év minden napján jó pár fokkal magasabb hőmérséklet várható.

A Facebook Prophet alapvetően egy újabb nem-lineáris regresszióval dolgozó előrejelző eszköz, ami specifikus esetekben, leginkább a benne implementált paraméterezhetőségével tud hasznos segítséget adni.

via facebook.github.io/prophet/

 

Tekintsd meg a legfrissebb adatokkal kapcsolatos előrejelzéseinket:
https://datandroll.hu/2020/02/12/adatelemzes-trend-bizni-az-adatokban/

https://datandroll.hu/2020/01/29/2020-az-adatok-eve-lesz/

Nézz körbe a Big Data szolgáltatásaink között:

https://thebigdataplatform.hu/big-data-uzleti-megoldasok/

Ha érdekel a cégünk, csapatunk, esetleg csatlakoznál, látogass el a főoldalunkra:

https://united-consult.hu/

 

 

Trendinek lenni = bízni az adatokban

By | Big Data News, Business, Data Science, Machine Learning, Tech Trends | No Comments

Az esetek többségében ismeretlen területre lép az a cégvezető, aki az adatelemzés és -vizualizációt készül integrálni a vállalkozása üzleti folyamataiba. Ahogyan azonban szakértő segítséggel – a számára szükséges mértékben – egyre jobban átlátja a rendszert, és lépésről lépésre tisztul a kép a végeredményt illetően is, úgy egyre nő a bizalom, az ügyfél pedig minden tekintetben partnerré válik.

Természetesen hosszú egy megbízás útja, amíg a csapat felállításától eljutunk a felhasználók betanításáig, illetve az új rendszer élesítéséig. Kollégáink tapasztalatai szerint – közép- és nagyvállalati környezetben – átlagosan több mint fél évet vesz igénybe, mire az előkészítésből, az üzleti megértésből, a fejlesztésből, a tesztelésből, majd az átadás/átvétellel záruló üzembe állításig eljut egy projekt. Ahogyan látszik: miként a feladat, úgy az ügyfél döntése is igen komoly, hiszen a vállalkozás mindennapjaiba, üzleti folyamataiba drasztikus változásokat hoz egy ilyen rendszer.

Miért lehet bizonytalan az ügyfél?

Fejlesztőként érdemes tisztában lenni azzal, hogy az ügyfél esetleges bizonytalansága hátterében több tényező is állhat. Az ML (machine learning) modellek egyelőre viszonylag ismeretlen terepet jelentenek a hagyományos üzleti szféra számára – különösen igaz ez a KKV szektorra –; a meglévő folyamatba egy, az üzlet számára kevésbé kontrollálható elemet engednek be; szükségessé válik a megszokott működési folyamatok átalakítása, az adatelemzés beillesztése az operatív döntéshozatalba; és persze kritikus pont az is, hogy a fejlesztés érdekében külső szakértőkkel kell megosztani az üzleti információkat.

Munkatársunk, Fodor Szabolcs szerint az üzleti szféra jövőjét mindezek ellenére egyértelműen az adatvezérelt döntéshozatal jelenti, minden jel ebbe az irányba mutat. „Egyfajta hype is övezi az adatvezérelt döntéshozatalt, a BigData vagy AI megoldásokat, ami sok vezetőnek, cégtulajnak felkelti az érdeklődését, azonban a valóság és a hype között még nagy a szakadék. De ez a folyamat öngerjesztő, hiszen ha egy szektorban egy vállalat piaci előnyhöz jut egy adatvezérelt megoldással, a versenytársak lépéskényszerbe kerülnek, hiszen hosszú távon aki ebből kimarad, az lemarad” – fogalmazott kollégánk.

Széles körű felhasználás

Az adatelemzés és -vizualizáció az üzleti élet minden szegmensében hatékonyan támogatja a menedzsment munkáját, a vállalati döntéshozatalt. Zsolt és Szabolcs a BI Fórumon megtartott előadásban kitértek arra is, hogy a technológia olyan területeken is sikerrel bevethető, mint például az árkalkuláció, a termékajánlás, az ügyfelek mikroszegmentációja, a Customer Lifetime Value Prediction vagy éppen az üzlethelyiség ideális helymeghatározása.

Szabolcs ezzel kapcsolatos tapasztalatairól is beszámolt. Hangsúlyozta, mindig az adott iparág igényeitől függ, hogy a technológia mely funkcióit, lehetőségeit, előnyeit használják ki szívesebben és nagyobb bizalommal a cégek. „Egy pénzintézet esetén elsősorban az ügyfél scoring rendszerek a legfontosabbak, amellyel az ügyfelek hitelképességét vizsgálják. Egy gyártóüzemben ez nyilván nem használható eszköz, ott első sorban a predictive maintenance-nek van a legnagyobb szerepe, ami az üzem eszközeinek hatékony karbantartását, a karbantartási költségek leszorítását támogatja. Egy termékajánlási megoldás pedig főként az online termékértékesítésben érdekelt cégeknek lehet fontos, ahol széles termékkörből kell kiszolgálni az ügyfelet az egyedi igényei alapján” – osztotta meg kollégánk.

Ha érdekel még milyen újdonságot tartogat 2020 az adatok terén, olvasd el az alábbi cikkünket is:
https://datandroll.hu/2020/01/29/2020-az-adatok-eve-lesz/

Vagy tekintsd meg cégünk más témában megosztott tartalmait:
https://united-consult.hu/category/cikkek-rolunk-es-masrol/

 

2020 az adatok éve lesz

By | Big Data News, Business, Data Science, Data Visualization | No Comments

Az idei igazán különleges év lesz. A számmisztikával foglalkozó numerológusok szerint 2020-ban ugyanis az anyagiakkal összefüggő energiák uralják a mindennapjainkat, az évszámban szereplő két nulla azonban nehézségeket, komoly kihívásokat jelent majd. Mi magunk is izgalmas esztendőre számítunk, de az efféle okkult tanok helyett továbbra is a tudományos alapokon nyugvó adatelemzés segítségével tekintünk a jövőbe.

Mi már a tavalyi esztendőt is ennek szellemében zártuk, 2019 év végén kollégáink ugyanis előadóként vettek részt a Budapest BI Fórumon, mely a legnagyobb magyar, analitikával foglalkozó, független szakmai rendezvény. Az eseményen egyebek mellett szó volt a BI- és analitikai trendekről, az adatvizualizációról, a mesterséges intelligenciáról, az érdeklődők konkrét esettanulmányokat is megismerhettek az üzleti élet több területéről, Borbély Zsolt és Fodor Szabolcs kollégáink pedig a kiskereskedelemben használatos adatalapú optimalizációról tartottak előadást.

Még tartanak az ismeretlentől

Bevezetésként körüljárták a szakmai berkekben sokakat foglalkoztató kérdést, hogy az adatalapú döntéshozatal vajon csak „win-win” szituációkat eredményezhet-e. Kollégáink úgy vélik, hogy az emberi tényezőktől független folyamatok, valamint az azok eredményeképpen megszülető vagy éppen az azok hátterében álló objektív mérőszámok kétségtelenül pozitív megítélés alá esnek; ugyanakkor a titokzatos „black-box” technológia jelenlétét és a döntések feletti kontroll csökkenésének érzetét negatívan élik meg a cégvezetők és döntéshozók. 

A bizalom azonban jelentősen erősíthető, ha jól előkészített, szakmailag kifogástalanul kivitelezett projekteket adunk át a megrendelőknek, illetve a potenciális ügyfelek kizárólag ilyeneket látnak a referenciáink között. Ehhez azonban feltétlenül szükséges – mondhatni: a sikeres projekt kulcsa –, hogy az ügyféllel közösen helyesen fogalmazzuk meg az üzleti problémát, melyre megoldást keresünk; hogy megbízható és széles körű adatforrásokkal rendelkezzünk; illetve, hogy nyitottságot tapasztaljunk az ügyfél részéről is.

Szabolcs ezzel kapcsolatban úgy vélekedik: „Ma Magyarországon az adatgyűjtés már kellő fókuszban van, és azon KKV-k, amelyek erre hangsúlyt fektetnek, többnyire megfelelő adatforrásokkal is rendelkeznek. Az adatok közvetlenül az üzleti döntéshozatalban, termékfejlesztésben való felhasználásában azonban van még teendő. Itt a nyitottság, az ismeretlentől való félelem, de egyes esetekben az ellenérdekeltség is gátat szab az adatok felhasználásának. Ezen edukációval, pilot projektekkel lehet a legkönnyebben segíteni.”

Komplex szolgáltatásoké a jövő

Ha a nyitottság és a bizalom megvan, az ügyfél csak jól járhat az adatelemzéssel és az adatalapú döntéshozatallal. Kollégáink szerint ugyanis az adatelemzés alapja – némileg leegyszerűsítve –, hogy az üzleti kérdést az adatok nyelvére fordítjuk. Mindez lényegében azt jelenti, hogy az emberi vagy üzleti logika diktálta intuíciókat a meglévő adatokkal támasztjuk alá vagy cáfoljuk meg indokolt esetben; az elvárások alapján felépítjük a modellt; összevetjük a tényeket és az elvárásokat; végezetül pedig forintosítjuk az eredményt.

Egyszerűnek tűnik, a háttérben azonban idő- és energiaigényes feladatok állnak. Kollégáink szerint egy-egy projekt esetében a munka 30%-át az üzleti megértés, 50%-át az adatgyűjtés és előkészítés, adja, és csupán 20%-ot tesz ki maga a modellfejlesztés, mely önmagában is igen komoly és felelősségteljes szakmai kihívás. Ide tartozik ugyanis a Feature Engineering-gel, az ML tanítással és a modell teszteléssel kapcsolatos összes feladat, mely a jövőbeni, működő rendszer motorjául szolgál.

Zsolt és Szabolcs előadásában szó volt arról is, hogy míg sok piaci szereplő csak bizonyos részfeladatokat vállal az előbbiek közül, addig a United Consult komplex megoldásokat kínál az ügyfeleknek. Ezek alapját képezi az imént részletezett adatbányászat és -elemzés, majd a modellfejlesztés. Ezeket követően a modell rendszerbe állítása és a rendszeres modellpredikció vesz még részt a folyamatban. A projekt csúcsa a felhasználói dashboard kialakítása és maga az adatvizualizáció.

Utóbbival kapcsolatban Szabolcs úgy fogalmazott: „Maga az adatvizualizáció lehet egy adatalapú projekt végterméke, ebben az esetben a döntéshozatal közvetlen támogatásában, a működés átláthatóbb áttekintésében van szerepe. De természetesen nem szükséges végterméke az adatvizualizáció egy adatalapú projektnek, de mindenképp támogató szerepe van az adatok megértésében.” Végezetül tehát, a bevezetőben említett számmisztikára visszatérve: 2020 valóban különleges évnek ígérkezik, és ahhoz sem fér kétség, hogy a számok valóban megmutathatják a jövőt, akár üzleti értelemben is. Mi, a United Consultnál azonban abban hiszünk, hogy terveinket nem alapozhatjuk az aktuális csillagállásra. A bigdata-technológiában rejlő lehetőségeket – megfelelő szakértelemmel – azonban bárki a saját javára fordíthatja.

További adatokkal kapcsolatos bejegyzéseinket itt találod:
https://datandroll.hu/

Itt pedig cégünk más témában megosztott tartalmait tekintheted meg:
https://united-consult.hu/category/cikkek-rolunk-es-masrol/