Category

Big Data

Adatvédelem 2022: segítünk megérteni, miért fontos!

By | Big Data, Big Data News, Business, Tech Trends | No Comments

Január 28-a van, az adatvédelem nemzetközi világnapja. Cégünk, a United Consult számára nem csupán ma, hanem az év minden napján szakmai minimumnak számít, hogy szem előtt tartjuk a kiberbiztonságot és preventív tanácsokkal látjuk el ügyfeleinket az adataik védelmét illetően. A mai világnap azonban remek alkalom arra, hogy felelősen gondolkodó IT-cégként a laikusok figyelmét is ráirányítsuk a téma fontosságára.


Miért van világnapja az adatvédelemnek, és miért éppen ma?

Bár az adatok, adatbázisok jelentősége látszólag csak az elmúlt 10-15 évben ugrott hatalmasat, a jogalkotók valójában már sokkal korábban rájöttek, hogy milyen értékes, ugyanakkor rendkívül szenzitív kincset jelentenek a mindenkori gazdasági és politikai hatalom számára. A megfelelően strukturált, ennélfogva könnyen kezelhető adatok birtoklása az élet megannyi területén előnyhöz juttathatta az adatgazdákat, nem csoda hát, hogy hamar visszaélések tárgyává, tolvajok célpontjává váltak a különböző adatbázisok. Az információtechnika térnyerése, a számítógépek terjedése aztán alapjaiban alakította át az adatgyűjtés és -tárolás módszereit, a jogalkotók pedig a lehetőségek mellett felismerték az ebben rejlő kockázatokat is.

1981.január 28-án Strasbourgban egyezményt írtak alá az európai államok képviselői, mely az egyének védelméről rendelkezik a személyes adatok gépi feldolgozása során. Ez az úgynevezett adatvédelmi egyezmény, a dokumentum születésének dátuma pedig a mai adatvédelmi világnap apropója.

Hack, ransomware, phishing – mindenre van megoldás!

Azt gondolom, a világnap alkalmából mindenképpen érdemes elgondolkodni azon, hogy a big data megoldások elterjedésével hogyan tekintünk 2022-ben az adatvédelem kérdésére. Napjainkban a felhők, a GDPR világában, ahol és amikor már a petabyte-ban mérhető adatmennyiség szinte mindennapos, amikor ötszázórányi videót osztanak meg a felhasználók percenként a YouTube-on, egyre fontosabb szerepet kap az adatok helyes és hatékony felhasználása mellett azok védelme is.

Minden adat tárolásánál fennáll a kiszivárgás és a jogtalan felhasználás veszélye is, ezért – mint arra már a bevezetőben is utaltam – az adatbiztonság kérdésköre jóval idősebb, mint a mai értelemben vett big data története. Gondolhatunk itt a „klasszikus” hackelésre, az úgynevezett ransomware (zsarolóvírus) támadásokra vagy éppen a phishingre (adathalászatra). Ezekre a kibervédelmi kockázatokra szerencsére megvannak a megfelelő megoldási rendszerek, melyeket az adatmennyiségre való tekintet nélkül tudnunk kell alkalmazni!

A big data terjedése új kihívásokat hozott

A big data terület biztonsági kérdéseinek talán legironikusabb része, hogy rengeteg cég és technológiai megoldás éppen a nagyobb adatmennyiség segítségével próbál megoldást találni a klasszikus biztonsági problémákra, illetve ezek révén igyekszik hatékonyan detektálni a felmerülő kockázatokat. A nagy adatvolumen ugyanakkor megnehezíti a klasszikus auditálási metódusokat, valamint a szoftverekben máshol alkalmazott titkosítási módszerek használatát. Úgy vélem ez akár ahhoz is vezethet, hogy éppen egy adott on-prem vagy cloud infrastruktúra válik a legvédtelenebbé az egész hálózaton.

Egy-egy ilyen rendszernél nemcsak a tárolási, de a be- és kimeneti védelmet is alaposan át kell gondolni; legyen szó az IoT-rendszeren keresztül bevitt adatok védtelenségéről vagy éppen egy analitikai dashboard kitettségről. Ezek a problémák az új, folyamatosan fejlődő, kiforratlan technológiákból jöhetnek, melyek esetében még nem feltétlenül a biztonság az elsődleges szempont.

Már nem csak a támadásokra kell figyelni

A big data terület rohamos fejlődése, illetve a kezelt adatbázisok méretének robbanásszerű növekedése nem csupán a gyakorlati megoldásokat, az alkalmazott kiberbiztonsági technológiákat, hanem a vonatkozó jogi környezetet illetően is változásokat hozott. Az IT világában ma már nem csak „phishing” e-mailekre kell figyelni, hanem a gyakran változó jogszabályokra (például a GDPR rendelkezésekre) is megfelelően kell reagálni. Egy-egy adatvesztésnek a jogi következményeken túl más negatív hozadéka is lehet: felgyorsult, információdús mindennapjainkban sokkal gyorsabb az esetleges bizalomvesztés is a cégekkel, termékekkel szemben, ha bármilyen jele felmerül annak, hogy a személyes adatokat nem megfelelően kezelték.

Természetesen ezeket a problémákat már meglévő és új eszközökkel is kezelni tudjuk. Az infrastruktúránkat tűzfalakkal, megfelelő autentikációs rendszerekkel biztosítani tudjuk. Sorolhatnám példaként a különböző proxykat, a cloud és on-prem autentikációs rendszereket – mint a Kerberos vagy az IAM. Hozzáteszem ugyanakkor, hogy mára szerencsére maguk a nagy felhőtechnológia-szolgáltatók is hatalmas hangsúlyt fektetnek ezekre a szolgáltatásokra.

Ez azonban még mindig csak a csata fele, hiszen a legjobban tervezett rendszerek esetében is van egy gyenge láncszem: maga az ember. Hatalmas felelősség nyomja a programozók és a big data szakemberek vállát. Az ő feladatuk ugyanis a szenzitív adatokat megtisztítani, valamint a rendszerrel kapcsolatos jogosultság-visszaélesek lehetőségét a fent említett technológiák révén minimálisra csökkenteni. Továbbra is fontos szervezeti szinten figyelni a klasszikus „social engineering” támadásokra, és megfelelő védelemmel kell ellátni minden olyan végpontot, ahol az adatunk megjelenik.

Magas prioritású feladat az adatvédelem

Összességében elmondhatjuk, hogy a big data iparág folyamatos növekedésével egyre komolyabb kihívást jelentenek az adatvédelmi kérdések, melyek megválaszolása kiemelt prioritású feladat az IT-szféra egésze számára. Mi, a United Consult munkatársai hiszünk abban, hogy csak úgy nyújthatunk minőségi és szakmailag megfelelő szolgáltatásokat partnereink és ügyfeleink számára, ha mindennapi munkánk során innovatív megoldásokkal garantáljuk az általunk kezelt adatok biztonságát.

Ha részletesebben érdekel a téma és személyesen tájékozódnál az adatvédelem kérdéseiről, keress minket az elérhetőségeinek bármelyikén, illetve figyelmedbe ajánlom a Nemzeti Adatvédelmi és Információszabadság Hatóság weboldalát is, ahol hasznos információkat találsz az aktuális szabályozásokról.

babygirl

Ők az anyukák kedvencei – látványos vizualizációk a trendi keresztnevekről

By | Big Data, Big Data News, Data Visualization | No Comments

Ezen a hétvégén lesz május első vasárnapja, amit Magyarországon 1925 óta az anyák napjaként ünneplünk. Az édesanyák első ajándéka újszülött gyermekeik számára a gondosan megválasztott keresztnév, mely életük végéig elkíséri őket. Anyák napja alkalmából a névadási trendeket vizsgáltuk az 1950-es évektől napjainkig.

 

Utánanéztünk, hogy a közel hét évtized alatt az édesanyák körében melyek voltak azok a leggyakoribb keresztnevek, amiket újszülött gyermekeiknek választottak, és hogy miként alakultak a névadási trendek Magyarországon.

Érdekes megfigyelni, hogy míg a fiúknál minden korszak között vannak átfedések, addig a lányoknál sokkal nagyobb a fluktuáció, és a top 15-ös listában többször is teljesen kicserélődnek a nevek. A látványos adatvizualizációkat figyelve – miként a való életben is – a szemünk láttára tűnnek el a Máriák és az Erzsébetek, és nem sokkal szerencsésebbek az Istvánok és a Józsefek sem. Az elemzésből kiderült, hogy míg a fiúknál már 2001 óta uralkodnak a Bencék, a lányoknál csak tíz évvel később kerültek az első helyre a Hannák.

Ráadásként pedig egy igazi kuriózum: a következő vizualizáción láthatod, hogy melyek a legnépszerűbb női és férfi keresztnevek Európa országaiban.

Európai trendek

Forrás: Belügyminisztérium Nyilvántartások Vezetéséért Felelős Helyettes Államtitkárság, Magyar Keresztnevek Tára
Vizualizáció: Flourish

Lehet Magyarországon adatokkal védekezni a járvány ellen?

By | Big Data, Cloudera, Data Visualization, Machine Learning, Python, Spatial data | No Comments

A kezdeti nehézségek ellenére meglehetősen jól alkalmazkodtunk a körülményekhez és – bár a többség számára nehezen érzékeltethető – de az IT világában igenis folyik a munka. Sok esetben meglehetősen hatékonyan. Egyik véglet, amikor munka közben négy gyereket kell menedzselni egy 80 nm-es lakásban, ahol a 2 nm-es erkélyre lehet maximum kimenni, a másik véglet a szingli életmód egy belvárosi lakásban, ahol hetek óta senkivel sem találkozol. Mindkettőre könnyű példát találni. Meggyőződésem, hogy egyik sem tartható fenn huzamosabb ideig anélkül, hogy valakinek az idegállapota ne változzon jelentős mértékben. Az előrejelzések alapján azonban a jelenlegi állapot hosszú hetekig még fenn marad, hiszen ha lazítanak a szabályokon, akkor a vírus terjedése elindul. Idén tehát valószínűleg sokaknak elmarad a nyár vagy a saját lakásra/kertre, esetleg nyaralóra, de mindenképpen a szűk családi körre koncentrálódik.

Hatékony járványkezelés, lehetséges?

A híreket olvasva kerestem példákat, hogy más országokban mi a helyzet. Azt már tudjuk, hogy hogyan ne kezeljük a helyzetet, látva az olaszországi, spanyol és francia példákat, ahol százak halnak meg naponta a vírustól. Vajon azt tudjuk hogyan lehetne másképp, jobban kezelni, hogy a vírus ne terjedjen, ugyanakkor a korlátozások se legyenek ilyen drasztikusak? Van erre példa, méghozzá Dél-Korea.

Dél-Koreában ugyan több, mint 9200 fertőzést regisztáltak (2020. március 26-i adat), a lakossághoz és a népsűrűséghez mérten ez egyáltalán nem sok. A megdöbbentő azonban, hogy milyen gyorsan úrrá lettek a vírus terjedésén: február 20-án regisztálták hivatalosan az első fertőzötteket és március 4-én már meg tudták törni a lendületet, majd 8-án újra egy törés, március 12-e óta pedig átlagban, kevesebb, mint 100 új esetet regisztrálnak naponta.

Sum Cases South Korea COVID-19
Daily Increase South Korea COVID-19

A Wikipédia szerint Dél-Korea lakossága körülbelül 51 millió fő, 1960 óta megduplázódott. (Érdekesség, hogy eközben, a hasonló népességű Irán lakossága majdnem megháromszorozódott.) Földrajzilag szomszédos Kínával (ahonnan a vírus elindult), de közvetlen szárazföldi kapcsolata Kínával nincs. Szárazföldi kapcsolata Észak-Koreán keresztül van, Észak-Korea zártsága miatt arra viszonylat kevesen járnak. Így a határai jól kontrollálhatóak, vízi és légi kikötőkre korlátozódnak. Azonban nem ennek a sajátos helyzetnek köszönhetik, hogy ilyen jól kordában tudták tartani a vírus terjedését. A háborút még ők sem nyerték meg, de sok csatát már megnyertek és jók a kilátásaik a végső győzelemre.

A Max Fisher NYT újságírójának beszámolója alapján Dél Korea a felkészültségének és a hihetetlen professzionizmussal végrehajtott „hadműveletének” köszönheti a hatékony védekezését. A „hadművelet” négy fontos részből áll:

  • Gyors beavatkozás, még a krízishelyzet kialakulása előtt (Lee Sangwon, an infectious diseases expert at the Korea Centers for Disease Control and Prevention said: “We acted like an army,”)
  • Korai tesztelés, gyakran és biztonságosan (hogy nehogy az orvos/nővér is megbetegedjen)
  • Kapcsolatok követése, izolálása és megfigyelése
  • Lakosság segítségül hívása, bevonása

Ezen pontok egyike sem egyszerű önmagában, de mind a négy pont hatékony végrehajtása és összehangolása nagyon komoly felkészültséget feltételez. Dél Koreában valószínűleg tanultak a 2002-2004-es első SARS hullámból. Sajnos vagy szerencsére abból Magyarország, de még a teljes Európa is majdnem kimaradt, az EU-ban mindössze Franciaországban volt halálos áldozata és a legtöbb országban hivatalosan nem is jelent meg a fertőzés. Dél-Koreában viszont igen, igaz csak 3 igazolt esetben.

Ennél is talán fontosabb a 2012-ben kirobbant Közel-keleti légúti szindróma (MERS) járvány, ami Dél Koreát 2015-ben érte el és “küldött” közel 6800 főt karanténba.

MERS Worldwide
MERS in South Korea

Forrás: https://en.wikipedia.org/wiki/2002%E2%80%932004_SARS_outbreak

Feltehetőleg ez készítette fel a koreai hatóságokat, hogy hogyan kell védekezni egy világjárvány ellen, hogyan védjék meg a lakosságot, főként azt a ~13,6%-ot (~7 millió embert), aki 65 éven feletti.

Az első két pont (gyors beavatkozás, gyors döntéshozatal, jó stratégia megalkotása és a korai tesztelés) abszolút a felkészültségről szól. (Van-e például a raktárban tömegesen olyan teszt, ami kimutatja a vírust?) A negyedik pont számomra evidens egy hatékonyan működő társadalomban a tájékoztatás, a kommunikáció nagyon fontos, hiszen bármit kitalálhatsz, ha az embereket nem tudod magad mellé állítani, akármilyen jó is az ötlet, nem fog működni.

Technológia jelentősége a járványkezelésben

A harmadik pont az ami engem érdekel, technológiai szempontból ez a legérdekesebb. Hogyan tudunk egy 51 millió fős lakosságot hatékonyan lekövetni, izolálni és megfigyelni?

A válasz nem is olyan bonyolult az adatok világában. Egyrészt nem 51 millió embert kell egyszerre megfigyelni, csak azt, aki közvetlen kapcsolatba kerül olyan emberrel, aki fertőzött. Miután a tömeges teszteléssel hatékonyan beazonosították egy adott területen, hogy ki a fertőzött és ki nem, már csak azokra kellett koncentrálniuk, aki fertőzött. A mobiltelefonok világában technológiailag nem túl bonyolult lekövetni, hogy ki merre jár. A Google Maps Timelineon például most is meg tudom nézni, hogy két éve március 15-én éppen merre jártam. Sőt még azt is, hogy mivel közlekedtem: gépkocsi, kerékpár vagy gyalog. Persze ez nem mindenkinél engedélyezett és egy más kérdés az, hogy kivel osztom meg, de a mozgás követése évekre visszamenőleg adott, hiszen egy globális helymeghatározó eszközt hordanak az emberek a zsebükben, aminek neve: okostelefon. Mindegy, hogy Android vagy iOS, legfeljebb az a különbség, hogy melyik gyártó szerverére küldi az adatokat, ha nincs ez a funkció letiltva.

Maps Timeline Example

Magyarországi helyzetkép

Jelenleg 5,3 millió (~57,4%) okostelefon használó van Magyarországon, úgyhogy ezzel még nem oldottuk meg fertőzöttek követését, csak nagyjából minden másodikét, feltételezve, hogy megkapjuk az engedélyt az adatok beszerzésére.

A GPS koordináták követésén kívül van azonban egy nem közismert, de más kontextusban gyakran használt megoldás. Bárkinek a mozgása, aki mobiltelefont használ a mobilhálózaton keresztül, ha nem is GPS pontossággal, de lekövethető. Az adatok magyarországi használata nem is példa nélküli, a Nemzeti Turisztikai Ügynökség például vásárolt és elemzett ilyen adatokat nem is olyan régen.

A pontosság a hálózat sűrűségétől és a beállításaitól persze nagy mértékben függ, de a célnak megfelelő és azt a tévhitet is el kell vetni, hogy csak azok a mobiltelefonok követhetőek le, amelyek éppen hívásban vannak. Minden bekapcsolt állapotú mobiltelefon lekövethető. Erre egyébként a hazai mobilszolgáltatók céges gépjárműflotta követésére már több, mint 10 éve nyújtanak szolgáltatást (Mobil Flotta, Flotta Helymeghatározó vagy Flottakövetés).

Itt jön képbe a Big Data

Tegyük fel, hogy az adatok elérhetőek. Innentől egyszerűen csak össze kell vetnünk a koordinátákat időben és térben és le kell fejlesztenünk az algoritmust, ami akár valós időben megmondja, hogy egy kiválasztott időpontban ki találkozhatott az útja során fertőzött személlyel. Ha ezt a megfigyelt körnél automatikusan végezzük az elmúlt két hétre, akkor az eredmény a másodperc töredéke alatt lekérdezhető. Igen, akár Magyarországon is!

Az adatok hatékonyt tárolását számos Big Data megoldás támogatja, és kapacitáshiányban sem szenvedünk a felhőmegoldásoknak (például AWS, Azure, GCP) köszönhetően, de ha például ez nemzetbiztonsági kockázatot jelent, akkor építhetünk magunknak Hadoop rendszert, például egy on-prem Cloudera clustert, amit “olcsó” hardveren üzemeltethetünk és tárolhatunk benne akár petabyte (10^15 byte) méretű adathalmazt is, amelyet másodpercek alatt fel lehet dolgozni.

Megtalálni a megfigyelt személy útját keresztező személyeket nem triviális. Számos oldalról meg lehet közelíteni és kis kutatással, kész algoritmust is találhatunk az Interneten, például itt. Az algoritmus (akármilyen hatékony is) feldolgozó-kapacitást igényel, de ez 2020-ban szintén nem lehet akadály. Megfelelően méretezett on-prem clusteren vagy a felhőben elérhető a megfelelő “processing capacity”. Sőt manapság már a tárolás és a feldolgozás nem feltétlenül kell egy helyen legyen, “csak” a két hely között mozgatott adatmennyiségre kell figyelni, hogy a hatékonyság ne vesszen el. Költséghatékonyan megoldani persze semmit sem egyszerű, de nem is lehetetlen. Minden technológia és tudás is adott hozzá a csapatunkban.

Az algoritmus eredménye birtokában, akár a fertőzési valószínűséget számító Machine Learning modellekkel, SMS formájában értesíthető minden potenciálisan érintett személy és ezáltal elirányítható egy tesztközpontba.

Személyiségi jogok

A járványkezelés kapcsán sokszor felmerül a személyiségi jog kérdésköre, úgy ahogyan bármilyen üzleti célú adatgyűjtés, BigData és Machine Learning alkalmazása kapcsán is.

Véleményem szerint a járványkezeléssel kapcsolatban, ahol a hatékonyság elmaradása emberéleteket követelhet – szemben mondjuk egy üzleti alkamazással, ahol “egyedül” a profit áll szemben a jogokkal – a társadalmi igény magasabb szintet kell, hogy képviseljen, mint az egyén személyiségi joga.

Ettől a morális vitától függetlenül, a vázolt technológiai megoldás, a cellainformációkon alapuló kontakt kutatás anonimizált módon tudna zajlani. A szolgáltatók az adatvagyonnal jelenleg is rendelkeznek és úgy vélem, hogy az adatok anonimizált “átadása” egy központi járványkezelő szerv számára semmilyen törvényi akadályt nem sértene, de ennek a kérdésnek a megválaszolása természetesen már a szakjogászok feladata.

Hogyan tovább?

A koronavírus kapcsán talán már késő egy ilyen megoldás megvalósítása, de addig érdemes a témát napirenden tartani, amíg forró, hiszen egy esetleges következő járvány során a megvalósításba fektetett költségek elenyészőek ahhoz képest, hogy akár a társadalom az emberéleteken keresztül, akár a gazdaság a szigorú és hosszan tartó korlátozások hatására mekkora károkat szenvedhet el.

A dél-koreai példából is jól látható, hogy ha erre valaki fel van készülve és tömegesen, hatékonyan tudja végrehajtani a védekező intézkedéseket, akkor a járvány komolyabb korlátozások nélkül, meglehetősen rövid idő alatt kordában tartható.

Azt hiszem egyik ország sem kezelheti másként a helyzetet, legfeljebb ellaposíthatja a szigorú intézkedésekkel a vírus terjedésést, és elodázhatja ezeket a feladatokat. Hosszú távon – véleményem szerint – ez a rendkívüli állapot nem fenntartható anélkül, hogy komolyabb – nem feltétlenül közvetlenül a vírus okozta – károkat szenvedjünk. Így vagy úgy, mindenesetre jobb ha megtanulunk mindezzel együtt élni.