Category

Big Data News

2020 az adatok éve lesz

By | Big Data News, Business, Data Science, Data Visualization | No Comments

Az idei igazán különleges év lesz. A számmisztikával foglalkozó numerológusok szerint 2020-ban ugyanis az anyagiakkal összefüggő energiák uralják a mindennapjainkat, az évszámban szereplő két nulla azonban nehézségeket, komoly kihívásokat jelent majd. Mi magunk is izgalmas esztendőre számítunk, de az efféle okkult tanok helyett továbbra is a tudományos alapokon nyugvó adatelemzés segítségével tekintünk a jövőbe.

Mi már a tavalyi esztendőt is ennek szellemében zártuk, 2019 év végén kollégáink ugyanis előadóként vettek részt a Budapest BI Fórumon, mely a legnagyobb magyar, analitikával foglalkozó, független szakmai rendezvény. Az eseményen egyebek mellett szó volt a BI- és analitikai trendekről, az adatvizualizációról, a mesterséges intelligenciáról, az érdeklődők konkrét esettanulmányokat is megismerhettek az üzleti élet több területéről, Borbély Zsolt és Fodor Szabolcs kollégáink pedig a kiskereskedelemben használatos adatalapú optimalizációról tartottak előadást.

Még tartanak az ismeretlentől

Bevezetésként körüljárták a szakmai berkekben sokakat foglalkoztató kérdést, hogy az adatalapú döntéshozatal vajon csak „win-win” szituációkat eredményezhet-e. Kollégáink úgy vélik, hogy az emberi tényezőktől független folyamatok, valamint az azok eredményeképpen megszülető vagy éppen az azok hátterében álló objektív mérőszámok kétségtelenül pozitív megítélés alá esnek; ugyanakkor a titokzatos „black-box” technológia jelenlétét és a döntések feletti kontroll csökkenésének érzetét negatívan élik meg a cégvezetők és döntéshozók. 

A bizalom azonban jelentősen erősíthető, ha jól előkészített, szakmailag kifogástalanul kivitelezett projekteket adunk át a megrendelőknek, illetve a potenciális ügyfelek kizárólag ilyeneket látnak a referenciáink között. Ehhez azonban feltétlenül szükséges – mondhatni: a sikeres projekt kulcsa –, hogy az ügyféllel közösen helyesen fogalmazzuk meg az üzleti problémát, melyre megoldást keresünk; hogy megbízható és széles körű adatforrásokkal rendelkezzünk; illetve, hogy nyitottságot tapasztaljunk az ügyfél részéről is.

Szabolcs ezzel kapcsolatban úgy vélekedik: „Ma Magyarországon az adatgyűjtés már kellő fókuszban van, és azon KKV-k, amelyek erre hangsúlyt fektetnek, többnyire megfelelő adatforrásokkal is rendelkeznek. Az adatok közvetlenül az üzleti döntéshozatalban, termékfejlesztésben való felhasználásában azonban van még teendő. Itt a nyitottság, az ismeretlentől való félelem, de egyes esetekben az ellenérdekeltség is gátat szab az adatok felhasználásának. Ezen edukációval, pilot projektekkel lehet a legkönnyebben segíteni.”

Komplex szolgáltatásoké a jövő

Ha a nyitottság és a bizalom megvan, az ügyfél csak jól járhat az adatelemzéssel és az adatalapú döntéshozatallal. Kollégáink szerint ugyanis az adatelemzés alapja – némileg leegyszerűsítve –, hogy az üzleti kérdést az adatok nyelvére fordítjuk. Mindez lényegében azt jelenti, hogy az emberi vagy üzleti logika diktálta intuíciókat a meglévő adatokkal támasztjuk alá vagy cáfoljuk meg indokolt esetben; az elvárások alapján felépítjük a modellt; összevetjük a tényeket és az elvárásokat; végezetül pedig forintosítjuk az eredményt.

Egyszerűnek tűnik, a háttérben azonban idő- és energiaigényes feladatok állnak. Kollégáink szerint egy-egy projekt esetében a munka 30%-át az üzleti megértés, 50%-át az adatgyűjtés és előkészítés, adja, és csupán 20%-ot tesz ki maga a modellfejlesztés, mely önmagában is igen komoly és felelősségteljes szakmai kihívás. Ide tartozik ugyanis a Feature Engineering-gel, az ML tanítással és a modell teszteléssel kapcsolatos összes feladat, mely a jövőbeni, működő rendszer motorjául szolgál.

Zsolt és Szabolcs előadásában szó volt arról is, hogy míg sok piaci szereplő csak bizonyos részfeladatokat vállal az előbbiek közül, addig a United Consult komplex megoldásokat kínál az ügyfeleknek. Ezek alapját képezi az imént részletezett adatbányászat és -elemzés, majd a modellfejlesztés. Ezeket követően a modell rendszerbe állítása és a rendszeres modellpredikció vesz még részt a folyamatban. A projekt csúcsa a felhasználói dashboard kialakítása és maga az adatvizualizáció.

Utóbbival kapcsolatban Szabolcs úgy fogalmazott: „Maga az adatvizualizáció lehet egy adatalapú projekt végterméke, ebben az esetben a döntéshozatal közvetlen támogatásában, a működés átláthatóbb áttekintésében van szerepe. De természetesen nem szükséges végterméke az adatvizualizáció egy adatalapú projektnek, de mindenképp támogató szerepe van az adatok megértésében.” Végezetül tehát, a bevezetőben említett számmisztikára visszatérve: 2020 valóban különleges évnek ígérkezik, és ahhoz sem fér kétség, hogy a számok valóban megmutathatják a jövőt, akár üzleti értelemben is. Mi, a United Consultnál azonban abban hiszünk, hogy terveinket nem alapozhatjuk az aktuális csillagállásra. A bigdata-technológiában rejlő lehetőségeket – megfelelő szakértelemmel – azonban bárki a saját javára fordíthatja.

További adatokkal kapcsolatos bejegyzéseinket itt találod:
https://datandroll.hu/

Itt pedig cégünk más témában megosztott tartalmait tekintheted meg:
https://united-consult.hu/category/cikkek-rolunk-es-masrol/

Cloudera 5.15 újítások

By | Big Data News, Cloudera | No Comments

Számos újdonsággal jelentkezik a Cloudera 5.15-ös verziója. A lista hosszú, úgyhogy ingujjakat felkötni és lássunk is neki mit rejt a legújabb release!

Gépi tanulás

A Cloudera Data Science Workbench (CDSW) alig több, mint egy éve debütált a Cloudera portfólióban nem sokkal a Sense Platform felvásárlása után. Azóta ez a negyedik CDSW edition a sorban. Aki nem ismerné, ez egy ” fast, easy, and secure self-service data science for the enterprise”. Vagyis egy olyan eszköz, amellyel a data scientistek python és R notebookok írásával könnyedén ki tudják használni a hadoop clusterben rejlő tárolási és feldolgozási kapacitást az adatok masszírozására, modellek betanítására. Az adminisztrátorok által meghatározott virtuális gépeken, konténereket tudnak a felhasználók indítani és scriptjeiket azon tudják futtatni. Így a saját gépük kapacitása helyett a cluster kapacitásával “játszadozhatnak”. Mindezt úgy, hogy a konténeren belül adminok, így nem kell az IT-ra várni ha fel akarnak installálni egy újabb packaget, az IT security pedig megnyugodhat, mert a felhasználók korlátlan jogosultságai a konténerek határáig terjednek. A felhasználók az eredményeket könnyedén tudják http linken keresztül publikálni és megosztani munkatársaikkal. Az eszköz kisebb hibái ellenére igazán jó és mind a felhasználók, mind az IT (azon belül is főleg a security) szereti. Legnagyobb hátránya, hogy fizetős: listaáron $50e 10 fehasználnálóra, évente. Ja! …és kell hozzá Cloudera EDH cluster, de legalább egy Data Engineering Hub. Részletesebben a termékről itt olvashattok.

A legújabb Cloudera verzióban immáron az 1.4-es CDSW verziót köszönthetjük. Hogy ez miben jobb, mint elődje? A modellek verziókezelésében és a deploymentben. A modellek futtatásokat egyszerűen össze lehet hasonlítani, valamint a kiválasztott modellt néhány gombnyomással ki lehet publikálni webservice-ként, hogy az alkalmazások REST API-n meg tudják hívni. Mi kell ennél több egy data scientistnek!?!

Read More