All Posts By

Zsolt Borbély

Cloudera 5.15 újítások

By | Big Data News, Cloudera | No Comments

Számos újdonsággal jelentkezik a Cloudera 5.15-ös verziója. A lista hosszú, úgyhogy ingujjakat felkötni és lássunk is neki mit rejt a legújabb release!

Gépi tanulás

A Cloudera Data Science Workbench (CDSW) alig több, mint egy éve debütált a Cloudera portfólióban nem sokkal a Sense Platform felvásárlása után. Azóta ez a negyedik CDSW edition a sorban. Aki nem ismerné, ez egy ” fast, easy, and secure self-service data science for the enterprise”. Vagyis egy olyan eszköz, amellyel a data scientistek python és R notebookok írásával könnyedén ki tudják használni a hadoop clusterben rejlő tárolási és feldolgozási kapacitást az adatok masszírozására, modellek betanítására. Az adminisztrátorok által meghatározott virtuális gépeken, konténereket tudnak a felhasználók indítani és scriptjeiket azon tudják futtatni. Így a saját gépük kapacitása helyett a cluster kapacitásával “játszadozhatnak”. Mindezt úgy, hogy a konténeren belül adminok, így nem kell az IT-ra várni ha fel akarnak installálni egy újabb packaget, az IT security pedig megnyugodhat, mert a felhasználók korlátlan jogosultságai a konténerek határáig terjednek. A felhasználók az eredményeket könnyedén tudják http linken keresztül publikálni és megosztani munkatársaikkal. Az eszköz kisebb hibái ellenére igazán jó és mind a felhasználók, mind az IT (azon belül is főleg a security) szereti. Legnagyobb hátránya, hogy fizetős: listaáron $50e 10 fehasználnálóra, évente. Ja! …és kell hozzá Cloudera EDH cluster, de legalább egy Data Engineering Hub. Részletesebben a termékről itt olvashattok.

A legújabb Cloudera verzióban immáron az 1.4-es CDSW verziót köszönthetjük. Hogy ez miben jobb, mint elődje? A modellek verziókezelésében és a deploymentben. A modellek futtatásokat egyszerűen össze lehet hasonlítani, valamint a kiválasztott modellt néhány gombnyomással ki lehet publikálni webservice-ként, hogy az alkalmazások REST API-n meg tudják hívni. Mi kell ennél több egy data scientistnek!?!

Read More

Mi is az a Qlik Sense?

By | Qlik, Tech Trends | No Comments

A Qlik Sense egy gyors, rugalmas interaktív elemzési lehetőséget biztosító rendszer, amellyel több száz felhasználó akár nagy adatmennyiséget is egyszerre képes feldolgozni. Mondhatnánk, hogy egy egyszerű BI eszköz, de azért annál jóval több.

Miért különleges?

  • Memóriában kezeli az adatokat, ezáltal gyors;
  • A szabadalmaztatott, úgynevezett “asszociatív technológia” lehetővé teszi a teljes adathalmaz felfedezését adatvesztés nélkül, így az adatok rugalmasan elemezhetőek;
  • Nagy adatmennyiséget képes hatékonyan kezelni;
  • Saját és felhő infrastruktúrán is elérhető.

In-Memory technológia

A Qlik Sense in-memory technológiára épül, vagyis lemez helyett memóriában, tömörítve tárolja az adatokat. Az in-memory tárolás előnye, hogy gyorsabban elérhetők az adatok RAM-ból, mint lemezről. A memória nem olcsó, viszont az utóbbi időben egyre olcsóbban elérhető és felhőben könnyedén skálázható.

Asszociatív technológia

A Qlik asszociatív technológiája lehetővé teszi, hogy:

  • egyrészt különböző forrásokból származó adatok adatvesztés nélkül automatikusan egymáshoz kapcsolódjanak;
  • másrészt az összekapcsolt és össze nem kapcsolt adatok is elérhetőek és könnyedén kereshetőek legyenek.

Az úgynevezett “associative technology” a Qlik egyik legfontosabb eleme az in-memory technológián kívül. Ez a technológia tehát lehetővé teszi, hogy a felhasználó a teljes adathalmazt átlássa függetlenül attól, hogy az adathalmaz mely része honnan érkezett és az összekapcsolás során mely rekordok esnének ki. Gyakorlatilag ezáltal egy FULL OUTER JOIN valósul meg minden adatforrás összekapcsolásakor úgy, hogy az eszköz azokat az adatokat kiemeli, amelyek a kulcsok mentén ténylegesen összekapcsolódnak. Még egy tapasztalt SQL fejlesztővel is előfordul, hogy két forrástábla összekapcsolásával adatot veszít. A Qlik asszociatív technológiája kiküszöböli ezt a problémát.

Big data

A Qlik Sense-hez tartozik egy big data megoldás is, ami az on-demand elnevezést kapta. Ennek lényege, hogy a felhasználó a nagy mennyiségű adathalmaz 1-1 kisebb szeletét választhatja ki, amelyből a Qlik Sense Server egy új, részletesebb lekérdezést generál, ezáltal a “nagy adatmennyiség” probléma redukálódik “kis adat”-ra.

Saját és felhő infrastruktúra

A Qlik egy ökoszisztéma, amely több változatban elérhető.

Felhő infrastruktúrán (Software as a Service – SaaS) ingyenesen elérhető és használható a Qlik Sense Cloud Basic verziója, amire itt tudsz regisztrálni. Ha 5-nél több felhasználóval szeretnéd az elemzéseid megosztani és a teljes funkcionalitást ki akarod használni, akkor elő kell fizetned a Business verzióra, ami jelenleg havi 15 EUR/fő áron elérhető.

A Qlik Sense Desktop ingyenesen használható, elérhető bárki számára. A Desktop nagyszerűen alkalmas dashboardok, vizualizációk készítésére lokálisan, a megosztás azonban vagy Qlik Sense Cloudon vagy Enterprise Serveren keresztül lehetséges.

Az Qlik Sense Enterprise a Qlik Sense server változata. A server változat elérhető különböző konstrukciókban: felhasználó, server vagy előfizetés alapon. A server felinstallálható virtuális gépekre (felhőben) vagy saját fizikai vagy virtualizált környezetre. Saját hardver infrastruktúra esetén az adatok tárolása és kezelése mindvégig saját kézben maradhat.

Kíváncsi vagy, hogy működik a Qlik Sense a gyakorlatban vagy milyen áron érhető el a keretrendszer? Lépj kapcsolatba velünk a http://thebigdataplatform.hu, illetve a http://www.united-consult.hu weboldalakon található elérhetőségeken, a LinkedIn-en, vagy a Facebookon és kérj egy demót!

Asszinkron programozás az eRumon

By | Data Science, R | No Comments

Gyurkó Dávid, R/Shiny rajongónk és nagykövetünk “Going async with Shiny” címmel előadást tartott az idei európai R konferencián az eRum-on. Az aszinkron programozás alkalmazásával a shiny alkalmazásunk akkor is responsive marad miközben a háttérben egy másik erőforrásigényes program (például egy neurális háló betanítása) fut. Dávid a konferencián röviden bevezette a useReket az asszinkron programozás rejtelmeibe. Ha lemaradtál az előadásról kövess minket a blogon, hamarosan jelentkezünk!