Számos újdonsággal jelentkezik a Cloudera 5.15-ös verziója. A lista hosszú, úgyhogy ingujjakat felkötni és lássunk is neki mit rejt a legújabb release!
Gépi tanulás
A Cloudera Data Science Workbench (CDSW) alig több, mint egy éve debütált a Cloudera portfólióban nem sokkal a Sense Platform felvásárlása után. Azóta ez a negyedik CDSW edition a sorban. Aki nem ismerné, ez egy ” fast, easy, and secure self-service data science for the enterprise”. Vagyis egy olyan eszköz, amellyel a data scientistek python és R notebookok írásával könnyedén ki tudják használni a hadoop clusterben rejlő tárolási és feldolgozási kapacitást az adatok masszírozására, modellek betanítására. Az adminisztrátorok által meghatározott virtuális gépeken, konténereket tudnak a felhasználók indítani és scriptjeiket azon tudják futtatni. Így a saját gépük kapacitása helyett a cluster kapacitásával „játszadozhatnak”. Mindezt úgy, hogy a konténeren belül adminok, így nem kell az IT-ra várni ha fel akarnak installálni egy újabb packaget, az IT security pedig megnyugodhat, mert a felhasználók korlátlan jogosultságai a konténerek határáig terjednek. A felhasználók az eredményeket könnyedén tudják http linken keresztül publikálni és megosztani munkatársaikkal. Az eszköz kisebb hibái ellenére igazán jó és mind a felhasználók, mind az IT (azon belül is főleg a security) szereti. Legnagyobb hátránya, hogy fizetős: listaáron $50e 10 fehasználnálóra, évente. Ja! …és kell hozzá Cloudera EDH cluster, de legalább egy Data Engineering Hub. Részletesebben a termékről itt olvashattok.
A legújabb Cloudera verzióban immáron az 1.4-es CDSW verziót köszönthetjük. Hogy ez miben jobb, mint elődje? A modellek verziókezelésében és a deploymentben. A modellek futtatásokat egyszerűen össze lehet hasonlítani, valamint a kiválasztott modellt néhány gombnyomással ki lehet publikálni webservice-ként, hogy az alkalmazások REST API-n meg tudják hívni. Mi kell ennél több egy data scientistnek!?!
Analitikai fejlesztések
A funkcionális, analitikai fejlesztések nem jelentősek (Na de majd a Cloudera 6-os verzióban!) a felhő, stabilitási és teljesítményre irányuló fejlesztések azonban több, mint említésre méltóak.
Impala
Újabb Impala verzió került a CDH 5.15-be, 2.11-ről 2.12-re váltottak. A skálázható RPC és a runtime filterek memória managementje területén hajtottak végre stabilitási fejlesztéseket, valamint számos teljesítmény optimalizálást is elvégeztek az alábbi területeken:
- Mintavételezés és extrapoláció alkalmazása a táblák statisztikájának gyűjtésénél;
- HDFS fájl kezelő cache-elése, amivel csökkenti a HDFS betöltést a NameNode-okon és ezáltal csökken a lekérdezési késleltetés abban az esetben, amikor a NameNode a szűk keresztmetszet;
- Metaadat műveletek konkurens futtatása: DDL és DML műveletek párhuzamosan futtathatóak, ha a metaadat be van töltve. A párhuzamosítás lényeges teljesítmény és késleltetés csökkenést eredményez, amikor a SYNC_DDL = false.
- End-to-end metaadat tömörítés annak érdekében, hogy a metadatok átvitele a Catalogd, StateStore és Impalad között kisebb CPU terhelést és hálózati forgalmat generáljanak.
Kudu
Az Impala-val szemben a Kudu 1.7-ben már új feature-ök is megtalálhatóak. Egyrészt végre kezeli a Decimal adattípust, valamint bevezettek egy új replikációs stratégiát, ami jobb védelmet nyújt a hardver meghibásodás ellen és gyorsabb visszaállítási időt ígér bizonyos esetekben. Ettől a verziótól paraméterezhető, hogy mely könyvtárban tároljuk a Kudu tablet server metaadatokat, így akár egy tetszőlegesen kiválasztott SSD meghajtóra is tehetjük, ami jobb teljesítményt eredményezhet. Végül, de nem utolsó sorban bevezettek egy új szkennelési algoritmust olvasási módban, ami garantálja, hogy mindig a legutolsó írás eredményét érjük el.
A hátránya az új verziónak, hogy az újonnan bevezetett replica management séma nem kompatibilis a régivel. Nagy gond nincs, de azért figyelni kell az upgrade során, mert könnyen előfordulhat inkompatibilis konfiguráció.
Upgrading directly from Kudu 1.6.0 is supported and no special upgrade steps are required. A rolling upgrade of the server side will not work because the default replica management scheme changed, and running masters and tablet servers with different replica management schemes is not supported, see Incompatible Changes in Kudu 1.7.0 for details. However, mixing client and server sides of different versions is not a problem. You can still update your clients before your servers or vice versa. When upgrading to Kudu 1.7, it is required to first shut down all Kudu processes across the cluster, then upgrade the software on all servers, then restart the Kudu processes on all servers in the cluster.
Felhő
A Cloudera egyik fő fókusza a felhő megoldásokban rejlő lehetőségek kiaknázása. Ebből fakadóan számos fejlesztés érkezett a CDH 5.15-tel.
- Altus Data Engineering (DE) elérhetővé vált Microsoft Azure GA-n is;
- Altus Data Engineering (DE) workload elemzés és optimalizálás SLA beállítási lehetőségek segítségével;
- Biztonsági fejlesztések: automatikus hálózati (in-motion) és file/adatbázis (at-rest) szintű titkosítás;
- Directory fejlesztések: támogatja a Cloudera Manager (CM) cluster template-eket és új statisztikai adatokat tesz elérhetővé, amelyek segítik a rendszer monitorozását.
Mi az az Altus?
Az Altus egy big data platform szolgáltatás (Big Data PaaS), amellyel AWS-en (vagy most már Azure-on is!) pár kattintással előre definiált clustereket lehet létrehozni, majd azokon előre megírt Hive, Spark/PySpark vagy MapReduce2 jobokat lehet futtatni. A Cloudera egyelőre a Data Engineering enterprise editiont támogatja, vagyis az Impala, HBase és Navigator Optimizer nem elérhető, viszont van HDFS, Spark, Solr és Hive is. (Impalával és Optimizerrel kiegészített Analytical DB egyelőre béta verzióban érhető el.) (A különböző enterprise verziók tartalmáról itt tájékozódhatsz.)
Hogy miért jó mindez? Mert nem kell megvenni a clustert, csak a futtatás idejére, elég óránként és node-onként csupán 8 dollárcentet ($0.08) fizetni és az egész clustert a Cloudera menedzseli. (Ezen a ponton lépett be a Cloudera az MSP piacra!)
Aki még nem találkozott az Altusszal, annak javaslom az alábbi 11 perces demó videót. (A demó végén a CDSW is látható.)
Altus DE Workload Analytics
Az Altus DE-n a Workload Analytics (WA) segítségével ki lehet elemezni a jobok futását, a logokat és optimalizálni is lehet azokat.
A legújabb verzióval pedig meg lehet becsülni a cluster méretét és a futási időre eső költséget is. Meg tudjuk adni, hogy mennyi idő alatt kellene lefutni a jobunknak (target duration), mint SLA követelmény, és a WA, az előző futások alapján megbecsüli, hogy hány darab és pontosan milyen instance-okat kellene létrehoznunk a jobunk futtatásához. Ezen kívül a job költségére is ad egy durva becslést, valamint a job futtatására optimalizálási javaslatokat is tesz, ami előrevetíti az automatikus optimalizálást is, ami feltehetőleg később lesz majd elérhető.
Altus biztonság
Továbbfejlesztették az Altus biztonsági elemeit. Mostantól az alábbi „at-rest” és „in-motion” titkosítások érhetőek el:
- titkosított AWS S3 adat és logok
- titkosított AWS EBS adat és root volume
- Transport Layer Security (TLS) web forgalomra
- Kerberos titkosított RPC
Directory
Az Altus a Cloudera managed clusterek világa, míg a Directory-val az on-prem clustereket lehet egyszerűen létrehozni és menedzselni. A legnagyobb újítás a 2.8-as Directory verzióban, hogy mostantól támogatja a különböző Cloudera Enterprise változatokat (Basic, Data Engineering, Analytic DB, Operational DB), valamint hogy mostantól lehetőséget biztosít arra, hogy exportáljuk a clusterünk konfigurációját.
Platform
Spark 2.3
A Spark legújabb verziójára frissített a Cloudera a legújabb CDH verzióban. A főbb újítások:
- vektorizálták a PySpark UDF-eket, amivel 3x-100x jobb teljesítményt ígérnek;
- új Spark History Server válik elérhetővé: responsive UI, memória hatékony, gyorsabb újraindítás stb;
- Spark lineage támogatás a Cloudera Navigatorban;
- Impala timestamp mostantól Sparkkal is olvasható.
Flume
- Automatikusan lehet importálni a Kafka SSL beállításokat Flume-ba (Flafka)
- Kipucolták a clear-text jelszavakat a konfigurációból (titkosított file-okat használnak helyette)
Sqoop
- Támogatja a Teradata 16.x verziót
- Teradata Connector v1.7-val elérhető a legfrissebb TDCH JDBC FastExport, amely 3x teljesítmény javulást jelent az adatok kinyerésénél Teradata adattárházból.
Cloudera Manager
Backup and Disaster Recovery (BDR)
- HDFS + Hive replikáció lehetséges mostantól Azure Data Lake Storage-re (ADLS-re) is;
- Masszív teljesítmény növekedést ígérnek HDFS snapshot-diff file listing során;
- Még biztonságosabb cloud credential kezelést valósítottak meg ADLS/S3 replikáció alatt;
- Többszálú Hive Metastore metaadat replikáció;
- Új statisztikák érhetőek el a felhaszálói felületen (UI) a replikáció alatt.
Upgrade
Fejlesztettek a Cloudera Manager és Cloudera Data Hub upgrade folyamaton és javították a dokumentációt is; bevezettek egyedi környezeti szűrőket (custom environment filters). Mostantól az upgrade process egyszerre képes kezelni a különböző operációs rendszereket, illetve minden pre-upgrade check mostantól egy oldalon elérhető a könnyebb átláthatóság kedvéért.
Telemetry Publisher
A Telemetry Publisher el tudja küldeni a workload logokat és metrikeket egy nem-Altus clustertől az Altus Workload Analytics-nak. Hybrid megoldás esetén ennek az a haszna, hogy egy helyen elemezhetőek a job futtatások.
Ezen kívül a MapReduce jobok mostantól, cloud storage esetén új metrics capture metódust használnak.
Cloudera Navitagor
A legnagyobb újítás, hogy a Cloudera Navigator mostantól kezeli a Spark 2.3 metaadatokat és így a lineage-t is. Ezen kívül jobb felügyeleti analitikát kapott: listázhatóak a kis méretű file-ok, valmint a legaktívabb felhasználók. Ezen kívül számos teljesítmény és stabilitási fejlesztést hajtottak végre.
Hue
A Hue legújabb verziójában egyszerűbbé vált a top table keresés, valamint egységesítették a SQL metaadat cachelést (Hive, Navigator, NavOpt).
Ha további részletek érdekelnek, keresd cégünket a United Consultot az alábbi csatornákon: http://thebigdataplatform.hu, http://www.united-consult.hu, LinkedIn és Facebook.