Data Science. Michael Oettinger
Чтение книги онлайн.
Читать онлайн книгу Data Science - Michael Oettinger страница 5
• Tez: Apache Tez ist ein allgemeines Datenfluss-Programmier-Framework. Die ursprünglich von Hortonworks entwickelte Anwendung unterstützt Directed Acyclic Graph (DAG). Tez baut auf YARN auf und wird auch durch YARN gesteuert. Tez kann jeden MapReduce-Job ohne Modifikationen ausführen. MapReduce-Jobs können in einen Tez-Job überführt werden, was die Leistung steigert.
• ZooKeeper: ZooKeeper ist ein performantes System zur Koordination und Konfiguration verteilter Systeme.
Aus der Aufzählung und kurzen Beschreibung der Hadoop-Komponenten wird deutlich, dass es sich bei Hadoop nicht um ein einfaches Datenmanagement-Tool handelt. Es ist vielmehr ein komplexes und sich dynamisch veränderndes Sammelsurium an Projekten und Softwareprodukten, die der Idee der verteilten Datenhaltung von Big Data folgen.
Die unterschiedlichen Hadoop-Komponenten können von der Homepage der Apache Foundation kostenlos heruntergeladen werden. Unternehmen greifen aber bei Hadoop auf die Dienstleistungen kommerzieller Hadoop-Distributoren zurück. Diese bieten vorgefertigte Pakete mit z. T. zusätzlichen Komponenten an. In der Regel fallen keine Lizenzkosten an, es wird aber eine Subscription-Fee verlangt, also eine Mietgebühr für die Wartung, Pflege und den Support der Software. Wichtige Anbieter sind:
• Cloudera (Fusion mit Hortonworks im Q1 2019)
• MapR
• IBM
• Pivotal
Daneben haben die Cloud-Anbieter eigene Hadoop-Angebote:
• Amazon Web Services EMW
• Microsoft Azures HDInsight
Cloudera hat mit der Data-Platform ein Angebot, das über die Distribution der Apache Hadoop/Spark-Komponenten hinausgeht (Data-Hub) und diese mit weiteren Komponenten zu einer integrierten Datenplattform bündelt. Die Installation kann on-premises, in der Cloud oder hybrid erfolgen.
Abbildung 2: Cloudera-Data-Platform
Hadoop ist ein für Unternehmen sehr attraktives Produkt, da es als Open-Source-Projekt grundsätzlich lizenzkostenfrei bezogen werden kann und für die Herausforderungen des Datenwachstums eine kostengünstige Lösung zu bieten scheint.
Im vorangegangenen Abschnitt zum Thema Data-Lake wurde schon auf die Herausforderung eingegangen: Für die exponentiell wachsende Datenmenge an strukturierten und unstrukturierten Daten soll eine integrierte technische Plattform bereitgestellt werden. Sowohl strukturierte (HBase) als auch weniger strukturierte Daten (HDFS, Cassandra) können mit extremer Skalierbarkeit in einem gemeinsamen Framework verwaltet und bereitgestellt werden. Daher ist Hadoop die ideale technische Plattform, um eine integrierte Datenstrategie des Unternehmens umzusetzen.
Das Thema hat in den letzten Jahren einen Hype erfahren, wobei einige bereits das Ende klassischer Data-Warehouse-Produkte vorhersagten. Die Gründe zu diskutieren, warum das schnelle Ende klassischer Data-Warehouse-Systeme nicht bevorsteht, würde den Rahmen dieses Buches überschreiten. Etwas vereinfacht kann das Thema aber wie folgt zusammengefasst werden:
• Aufgrund der Komplexität und Dynamik der Hadoop -Projekte ist eine Hadoop-Installation alles andere als kostenlos. Auch wenn keine Lizenzkosten anfallen, sind z. B. Wartung, Hardware, Personal und Schulung mit hohem Aufwand verbunden.
• Die Installationen können als laufende Projekte gesehen werden, da die Hadoop-Komponenten einem dauernden Wandel unterzogen sind. Was heute angesagt ist, kann morgen schon wieder als veraltet gelten.
• Die Performance für bestimmte Arten von Queries in Data-Warehouse-Systemen ist mit Hadoop-Komponenten nicht erreichbar. Den kommerziellen Data-Warehouse-Produkten liegen Hunderte von Entwicklerjahren zugrunde, die für die Optimierung der verteilten Speicherung und Abfrage von Daten verwendet wurden. Der Hersteller Teradata hat in einer noch nicht veröffentlichten Studie die Kosten einer Query auf unterschiedlichen Plattformen (Kombinationen aus Data-Warehouse, Hadoop und Cloud) verglichen und ist dabei teilweise auf Kostenunterschiede je Abfrage vom Faktor > 1.000 zugunsten der Data-Warehouse-Technologie gestoßen (es ist anzumerken, dass die Studie eines DWH-Herstellers nicht ohne genaue Analyse der Annahmen zu verstehen ist, dennoch kann eine richtige Tendenz unterstellt werden). Dies zeigt, dass Unternehmen genau definieren müssen, wo und wie sie ihre Daten speichern wollen. Businesskritische, strukturierte Daten sind wahrscheinlich in einem Data-Warehouse am besten aufgehoben. Hingegen können große Mengen von unstrukturierten Facebook- und Twitter-Daten, bei denen noch gar nicht klar ist, wie sie verwendet werden sollen, in einem Hadoop-Lake abgelegt werden. Es zeigt sich, dass für Unternehmen eine umfassende Datenstrategie notwendig ist.
2.6 Cloud-Computing
In den vorangegangenen Abschnitten wurden die unterschiedlichen Datenquellen vorgestellt. Beim Cloud-Computing handelt es sich nicht um einen eigenen Typ von Datenquelle, sondern um die Art der Bereitstellung von Computing-Services. Es ist hier also von einer anderen Ebene der Rede. Die vorher beschriebenen Datenquellen können grundsätzlich on-premises (also in den eigenen Räumlichkeiten) oder in der Cloud betrieben werden. Dennoch soll in diesem Abschnitt auf das Cloud-Computing eingegangen werden, da dieses derzeit in der betrieblichen Praxis häufig zeitgleich mit Big Data diskutiert wird.
Der unklare Begriff Cloud-Computing wird von der Öffentlichkeit mittlerweile mehr und mehr verstanden und die Diskussionen entsprechend angemessen geführt. Beim Thema Cloud-Computing – also der Bereitstellung von Computing-Leistung über das Internet – lassen sich drei Arten von Angeboten unterscheiden:
• IaaS (Infrastructure as a Service): Der Cloud-Dienstleister stellt die Server samt Netzwerk, Speicher, Virtualisierungstechnologie und gegebenenfalls inkl. Betriebssystem zur Verfügung. Der Kunde verwaltet die Anwendungen und die Daten in eigener Regie.
• PaaS (Platform as a Service): Hier stellt der Dienstleister zusätzlich Betriebssystem, Middleware und Laufzeitumgebung zur Verfügung, während der Kunde sich nur noch um Anwendungssoftware und Daten kümmert.
• SaaS (Software as a Service): Bei SaaS wird die gesamte Anwendung inclusive der Datenhaltung als Service bereitgestellt.
Darüber hinaus ist zu unterscheiden, wer die Cloud-Lösung betreibt. Bei einer Public Cloud wird also die öffentliche Infrastruktur des Cloud-Anbieters gemeinsam von den unterschiedlichen Kunden genutzt. Eine Private Cloud nutzt die Technologien des Cloud-Computings, aber die Infrastruktur wird exklusiv für einen Kunden zur Verfügung gestellt oder sogar aufgebaut. Die Abgrenzung zu einem traditionellen On-Premises-Betrieb mit flexiblen Virtualisierungs-Technologien ist nicht immer ganz klar und manchmal auch eher marketing- denn technologiegetrieben.
Eine Zwischenform ist die Hybrid-Cloud, in der Teile der Computing-Leistung on-premises durchgeführt werden, während die anderen Teile auf die (Public-)Cloud ausgelagert werden.
Die bekanntesten und größten Anbieter von Cloud-Dienstleistungen sind:
• AWS (amazon cloud services)
• Microsoft Azure
• IBM
Auch