Schwerpunkt der Schulung ist die praktische Anwendung und die Realisierung von Big Data Projekten mit verfügbaren Open Source Werkzeugen. Die Teilnehmer bekommen Kriterien und Dauenwerte um beurteilen zu können, mit welchem Werkzeug ein Problem am besten zu lösen ist. Typische Open Source Produkte wie Cassandra, MongoDB und Redis werden vorgestellt. Praktische Übungen vermitteln einen tieferen Einblick und wertvolle Erfahrungen.
Wir aktualisieren ständig die verwendeten Datenbanken und Frameworks. Daher kann die im Kurs verwendete Software von der Seminar-Beschreibung abweichen. Fragen Sie uns bitte, wenn Sie Interesse an einer Datenbank oder einem Framework haben, auch wenn dieses hier nicht aufgeführt wurde.
BigData Einführung
- Was ist Big Data?
- Ab welcher Größe oder Komplexität werden Big Data Verfahrenen benötigt?
- Abgrenzung zu Business Intelligence
- Wann stößt eine relationale SQL-Datenbank an ihre Grenzen?
NoSQL Einführung
- Unterschied zu relationalen SQL Datenbanken
- Datenmodellierung
- Das Dynamo Paper
Consistency, Availability und Partition Tolerance
- Was sind Konsistenz, Verfügbarkeit und Partitionstoleranz?
- CAP Theorem
- Eventual Consistency
- Gibt es bei den NoSQL Datenbanken Transaktionen?
- Der Umgang mit der Redundanz
Key/Value Stores
- Funktionsweise der K/V Stores
- Produkte im Überblick
- Praxisteil mit redis
- Einsatzgebiete
Document Stores
- Map Reduce Abfragen
- Die MongoDB
Big Table Datenbanken
- Produktübersicht
- Data Modelling am Beispiel der Apache Cassandra DB
Graphendatenbanken
- Produktübersicht
- Abfrage und Manipulation mit GraphQL
Skalierbarkeit und Performanz
- Möglichkeiten der Skalierung im Überblick
- Große Datenmengen, viele Nutzer, viele Schreib- und Lesezugriffe
- Optimierungen
- Verteilte Datenbanken: Replikation, Fragmentation & Partitioning
Datensicherheit und Zuverlässigkeit
- Hochverfügbarkeit und Fehlertoleranz
- Redundante Speicherung
- Verteilung auf mehrere Data Center
- Umsetzung in den einzelnen Produkten
Abfragen und Visualisierung
- Der Map Reduce Algorithmus
Analyse und Aggregation von Daten
- Aggregation von Daten
- Data Mining
- A/B Tests
- Machine Learning
- Finden von Korrelationen
Big Data Open Source Frameworks
- Apache Hadoop
- YARN
- Apache Spark
Messaging & Streaming (Optional)
- Wie unterscheidet sich Streaming von Online- und Batch-Verarbeitung?
- Streaming mit Apache Kafka
Zielgruppe
Entwickler, Software Architekten und Administratoren
Vorkenntnisse
Grundkenntnisse über Datenbanken
Dauer
2 Tage
Kursunterlage
Handouts aller in der Schulung präsentierten Folien sowie ein Übungensskript.