Big Data & NoSQL mit Open Source Werkzeugen

Schulung / Webinar

Schwerpunkt der Schulung ist die praktische Anwendung und die Realisierung von Big Data Projekten mit verfügbaren Open Source Werkzeugen. Die Teilnehmer bekommen Kriterien und Dauenwerte um beurteilen zu können, mit welchem Werkzeug ein Problem am besten zu lösen ist. Typische Open Source Produkte wie Cassandra, MongoDB und Redis werden vorgestellt. Praktische Übungen vermitteln einen tieferen Einblick und wertvolle Erfahrungen.

Wir aktualisieren ständig die verwendeten Datenbanken und Frameworks. Daher kann die im Kurs verwendete Software von der Seminar-Beschreibung abweichen. Fragen Sie uns bitte, wenn Sie Interesse an einer Datenbank oder einem Framework haben, auch wenn dieses hier nicht aufgeführt wurde.

BigData Einführung

  • Was ist Big Data?
  • Ab welcher Größe oder Komplexität werden Big Data Verfahrenen benötigt?
  • Abgrenzung zu Business Intelligence
  • Wann stößt eine relationale SQL-Datenbank an ihre Grenzen?

NoSQL Einführung

  • Unterschied zu relationalen SQL Datenbanken
  • Datenmodellierung
  • Das Dynamo Paper

Consistency, Availability und Partition Tolerance

  • Was sind Konsistenz, Verfügbarkeit und Partitionstoleranz?
  • CAP Theorem
  • Eventual Consistency
  • Gibt es bei den NoSQL Datenbanken Transaktionen?
  • Der Umgang mit der Redundanz

Key/Value Stores

  • Funktionsweise der K/V Stores
  • Produkte im Überblick
  • Praxisteil mit redis
  • Einsatzgebiete

Document Stores

  • Map Reduce Abfragen
  • Die MongoDB

Big Table Datenbanken

  • Produktübersicht
  • Data Modelling am Beispiel der Apache Cassandra DB

Graphendatenbanken

  • Produktübersicht
  • Abfrage und Manipulation mit GraphQL

Skalierbarkeit und Performanz

  • Möglichkeiten der Skalierung im Überblick
  • Große Datenmengen, viele Nutzer, viele Schreib- und Lesezugriffe
  • Optimierungen
  • Verteilte Datenbanken: Replikation, Fragmentation & Partitioning

Datensicherheit und Zuverlässigkeit

  • Hochverfügbarkeit und Fehlertoleranz
  • Redundante Speicherung
  • Verteilung auf mehrere Data Center
  • Umsetzung in den einzelnen Produkten

Abfragen und Visualisierung

  • Der Map Reduce Algorithmus

Analyse und Aggregation von Daten

  • Aggregation von Daten
  • Data Mining
  • A/B Tests
  • Machine Learning
  • Finden von Korrelationen

Big Data Open Source Frameworks

  • Apache Hadoop
  • YARN
  • Apache Spark

Messaging & Streaming (Optional)

  • Wie unterscheidet sich Streaming von Online- und Batch-Verarbeitung?
  • Streaming mit Apache Kafka

Zielgruppe

Entwickler, Software Architekten und Administratoren

Vorkenntnisse

Grundkenntnisse über Datenbanken

Dauer

2 Tage

Kursunterlage

Handouts aller in der Schulung präsentierten Folien sowie ein Übungensskript.

Unsere Trainer auf YouTube