Categories: Strategie

HDFS stützt Hadoop

Das Open Source Projekt Apache Hadoop ist dafür ausgelegt, riesige Mengen an strukturierten und unstrukturierten Daten zu verarbeiten. Das dazugehörige Hadoop Distributed File System (HDFS) soll den Hochgeschwindigkeits-Zugriff auf Anwendungsdaten ermöglichen.BU: Die Standard Hadoop Architektur setzt auf offene Standards.

HDFS ist ein verteiltes Dateisystem und bringt gegenüber anderen Storage Dateisystemen einige Vorteile, hat aber auch Nachteile. Die Vorteile liegen in den niedrigen Kosten per Byte, den hohen Bandbreiten für Hadoop Workloads und der hohen Datenzuverlässigkeit. Nicht zur Geltung kommen diese Vorzüge, wenn ein System nicht für die Skalierbarkeit von Hadoop ausgelegt ist, keine Commodity Hardware oder Open Source Software enthält und nicht die MapReduce I/O Struktur nutzt. Außerdem gibt es noch zahlreiche kleinere Bugs.

Dennoch überwiegen die Vorteile, wenn das Design intelligent erfolgt und HDFS tatsächlich in erster Linie für Hadoop genutzt wird. Grundsätzlich ist HDFS fester Bestandteil von Hadoop. Es ist eine Java-Anwendung, die auf einem Standard Dateisystem aufsetzt. HDFS nutzt eine Shared Nothing Architektur, alle Knoten sind fest mit Disks verbunden (Direct Attached Storage, DAS). Das Dateisystem verwendet Write-Once, das heißt, eine Datei muss kopiert werden, wenn sie verändert werden soll.

HDFS organisiert Daten in Dateien und Verzeichnisse. Die Dateien werden in Blocks geschrieben mit einer Größe zwischen 64 und 128 MBs, die über Knoten verteilt abgelegt werden. Wohin diese Blocks gespeichert werden, wird über „Name Nodes“ festgelegt. Die Blocks werden typischerweise dreimal repliziert, um bei Ausfällen ersetzt zu werden. Checksummen sorgen für die Datenintegrität. Die Replizierung erfolgt als selbstheilender Vorgang und sorgt damit für Fehlertoleranz.

Dr. Jakob Jung

15 Jahre Erfahrung in der Channel Berichterstattung. Seit Oktober 2010 tätig für ChannelBiz. Vorherige Stationen CRN, Informationweek und Heise Resale sowie ZDNet (USA).

Recent Posts

5 Autotypen im Überblick – Worauf man achten sollte und wie man sie finanziert

Die Entscheidung für den richtigen Autotyp gleicht der Wahl eines treuen Begleiters im Alltag. Ob…

8 Monate ago

Online-Shopping und mehr: Wie Bewertungsportale Vertrauen schaffen

Bewertungsportale spielen für viele Konsumenten eine zentrale Rolle bei der Entscheidungsfindung. Sie bieten Einblicke in…

9 Monate ago

CIAM: Der Schlüssel zu digitalem Vertrauen und Umsatzsteigerung für Reseller

Mit fortschrittlichen Customer Identity und Access Management (CIAM) Lösungen definiert Nevis Security neue Standards in…

12 Monate ago

Highend E-Commerce-Projekte realisieren: Worauf es hinsichtlich der Konzeption ankommt

Im digitalen Zeitalter ist der Online-Handel zu einem der wichtigsten Wirtschaftszweige geworden.

1 Jahr ago

Partner-geführt ist besser als Partner-mit

Partnerschaften sind am effektivsten (und angenehmsten), wenn sie auf einer Grundlage von gegenseitigem Respekt und…

2 Jahre ago

Sinequa wird adesso-Technologiepartner im Bereich Enterprise Search

adesso baut derzeit mit Hilfe des führenden Enterprise-Search-Anbieters Sinequa ein neues Competence Center für Enterprise…

2 Jahre ago