Zum Hauptinhalt Zur Navigation

ZFS nun mit Deduplikation

Effizientere Nutzung von Festplattenplatz. Sun hat sein Dateisystem ZFS um Deduplikation erweitert, was bei entsprechenden Daten eine deutliche Einsparung von Festplattenplatz verspricht. Die neue Funktion kann einfach in der ZFS-Konfiguration aktiviert werden.
/ Jens Ihlenfeld
29 Kommentare News folgen (öffnet im neuen Fenster)

ZFS bietet eine Deduplikation auf Blockebene. Anhand von Hash-Wert werden Blöcke mit gleichen Daten ermittelt und die entsprechenden Daten nur einmal auf die Platte geschrieben. Werden immer wieder die gleichen Daten abgelegt, lässt sich so viel Speicherplatz einsparen. Typische Szenarien, in denen sich eine Deduplikation lohnt, sind Backups von Servern, Images virtueller Maschinen oder Quelltext-Repositories.

Die Deduplikation von ZFS erfolgt synchron, das heißt, Duplikate werden umgehend eliminiert, was die CPU belastet. Doch Sun geht davon aus, dass der Engpass in entsprechenden Systemen nicht die CPU ist.

Ein Beschränkung für die Datengröße gibt es dabei nicht. Allerdings arbeitet die Deduplikation am schnellsten, wenn die Deduplikationstabellen in den Speicher passen. Sind sie zu groß und müssen auf die Festplatte ausgelagert werden, wird das Ganze deutlich langsamer.

Um die Deduplikation in ZFS zu aktivieren, muss lediglich ein entsprechender Eintrag in der Konfiguration vorgenommen werden. Dabei kann die Funktion gezielt für einzelne Verzeichnisse aktiviert oder deaktiviert werden. Zudem steht eine Verify-Option bereit, die verhindert, dass zwei unterschiedliche Blöcke mit gleichem Hashwert als identisch angesehen werden. Etwas, das aufgrund der verwendeten Hash-Algorithmen sehr selten vorkommen kann.

Details und Hintergründe zur Deduplikation in ZFS erläutert Jeff Bonwick in einem Blogeintrag(öffnet im neuen Fenster) . Der Sun-Mitarbeiter war maßgeblich an der Entwicklung der Deduplikation für ZFS beteiligt.


Relevante Themen