Modulare Systeme: Die Evolution der Zuverlässigkeit - Teil 1

Veröffentlicht: 27. Juli 2011 Kategorie: Fachartikel

Die Natur hat schon früh den Beweis dafür geliefert, dass modulare Konstruktionen in komplexen Systemen überdauern und überlegen sind. Ein wichtiger Grund für diesen Erfolg ist der für die Zuverlässigkeit entscheidende Vorteil der Fehlertoleranz, die es einem modularen System ermöglicht, den Betrieb von fehlerhaften Modulen auf ordnungsgemäß arbeitende Module zu verlagern, während Reparaturen durchgeführt werden. In Datencentern hat die modulare Konstruktion in neuen fehlertoleranten Architekturen für Server und Speichersysteme bereits Einzug gehalten. In dem Maße, in dem Datencenter sich weiterentwickeln und sich dabei an Vorgaben aus der Natur orientieren, muss sich auch die physikalische Infrastruktur für hochverfügbare Netzwerke (NCPI) weiterentwickeln, um neue Verfügbarkeits-, Wiederherstellungs- und Wachstumsstrategien unterstützen zu können.

Modulare Systeme: Die Evolution der Zuverlässigkeit - Teil 1

Modularität ist eine anerkannte Methode zur Organisation und Vereinfachung von komplexen Systemen. Vom Elementaren (Taschenlampenbatterien) bis hin zum Komplexen (Zellen eines Organismus) hat die Modularität eine Erfolgsliste vorzuweisen, die schwer zu überbieten ist. Dennoch können bei künstlichen Systemen beim evolutionären Übergang von der monolithischen zur modularen Konstruktion Zweifel und Anlaufprobleme auftreten, ehe die Modularität selbstverständliche Akzeptanz findet und Ihre bewährten Vorteile bieten kann.

Die physikalische Infrastruktur für hochverfügbare Netzwerke (NCPI) im Datencenter befindet sich in einer solchen Übergangsphase. Während die in physikalischer Hinsicht offenkundigen Eigenschaften der Baustein-Architektur – Skalierbarkeit, Flexibilität, Einfachheit und Mobilität – problemlos erkennbar sind und nicht ernsthaft in Frage gestellt werden, ist ein Aspekt der modularen Konstruktion in der Branche zum Diskussionsthema geworden: die Zuverlässigkeit.

Die Anwendung der klassischen, einfachen Zuverlässigkeitsanalyse („Eine größere Anzahl von Komponenten bedeutet ein höheres Ausfallrisiko“) auf dieses neue Konzept ist im besten Fall unvollständig, im schlimmsten Fall jedoch irreführend. Ziel dieses Dokuments ist es, anhand von Fallstudien zu veranschaulichen, dass die Modularität nicht nur offenkundige und leicht erkennbare Vorteile zu bieten hat, sondern auch einen weniger offenkundigen, weniger leicht erkennbaren Vorteil, der jedoch im Hinblick auf die Zuverlässigkeit entscheidend ist: die Fehlertoleranz. Die inhärente Fehlertoleranz der modularen Konstruktion bietet einen leistungsstarken Ausfallschutz, indem sie in komplexe Systeme eine Strategie für Zuverlässigkeit einbringt, die nicht nur angepasst, sondern einfach besser ist.

Fallstudie aus der Natur: Frühe Lebensformen
Die Geschichte der Modularität ist viel älter als Datencenter oder Taschenlampenbatterien. Vor drei Milliarden Jahren gab es auf der Erde bereits Leben in Form von nicht-modularen Systemen (Einzeller). Die fossilen Reste dieser Organismen zeigen, dass sie Schalen, Tentakel, Münder, Arme, Greifer und eine Vielzahl weiterer komplizierter Gebilde entwickelten. Einige wuchsen sogar zu erstaunlicher Größe heran und erreichten Durchmesser von bis zu 15 Zentimetern. Diese komplexen monolithischen Einzellerorganismen dominierten während Milliarden von Jahren die wesentliche Nahrungskette der Erde.

Dann entstanden vor etwa 500 Millionen Jahren mehrzellige Organismen. In nur zehn Millionen Jahren machten sie eine so schnelle Entwicklung durch, dass sie die drei Milliarden Jahre Entwicklung der komplizierten einzelligen Organismen aufholten und diese als vorherrschende Konstruktion ablösten.

Der modulare Vorteil bei mehrzelligen Organismen
Warum hat sich die modulare mehrzellige Konstruktion gegen die festgefahrene monolithische Konstruktion durchgesetzt?

Die Fähigkeit zu Skalierbarkeit und Wachstum.
Systemwachstum im Hinblick auf Größe und neue Funktionen wurde einfach durch das Hinzufügen neuer Module (Zellen) erreicht, die mit den vorhandenen Modulen (Zellen) über Standardschnittstellen zusammenwirken konnten.
Einfacherer Duplikationsprozess.
Es war einfacher, schneller und zuverlässiger, einige kleinere, weniger komplizierte Zellen zu duplizieren, als eine komplizierte Einzelzelle.
Die Fähigkeit zur Spezialisierung der Modulfunktion.
Die Zuweisung und Spezialisierung von Zellaufgaben ermöglichte die gleiche Effektivität und Effizienz wie sie bei der Teamarbeit charakteristisch ist. In den frühen mehrzelligen Organismen war eine Zellart für die Bewegung zuständig, eine andere für den Schutz, eine weitere für das Aufspüren von Nahrung usw.
Rasche Anpassung an die Umgebung.
Durch Hinzufügen, Entfernen oder Modifizieren von Zellen konnten schrittweise Konstruktionsänderungen schneller erprobt und anschließend übernommen oder verworfen werden.
Fehlertoleranz.
Aufgrund der Zellredundanz konnten einzelne Zellen ausfallen, ohne das System zu beeinträchtigen, während gleichzeitig eine Zellreparatur ohne Systemausfallzeit (in diesem Fall Behinderung oder Tod) durchgeführt werden konnte.

Die oben zuletzt angeführte Eigenschaft, die Fehlertoleranz, ist im Hinblick auf die Zuverlässigkeit ein entscheidender Vorteil modularer Systeme gegenüber monolithischen Systemen. Die Modularität „zerlegt“ ein System in kleinere Komponenten und erleichtert dadurch die Redundanz von Bestandteilen, sodass der Ausfall einer oder sogar mehrerer Komponenten den Systembetrieb nicht zwangsläufig beeinträchtigen muss. Durch einen einfachen Kratzer kann die menschliche Haut Hunderte von Zellen verlieren. Dennoch kommt es durch einen solchen Verlust nicht zum Versagen der Körperfunktionen. Andere Zellen übernehmen die Aufgaben, während die Reparatur durchgeführt wird. Die Modularität wurde nicht von Menschen erfunden, sondern Menschen sind modular. Bei Billionen von Modulen (Zellen) pro Mensch profitiert jeder von uns täglich von den Vorteilen der Fehlertoleranz.

Fallstudie aus dem IT-Bereich: Plattenlaufwerke In den Mainframe-Zeiten der Datencenter waren Speicherkomponenten große proprietäre Festplatten mit Stapeln von 14-Zoll-Metallplatten, komplizierten Schreib-Lesefunktionen und Gehäusen in Waschmaschinengröße. 1978 ließ sich IBM die Verwendung kleinerer Platten-Arrays patentieren, verfolgte dieses Konzept jedoch nicht weiter, weil das Unternehmen davon überzeugt war, dass dieses Konzept niemals so zuverlässig sein könne wie die herkömmlichen monolithischen Konstruktionen. Theorie und Praxis der Fehlertoleranz steckten noch in den Kinderschuhen und waren in erster Linie auf die Luft- und Raumfahrtindustrie beschränkt, einem Bereich, in dem ein Komponentenausfall in den elektronischen Systemen Menschenleben kosten konnte.

1987 konstatierten Wissenschaftler der Universität Berkeley die sich vergrößernde Kluft zwischen Rechengeschwindigkeit und Speicherzugriffsgeschwindigkeit und sahen im Aufkommen von externen Plattenlaufwerken für PCs die Möglichkeit, diese als Bausteine für ein System mit schnellerer Datenübertragung zu nutzen. Ein Jahr später legten sie das wegweisende Dokument „A Case for Redundant Arrays of Inexpensive Disks (RAID)“ vor, in dem mehrere Datenschreibverfahren („RAID-Ebenen“) vorgeschlagen wurden, die von solchen Arrays zum Speichern, Abrufen und Wiederherstellen von Daten genutzt werden könnten. Die Nutzung der 5,25-Zoll-Platten der PC-Branche markierte das Zusammentreffen von Theorie und Hardware im Jahr 1990. Diese Platten waren so weit entwickelt, dass sie die erforderliche Kapazität, Leistung und Zuverlässigkeit zur Verwendung in den ersten RAID-Arrays aufwiesen. Diese neuen modularen Speicherkomponenten ermöglichten eine Reihe von Kompromissen zwischen Redundanz und Schreib-Lese-Geschwindigkeit und beanspruchten nur einen Bruchteil der Bodenfläche der Mainframe-Speicherkomponenten, die sie ersetzten.

Der modulare Vorteil bei RAID-Arrays
Warum haben sich modulare RAID-Arrays gegenüber den alten monolithischen Speicherkomponenten durchgesetzt?

Die Fähigkeit zu Skalierbarkeit und Wachstum.
Die Speicherkapazität lässt sich problemlos erhöhen, indem die Anzahl der Module pro Array erhöht wird oder indem Arrays hinzugefügt werden.
Einfacherer Duplikationsprozess.
Es ist wesentlich einfacher, die vielen kleinen Laufwerke, die als RAID-Module dienen, herzustellen, als die bisherigen komplizierten großen Laufwerke.
Die Fähigkeit zur Spezialisierung der Modulfunktion.
Die einzelnen Laufwerke eines Arrays können für zusätzliche Speicherkapazität, höhere Zugriffsgeschwindigkeit oder größere Redundanz genutzt werden, je nach der für das Array definierten RAID-Ebene. Darüber hinaus können die RAID-Arrays selbst als Module auf einer höheren Ebene betrachtet werden, wobei jedem RAID-Array eine andere Anwendung zugeordnet werden kann.
Rasche Anpassung an die Umgebung.
Laufwerke können hinzugefügt oder entfernt werden, und die RAID-Ebene kann problemlos für die gewünschten Kompromisse im Hinblick auf Kapazität, Geschwindigkeit und Redundanz geändert werden.
Fehlertoleranz
RAID-Datenschreibverfahren enthalten Redundanzen, sodass Daten wiederhergestellt werden können, wenn eines der Laufwerke ausfällt.

Zur Überraschung der Entwickler war der Grund für die begeisterte Annahme von RAID auf dem Markt nicht so sehr die höhere Geschwindigkeit, die das ursprüngliche Konstruktionsziel war, sondern die höhere Zuverlässigkeit aufgrund der Fehlertoleranz. Bevor die Autoren des 1988 veröffentlichten Dokuments die Möglichkeiten der Fehlertoleranz aufzeigten, indem sie bei Live-Präsentationen einfach ein Laufwerk entfernten und das Array dennoch seinen Betrieb ordnungsgemäß fortsetzte, war die vorherrschende Meinung die zwar weit verbreitete, jedoch falsche Auffassung im Hinblick auf Zuverlässigkeit: Dass ein System mit mehreren Laufwerken zwangsläufig weniger zuverlässig ist, weil es mehr Teile umfasst.

Fallstudie aus dem IT-Bereich: Blade-Server
Blade-Server stehen im Mittelpunkt des Übergangs zu einem modularen Konzept, ein Prozess, der bereits in Gange ist, während dieses Dokument verfasst wird. Viele Jahre lang sind herkömmliche Standalone-Server immer größer und schneller geworden und haben mit der zunehmenden Verbreitung des Netzwerk- Computings immer mehr Aufgaben übernommen. Neue Server wurden in Datencentern bei Bedarf hinzugefügt, häufig als Schnellmaßnahme ohne große Koordination oder Planung. Tatsächlich war es nicht ungewöhnlich, dass der für ein Datencenter verantwortliche Operator feststellen musste, dass ohne sein Wissen Server hinzugefügt worden waren. Die sich daraus ergebende komplexe Mischung aus Gehäusen und Verkabelungen öffnete Tür und Tor für Verwirrung, Fehler und mangelnde Flexibilität.

Die erstmals 2001 in Erscheinung getretenen Blade-Server sind ein sehr einfaches und klares Beispiel für modulare Architektur: die Blades in einem Blade-Server-Gehäuse sind physisch identisch, verfügen über identische Prozessoren und können für jeden vom Benutzer gewünschten Zweck konfiguriert und genutzt werden. Ihre Einführung brachte viele Vorteile der Modularität in die Serverlandschaft ein: Skalierbarkeit, problemloses Duplizieren, Funktionsspezialisierung und Anpassungsfähigkeit

Diese klassischen Vorteile der Modularität haben zwar dazu geführt, dass Blade-Server in zunehmend größerer Zahl in Datencentern vertreten sind. Ihr volles Potenzial kann jedoch erst genutzt werden, wenn eine weitere Fähigkeit der modularen Konstruktion auf breiter Ebene implementiert wird: die Fehlertoleranz. Fehlertolerante Blade-Server, d. h. Blade-Server mit integrierter Failover-Logik, die die Übergabe des Betriebs von fehlerhaften an ordnungsgemäß arbeitende Blades ermöglicht, sind erst seit kurzer Zeit erhältlich und erschwinglich geworden. Mit diesen fehlertoleranten Servern lässt sich eine ungleich höhere Zuverlässigkeit erreichen als durch die aktuellen Verfahren mithilfe von redundanter Software und Clustern von Einzelservern. Dadurch können Blade-Server zur dominierenden Serverarchitektur für Datencenter werden. Angesichts der Entwicklung der automatisierten Fehlertoleranz prognostizieren Branchenbeobachter eine rasche Umstellung auf Blade-Server innerhalb der nächsten fünf Jahre.

Der modulare Vorteil bei Blade-Servern
Warum haben sich modulare RAID-Arrays gegenüber den alten monolithischen Speicherkomponenten durchgesetzt?

Die Fähigkeit zu Skalierbarkeit und Wachstum.
Die Speicherkapazität lässt sich problemlos erhöhen, indem die Anzahl der Module pro Array erhöht wird oder indem Arrays hinzugefügt werden.
Einfacherer Duplikationsprozess.
Es ist wesentlich einfacher, die vielen kleinen Laufwerke, die als RAID-Module dienen, herzustellen, als die bisherigen komplizierten großen Laufwerke.
Die Fähigkeit zur Spezialisierung der Modulfunktion.
Die einzelnen Laufwerke eines Arrays können für zusätzliche Speicherkapazität, höhere Zugriffsgeschwindigkeit oder größere Redundanz genutzt werden, je nach der für das Array definierten RAID-Ebene. Darüber hinaus können die RAID-Arrays selbst als Module auf einer höheren Ebene betrachtet werden, wobei jedem RAID-Array eine andere Anwendung zugeordnet werden kann.
Rasche Anpassung an die Umgebung.
Laufwerke können hinzugefügt oder entfernt werden, und die RAID-Ebene kann problemlos für die gewünschten Kompromisse im Hinblick auf Kapazität, Geschwindigkeit und Redundanz geändert werden.
Fehlertoleranz.
RAID-Datenschreibverfahren enthalten Redundanzen, sodass Daten wiederhergestellt werden können, wenn eines der Laufwerke ausfällt.

Download

201109073336.pdf