Der Begriff „mittlerer Ausfallzeitraum“ (MTBF, Mean Time Between Failure) bezieht sich auf die Zuverlässigkeit von Geräten. In vielen Branchen ist er nur unscharf definiert, und häufig wird er fehlerhaft verwendet. Im Laufe der Jahre hat sich die ursprüngliche Bedeutung dieses Begriffs geändert, was zu Verwirrungen geführt hat. MTBF setzt großenteils Annahmen über Ausfälle und die Definition des Begriffs „Ausfall“ voraus. Bei einer angemessenen Erläuterung des Begriffs ist dies unbedingt zu beachten. In dieser Fachartikelreihe werden die zugrunde liegenden Sachverhalte und falschen Auffassungen zur MTBF sowie die Methoden zum Schätzen der MTBF erläutert.

Der mittlere Ausfallzeitraum (MTBF) dient seit über 60 Jahren als Grundlage für verschiedene Entscheidungen. Im Laufe der Jahre wurden mehr als 20 Methoden und Verfahren zur Vorhersage der Nutzungsdauer entwickelt. Daher ist es nicht verwunderlich, dass MTBF Gegenstand einer schier endlosen Debatte ist. Ein Bereich, in dem dies besonders deutlich wird, ist die Konstruktion unternehmenskritischer Anlagen für IT- und Telekommunikationsausrüstung. Wenn der Marktwert eines Unternehmens durch einen nur Minuten dauernden Ausfall beeinträchtigt werden kann, muss die physikalische Infrastruktur für diese Netzwerkumgebung unbedingt zuverlässig sein. Die angestrebte Zuverlässigkeit eines Unternehmens lässt sich nur erreichen, wenn eindeutig ist, was unter MTBF zu verstehen ist. In dieser technischen Dokumentation werden alle Aspekte des MTBF durchgängig an Beispielen erläutert, um den Sachverhalt zu vereinfachen und falsche Auffassungen zu korrigieren.
Was ist ein Ausfall? Von welchen Annahmen ist auszugehen?
Diese Fragen sollten bei der Prüfung eines MTBF-Werts sofort gestellt werden. Ohne Antworten auf diese Fragen hat die Diskussion wenig Wert. Der MTBF wird häufig ohne eine Definition von Ausfall angegeben. Eine solche Vorgehensweise ist nicht nur irreführend, sondern auch vollkommen sinnlos. Auf das Auto übertragen, würde dies bedeuten, den Kraftstoffverbrauch in „Kilometern pro Tank“ anzupreisen, ohne die Kapazität des Tanks in Litern anzugeben. Um diese Zweideutigkeit zu beseitigen, könnte man argumentieren, dass es zwei grundlegende Definitionen für Ausfall gibt:
- Das Produkt insgesamt kann die gewünschte Funktion nicht mehr ausführen.
- Eine einzelne Komponente kann die gewünschte Funktion nicht mehr ausführen, das Produkt insgesamt jedoch wohl.
Beispiel 1:
Bei Ausfall einer redundanten Platte in einem RAID-Array ist das RAID-Array weiterhin jederzeit in der Lage, die gewünschte Funktion, die Bereitstellung kritischer Daten, auszuführen. Aufgrund des Ausfalls kann jedoch eine Komponente des Plattenarrays nicht mehr wie gewünscht Speicherkapazität bereitstellen. Nach Definition 1 liegt also kein Ausfall vor, nach Definition 2 dagegen handelt es sich um einen Ausfall.,
Beispiel 2:
Wenn der Wechselrichter einer USV (unterbrechungsfreie Stromversorgung) ausfällt und die USV auf statischen Umgehungsbetrieb umschaltet, kann die USV die gewünschte Funktion, die Versorgung der kritischen Last mit Strom, trotz des Ausfalls ausführen. Durch den Ausfall des Wechselrichters ist jedoch eine Komponente der USV nicht mehr in der Lage, die gewünschte Funktion, eine stabile Stromversorgung, auszuführen. Ebenso wie im vorherigen Beispiel handelt es sich hierbei nur um einen Ausfall gemäß der zweiten Definition.
Wenn es nur zwei Definitionen gäbe, wäre die Definition eines Ausfalls sehr einfach. Sobald es jedoch um das Ansehen eines Produkts geht, wird die Sache fast so kompliziert wie MTBF selbst. Tatsächlich gibt es aber nicht nur zwei, sondern unendlich viele Definitionen für Ausfall. Je nach der Art des Produkts arbeiten die Hersteller mit zahlreichen Definitionen für Ausfall. Qualitätsbewusste Hersteller erfassen zur Fertigungskontrolle alle Ausfallarten. Dies bietet u. a. den Vorteil, dass Produktmängel beseitigt werden können. Zur genauen Definition von Ausfall sind daher zusätzliche Fragen zu stellen.
Gilt die falsche Handhabung durch den Kunden als Ausfall? Möglicherweise wurden von den Konstrukteuren menschliche Faktoren übersehen, so dass die Benutzer dazu neigen, das Produkt falsch zu handhaben. Zählt ein durch einen Servicetechniker eines Herstellers verursachter Lastabfall als Ausfall? Erhöht sich möglicherweise aufgrund der Produktkonstruktion selbst die Wahrscheinlichkeit eines Ausfalls eines von vornherein riskanten Verfahrens? Gilt der Ausfall einer LED (Light Emitting Diode) eines Computers als Ausfall, auch wenn der Computer weiter uneingeschränkt in Betrieb bleibt? Gilt die erwartete Abnutzung eines Verbrauchsgegenstands, etwa eines Akkus, als Ausfall, wenn der Ausfall vorzeitig eintritt? Gelten Versandschäden als Ausfälle? Dies kann ein Hinweis auf eine schlecht konstruierte Verpackung sein. Damit dürfte deutlich geworden sein, wie wichtig es ist, den Begriff Ausfall zu definieren, bevor man versucht, MTBF-Werte zu interpretieren. Fragen wie die obigen bilden das Fundament, auf dem Entscheidungen bezüglich der Zuverlässigkeit gefällt werden können.
Man sagt, dass sich Ingenieure niemals irren; sie gehen nur von falschen Annahmen aus. Das Gleiche lässt sich über diejenigen sagen, die MTBF-Werte schätzen. Um das Schätzen von MTBF-Werten zu vereinfachen, werden Annahmen benötigt. Es wäre nahezu unmöglich, die erforderlichen Daten zu erfassen, um einen genauen Wert zu berechnen. Alle Annahmen müssen jedoch realistisch sein. Im vorliegenden White paper werden die zur Schätzung von MTBF-Werten verwendeten allgemeinen Annahmen erläutert.
Der MTBF wirkt sich sowohl auf die Zuverlässigkeit als auch auf die Verfügbarkeit aus. Bevor Verfahren zur Ermittlung des MTBF erläutert werden können, sind diese beiden Begriffe zu klären. Der Unterschied zwischen Zuverlässigkeit und Verfügbarkeit ist häufig nicht bekannt oder wird falsch verstanden. Hohe Verfügbarkeit und hohe Zuverlässigkeit gehen oft Hand in Hand, sind jedoch nicht austauschbar.
Zuverlässigkeit ist die Fähigkeit eines Systems oder einer Komponente, die gewünschten Funktionen unter festgelegten Bedingungen für einen bestimmten Zeitraum auszuführen [IEEE 90]Es handelt sich also um die Wahrscheinlichkeit, dass das System oder die Komponente innerhalb der vorgesehenen Einsatzzeit ohne Ausfall seinen Zweck erfüllt. Dies lässt sich am Beispiel eines Flugzeugeinsatzes gut verdeutlichen. Wenn ein Flugzeug abhebt, geht es um ein Ziel: sichere Durchführung des Flugs wie vorgesehen (ohne schwerwiegende Ausfälle).
Es handelt sich also um die Wahrscheinlichkeit, dass das System oder die Komponente innerhalb der vorgesehenen Einsatzzeit ohne Ausfall seinen Zweck erfüllt. Dies lässt sich am Beispiel eines Flugzeugeinsatzes gut verdeutlichen. Wenn ein Flugzeug abhebt, geht es um ein Ziel: sichere Durchführung des Flugs wie vorgesehen (ohne schwerwiegende Ausfälle).Als Verfügbarkeit gilt somit die Wahrscheinlichkeit, dass das System oder die Komponente sich in einem Zustand befindet, der es erlaubt, die gewünschte Funktion unter gegebenen Bedingungen in einem bestimmten Zeitraum durchzuführen. Die Verfügbarkeit wird durch die Zuverlässigkeit eines Systems bestimmt sowie durch die Wiederherstellungszeit bei Auftreten eines Ausfalls. Bei Systemen mit langen kontinuierlichen Betriebszeiten (z. B. bei einem zehn Jahre lang eingesetzten Datencenter) sind Ausfälle unvermeidlich. Die Verfügbarkeit steht häufig im Zentrum der Aufmerksamkeit, da es bei einem Ausfall entscheidend darauf ankommt, wie schnell sich das System wiederherstellen lässt. Im Beispiel mit dem Datencenter ist das Vorhandensein eines zuverlässigen Systemdesigns die wichtigste Variable; bei einem Ausfall kommt es allerdings vor allem darauf an, die IT-Geräte und Geschäftsprozesse so schnell wie möglich wiederherzustellen, um die Ausfallzeit zu minimieren.
Die MTBF ist ein Grundmaß für die Zuverlässigkeit eines Systems. Sie wird in der Regel in Stunden angegeben. Je höher die MTBF-Zahl, desto höher ist die Zuverlässigkeit des Produkts. Gleichung 1 verdeutlicht diese Beziehung.

Nach einer gängigen falschen Auffassung handelt es sich bei MTBF um die erwartete Anzahl von Betriebsstunden bis zum Ausfall eines Systems oder um die „Nutzungsdauer“. Nicht selten werden jedoch MTBFWerte im Bereich von einer Million Stunden angegeben, und es wäre unrealistisch zu erwarten, das System könne tatsächlich kontinuierlich über 100 Jahre ohne Ausfall arbeiten. Diese Zahlen sind oft deshalb derart hoch, weil sie auf der Ausfallrate von Produkten beruhen, deren „Nutzungsdauer“ oder „normale Lebensdauer“ noch nicht abgeschlossen ist, und es wird angenommen, dass die Ausfallrate bis ins Unendliche gleich bleibt. Dabei weist das Produkt lediglich in dieser Phase seines Lebens die niedrigste (und konstanteste) Ausfallrate auf. In Wirklichkeit endet die Lebensdauer des Produkts aufgrund von Verschleiß wesentlich eher, als die MTBF-Zahl aussagt. Daher darf keine direkte Korrelation zwischen der Nutzungsdauer eines Produkts und seiner Ausfallrate oder dem MTBF hergestellt werden. Es ist völlig normal, wenn Produkte eine extrem hohe Zuverlässigkeit (MTBF), jedoch eine geringe erwartete Nutzungsdauer aufweisen. Nehmen Sie als Beispiel einen Menschen:
In der Musterpopulation gibt es 500.000 Menschen im Alter von 25 Jahren.
Im Laufe eines Jahres werden für diese Population Daten über Ausfälle
(Todesfalle) erhoben. Das Arbeitsleben der Population beträgt
500.000 x 1 Jahr = 500.000 Menschenjahre. Im Laufe des Jahres sind
625 Menschen ausgefallen (gestorben). Die Ausfallrate beträgt 625
Ausfälle / 500.000 Menschenjahre = 0,125 % / Jahr. Der MTBF ist die
Umkehrung der Ausfallrate oder 1 / 0,00125 = 800 Jahre. Obwohl
Menschen im Alter von 25 Jahren sehr hohe MTBF-Werte aufweisen,
ist ihre Lebenserwartung (Nutzungsdauer) wesentlich kürzer und
korreliert nicht mit den MTBF-Werten.
In Wirklichkeit ist die Ausfallrate von Menschen nicht konstant. Je älter die Menschen werden, desto mehr Ausfälle treten auf (sie verschleißen). Das einzig richtige Verfahren zur Berechnung eines MTBF, der der Nutzungsdauer entspricht, bestünde darin zu warten, bis die gesamte Population der 25-jährigen Menschen ihr Lebensende erreicht. Anschließend könnte der Durchschnitt dieser Lebensspannen errechnet werden. Diese Zahl dürfte nach allgemeiner Auffassung zwischen 75 und 80 Jahren liegen.
Beträgt der MTBF von 25-jährigen Menschen nun 80 oder 800? Beides! Aber wie kann ein und dieselbe Bevölkerung zwei so unterschiedliche MTBF-Werte aufweisen? Das hängt nur von den Annahmen ab!
Wenn der MTBF von 80 Jahren die Lebensdauer des Produkts (Menschen in diesem Fall) genauer wiedergibt, liegt dem auch die bessere Methode zugrunde? Sie ist natürlich einleuchtender. Es gibt jedoch viele Variablen, die die praktische Anwendbarkeit dieser Methode bei kommerziellen Produkten wie USVSystemen beschränken. Die größte Beschränkung ist die Zeit. Zur Durchführung dieser Methode müsste die gesamte Population ausfallen, und bei vielen Produkten geschieht dies nach etwa 10 bis 15 Jahren. Selbst wenn es sinnvoll wäre, bis zur Berechnung des MTBF so lange zu warten, wäre es schwierig, die Produkte überhaupt zu erfassen. Wie sollte z. B. ein Hersteller wissen, ob seine Produkte weiterhin eingesetzt werden, wenn sie außer Betrieb genommen wurden und er niemals Informationen darüber erhalten hat?
Selbst wenn all dies möglich wäre, ist jedoch zu beachten, dass sich die Technologie so schnell ändert, dass der Wert zu dem Zeitpunkt, zu dem er verfügbar wäre, wertlos wäre. Wer interessiert sich schon für den MTBF-Wert eines Produkts, das inzwischen in mehreren Generationen technisch aktualisiert wurde?
MTTR (Mean Time To Repair (oder Recover), mittlere Reparaturdauer) ist die erwartete Zeit zur Wiederherstellung eines Systems nach einem Ausfall. Dies kann die Zeit für die Problemdiagnose, die Zeit bis zum Einsatz eines Reparaturtechnikers vor Ort und die Zeit einschließen, die nötig ist, um das System physisch zu reparieren. Ebenso wie MTBF wird MTTR in Stunden angegeben. Wie Gleichung 2 zeigt, wirkt sich die MTTR auf die Verfügbarkeit, nicht auf die Zuverlässigkeit aus. Je länger die MTTR, desto schlechter ist ein System. Einfach gesagt, wenn die Wiederherstellung eines Systems nach einem Ausfall länger dauert, ist die Verfügbarkeit des Systems niedriger. Die folgende Formel zeigt, welchen Einfluss MTBF und MTTR auf die Gesamtverfügbarkeit eines Systems haben. Mit steigendem MTBF steigt auch die Verfügbarkeit. Mit steigender MTTR sinkt die Verfügbarkeit.

Damit Gleichung 1 und Gleichung 2 gültig sind, ist beim Analysieren des MTBF eines Systems von einer grundlegenden Annahme auszugehen. Im Unterschied zu mechanischen Systemen gibt es in den meisten elektronischen Systemen keine beweglichen Teile. Daher geht man grundsätzlich davon aus, dass die Ausfallrate elektronischer Systeme oder Komponenten während ihrer Nutzungsdauer konstant ist. Abbildung 1, die so genannte „Badewannenkurve“ der Ausfallrate, zeigt den Ursprung dieser zuvor erwähnten Annahme einer konstanten Ausfallrate. Die „normale Betriebsdauer“ oder „Nutzungsdauer“ dieser Kurve ist die Phase, in der ein Produkt tatsächlich eingesetzt wird. Die Produktqualität hat sich in diesem Zeitraum auf eine konstante Ausfallrate eingependelt. Zu den Ausfallquellen können in dieser Phase nicht erkennbare Defekte, geringe Konstruktionssicherheit, höhere zufällige Belastung als erwartet, menschliche Faktoren und natürliche Ausfälle gehören. Die im „Abnutzungszeitraum“ dargestellte Kurve schnellen Verfalls dürfte sich durch von den Herstellern vorgesehene ausgedehnte Verschleissperioden für Komponenten, richtige Wartung und vorausschauenden Austausch abgenutzter Teile vermeiden lassen. Die obigen Erläuterungen bieten einige grundlegende Informationen über die Begriffe Zuverlässigkeit und Verfügbarkeit sowie die Unterschiede zwischen beiden, so dass eine angemessene Interpretation des MTBF möglich ist. Im nächsten Abschnitt werden die verschiedenen MTBF-Vorhersageverfahren erläutert.
