Inhaltsverzeichnis

Begriffe der elementaren Fehlersuche

Verifizierung

Verifizieren bedeutet, nachzuweisen, ob ein Gerät, eine Baugruppe usw. funktionsfähig (in Ordnung, o. k.) ist oder nicht. Die Verifizierung liefert dementsprechend eine Ja-Nein- bzw. Go/No-Go-Aussage.

Lokalisierung

Lokalisieren bedeutet, die Fehlerquelle näher zu bestimmen. Meist handelt es sich darum, die zwecks Fehlerbeseitigung auszutauschende Hardware (Funktionseinheit oder Bauelement) aufzufinden.

Prüfen und Messen bedeutet, gemessene oder beobachtete Werte oder Verhaltensweisen (Istwerte, Istverhalten) mit Sollwerten bzw. einem Sollverhalten zu vergleichen. Das Prüfen liefert letzten Endes Ja-Nein-Aussagen. Das Messen ist ein quantitatives Prüfen. Es liefert zahlenmäßige Messwerte.

Ein Fehlerverdacht (s. weiter unten) ergibt sich dann, wenn der Istwert oder das Istverhalten vom Sollwert oder Sollverhalten abweicht. Manchmal wird diese Abweichung automatisch erkannt (Testautomaten (im Fertigungsbetrieb), Testsoftware, eingebaute RAS-Vorkehrungen). Nicht selten muss es aber der Servicetechniker im Kopf herausfinden. Hierzu muss er die Sollwerte kennen und wissen, wie das Soll-Verhalten aussieht. Kennt er dies alles nicht hinreichend genau, muss er sich damit vertraut machen. Hierzu sind vor allem folgende Quellen von Bedeutung:

Testen bedeutet, eine fehlerverdächtige Einrichtung auf Funktionsfähigkeit zu überprüfen oder nachzuweisen, ob eine bestimmte Fehlerhypothese zutrifft oder nicht.

Verifizierungstest

Ein Verifizierungstest soll eine Ja-Nein-Aussage zur Funktionsfähigkeit liefern.

Lokalisierungstest

Ein Lokalisierungstest soll Aussagen liefern, die zur Bestimmung der Fehlerursache oder der austauschbaren Einheit (Field-Replaceable Unit FRU) nutzbar sind.

Dauertest

Ein Dauertest ist ein Verifizierungs- oder Lokalisierungstest, der längere Zeit läuft. Der Zweck: (1) Auffinden von Aussetzfehlern, (2) Nachweis der Fehlerfreiheit oder der erfolgreichen Fehlerbeseitigung, (3) Erkennen von Frühausfällen (Burn-In-Test). Ein guter Dauertest soll keine Beaufsichtigung erfordern, im Fehlerfall genügend auswertbare Information bereitstellen und seinen eigenen Ablauf organisieren.

Selbsttest

Mit Selbsttest bezeichnet man die Überprüfung einer Hardware durch eingebaute Testvorkehrungen. Dabei kann es sich um residente Programme oder Mikroprogramme handeln, aber auch um besondere Hardware, die Prüfabläufe selbsttätig steuert und überwacht (Build-in Self Test BIST).

Diagnose ist der – aus der Medizin allgemein bekannte – Oberbegriff für das genaue Bestimmen der Fehlerursache.

Hinweis: Die Begriffe Diagnose – Testen – Prüfen – Fehlersuchen (im Englischen: Diagnostics – Testing – Checkout – Troubleshooting) werden in der Literatur oft in gleicher Bedeutung gebraucht.

Differentialdiagnose

Der Begriff stammt aus der Medizin und klingt ziemlich abschreckend. Es ist aber etwas Einleuchtendes gemeint: Eine Einrichtung besteht aus mehreren Komponenten. Um die fehlerverdächtige Komponente zu bestimmen, wenden wir Tests an, von denen jeder eine einzelne Komponente oder auch einige von ihnen prüft. Jeder Test liefert eine Ja-Nein-Aussage bezüglich der von ihm geprüften Komponenten (Verifizierungstest). Zeigen mehrere Tests Fehler auf, so ergeben sich die verdächtigen Komponenten als Durchschnitt der Menge aller Komponenten, die von diesen Tests geprüft wurden.

Probleme und Fehler

„Problem“ ist typischerweise der allgemeinere Begriff. Jede Unregelmäßigkeit ist zunächst ein Problem. Durchaus möglich, dass es sich auf einfache Weise abstellen lässt (Ein alternativer Fachbegriff: Trivialfehler). Es kann sich aber herausstellen, dass es sich um einen wirklichen Fehler handelt. Dessen Beseitigung erfordert dann Einiges mehr an Mühe und Arbeit, z. B. das Auswechseln von Hardware oder das Installieren von Software. Die Unterscheidung mag spitzfindig erscheinen, ist aber gelegentlich von Bedeutung, wenn wir Fehlersuchdokumentation lesen oder Anwendern zuhören – und nicht zuletzt dann, wenn wir uns Anwendern oder Vorgesetzten gegenüber zur Sache äußern. Ist beispielsweise von einem Problem mit dem Drucker die Rede, so kann es sich auch darum handeln, dass nur ein Papierstapel richtig einzulegen und die Papierkassette wirklich bis zum Anschlag einzuschieben ist. Sprechen wir hingegen von einem Fehler, so verbindet wohl jeder Zuhörer damit die Vorstellung, dass der Drucker richtiggehend kaputt ist. Seien wir also vorsichtig – reden wir immer dann, wenn wir selbst nicht genau Bescheid wissen, besser von Problemen und nicht gleich von Fehlern …

Bleibender oder harter Fehler

Der Fehler ist dauernd vorhanden und tritt unter gleichen Betriebsbedingungen immer wieder auf. Weitere Fachbegriffe: Ausfall, Permanent Fault.

Flüchtiger oder Aussetzfehler

Der Fehler ist nur zeitweise nachweisbar, das heißt, dass er im Laufe der Zeit (auch unter gleichbleibenden Betriebsbedingungen) manchmal auftritt und manchmal nicht. Weitere Fachbegriffe: zeitweiliger Fehler, Fehlfunktion, Transient Fault, Intermittent Fault.

Latenter (verborgener) Fehler

Das ist ein Fehler, der zwar vorhanden ist, der sich aber nur unter bestimmten Umständen bemerkbar macht. Treten diese Umstände (Signalbelegungen, Maschinenzustände, Datenbitmuster, Gerätekonfigurationen usw.) nicht auf, so scheint alles in Ordnung zu sein. Hiervon kann sowohl die Hardware als auch die Software betroffen sein. Beispiele: (1) auf einer Grafikkarte gibt es einen Fehler in der Adressierung des Bildspeichers, der eingestellte Video-Modus nutzt aber die betroffenen Adressbereiche nicht, (2) die Gleitkomma-Multiplikation funktioniert nicht richtig, wir lassen aber keine Software laufen, die mit Gleitkommazahlen rechnet, (3) wir haben einen nicht wirklich aktuellen Druckertreiber installiert (eigentlich wäre ein Update nötig), wir drucken aber ausschließlich über ein Textverarbeitungsprogramm, das nur Funktionen anspricht, die in dieser Treiberversion in Ordnung sind.

Funktionsfehler sind harte Fehler, die von Anfang an da sind. In der Hardware gibt es zwei Arten: Entwurfsfehler (betreffen alle Geräte oder Funktionseinheiten des jeweiligen Typs) und Fertigungsfehler (betreffen nur einzelne Exemplare). In der Software handelt es sich zumeist um Programmierfehler. Manche Softwarefehler ergeben sich auch aus Datei- oder Kompatibilitätsproblemen (Datei-Inhalte verfälscht (Dateifehler), Software passt nicht zur Hardware usw.).

Dateifehler sind Inhaltsverfälschungen von Dateien. Derartige Fehler passen nicht in das einfache Schema Hardware – Software:

Manche Dateifehler sind vergleichsweise leicht zu erkennen. Sind hingegen Programmdateien, Konfigurationsdateien usw. von Dateifehlern betroffen, so sehen die Symptome oftmals so aus, dass man zunächst einen Software- oder einen Hardwarefehler vermutet.

Harte Fehler erscheinen oftmals als flüchtige Fehler, weil sie nur unter bestimmten Umständen auftreten und weil diese Umstände entweder (1) nur selten vorkommen oder weil sie (2) nicht ohne weiteres als solche erkannt werden (da die Zusammenhänge zu komplex sind). Beispiel: Anwendung X bleibt ab und zu hängen – aber nur dann, wenn (1) eine Datei eines bestimmten Typs geöffnet wurde und wenn (2) diese Datei von der Anwendung A erzeugt wurde (während von X selbst und von weiteren Anwendungen B, C erzeugte Dateien des gleichen Formats keinerlei Schwierigkeiten bereiten). Auf einen solchen Zusammenhang muss man aber erst einmal kommen… Das Erfassen von Begleitumständen und Zusammenhängen gehört deshalb zu den wichtigsten Fertigkeiten des Servicetechnikers.

Faustregel: Wenn irgend etwas einmal passiert, kann es Zufall sein, wenn es dreimal passiert, ist es recht wahrscheinlich Feindeinwirkung – soll heißen, es ist aller Wahrscheinlichkeit nach wirklich ein hartes Problem, das sich nicht von selbst erledigen wird …

Mit manchen Fehlern muss man einfach leben

Das betrifft zum Einen reine Zufallswirkungen, z. B. das Kippen irgend eines Bits im Arbeitsspeicher oder auf der Festplatte, das womöglich alle paar Monate auftritt. Deshalb sind wir ja so um die Datensicherung besorgt… Zum Anderen kann man nicht alle harten Fehler beseitigen – vor allem nicht die Programmierfehler. So viele Updates, wie nötig wären, gibt es gar nicht. Gelegentlich gibt es auch niemanden mehr, der ein Update ausarbeiten könnte (z. B. dann, wenn Hersteller gar nicht mehr existiert).

Es kann auch durchaus sein, dass man durch Installation eines Updates die Funktion A in Ordnung bringt, sich aber ein neues Problem mit der Funktion X einhandelt. In solchen Fällen müssen wir uns damit begnügen, das Problem überhaupt zu erkennen und ggf. eine Umgehungslösung (Workaround) zu finden.

Trivialfehler sind ganz offensichtliche Fehler, die sich auf einfache Weise beheben lassen, z. B. durch Stecken von Kabeln, Einstellen von Bildhelligkeit und Kontrast, Schließen von Klappen, Auswählen des richtigen Verzeichnisses im Dateidialog usw.

Fehlermechanismus

Mit Fehlermechanismus bezeichnen wir Vorgänge, die Fehler – im Sinne eines Ausfalls oder einer Fehlfunktion – herbeiführen. Solche Vorgänge sind, wenn es um Hardware geht, letzten Endes stets physikalisch oder chemisch bedingt. Wir unterscheiden:

Fehlermechanismen, die Ausfälle hervorrufen, heißen auch Ausfallmechanismen.

Fehlerverdacht

Ein Begriff, an dessen Gebrauch man die Professionalität eines Verfassers von Fehlersuchdokumentation oder Prüfsoftware erkennt: kein Fehlerlokalisierungsverfahren ist unfehlbar, also hüte man sich davor, Fehlerursachen eindeutig zu benennen. Was nach Lage der Dinge kaputt sein könnte, ist also keineswegs als wirklich kaputt (erroneous, defective) anzusprechen, sondern höchstens als verdächtig (suspected).

Fehlerhypothese

Eine Fehlerhypothese ist eine vorläufige Annahme zur Ursache oder Art des Fehlers („dies und jenes könnte schuld sein”). Fehlerhypothesen werden typischerweise auf Grundlage von Erfahrung und Intuition aufgestellt. Sie werden durch Prüfen und Messen, durch Testen oder Probieren sowie durch logisches Schließen entweder bestätigt oder widerlegt. Wir nehmen beispielsweise zunächst einmal an, dass an einem bestimmten Fehler die Stromversorgung schuld ist. Ergibt daraufhin die messtechnische Kontrolle, dass die Stromversorgung funktioniert, so ist diese Fehlerhypothese widerlegt. Das Aufstellen und Überprüfen von Fehlerhypothesen gehört zu den wichtigsten Tätigkeiten beim Fehlersuchen. Wenn man einfach nicht zum Ziel kommt, ist es eine bewährte Vorgehensweise, verschiedene Fehlerhypothesen nach und nach systematisch abzuklopfen (Shotgun-Prinzip).

Typische Verfahren zum Überprüfen von Fehlerhypothesen:

Fehlermodelle

In der Praxis gilt Murphys Gesetz („alles, was schiefgehen kann, geht auch schief”); manchmal sogar Callahans Corollar („Murphy war ein Optimist”). Auf dieser Grundlage gelingt es allerdings kaum, durch logisches Schließen Fehler zu finden, und beim Schreiben von Testsoftware oder beim Entwickeln von Prüfgeräten stellt sich immer wieder die Frage: Was könnte noch schiefgehen, was ist noch zu prüfen? Deshalb liegen allen auf Logik gestützten Vorgehensweisen und allen Ansätzen, das Testen, Fehlersuchen usw. zu automatisieren oder wenigstens zu unterstützen, bestimmte Annahmen darüber zugrunde, welche Arten von Fehlern gesucht werden sollen. Eine solche Annahme bezeichnet man als Fehlermodell (in diesem Sinne ist Murphys Gesetz auch ein Fehlermodell, wenngleich das schlimmste und damit kaum hilfreich).

Die Einzelfehlerhypothese

Diese Annahme liegt praktisch allen Testprogrammen, eingebauten Testvorkehrungen, Prüfmitteln, Fehlersuchanleitungen usw. zugrunde4): im betrachteten System gibt es zu einer Zeit jeweils nur einen einzigen Fehler. Mit anderen Worten: es ist nicht so, dass verschiedene Teile des Systems gleichzeitig fehlerhaft sind. Die Erfahrung und insbesondere die Statistik sprechen dafür, dass diese Annahme in den weitaus meisten Fällen gerechtfertigt ist. Es ist aber mit einigen Besonderheiten und Abweichungen zu rechnen:

a) Mehrere Symptome, ein Fehler

Lassen Sie sich nicht verblüffen: auch wenn Sie an mehreren Stellen Fehlererscheinungen wahrnehmen, so haben diese meistens eine einzige Ursache. Dabei ist die Fehlerquelle häufig in einer Einrichtung zu suchen, von deren Funktionsfähigkeit die anderen Einrichtungen abhängen. Beispiel: Wenn von der Festplatte nichts gelesen wird und auch auf dem Bildschirm nichts zu sehen ist, sind mit hoher Wahrscheinlichkeit nicht alle beteiligen Funktionseinheiten (Videoadapter,Bildschirm, Laufwerk) defekt, sondern es handelt sich um einen Fehler auf dem Motherboard oder in der Stromversorgung.

b) Folgefehler

Echte Mehrfachfehler entstehen mit hoher Wahrscheinlichkeit dadurch, dass zunächst ein Einzelfehler auftritt, der dann weitere Fehler verursacht. Beispiel: eine defekte Steckkarte bewirkt Überlastung und schließlich Ausfall eines Schaltkreises auf dem Motherboard.

c) Unabhängige Fehler

Dass mehrere Fehler wirklich voll unabhängig voneinander auftreten, ist zwar nicht auszuschließen, aber äußerst selten. Die Wahrscheinlichkeit eines solchen Mehrfachfehlers ergibt sich durch Multiplikation der Wahrscheinlichkeiten des Auftretens der entsprechenden Einzelfehler.

d) Folgefehler eines verdeckten Einzelfehlers

Manche Fehler, insbesondere solche in Einrichtungen, die zur Reaktion auf Fehler und andere (selten auftretende) Sonderbedingungen vorgesehen sind, werden zunächst gar nicht bemerkt, weil eben der Fall, in dem sie wirksam werden sollen, nicht eingetreten ist und auch keine vorbeugenden Kontrollen stattgefunden haben.

Beispiel: Ein Netzteil hat eine Kurzschlusssicherung, die bei Kurzschluss einer Versorgungsspannung das ganze Netzteil abschalten soll. Diese sei im Laufe der Zeit ausgefallen. Nun tritt tatsächlich ein Kurzschluss in einer Funktionseinheit ein. Dieser Fehler wird dann in Folge auch anderweitige Schäden hervorrufen (beispielsweise können Leiterzüge (da sie infolge übermäßiger Erwärmung schmelzen oder gar verdampfen) verschwinden und Leistungsbauelemente ausfallen).

Praxistipps:

  1. Erst dann, wenn ein Vorgehen auf Grundlage der Einzelfehlerhypothese nicht zum Erfolg geführt hat, sollten Sie Mehrfachfehler in Erwägung ziehen, und zwar zunächst (1) im Sinne von Folgefehlern und erst dann (2) im Sinne von unabhängigen Fehlern.
  2. Während in ausgesprochen digitaler Hardware Folgefehler vergleichsweise selten sind, ist in Analog- und Leistungsschaltungen (vor allem auch in der Stromversorgung) recht häufig mit Folgefehlern zu rechnen.

Fehlersuchstrategie und Servicekonzeption

Diese Oberbegriffe (im Fach-Englisch Troubleshooting Strategy, Maintenance Philosophy, Maintenance Concepts o. ä.) kennzeichnen die „Philosophie“, die dem Fehlersuchen zugrunde liegt. Hierbei geht es sowohl um organisatorische als auch um technische Probleme. Erfahrene Hersteller berücksichtigen die einschlägigen Fragen bereits während der Produktentwicklung.

Wie weit soll der Servicetechniker gehen?

Was soll er vor Ort reparieren, was soll im Servicestützpunkt oder von Dienstleistern repariert, was ans Herstellerwerk zurückgeschickt werden? Heutzutage ist das Tauschen austauschbarer Funktionseinheiten (FRUs) die nahezu ausschließliche Form der Fehlerbeseitigung (manche Anbieter beschränken den Service sogar auf das Tauschen von CRUs – also von Teilen, die eigentlich jeder halbwegs geschickte Laie auswechseln kann…). Alle weiteren Einzelheiten (z. B. ob überhaupt reparieren und wenn ja, wo und von wem) sind Gegenstand betriebswirtschaftlicher Überlegungen.

>>Weiterbildung Computertechnik<<