Nikolaus Petry *Fuzzy Logik und neuronale NetzeJurPC Web-Dok. 187/1999, Abs. 1 - 54 |
Einleitung |
Fuzzy-Logic in Waschmaschinen(1), Neuronale Netze zur Steuerung von Zementfabriken(2), Neuronale Netze zur Kursprognose an den Börsen(3), Fuzzy-Logik zur Bemessung des Schmerzensgeldes(4), neue Steuer- und Regelungsverfahren halten Einzug in technischen, ökonomischen und juristischen Gebieten. Sowohl Fuzzy-Logik als auch neuronale Netze haben seit ihrer Entdeckung Höhen und Tiefen durchgemacht. Mittlerweile finden sie in der Entwicklung und in der Benutzung von Produkten des täglichen Gebrauchs Anwendung. In diesem Artikel werden Fuzzy-Logik und Neuronale Netze vorgestellt und ihre Arbeitsweise an kleinen Beispielen demonstriert. | JurPC Web-Dok 187/1999, Abs. 1 |
Fuzzy Logik |
"Fuzzy" bedeutet(5) like fuzz flaumig, frizzykraus, blurred verschwommen, unscharf. Der Informatiker Lotfi Zadeh benannte 1965 seine Theorie der Mengenlehre einfach fuzzy set theory. Bis dahin beschrieben Begriffe scharf abgegrenzte Mengen über einer Grundgesamtheit: entweder gehörte eine Element zu einer Menge oder es gehörte nicht zu einer Menge. Fuzzy setserlauben es, Zugehörigkeitsgrade von Elementen zu einer Menge zu modellieren. | Abs. 2 |
Fuzzy-Mengen |
Fuzzy-Mengen sind das grundlegende Konzept der Fuzzy-Logik. Sie ermöglichen die Definition linguistischer Variablen, die Begriffe mit weichen Übergängen von "hat die Eigenschaft vollständig" zu "trifft ganz und gar nicht zu" modellieren können. Fuzzy-Mengen können über beliebigen Grundgesamtheiten definiert werden. Als Grundgesamtheit können z.B. alle Menschen genommen werden. Die Aufteilung aller Menschen nach Geschlecht bereitet (bis auf sehr wenige Ausnahmen) keine Probleme. Die Aufteilung z.B. in Kinder, Jugendliche und Erwachsene hingegen bereitet selbst dem Gesetzgeber Schwierigkeiten(6). Mit Fuzzy-Mengen ist es möglich, daß Elemente der Grundgesamtheit (hier Menschen) gleichzeitig zu zwei Mengen (hier Jugendliche und Erwachsene) gehören. | Abs. 3 |
Der Einfachheit halber werden im folgenden nur reelle Fuzzy-Mengen betrachtet, als Grundgesamtheit dient die Menge der reellen Zahlen R. | Abs. 4 |
Definition einer Fuzzy-Menge |
Eine Fuzzy-Menge(7) A ist
eine Menge von Paaren
. Diese sehr mathematische Schreibweise sagt aus, daß eine Fuzzy-Menge dadurch charakterisiert ist, daß jeder Zahl x ein Zugehörigkeitsgrad zwischen 0 und 1 zugeordnet wird. Die sich so ergebende Zuordnung ergibt eine Funktion, die sog. Zugehörigkeitsfunktion der Fuzzy-Menge A. Das folgende Beispiel stellt einen Vorschlag zur Modellierung des linguistischen Symbols "erwachsen" dar. Bei solchen Modellierungen werden häufig Objekte der Grundgesamtheit mit reellen Zahlen identifiziert. In diesem Beispiel müßte eigentlich unterschieden werden zwischen Lebensalter x und Mensch mit Lebensalter x. | Abs. 5 |
Menschen bis zu 16 Jahren gehören vollständig nicht zur Menge der Erwachsenen, Menschen ab 21 Jahren werden uneingeschränkt als erwachsen bezeichnet. Menschen zwischen 16 und 21 Jahren haben eine mit dem Lebensalter steigende Zugehörigkeit zu "erwachsen". | Abs. 6 |
Verschiedene Fuzzy-Mengen (z.B. "erwachsen" und "jugendlich") können sich überschneiden, so kann ein Mensch gleichzeitig jugendlich und erwachsen sein. Die Definition von Fuzzy-Mengen kann auch von mehr als einer Variablen abhängen, z.B. könnte man Merkmale wie "Geschlecht", "Bildung", "soziale Kompetenz" in die Definition von "erwachsen" mit einfließen lassen. | Abs. 7 |
Die Bedeutung (Semantik) der Zugehörigkeiten hängt im Wesentlichen ab von der Quelle der Unschärfe, die mit Fuzzy-Mengen modelliert werden soll. Nur als Stichworte seien genannt Impräzision (z.B. durch Meßfehler), Vagheit (der Sprache), vage Regeln (beim Steuern und Regeln). | Abs. 8 |
Eine Zugehörigkeit von ½ eines Menschen zur Menge der Jugendlichen und von ½ zur Menge der Erwachsenen kann z.B. so gedeutet werden, daß diesem Menschen die Hälfte der Fördermaßnahmen zugestanden werden, die der Gesetzgeber Jugendlichen zukommen läßt, und ihm ebenfalls die Hälfte der Fördermaßnahmen zugestanden werden, die der Gesetzgeber Erwachsenen bietet. | Abs. 9 |
Das gleiche Prinzip ließe sich auch auf das Strafrecht ausweiten, wird hier aber nicht weiter diskutiert. | Abs. 10 |
Operationen auf Fuzzy-Mengen |
Fuzzy-Mengen sind eine Erweiterung der klassischen Mengen-Theorie. Die üblichen Mengenoperationen wie Vereinigung, Schnitt und Komplementbildung können unter Bewahrung der Eigenschaften für klassische Mengen auf Fuzzy-Mengen übertragen werden(8). | Abs. 11 |
Auch klassische Relationen (wie z.B. größer alsoder gleich) können auf Fuzzy-Mengen unter Hinzugewinnung an Informationen erweitert werden. | Abs. 12 |
Fuzzy-Inferenz |
Fuzzy-Logik wird sehr häufig als Synonym für Fuzzy-Inferenzverwendet. Ziel der Fuzzy-Inferenz ist es, eine Funktion zu modellieren, deren Angabe analytisch nicht möglich ist. In vielen Fällen (z.B. Steuerung einer U-Bahn(9)) sind zwar die maßgeblichen Parameter (Geschwindigkeit, Entfernung zum Haltepunkt, Bremskraft) sehr genau meß- und einstellbar. Andere Parameter (z.B. die Anzahl der Passagiere) können nur geschätzt werden. | Abs. 13 |
Die exakten Zusammenhänge aber sind unzugänglich in einer Person (Lokführer) verborgen. Dieser Experte kann sein Vorgehen nur in Form linguistischer Regeln angeben, wobei ihm selbst die mathematischen Zusammenhänge häufig unbekannt sind. Er kann nur sagen, was und evtl. warum er was er tut. Er ist aber nicht in der Lage, für jedeEingangsgröße (z.B. Geschwindigkeit, Entfernung zum Haltepunkt) die Ausgangsgröße (z.B. Bremskraft) exakt anzugeben. Seine Regeln lauten etwa Wenn der Zug schnell ist und die Entfernung zum Haltepunkt weit ist, dann muß ich mittelstark bremsen. Fuzzy-Inferenz bietet nun die Möglichkeit, solche vagen Regeln in einem mathematischen Modell zu erfassen und das Expertenwissen in automatisierter Form einer meist kostengünstigeren Steuerung zur Verfügung zu stellen. Weiter bietet das Regelwerk des (oder der) Experten einen Einblick in dessen Arbeitsweise und macht sie kritisierbar. Sogar Fehlverhalten kann analysiert werden, auch Verbesserungsmöglichkeiten können bei solch einer Analyse entdeckt werden. | Abs. 14 |
Doch wie setzt eine Fuzzy-System die scharfen Eingabegrößen um? Am Ende muß ja ein scharfer Wert herauskommen (Im Zug-Beispiel muß eine konkrete Bremskraft auf die Räder wirken). | Abs. 15 |
Ein kleines Beispiel
Die Vorgehensweise soll an einem kleinen Beispiel dargestellt werden. Bei der Bemessung eines Schmerzensgeldes nach § 847 Abs. 1 BGB stellen Größe, Heftigkeit und Dauer der Schmerzen, Leiden und Entstellungen die wesentlichen Kriterien dar(10). Für dieses kleine Beispiel soll nur ein einziges Kriterium eine Rolle spielen, nämlich die Dauer der Schmerzen. Für das folgende möge die Leserin abstrahieren von konkreten Fällen und nur die beiden Regeln akzeptieren: Wenn Dauer der Schmerzen ist kurz dann Schmerzensgeld
ist wenig
| Abs. 16 |
Die Grafik besagt, daß eine Dauer von bis zu einer Woche mit Zugehörigkeit 1 kurz ist, ein Zeitraum von mehr als 4 Wochen ist sicher nicht kurz. Ein Zeitraum zwischen einer Woche und 4 Wochen erhält eine mit der Dauer abnehmende Zugehörigkeit. Entsprechend sind Zeiträume bis eine Woche nicht lang, Zeiträume ab 4 Wochen ganz sicher lang, und Zeiträume zwischen einer und vier Woche erhalten ein mit der Dauer zunehmende Zugehörigkeit. | Abs. 17 |
Analog werden die Ausprägungen für das Schmerzensgeld
definiert. In diesem kleinen Beispiel hat der Richter nur die Wahl eines
Schmerzensgeldes zwischen 0 und 500 DM. Auch in der Auswahl der linguistischen
Symbole ist der Richter stark eingeschränkt: wenig Schmerzensgeld
liegt "um die 100", viel Schmerzensgeld liegt "um die 400",
entsprechend der folgenden Grafik: | Abs. 18 |
Dem Richter liegt nun ein Fall vor, bei der die Klägerin
unstreitig 2 Wochen Schmerzen erdulden mußte. Da die Dauer der Schmerzen
das einzige Kriterium zur Bestimmung des Schmerzensgeldes ist, wird der Richter
seine beiden Regeln anwenden. Die Dauer von 2 Wochen hat zu "kurz"
eine Zugehörigkeit von 2/3 und zu "lang" eine Zugehörigkeit
von 1/3. | Abs. 19 |
Die Prämisse der ersten Regel ist zu 2/3 erfüllt, die
Prämisse der zweiten Regel ist zu 1/3 erfüllt. Fuzzy-Inferenz kann nun
den Widerspruch lösen, daß die Prämissen beider Regel "irgendwie"
erfüllt sind, indem beide Regeln Gültigkeit haben. Das
Schmerzensgeld wird also zu 2/3 "wenig" und zu 1/3 "viel". | Abs. 20 |
Der Schwerpunkt der Flächen, die durch die beiden Konklusionen "2/3 wenig" und "1/3 viel" gebildet werden, liegt bei 200. Das Fuzzy-Regel-System empfiehlt dem Richter ein Schmerzensgeld in Höhe von 200. | Abs. 21 |
Prinzipien der Fuzzy-Inferenz |
Die im obigen Beispiel dargestellte Vorgehensweise findet auch
in größeren Fuzzy-Inferenz-Systemen Anwendung(11). Eine Funktion
soll berechnet werden. Die Grundgesamtheit R n wird in kleine "Würfel" aufgeteilt, und für alle Würfel werden Fuzzy-Regeln der Form wenn X1 ist xf1 und ... und Xnist xfn dann y is yf aufgestellt, wobei X1,..., Xn linguistische Variablen und xf1,..., xfn , yf Fuzzy-Mengen sind. | Abs. 22 |
Abs. 23 |
Im Beispiel bestehen die Prämissen aus jeweils einer Aussage. Für den allgemeinen Fall von mehreren mit und verknüpften Aussagen werden diese z.B. mit der Minimum-Regel aggregiert. Die Konklusionen können auch identische Fuzzy-Mengen (mit evtl. unterschiedlichen Zugehörigkeitsgraden) oder sich überlappende Fuzzy-Mengen beinhalten. Für deren Zusammenführung bietet Fuzzy-Inferenz verschiedene Algorithmen, z.B. die algebraische Summe. Auch für die Defuzzifizierung, bei der ein scharfer Wert aus der Vielzahl durch die Fuzzy-Ergebnis-Menge überdeckten Werten berechnet wird, kann auf verschiedene Arten vorgenommen werden, z.B. die Schwerpunktmethode (wie in obigem Beispiel)(12). | Abs. 24 |
Fuzzy-Inferenz hat den Vorteil, sich scheinbar widersprechende Regeln aufnehmen zu können. Im Vordergrund der Fuzzy-Inferenz steht ein Modell samt seinen Regeln. Es gibt auch Verfahren, aus Daten dazu passende Fuzzy-Regeln zu lernen, z.B. die Software WinRosa(13). Auch ist die Erweiterung von bestehenden Systemen problemlos, es werden einfach weitere Regeln hinzugefügt. Widersprüche zu bereits vorhandenen Regeln sind (gewollter) Teil des Systems und können, wie oben dargestellt, einfach behandelt werden. | Abs. 25 |
Berechenbare Funktionen |
Das oben vorgestellte Fuzzy-Regel-System erweist sich als "universal
approximator"(14):
| Abs. 26 |
Somit hat man - zumindest in der Theorie - ein Werkzeug gefunden, analytisch nur schwer zugängliche Funktionen berechnen zu können. Ein Problem des Satzes ist nur noch, daß die Grundgesamtheit Rnin Abhängigkeit von der geforderten Genauigkeit in beliebig viele Fuzzy-Mengen aufgeteilt werden kann. In der Praxis muß man sich aber mit wenigen Fuzzy-Mengen begnügen, um bei dem entstehenden Regelwerk nicht den Überblick zu verlieren. Dadurch wird zwar der entstehende Fehler größer, was aber bei "vernünftigen" Funktionen kein Problem darstellt. | Abs. 27 |
Neuronale Netze |
Neuronale Netze (künstliche neuronale Netze, artificial neural networks) sind Berechnungsmodelle, deren Struktur und Funktion sich an den Nervennetzen lebender Organismen orientiert(15). Das Ziel neuronaler Netze ist es, durch geschickte Vernetzung sehr vieler, einfacher Schaltungen, sog. Neuronen, ähnliche Leistungsfähigkeiten zu erreichen, wie sie das Gehirn bietet. Dabei laufen Eingangssignale durch mehrere Schichten von Neuronen, wobei die Neuronen einer Schicht die (modifizierten) Signale über divergierende Verbindungen zu Neuronen der nachfolgenden Schicht senden. Wichtige Anwendungen sind die Mustererkennung (Zeichenerkennung, Spracherkennung, Bilderkennung, Sternklassifikation, etc), Bewertungen (Produktqualität gut/schlecht), Zeitreihenanalyse (Wettervorhersage, Kursprognose an der Börse), Steuerung/Regelung (Roboter, Motoren, etc.). | Abs. 28 |
Funktionsweise des Gehirns |
Ein wichtiger Bestandteil des Gehirns sind die Nervenzellen, Neuronen genannt. Sie sind die funktionellen Basiseinheiten eines jeden Nervensystems. Das menschliche Gehirn enthält zwischen 10 und 100 Milliarden Neuronen mit einem Durchmesser von 5-100 mm. Jedes Neuron ist über 1000 bis 10000 Synapsen, die an einer bis über 1 m langen, dünnen "Verdickung" (Axon) hängen, mit anderen Neuronen verbunden. Das menschliche Gehirn enthält also etwa 100 bis 1000 Billionen Synapsen. Ein Neuron kennt zwei Potenziale, das Ruhe- und das Aktionspotenzial. Erhält ein Neuron von verbundenen Neuronen einkommende Reize, werden diese summiert, und sobald ein gewisser Schwellwert überschritten wird, schaltet das Neuron vom Ruhe- in den Aktivzustand und gibt seinerseits wieder Reize an die verbundenen Neuronen weiter. Dieser Vorgang wird auch als Feuern des Neurons bezeichnet. Ein Neuron benötigt eine Erholungsphase von 10-3 bis 10-2 Sekunden, so daß die "Taktfrequenz" des Gehirns maximal 1000 Hz betragen kann (im Vergleich dazu takten moderne Prozessoren rund eine Million mal schneller). | Abs. 29 |
Die Leistungsfähigkeit erhält das Gehirn also nicht durch eine schnelle sequentielle, sondern durch eine massiv parallele Informationsverarbeitung. | Abs. 30 |
Prinzipien (künstlicher) neuronaler Netze |
Wie in der Fuzzy-Inferenz modelliert ein neuronales Netz eine
reellwertige Funktion
Zentraler Aspekt ist die parallele Informationsverarbeitung im Gegensatz zu den seriellen Konzepten klassischer Systeme. | Abs. 31 |
Im Gegensatz zur Fuzzy-Inferenz, bei der die Regeln im Vordergrund stehen, sind bei neuronalen Netzen die Daten erstrangig. Die unbekannten Zusammenhänge zwischen den n Eingangsvariablen x1,...,xnund der Ausgangsvariablen y müssen durch das neuronale Netz an Hand eines großen Datensatzes gelernt werden. Diese Lernphase wird auch als Trainingdes Netzes bezeichnet. Ein neuronales Netz wird nicht programmiert, sondern trainiert. | Abs. 32 |
Bei der Anwendung berechnet das neuronale Netz aus den Eingabewerten x1,...,xn den Ausgabewert y. | Abs. 33 |
Künstliche Neuronen |
Wie im menschlichen Gehirn ist die zentrale Komponente eines künstlichen
neuronalen Netzes das Neuron. Es bildet die kleinste Berechnungseinheit und hat
wie im organischen Fall zwei Zustände: einen Ruhezustand und einen
Aktivzustand. Vom Ruhezustand wechselt das Neuron in den Aktivzustand, wenn die
gewichtete Summe aller Eingangssignale einen Schwellwert übersteigt: das
Neuron feuert. Die Stärke dieser Ausgangssignale wird durch eine sog.
Transferfunktion gesteuert. Schematisch sieht das wie in der folgenden Grafik
aus. Die Schicht k ist die Schicht all der Neuronen, die Signale an das
betrachtete Neuron senden. Die Größe dieser Signale ist xi(i=1,...,n). Diese Signale werden mit den Gewichten wi (i=1,...,n)
gewichtet und aufsummiert. Von der gewichteten Summe wird der Schwellwert abgezogen und bildet die Netzeingabez. Das Neuron bestimmt sein Ausgangssignal durch Berechnung des Wertes 0=T(z). Als Transferfunktion stehen Funktionen des S-förmigen Typs wie in der Grafik zur Verfügung, z.B. die Sprungfunktion Die Sprungfunktion liefert genau dann den Wert 1, wenn die gewichtete Summe größer oder gleich dem Schwellwert ist. | Abs. 34 |
Netzwerktypen |
Ein neuronales Netz besteht im Allgemeinen aus mehreren Schichten, wie es im nächsten Abschnitt genauer erläutert wird. Laufen die Signale nur in einer Richtung, so spricht man von einem Vorwärts-berechnenden Netz (Feed-Forward-Netz), der wichtigsten Form neuronaler Netze. | Abs. 35 |
Je nach Anzahl der Schichten spricht man von zwei-, drei- oder mehrschichtigen Netzen. Daneben gibt es rekurrende Netze (mit Zyklen), symmetrische Netze, geschichtete Netze und Netze mit Neuronen mit eigenem Speicher. | Abs. 36 |
Aufbau eines dreischichtigen neuronalen Feed-Forward-Netzes |
Ein dreischichtiges neuronales Feed-Forward-Netz ist zwar nicht
der einfachste Aufbau eines neuronalen Netzes, zeigt aber am deutlichsten die
Arbeitsweise. Ein neuronales Netz besteht aus mehreren Schichten (Layer),
in diesem Falle also aus drei Schichten. Die einzelnen Schichten enthalten Knoten,
jeder einzelne Knoten repräsentiert ein Neuron. Die Neuronen der Eingangsschicht
(input layer) haben als Eingabesignale die Eingangswerte x1,...,xn.
Die Neuronen der versteckten Schicht (hidden layer) haben als
Eingangswerte die Ausgänge der Eingangsschicht und geben ihre Signale
weiter an die Ausgangsschicht (output layer). Jeder Knoten einer
Schicht ist mit genau allen Knoten der nachfolgenden Schicht verbunden.
Prinzipiell kann jedes Neuron einen eigenenen Satz an Gewichten, einen eigenen
Schwellwert und eine eigene Transferfunktion haben. In der Praxis aber sind
innerhalb einer Schicht alle Transferfunktionen identisch. Normalerweise wird in
der Eingangs- und in der Ausgangsschicht die Identität als Transferfunktion
verwendet, in der versteckten Schicht wird eine dem Problem angemessene
Transferfunktion (z.B. die Sprungfunktion) genutzt.
| Abs. 37 |
Werden nun an die Eingangsschicht die Signale x1,...,xnangelegt, so berechnen die Eingangsneuronen E1,...,Enanhand ihrer Gewichte, Schwellwerte und Transferfunktionen ihre Signale, die sie an die versteckte Schicht weitergeben. Die Neuronen V1,...,Vlder versteckten Schicht verfahren ebenso unter Verwendung ihres Satzes von Gewichten, Schwellwerten und Transferfunktionen, und geben ihre Signale an die Ausgangsschicht weiter. Dort werden die Ausgangswerte y1,...,ymanalog berechnet. | Abs. 38 |
Die Gewichte und die Schwellwerte werden durch sog. Lernalgorithmen berechnet. Der älteste und bekannteste Lernalgorithmus ist der sog. Backpropagation-Algorithmus, eine Art Minimierungs-Algorithmus für den quadratischen Fehler. | Abs. 39 |
Backpropagation |
Die Parameter eines neuronalen Netzes sind die Gewichte und die Schwellwerte der Neuronen. Diese müssen entweder vorgegeben sein (was bei neuen Problemstellungen unmöglich ist) oder gelernt werden. Bei Lernen werden die Parameter mit zufälligen Werten initialisiert und das neuronale Netz erhält eine Anzahl von konkreten Datensätzen. Z.B. im Falle der Mustererkennung muß eine Person die Ziffern 0 bis 9 mehrfach schreiben. Die entsprechende Folge von Nullen und Einsen wird jedesmal dem neuronalen Netz "vorgesetzt", das Netz errechnet "sein" Ergebnis an Hand der Eingabewerte und vergleicht es mit der Vorgabe. Der quadratische Abstand des berechneten zum vorgegebenen Wert ist ein Maß für den Fehler, den das neuronale Netz gemacht hat. Mathematisch ist bei vorgegebener Eingabe (x1,...,xn) die Ausgabe y eine Funktion der Neuronengewichte der Ausgangsschicht, so daß ein mathematisches Minimierungsverfahren, das sog. Gradientenabstiegsverfahren, durchgeführt werden kann, bei dem diese Gewichte in Richtung des "steilsten Abfalls des Fehlers" verändert werden. Diese Optimierung wird nacheinander iterativ für die vorhergehenden Schichten bis zur Eingangsschicht durchgeführt. Dieser gesamte Vorgang wird für alle vorgegebenen Eingabe- / Ausgabepaare durchgeführt, wobei sich jedesmal der Fehler (als quadratische Differerenz zwischen vorgegebenem y und berechnetem Ausgabewert) verändert. Im Optimalfall sollte sich der Fehler auf ein Minimum zu bewegen. | Abs. 40 |
Dieser gesamte Vorgang wird für die Datensätze mehrfach (in der Praxis bis zu 100000 Mal) durchgeführt, solange bis das neuronale Netz alle Datensätze gelernt hat. In obigem Beispiel muß das neuronale Netz also alle geschriebenen Variationen einer "8" als die Ziffer "8" erkennen. | Abs. 41 |
Ein kleines Beispiel |
Ein typisches Beispiel der Anwendung neuronaler Netze ist die
Mustererkennung. Auf ein rechteckiges Feld wird ein Zeichen gemalt, das
neuronale Netz soll erkennen, um welches Zeichen es sich handelt. Dazu wird das
Eingabefeld in eine Matrix von z.B. 8x15 Elementen aufgeteilt. Als mögliche
Zeichen kommen die Ziffern 0, 1,..., 9 in Frage. Die 120 Eingabevariablen können
die Werte 0 oder 1 (schwarz oder weiß) annehmen, die einzige
Ausgabevariable kann die Wert 0, 1,..., 9 annehmen.
| Abs. 42 |
Die Mustererkennung wandelt zuerst das geschriebene Zeichen in
eine Folge von Nullen und Einsen um. Dazu werden die Rasterpunkte, die übermalt
wurden, mit 1 bewertet. Die vollständig leer verbliebenen Rasterpunkte
erhalten die Bewertung 0. Dadurch erhält man einen Eingabevektor (x1,...,xn),
der aus einer Folge von Nullen und Einsen besteht.
| Abs. 43 |
Das neuronale Netz enthält 120 Eingangsneuronen und genau
ein Ausgangsneuron, welches die Werte 0, 1, ..., 9 annehmen kann.
| Abs. 44 |
Alternativ könnte das Netz auch 10 Ausgangsneuronen enthalten, die jeweils die Werte 0 oder 1 für die jeweilige Ziffer annehmen können. Diese Vorgehensweise wird bei diskreten Ausgabewerten (wie das hier bei 10 verschiedenen Ziffern ja der Fall ist) meist verwendet. | Abs. 45 |
Berechenbare Funktionen |
Zweischichtige neuronale Netze stoßen sehr schnell an
ihre Grenzen. Neben einigen hier nicht erwähnten guten Eigenschaften gilt
eine mit der Minsky-Papert-Kritik(16)ausgesprochen starke Restriktion:
| Abs. 46 |
Dieses Problem kann aber mit dreischichtigen neuronalen Netzen
gelöst werden. Es gilt sogar der Satz von Mhaskar und Micchelli(17):
| Abs. 47 |
Ein Problem des Backpropagation-Algorithmus ist die Minimum-Suche. Nicht in jedem Fall wird ein globales Minimum gefunden. Ein weiteres Problem aller Lernverfahren ist das Overfitting. Ist die Anzahl vorgegebener Daten zu klein, die Anzahl der Neuronen und die Anzahl der Iterationen zu groß, so lernt das neuronale Netz die Lerndaten vollständig auswendig. Die Lerndaten können alle reproduziert werden. Eine kleine Abweichung der Eingabewerte führt allerdings zu unkontrollierbaren Abweichungen der Ausgabewerte. | Abs. 48 |
Bei zu geringer Neuronenzahl und Iterationszahl aber kann das neuronale Netz nicht einmal die Lerndaten einigermaßen genau wiedergeben. | Abs. 49 |
Ist ein neuronales Netz optimal trainiert, so ist es in der Lage, auch von den Lerndaten abweichende Eingabewerte zu verarbeiten und, sofern die Daten einigermaßen "vernünftig" sind, einen "korrekten" Ausgabewert zu berechnen. | Abs. 50 |
Insbesondere für Modelle mit ausgesprochenen Nichtlinearitäten sind neuronale Netze sehr gut geeignet. | Abs. 51 |
Ein starker Kritikpunkt an neuronalen Netzen ist das Black-Box-Verhalten. Die Neuronengewichte und -schwellwerte sind nach der Lernphase bekannt, können aber nur sehr eingeschränkt interpretiert werden. Die Gewichte haben keine eigenständige Bedeutung wie es z.B. in den linearen Modellen der Ökonometrie der Fall ist. Einzelne Parameter können auch nicht auf Signifikanz getestet werden, da kein stochastisches Modell zu Grunde liegt. Änderungen an den Gewichten führen zu Änderungen des Neuronalen Netzes, die nur sehr schwer mathematisch kontrollierbar sind. | Abs. 52 |
Zusammenführung |
Fuzzy-Logik und Neuronale Netze sind keine sich widersprechende Verfahren. Fuzzy-Logik baut auf Regeln auf, Neuronale Netze stellen die (Lern-)Daten in den Vordergrund. Die Regeln von Fuzzy-Systemen sind analysierbar und können einzeln verändert werden. Die Gewichte und Schwellwerte eines neuronalen Netzes entziehen sich weitgehend einer Diagnose (Black Box). Fuzzy-Systeme könne einfach erweitert werden, neuronale Netze müssen nach Änderungen neu trainiert werden. Bei soviel Gegensätzlichem bleibt aber auch viel Ähnlichkeit. Beide Verfahren realisieren Modelle, deren Zusammenhänge mathematisch nicht oder nur unter großem (Kosten-)Aufwand gewonnen werden können. Hat man Daten und eine Vorstellung des Modells, so sind beide Verfahren (mit ihren jeweigen Vorteilen) etwa gleich gut geeignet, das Modell umzusetzen. | Abs. 53 |
Informationsquellen im Internet |
Zeitschriften IEEE Transactions on Fuzzy Systems IEEE Transactions on Neural Networks International Journal of Fuzzy Sets and Systems International Journal of Approximate Reasoning Organisationen Newsgruppen Personen | JurPC Web-Dok 187/1999, Abs. 54 |
Fußnoten: |
(1) Z.B.
http://www.bosch-hausgeraete.de/deutsch/technik/oder
http://www.hausgeraete.at/deutsch/produkteloesungen/features/wasch/fuzzy_ control_popup_400_500.html (2) Z.B. http://www.mitgmbh.de/mit/projects/index.htm (3) COMPUTERWOCHE Nr. 40 vom 29.09.1989 (4)http://ruessmann.jura.uni-sb.de/fuzzy (5) Brockhaus Enzyklopädie, Bd. 29. Wörterbuch Englisch, 19. Auflage, F.A.Brockhaus GmbH, Mannheim, 1996 (6) Vgl. Nikolaus Petry, Fuzzy-Logic, JurPC Web-Dok. 131/1998, Abs. 1 - 49 (7) Kruse/Gebhardt/Klawonn: Fuzzy-Systeme, Teubner-Verlag Stuttgart, 1993 (8) Kruse/Gebhardt/Klawonn, a.a.O., Seite 21ff (9) Computerwoche Nr. 40 vom 2.10.1992 (10) BGHZ 18, 149 [154] |
(11) Kahlfert, Frank:
Fuzzy-Logik und Fuzzy-Control, Friedr. Vieweg & Sohn, Braunschweig 1993 (12) Kruse/Gebhardt/Klawonn, a.a.O., Seite 161ff (13) WinRosa, M.I.T.-GmbH, Aachen (14) Kosko, Bart; Dickerson, Julie A.: Function approximation with additive fuzzy systems. Erschienen in [CA] Yager, Ronald R. (ed.) et al., Theoretical aspects of fuzzy control. Proceedings of the 2nd IEEE conference on fuzzy systems, March 1993, San Francisco, CA, USA. New York, NY: Wiley. 313-347 (1995). [ISBN 0-471-02079-6/hbk] (15) Brockhaus Enzyklopädie, Bd. 15., Seite 498, 19. Auflage, F.A.Brockhaus GmbH, Mannheim, 1991 (16) Minsky, Papert: Perceptrons, MIT Press, Cambridge, Massachusetts, 1969 (17) H.N.Mhaskar, C.A.Micchelli, Approximatio by superposition of sigmoidal and radial functions, Advances in Appl. Math. 13, 1992, 350-373 |
* Dr. Nikolaus Petry hat 1997 bei Prof. Dr. Volker Steinmetz im Gebiet Fuzzy - Statistik promoviert. Zur Zeit ist er tätig als wissenschaftlicher Mitarbeiter im DFG-Projekt "Fuzzy-Schmerzensgeld", Forschungsschwerpunkt ist die Modellierung des Schmerzensgeldes mit Hilfe von Fuzzy-Logik |
[online seit: 17.12.99] |
Zitiervorschlag: Autor, Titel, JurPC Web-Dok., Abs. |
Zitiervorschlag: Petry, Nikolaus, Fuzzy Logik und neuronale Netze - JurPC-Web-Dok. 0187/1999 |