Fuzzy Logik und neuronale Netze

Petry, Nikolaus

JurPC Web-Dok. 187/1999 - DOI 10.7328/jurpcb/19991412194

Nikolaus Petry *

Fuzzy Logik und neuronale Netze

JurPC Web-Dok. 187/1999, Abs. 1 - 54

Einleitung

Fuzzy-Logic in Waschmaschinen(1), Neuronale Netze zur Steuerung von Zementfabriken(2), Neuronale Netze zur Kursprognose an den Börsen(3), Fuzzy-Logik zur Bemessung des Schmerzensgeldes(4), neue Steuer- und Regelungsverfahren halten Einzug in technischen, ökonomischen und juristischen Gebieten. Sowohl Fuzzy-Logik als auch neuronale Netze haben seit ihrer Entdeckung Höhen und Tiefen durchgemacht. Mittlerweile finden sie in der Entwicklung und in der Benutzung von Produkten des täglichen Gebrauchs Anwendung. In diesem Artikel werden Fuzzy-Logik und Neuronale Netze vorgestellt und ihre Arbeitsweise an kleinen Beispielen demonstriert.

JurPC Web-Dok
187/1999, Abs. 1

Fuzzy Logik

"Fuzzy"

bedeutet(5) like fuzz flaumig, frizzykraus, blurred verschwommen, unscharf. Der Informatiker Lotfi Zadeh benannte 1965 seine Theorie der Mengenlehre einfach fuzzy set theory. Bis dahin beschrieben Begriffe scharf abgegrenzte Mengen über einer Grundgesamtheit: entweder gehörte eine Element zu einer Menge oder es gehörte nicht zu einer Menge. Fuzzy setserlauben es, Zugehörigkeitsgrade von Elementen zu einer Menge zu modellieren.

Abs. 2

Fuzzy-Mengen

Fuzzy-Mengen sind das grundlegende Konzept der Fuzzy-Logik. Sie ermöglichen die Definition linguistischer Variablen, die Begriffe mit weichen Übergängen von "hat die Eigenschaft vollständig" zu "trifft ganz und gar nicht zu" modellieren können. Fuzzy-Mengen können über beliebigen Grundgesamtheiten definiert werden. Als Grundgesamtheit können z.B. alle Menschen genommen werden. Die Aufteilung aller Menschen nach Geschlecht bereitet (bis auf sehr wenige Ausnahmen) keine Probleme. Die Aufteilung z.B. in Kinder, Jugendliche und Erwachsene hingegen bereitet selbst dem Gesetzgeber Schwierigkeiten(6). Mit Fuzzy-Mengen ist es möglich, daß Elemente der Grundgesamtheit (hier Menschen) gleichzeitig zu zwei Mengen (hier Jugendliche und Erwachsene) gehören.

Abs. 3

Der Einfachheit halber werden im folgenden nur reelle Fuzzy-Mengen betrachtet, als Grundgesamtheit dient die Menge der reellen Zahlen R.

Abs. 4

Definition einer Fuzzy-Menge

Eine Fuzzy-Menge(7) A ist eine Menge von Paaren

.
Diese sehr mathematische Schreibweise sagt aus, daß eine Fuzzy-Menge dadurch charakterisiert ist, daß jeder Zahl x ein Zugehörigkeitsgrad

zwischen 0 und 1 zugeordnet wird. Die sich so ergebende Zuordnung

ergibt eine Funktion, die sog. Zugehörigkeitsfunktion

der Fuzzy-Menge A. Das folgende Beispiel stellt einen Vorschlag zur Modellierung des linguistischen Symbols "erwachsen" dar. Bei solchen Modellierungen werden häufig Objekte der Grundgesamtheit mit reellen Zahlen identifiziert. In diesem Beispiel müßte eigentlich unterschieden werden zwischen Lebensalter x und Mensch mit Lebensalter x.

Abs. 5

Menschen bis zu 16 Jahren gehören vollständig nicht zur Menge der Erwachsenen, Menschen ab 21 Jahren werden uneingeschränkt als erwachsen bezeichnet. Menschen zwischen 16 und 21 Jahren haben eine mit dem Lebensalter steigende Zugehörigkeit zu "erwachsen".

Abs. 6

Verschiedene Fuzzy-Mengen (z.B. "erwachsen" und "jugendlich") können sich überschneiden, so kann ein Mensch gleichzeitig jugendlich und erwachsen sein. Die Definition von Fuzzy-Mengen kann auch von mehr als einer Variablen abhängen, z.B. könnte man Merkmale wie "Geschlecht", "Bildung", "soziale Kompetenz" in die Definition von "erwachsen" mit einfließen lassen.

Abs. 7

Die Bedeutung (Semantik) der Zugehörigkeiten hängt im Wesentlichen ab von der Quelle der Unschärfe, die mit Fuzzy-Mengen modelliert werden soll. Nur als Stichworte seien genannt Impräzision (z.B. durch Meßfehler), Vagheit (der Sprache), vage Regeln (beim Steuern und Regeln).

Abs. 8

Eine Zugehörigkeit von ½ eines Menschen zur Menge der Jugendlichen und von ½ zur Menge der Erwachsenen kann z.B. so gedeutet werden, daß diesem Menschen die Hälfte der Fördermaßnahmen zugestanden werden, die der Gesetzgeber Jugendlichen zukommen läßt, und ihm ebenfalls die Hälfte der Fördermaßnahmen zugestanden werden, die der Gesetzgeber Erwachsenen bietet.

Abs. 9

Das gleiche Prinzip ließe sich auch auf das Strafrecht ausweiten, wird hier aber nicht weiter diskutiert.

Abs. 10

Operationen auf Fuzzy-Mengen

Fuzzy-Mengen sind eine Erweiterung der klassischen Mengen-Theorie. Die üblichen Mengenoperationen wie Vereinigung, Schnitt und Komplementbildung können unter Bewahrung der Eigenschaften für klassische Mengen auf Fuzzy-Mengen übertragen werden(8).

Abs. 11

Auch klassische Relationen (wie z.B. größer alsoder gleich) können auf Fuzzy-Mengen unter Hinzugewinnung an Informationen erweitert werden.

Abs. 12

Fuzzy-Inferenz

Fuzzy-Logik wird sehr häufig als Synonym für Fuzzy-Inferenzverwendet. Ziel der Fuzzy-Inferenz ist es, eine Funktion

zu modellieren, deren Angabe analytisch nicht möglich ist. In vielen Fällen (z.B. Steuerung einer U-Bahn(9)) sind zwar die maßgeblichen Parameter (Geschwindigkeit, Entfernung zum Haltepunkt, Bremskraft) sehr genau meß- und einstellbar. Andere Parameter (z.B. die Anzahl der Passagiere) können nur geschätzt werden.

Abs. 13

Die exakten Zusammenhänge aber sind unzugänglich in einer Person (Lokführer) verborgen. Dieser Experte kann sein Vorgehen nur in Form linguistischer Regeln angeben, wobei ihm selbst die mathematischen Zusammenhänge häufig unbekannt sind. Er kann nur sagen, was und evtl. warum er was er tut. Er ist aber nicht in der Lage, für jedeEingangsgröße (z.B. Geschwindigkeit, Entfernung zum Haltepunkt) die Ausgangsgröße (z.B. Bremskraft) exakt anzugeben. Seine Regeln lauten etwa Wenn der Zug schnell ist und die Entfernung zum Haltepunkt weit ist, dann muß ich mittelstark bremsen. Fuzzy-Inferenz bietet nun die Möglichkeit, solche vagen Regeln in einem mathematischen Modell zu erfassen und das Expertenwissen in automatisierter Form einer meist kostengünstigeren Steuerung zur Verfügung zu stellen. Weiter bietet das Regelwerk des (oder der) Experten einen Einblick in dessen Arbeitsweise und macht sie kritisierbar. Sogar Fehlverhalten kann analysiert werden, auch Verbesserungsmöglichkeiten können bei solch einer Analyse entdeckt werden.

Abs. 14

Doch wie setzt eine Fuzzy-System die scharfen Eingabegrößen um? Am Ende muß ja ein scharfer Wert herauskommen (Im Zug-Beispiel muß eine konkrete Bremskraft auf die Räder wirken).

Abs. 15

Ein kleines Beispiel
Die Vorgehensweise soll an einem kleinen Beispiel dargestellt werden. Bei der Bemessung eines Schmerzensgeldes nach § 847 Abs. 1 BGB stellen Größe, Heftigkeit und Dauer der Schmerzen, Leiden und Entstellungen die wesentlichen Kriterien dar(10). Für dieses kleine Beispiel soll nur ein einziges Kriterium eine Rolle spielen, nämlich die Dauer der Schmerzen. Für das folgende möge die Leserin abstrahieren von konkreten Fällen und nur die beiden Regeln akzeptieren:

Wenn Dauer der Schmerzen ist kurz dann Schmerzensgeld ist wenig
Wenn Dauer der Schmerzen ist lang dann Schmerzensgeld ist viel

Das Regelwerk verwendet zwei linguistische Variablen: Dauer der Schmerzen und Schmerzensgeld. Die Variable Dauer der Schmerzenkann zwei Ausprägungen annehmen: kurz und lang, die Variable Schmerzensgeld kann ebenfalls zwei Ausprägungen annehmen: wenig und viel. Natürlich müssen die Fuzzy-Mengen, die die Ausprägungen beschreiben, definiert werden:

Abs. 16

Die Grafik besagt, daß eine Dauer von bis zu einer Woche mit Zugehörigkeit 1 kurz ist, ein Zeitraum von mehr als 4 Wochen ist sicher nicht kurz. Ein Zeitraum zwischen einer Woche und 4 Wochen erhält eine mit der Dauer abnehmende Zugehörigkeit. Entsprechend sind Zeiträume bis eine Woche nicht lang, Zeiträume ab 4 Wochen ganz sicher lang, und Zeiträume zwischen einer und vier Woche erhalten ein mit der Dauer zunehmende Zugehörigkeit.

Abs. 17

Analog werden die Ausprägungen für das Schmerzensgeld definiert. In diesem kleinen Beispiel hat der Richter nur die Wahl eines Schmerzensgeldes zwischen 0 und 500 DM. Auch in der Auswahl der linguistischen Symbole ist der Richter stark eingeschränkt: wenig Schmerzensgeld liegt "um die 100", viel Schmerzensgeld liegt "um die 400", entsprechend der folgenden Grafik:

Abs. 18

Dem Richter liegt nun ein Fall vor, bei der die Klägerin unstreitig 2 Wochen Schmerzen erdulden mußte. Da die Dauer der Schmerzen das einzige Kriterium zur Bestimmung des Schmerzensgeldes ist, wird der Richter seine beiden Regeln anwenden. Die Dauer von 2 Wochen hat zu "kurz" eine Zugehörigkeit von 2/3 und zu "lang" eine Zugehörigkeit von 1/3.

Abs. 19

Die Prämisse der ersten Regel ist zu 2/3 erfüllt, die Prämisse der zweiten Regel ist zu 1/3 erfüllt. Fuzzy-Inferenz kann nun den Widerspruch lösen, daß die Prämissen beider Regel "irgendwie" erfüllt sind, indem beide Regeln Gültigkeit haben. Das Schmerzensgeld wird also zu 2/3 "wenig" und zu 1/3 "viel".

Abs. 20

Der Schwerpunkt der Flächen, die durch die beiden Konklusionen "2/3 wenig" und "1/3 viel" gebildet werden, liegt bei 200. Das Fuzzy-Regel-System empfiehlt dem Richter ein Schmerzensgeld in Höhe von 200.

Abs. 21

Prinzipien der Fuzzy-Inferenz

Die im obigen Beispiel dargestellte Vorgehensweise findet auch in größeren Fuzzy-Inferenz-Systemen Anwendung(11). Eine Funktion

soll berechnet werden. Die Grundgesamtheit Rⁿwird in kleine "Würfel" aufgeteilt, und für alle Würfel werden Fuzzy-Regeln der Form

wenn X₁ ist xf₁ und ... und X_nist xf_n dann y is yf

aufgestellt, wobei X₁,..., X_n linguistische Variablen und xf₁,..., xf_n , yf Fuzzy-Mengen sind.

Abs. 22

Abs. 23

Im Beispiel bestehen die Prämissen aus jeweils einer Aussage. Für den allgemeinen Fall von mehreren mit und verknüpften Aussagen werden diese z.B. mit der Minimum-Regel aggregiert. Die Konklusionen können auch identische Fuzzy-Mengen (mit evtl. unterschiedlichen Zugehörigkeitsgraden) oder sich überlappende Fuzzy-Mengen beinhalten. Für deren Zusammenführung bietet Fuzzy-Inferenz verschiedene Algorithmen, z.B. die algebraische Summe. Auch für die Defuzzifizierung, bei der ein scharfer Wert aus der Vielzahl durch die Fuzzy-Ergebnis-Menge überdeckten Werten berechnet wird, kann auf verschiedene Arten vorgenommen werden, z.B. die Schwerpunktmethode (wie in obigem Beispiel)(12).

Abs. 24

Fuzzy-Inferenz hat den Vorteil, sich scheinbar widersprechende Regeln aufnehmen zu können. Im Vordergrund der Fuzzy-Inferenz steht ein Modell samt seinen Regeln. Es gibt auch Verfahren, aus Daten dazu passende Fuzzy-Regeln zu lernen, z.B. die Software WinRosa(13). Auch ist die Erweiterung von bestehenden Systemen problemlos, es werden einfach weitere Regeln hinzugefügt. Widersprüche zu bereits vorhandenen Regeln sind (gewollter) Teil des Systems und können, wie oben dargestellt, einfach behandelt werden.

Abs. 25

Berechenbare Funktionen

Das oben vorgestellte Fuzzy-Regel-System erweist sich als "universal approximator"(14):

Stetige reelle Funktionen können durch eine Folge von wenn ... dann ... - Regeln beliebig genau approximiert werden.

Abs. 26

Somit hat man - zumindest in der Theorie - ein Werkzeug gefunden, analytisch nur schwer zugängliche Funktionen berechnen zu können. Ein Problem des Satzes ist nur noch, daß die Grundgesamtheit Rⁿin Abhängigkeit von der geforderten Genauigkeit in beliebig viele Fuzzy-Mengen aufgeteilt werden kann. In der Praxis muß man sich aber mit wenigen Fuzzy-Mengen begnügen, um bei dem entstehenden Regelwerk nicht den Überblick zu verlieren. Dadurch wird zwar der entstehende Fehler größer, was aber bei "vernünftigen" Funktionen kein Problem darstellt.

Abs. 27

Neuronale Netze

Neuronale Netze (künstliche neuronale Netze, artificial neural networks) sind Berechnungsmodelle, deren Struktur und Funktion sich an den Nervennetzen lebender Organismen orientiert(15). Das Ziel neuronaler Netze ist es, durch geschickte Vernetzung sehr vieler, einfacher Schaltungen, sog. Neuronen, ähnliche Leistungsfähigkeiten zu erreichen, wie sie das Gehirn bietet. Dabei laufen Eingangssignale durch mehrere Schichten von Neuronen, wobei die Neuronen einer Schicht die (modifizierten) Signale über divergierende Verbindungen zu Neuronen der nachfolgenden Schicht senden. Wichtige Anwendungen sind die Mustererkennung (Zeichenerkennung, Spracherkennung, Bilderkennung, Sternklassifikation, etc), Bewertungen (Produktqualität gut/schlecht), Zeitreihenanalyse (Wettervorhersage, Kursprognose an der Börse), Steuerung/Regelung (Roboter, Motoren, etc.).

Abs. 28

Funktionsweise des Gehirns

Ein wichtiger Bestandteil des Gehirns sind die Nervenzellen, Neuronen genannt. Sie sind die funktionellen Basiseinheiten eines jeden Nervensystems. Das menschliche Gehirn enthält zwischen 10 und 100 Milliarden Neuronen mit einem Durchmesser von 5-100 mm. Jedes Neuron ist über 1000 bis 10000 Synapsen, die an einer bis über 1 m langen, dünnen "Verdickung" (Axon) hängen, mit anderen Neuronen verbunden. Das menschliche Gehirn enthält also etwa 100 bis 1000 Billionen Synapsen. Ein Neuron kennt zwei Potenziale, das Ruhe- und das Aktionspotenzial. Erhält ein Neuron von verbundenen Neuronen einkommende Reize, werden diese summiert, und sobald ein gewisser Schwellwert überschritten wird, schaltet das Neuron vom Ruhe- in den Aktivzustand und gibt seinerseits wieder Reize an die verbundenen Neuronen weiter. Dieser Vorgang wird auch als Feuern des Neurons bezeichnet. Ein Neuron benötigt eine Erholungsphase von 10^-3 bis 10^-2 Sekunden, so daß die "Taktfrequenz" des Gehirns maximal 1000 Hz betragen kann (im Vergleich dazu takten moderne Prozessoren rund eine Million mal schneller).

Abs. 29

Die Leistungsfähigkeit erhält das Gehirn also nicht durch eine schnelle sequentielle, sondern durch eine massiv parallele Informationsverarbeitung.

Abs. 30

Prinzipien (künstlicher) neuronaler Netze

Wie in der Fuzzy-Inferenz modelliert ein neuronales Netz eine reellwertige Funktion

Zentraler Aspekt ist die parallele Informationsverarbeitung im Gegensatz zu den seriellen Konzepten klassischer Systeme.

Abs. 31

Im Gegensatz zur Fuzzy-Inferenz, bei der die Regeln im Vordergrund stehen, sind bei neuronalen Netzen die Daten erstrangig. Die unbekannten Zusammenhänge zwischen den n Eingangsvariablen x₁,...,x_nund der Ausgangsvariablen y müssen durch das neuronale Netz an Hand eines großen Datensatzes gelernt werden. Diese Lernphase wird auch als Trainingdes Netzes bezeichnet. Ein neuronales Netz wird nicht programmiert, sondern trainiert.

Abs. 32

Bei der Anwendung berechnet das neuronale Netz aus den Eingabewerten x₁,...,x_n den Ausgabewert y.

Abs. 33

Künstliche Neuronen

Wie im menschlichen Gehirn ist die zentrale Komponente eines künstlichen neuronalen Netzes das Neuron. Es bildet die kleinste Berechnungseinheit und hat wie im organischen Fall zwei Zustände: einen Ruhezustand und einen Aktivzustand. Vom Ruhezustand wechselt das Neuron in den Aktivzustand, wenn die gewichtete Summe aller Eingangssignale einen Schwellwert übersteigt: das Neuron feuert. Die Stärke dieser Ausgangssignale wird durch eine sog. Transferfunktion gesteuert. Schematisch sieht das wie in der folgenden Grafik aus. Die Schicht k ist die Schicht all der Neuronen, die Signale an das betrachtete Neuron senden. Die Größe dieser Signale ist x_i(i=1,...,n). Diese Signale werden mit den Gewichten w_i (i=1,...,n) gewichtet und aufsummiert. Von der gewichteten Summe

wird der Schwellwert

abgezogen und bildet die Netzeingabez. Das Neuron bestimmt sein Ausgangssignal durch Berechnung des Wertes 0=T(z). Als Transferfunktion stehen Funktionen des S-förmigen Typs wie in der Grafik zur Verfügung, z.B. die Sprungfunktion

Die Sprungfunktion liefert genau dann den Wert 1, wenn die gewichtete Summe

größer oder gleich dem Schwellwert

ist.

Abs. 34

Netzwerktypen

Ein neuronales Netz besteht im Allgemeinen aus mehreren Schichten, wie es im nächsten Abschnitt genauer erläutert wird. Laufen die Signale nur in einer Richtung, so spricht man von einem Vorwärts-berechnenden Netz (Feed-Forward-Netz), der wichtigsten Form neuronaler Netze.

Abs. 35

Je nach Anzahl der Schichten spricht man von zwei-, drei- oder mehrschichtigen Netzen. Daneben gibt es rekurrende Netze (mit Zyklen), symmetrische Netze, geschichtete Netze und Netze mit Neuronen mit eigenem Speicher.

Abs. 36

Aufbau eines dreischichtigen neuronalen Feed-Forward-Netzes

Ein dreischichtiges neuronales Feed-Forward-Netz ist zwar nicht der einfachste Aufbau eines neuronalen Netzes, zeigt aber am deutlichsten die Arbeitsweise. Ein neuronales Netz besteht aus mehreren Schichten (Layer), in diesem Falle also aus drei Schichten. Die einzelnen Schichten enthalten Knoten, jeder einzelne Knoten repräsentiert ein Neuron. Die Neuronen der Eingangsschicht (input layer) haben als Eingabesignale die Eingangswerte x₁,...,x_n. Die Neuronen der versteckten Schicht (hidden layer) haben als Eingangswerte die Ausgänge der Eingangsschicht und geben ihre Signale weiter an die Ausgangsschicht (output layer). Jeder Knoten einer Schicht ist mit genau allen Knoten der nachfolgenden Schicht verbunden. Prinzipiell kann jedes Neuron einen eigenenen Satz an Gewichten, einen eigenen Schwellwert und eine eigene Transferfunktion haben. In der Praxis aber sind innerhalb einer Schicht alle Transferfunktionen identisch. Normalerweise wird in der Eingangs- und in der Ausgangsschicht die Identität als Transferfunktion verwendet, in der versteckten Schicht wird eine dem Problem angemessene Transferfunktion (z.B. die Sprungfunktion) genutzt.

Abs. 37

Werden nun an die Eingangsschicht die Signale x₁,...,x_nangelegt, so berechnen die Eingangsneuronen E₁,...,E_nanhand ihrer Gewichte, Schwellwerte und Transferfunktionen ihre Signale, die sie an die versteckte Schicht weitergeben. Die Neuronen V₁,...,V_lder versteckten Schicht verfahren ebenso unter Verwendung ihres Satzes von Gewichten, Schwellwerten und Transferfunktionen, und geben ihre Signale an die Ausgangsschicht weiter. Dort werden die Ausgangswerte y₁,...,y_manalog berechnet.

Abs. 38

Die Gewichte und die Schwellwerte werden durch sog. Lernalgorithmen berechnet. Der älteste und bekannteste Lernalgorithmus ist der sog. Backpropagation-Algorithmus, eine Art Minimierungs-Algorithmus für den quadratischen Fehler.

Abs. 39

Backpropagation

Die Parameter eines neuronalen Netzes sind die Gewichte und die Schwellwerte der Neuronen. Diese müssen entweder vorgegeben sein (was bei neuen Problemstellungen unmöglich ist) oder gelernt werden. Bei Lernen werden die Parameter mit zufälligen Werten initialisiert und das neuronale Netz erhält eine Anzahl von konkreten Datensätzen. Z.B. im Falle der Mustererkennung muß eine Person die Ziffern 0 bis 9 mehrfach schreiben. Die entsprechende Folge von Nullen und Einsen wird jedesmal dem neuronalen Netz "vorgesetzt", das Netz errechnet "sein" Ergebnis an Hand der Eingabewerte und vergleicht es mit der Vorgabe. Der quadratische Abstand des berechneten zum vorgegebenen Wert ist ein Maß für den Fehler, den das neuronale Netz gemacht hat. Mathematisch ist bei vorgegebener Eingabe (x₁,...,x_n) die Ausgabe y eine Funktion der Neuronengewichte der Ausgangsschicht, so daß ein mathematisches Minimierungsverfahren, das sog. Gradientenabstiegsverfahren, durchgeführt werden kann, bei dem diese Gewichte in Richtung des "steilsten Abfalls des Fehlers" verändert werden. Diese Optimierung wird nacheinander iterativ für die vorhergehenden Schichten bis zur Eingangsschicht durchgeführt. Dieser gesamte Vorgang wird für alle vorgegebenen Eingabe- / Ausgabepaare durchgeführt, wobei sich jedesmal der Fehler (als quadratische Differerenz zwischen vorgegebenem y und berechnetem Ausgabewert) verändert. Im Optimalfall sollte sich der Fehler auf ein Minimum zu bewegen.

Abs. 40

Dieser gesamte Vorgang wird für die Datensätze mehrfach (in der Praxis bis zu 100000 Mal) durchgeführt, solange bis das neuronale Netz alle Datensätze gelernt hat. In obigem Beispiel muß das neuronale Netz also alle geschriebenen Variationen einer "8" als die Ziffer "8" erkennen.

Abs. 41

Ein kleines Beispiel

Ein typisches Beispiel der Anwendung neuronaler Netze ist die Mustererkennung. Auf ein rechteckiges Feld wird ein Zeichen gemalt, das neuronale Netz soll erkennen, um welches Zeichen es sich handelt. Dazu wird das Eingabefeld in eine Matrix von z.B. 8x15 Elementen aufgeteilt. Als mögliche Zeichen kommen die Ziffern 0, 1,..., 9 in Frage. Die 120 Eingabevariablen können die Werte 0 oder 1 (schwarz oder weiß) annehmen, die einzige Ausgabevariable kann die Wert 0, 1,..., 9 annehmen.

Abs. 42

Die Mustererkennung wandelt zuerst das geschriebene Zeichen in eine Folge von Nullen und Einsen um. Dazu werden die Rasterpunkte, die übermalt wurden, mit 1 bewertet. Die vollständig leer verbliebenen Rasterpunkte erhalten die Bewertung 0. Dadurch erhält man einen Eingabevektor (x₁,...,x_n), der aus einer Folge von Nullen und Einsen besteht.

Abs. 43

Das neuronale Netz enthält 120 Eingangsneuronen und genau ein Ausgangsneuron, welches die Werte 0, 1, ..., 9 annehmen kann.

Abs. 44

Alternativ könnte das Netz auch 10 Ausgangsneuronen enthalten, die jeweils die Werte 0 oder 1 für die jeweilige Ziffer annehmen können. Diese Vorgehensweise wird bei diskreten Ausgabewerten (wie das hier bei 10 verschiedenen Ziffern ja der Fall ist) meist verwendet.

Abs. 45

Berechenbare Funktionen

Zweischichtige neuronale Netze stoßen sehr schnell an ihre Grenzen. Neben einigen hier nicht erwähnten guten Eigenschaften gilt eine mit der Minsky-Papert-Kritik(16)ausgesprochen starke Restriktion:

Es gibt kein zweischichtiges neuronales Feed-forward-Netz mit 2 Eingabeneuronen und einem Ausgabeneuron und Transferfunktionen mit
welches das XOR-Problem
löst.

Abs. 46

Dieses Problem kann aber mit dreischichtigen neuronalen Netzen gelöst werden. Es gilt sogar der Satz von Mhaskar und Micchelli(17):

Stetige reelle Funktionen können durch Feed-forward neuronale Netze beliebig genau approximiert werden.

Abs. 47

Ein Problem des Backpropagation-Algorithmus ist die Minimum-Suche. Nicht in jedem Fall wird ein globales Minimum gefunden. Ein weiteres Problem aller Lernverfahren ist das Overfitting. Ist die Anzahl vorgegebener Daten zu klein, die Anzahl der Neuronen und die Anzahl der Iterationen zu groß, so lernt das neuronale Netz die Lerndaten vollständig auswendig. Die Lerndaten können alle reproduziert werden. Eine kleine Abweichung der Eingabewerte führt allerdings zu unkontrollierbaren Abweichungen der Ausgabewerte.

Abs. 48

Bei zu geringer Neuronenzahl und Iterationszahl aber kann das neuronale Netz nicht einmal die Lerndaten einigermaßen genau wiedergeben.

Abs. 49

Ist ein neuronales Netz optimal trainiert, so ist es in der Lage, auch von den Lerndaten abweichende Eingabewerte zu verarbeiten und, sofern die Daten einigermaßen "vernünftig" sind, einen "korrekten" Ausgabewert zu berechnen.

Abs. 50

Insbesondere für Modelle mit ausgesprochenen Nichtlinearitäten sind neuronale Netze sehr gut geeignet.

Abs. 51

Ein starker Kritikpunkt an neuronalen Netzen ist das Black-Box-Verhalten. Die Neuronengewichte und -schwellwerte sind nach der Lernphase bekannt, können aber nur sehr eingeschränkt interpretiert werden. Die Gewichte haben keine eigenständige Bedeutung wie es z.B. in den linearen Modellen der Ökonometrie der Fall ist. Einzelne Parameter können auch nicht auf Signifikanz getestet werden, da kein stochastisches Modell zu Grunde liegt. Änderungen an den Gewichten führen zu Änderungen des Neuronalen Netzes, die nur sehr schwer mathematisch kontrollierbar sind.

Abs. 52

Zusammenführung

Fuzzy-Logik und Neuronale Netze sind keine sich widersprechende Verfahren. Fuzzy-Logik baut auf Regeln auf, Neuronale Netze stellen die (Lern-)Daten in den Vordergrund. Die Regeln von Fuzzy-Systemen sind analysierbar und können einzeln verändert werden. Die Gewichte und Schwellwerte eines neuronalen Netzes entziehen sich weitgehend einer Diagnose (Black Box). Fuzzy-Systeme könne einfach erweitert werden, neuronale Netze müssen nach Änderungen neu trainiert werden. Bei soviel Gegensätzlichem bleibt aber auch viel Ähnlichkeit. Beide Verfahren realisieren Modelle, deren Zusammenhänge mathematisch nicht oder nur unter großem (Kosten-)Aufwand gewonnen werden können. Hat man Daten und eine Vorstellung des Modells, so sind beide Verfahren (mit ihren jeweigen Vorteilen) etwa gleich gut geeignet, das Modell umzusetzen.

Abs. 53

Informationsquellen im Internet

Zeitschriften
IEEE Transactions on Fuzzy Systems
IEEE Transactions on Neural Networks
International Journal of Fuzzy Sets and Systems
International Journal of Approximate Reasoning

Organisationen
IFSA - International Fuzzy Systems Association
ELITE - European Laboratory for Intelligent Techniques Engineering
GMD - Forschungszentrum Informationstechnik

Newsgruppen
comp.ai.fuzzy (FAQ)
comp.ai.neural-nets (FAQ)

Personen
Who is who in Fuzzy Logic
Prof. Lotfi A. Zadeh (University of California at Berkeley)
Dr. Bart Kosko (University of Southern California)
Prof. Hans-Jürgen Zimmermann (RWTH Aachen)
Prof. Rudolf Kruse (TU Braunschweig)

Tagungen
eufit
jurix

JurPC Web-Dok
187/1999, Abs. 54

Fußnoten:

(1) Z.B. http://www.bosch-hausgeraete.de/deutsch/technik/oder http://www.hausgeraete.at/deutsch/produkteloesungen/features/wasch/fuzzy_
control_popup_400_500.html
(2) Z.B. http://www.mitgmbh.de/mit/projects/index.htm
(3) COMPUTERWOCHE Nr. 40 vom 29.09.1989
(4)http://ruessmann.jura.uni-sb.de/fuzzy
(5) Brockhaus Enzyklopädie, Bd. 29. Wörterbuch Englisch, 19. Auflage, F.A.Brockhaus GmbH, Mannheim, 1996
(6) Vgl. Nikolaus Petry, Fuzzy-Logic, JurPC Web-Dok. 131/1998, Abs. 1 - 49
(7) Kruse/Gebhardt/Klawonn: Fuzzy-Systeme, Teubner-Verlag Stuttgart, 1993
(8) Kruse/Gebhardt/Klawonn, a.a.O., Seite 21ff
(9) Computerwoche Nr. 40 vom 2.10.1992
(10) BGHZ 18, 149 [154]

(11) Kahlfert, Frank: Fuzzy-Logik und Fuzzy-Control, Friedr. Vieweg & Sohn, Braunschweig 1993
(12) Kruse/Gebhardt/Klawonn, a.a.O., Seite 161ff
(13) WinRosa, M.I.T.-GmbH, Aachen
(14) Kosko, Bart; Dickerson, Julie A.: Function approximation with additive fuzzy systems. Erschienen in [CA] Yager, Ronald R. (ed.) et al., Theoretical aspects of fuzzy control. Proceedings of the 2nd IEEE conference on fuzzy systems, March 1993, San Francisco, CA, USA. New York, NY: Wiley. 313-347 (1995). [ISBN 0-471-02079-6/hbk]
(15) Brockhaus Enzyklopädie, Bd. 15., Seite 498, 19. Auflage, F.A.Brockhaus GmbH, Mannheim, 1991
(16) Minsky, Papert: Perceptrons, MIT Press, Cambridge, Massachusetts, 1969
(17) H.N.Mhaskar, C.A.Micchelli, Approximatio by superposition of sigmoidal and radial functions, Advances in Appl. Math. 13, 1992, 350-373

* Dr. Nikolaus Petry hat 1997 bei Prof. Dr. Volker Steinmetz im Gebiet Fuzzy - Statistik promoviert. Zur Zeit ist er tätig als wissenschaftlicher Mitarbeiter im DFG-Projekt "Fuzzy-Schmerzensgeld", Forschungsschwerpunkt ist die Modellierung des Schmerzensgeldes mit Hilfe von Fuzzy-Logik

[online seit: 17.12.99]

Zitiervorschlag: Autor, Titel, JurPC Web-Dok., Abs.

Zitiervorschlag: Petry, Nikolaus, Fuzzy Logik und neuronale Netze - JurPC-Web-Dok. 0187/1999

Nikolaus Petry *

Fuzzy Logik und neuronale Netze

JurPC Web-Dok. 187/1999, Abs. 1 - 54

Einleitung

Fuzzy Logik

Fuzzy-Mengen

Definition einer Fuzzy-Menge

Operationen auf Fuzzy-Mengen

Fuzzy-Inferenz

Prinzipien der Fuzzy-Inferenz

Berechenbare Funktionen

Neuronale Netze

Funktionsweise des Gehirns

Prinzipien (künstlicher) neuronaler Netze

Künstliche Neuronen

Netzwerktypen

Aufbau eines dreischichtigen neuronalen Feed-Forward-Netzes

Backpropagation

Ein kleines Beispiel

Berechenbare Funktionen

Zusammenführung

Informationsquellen im Internet

Fußnoten:

Klassiker