Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

12. Lernen

Für alle im vorigen Abschnitt beschriebenen Anwendungsmodi kann das ISSM anhand von Beispielen trainiert werden. Für Klassifizierung und Segmentierung wurden Ergebnisse bereits im letzten Abschnitt vorgestellt. In diesem Abschnitt sollen für den Vergleichsmodus anhand von Versuchsergebnissen die Lernverfahren, Netzarchitekturen, Systemparameter und möglichen Interpretationen der gelernten Gewichte behandelt werden.

12.1. Effektivität der Lernverfahren

Als Lernverfahren wurden Standard-Backpropagation mit Momentum und RPROP eingesetzt. Dabei zeigte sich, daß RPROP auch bei fuzzy-logischen neuronalen Netzen deutlich effektiver ist. Dies war nach den Ergebnissen anderer Untersuchungen für MLPs zu erwarten.¹

¹ Vgl. Riedmiller und Braun (1993a).

Ein Vergleich des Trainingserfolgs von Backpropagation mit Momentum und RPROP mit dem ISSM ist in Abbildung 12.1 dargestellt. Dabei wurden die gleiche Trainingsmenge und gleiche Einstellungen der Parameter für das iterative Training verwendet. Der Unterschied von 34 zu 1761 Zyklen zeigt die dramatische Effektivitätssteigerung durch RPROP.

Weiterhin ist problematisch, daß es mit Standard-Backpropagation nicht zuverlässig möglich ist, ein relatives Trainingsbeispiel bei semilinearer Aktivierung auf einen Fehler von 0 zu trainieren. Da mit kleinerem Fehler auch die Gewichtsänderungen kleiner werden und man den Zielwert im allgemeinen nicht genau erreicht, kann bei kleinen Lernraten der Fall eintreten, daß der Fehler zwar klein, aber nicht 0 wird. Große Lernraten schaffen nur bedingt Abhilfe, da sie zu einer Oszillation führen können, die den Trainingserfolg ganz verhindert. Man kann zwar einen etwas höheren -Wert verwenden, aber dadurch werden die Relationen zwischen den Beispielen verschoben. Es ist zwar möglich, daß nach dem Training die relativen Bewertungen stimmen, die -Abstände werden dann aber im allgemeinen nicht eingehalten, d.h. die verbesserte Generalisierung durch den -Abstand wird nicht erreicht. Dieser Effekt tritt bei RPROP nicht auf, weil der Betrag der partiellen Ableitungen nicht berücksichtigt wird, sondern nur das Vorzeichen. Dadurch wird effektiv trainiert, bis der Fehler 0 ist. Um Backpropagation überhaupt benutzen zu können, wird hier beim Training eine kleine Konstante auf den Fehlerwert addiert, wenn der Fehler größer als 0 war. Dadurch wird es möglich, einen Fehler von 0 mit Backpropagation zu erreichen. Da das Training mit RPROP sehr viel effektiver ist, wurde in allen weiteren hier beschriebenen Versuchen RPROP benutzt.