Lernende Systeme Teil I Symbolische Methoden
Michael M. Richter und Oliver Wendel Kaiserslautern
Seite 2
Lernende Sy...
51 downloads
1121 Views
445KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Lernende Systeme Teil I Symbolische Methoden
Michael M. Richter und Oliver Wendel Kaiserslautern
Seite 2
Lernende Systeme
Inhalt
0.
Vorwort........................................................ 5
1.
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.
Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2.1. Die subsymbolische Phase (1950-1965) .......................... 11 2.2. Die symbolische Phase (1962-1975) .............................. 12 2.3. Wissensintensive Lernsysteme (1976-1988) ..................... 13 2.4. Integrierte Systeme (1988 -...?).................................... 14
3.
Begriffsbestimmungen und erste Einteilungen . . . . . . . . . . . . 1 5 3.1. Der Begriff Lernen in der Psychologie ............................ 15 3.2. Der Begriff Lernen in der Kybernetik ............................. 16 3.3. Der Begriff Maschinelles Lernen in der KI ....................... 17 3.4. Klassifikation lernender Systeme .................................. 20 3.4.1. Das Szenario .............................................. 20 3.4.2. Die Rollen des Lehrers................................... 22 3.4.3. Lernen ohne Lehrer....................................... 24 3.4.4. Lerngegenstand und Lernvorgang...................... 25 3.4.5. Die Umwelt................................................ 28
4.
Ein formales Lernmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0 4.1. Der informelle Zugang............................................... 30 4.2. Der formale Ansatz................................................... 33
5.
Die Wissensbasis R..........................................3 8 5.1. Die Form der Wissensbasis......................................... 39 5.1.1. Merkmalsvektoren........................................ 39 5.1.2. Parameter in algebraischen Ausdrücken ............... 40 5.1.3. Weitere Repräsentationsformalismen................... 40 5.2. Inhalt der Wissensbasis ............................................. 42 5.3. Das Lernziel........................................................... 43 5.3.1. Klassifikatoren und Lernen von Klassifikationen . . . . 44 5.3.2. Konzeptlernen............................................. 45 5.3.3. Begriffliches Gruppieren ................................ 47 5.3.4. Qualitatives und quantitatives Entdecken .............. 48 5.3.5. Lernen von Problemlösungen........................... 49 5.3.6. Lernen von Grammatiken................................ 51 5.4. Das Domänenwissen................................................. 51 5.5. Das Metawissen ...................................................... 52 5.6. Die Hypothesen ...................................................... 53 5.7. Wechsel der Repräsentation......................................... 53
Lernende Systeme
Seite 3
6.
Die 6.1. 6.2. 6.3.
Lernfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 Korrektheit und Vertrauen .......................................... 56 Lernmächtigkeit, Korrektheit und Vertrauen ..................... 57 Nichtmonotonie und Vergessen.................................... 58
7.
Die Erfahrungen und der Erfahrungsgenerator............ 6 1 7.1. Die Erfahrungen...................................................... 61 7.1.1. Art der Erfahrungen...................................... 61 7.1.2. Qualität der Erfahrungen................................. 62 7.1.3. Abstraktionsgrad der Erfahrungen ..................... 63 7.1.4. Repräsentationsformalismus ............................ 64 7.2. Der Erfahrungsgenerator............................................ 64 7.2.1. Inkrementalität ............................................ 64 7.2.2. Externer Lehrer und Orakel ............................. 66
8.
Die Evaluationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 8 8.1. Kontrollstrategie ..................................................... 68 8.2. Erfolgskriterium...................................................... 68 8.2.1. Korrektheit ................................................ 69 8.2.2. Effizienz ................................................... 69 8.2.3. Abstraktionsebene........................................ 70 8.3. Lehrer und Orakel.................................................... 70
9.
Die Umwelt und das Performanzelement . . . . . . . . . . . . . . . . . . 7 1 9.1. Der Lehrer ............................................................ 71 9.2. Das Performanzelement ............................................. 72
1 0 . Synthetische Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 10.1. Lernen eines Konzeptes............................................ 75 10.1.1. Antiunifikation............................................ 77 10.1.2. Die Versionsraummethode .............................. 81 10.2. Lernen von mehreren Konzepten ................................. 87 10.2.1. Die Star-Methode und der AQ-Algorithmus........... 88 10.2.2. TDIDT-Algorithmen ..................................... 90 10.2.3. Der CN2-Algorithmus ................................... 97 1 1 . Analytische Lernverfahren................................. 1 0 2 11.1. Erklärungsbasiertes Lernen....................................... 103 1 2 . Analoge Lernverfahren.....................................1 0 9 12.1. Allgemeines......................................................... 109 12.2. Ähnlichkeit.......................................................... 111 12.2.1. Grundlegende Begriffe ................................. 111 12.2.2. Einige Ähnlichkeitsmaße ............................... 117 12.2.2. Taxonomien.............................................. 122 12.3. Analogieschlüsse und analoges Lernen ......................... 124 12.3.1. Transformational Analogy.............................. 124 12.3.2. Derivational Analogy.................................... 126 12.4. Fallbasiertes Schließen ............................................ 128 12.4.1. Allgemeines .............................................. 128 12.4.2. Fallbasiertes Schließen und Klassifikation ........... 130 12.4.3. Der euklidische Fall ..................................... 131 12.4.4. Das PATDEX - System................................. 136 12.4.4.1. Allgemeine Beschreibung ................. 136
Seite 4
Lernende Systeme
12.4.4.2. Grundbegriffe der Diagnostik.............137 12.4.4.3. Erfahrungswissen ..........................138 12.4.4.4. Ähnlichkeit ..................................140 12.4.4.5. Die Vorgehensweise........................142 12.4.5. PATDEX/2 ...............................................145 12.4.6. Ein erster Vergleich von fallbasiertem und induktivem7Schließen ..................................148 1 3 . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 5 0
Lernende Systeme
0.
Seite 5
Vorwort
Diese Ausarbeitung ist der erste Teil eines Manuskriptes zur Vorlesung "Lernende Systeme" im Wintersemester 1990/91, er wurde mehrfach aktualisiert. Er befaßt sich mit dem Maschinellen Lernen, wie es als Zweig der Künstlichen Intelligenz entwickelt wurde. Der zweite, unabhängige Teil trägt den Titel "Konnektionismus" und behandelt die Thematik der neuronalen Netze, deren Schwerpunkt ebenfalls im Bereich des Lernens liegt. Naturgemäß haben beide Teile einen recht vorläufigen Charakter. In vieler Hinsicht besteht der Unterschied zwischen der "symbolischen" Sicht des traditionellen Maschinellen Lernens und der "subsymbolischen" Sicht des Konnektionismus darin, daß dieselben Grundideen auf verschiedene Weise realisiert oder implementiert werden. Es bleibt ferner festzuhalten, daß in beiden Fällen oft auch Begriffe und Algorithmen entstanden, die auch in anderen Teilen der Informatik und Mathematik, zum Teil in anderer Terminologie, eine Rolle spielen. Diese Ausarbeitung beruht ganz wesentlich auf der Arbeit [Wendel 90] von Oliver Wendel. Dort wurde zum einen der formale Ansatz entwickelt, nach dem die Lernverfahren diskutiert und eingeordnet werden. Größere Teile sind auch wörtlich aus dieser Arbeit übernommen worden, ohne daß dies jeweils kenntlich gemacht wurde. Ein Ziel dieses Manuskriptes ist es, die Vielfalt und Breite des Gebietes deutlich zu machen; oft wird ihr die Behandlung mit wenigen Schlagwörtern nicht gerecht. Es wird auch auf viele Entwicklungen hingewiesen, die selbst nicht oder nicht ausführlich behandelt werden. Dabei stand ihre systematische Einordnung im Vordergrund. Wer sich zuerst an Beispielalgorithmen orientieren möchte, kann frühzeitig in die Kapitel 10, 11 und 12 hereinschauen. Die wichtigsten sonstigen Literaturquellen, aus denen auch Beispiele entnommen wurden, sind [Michalski, Carbonell, Mitchell 86] und [Cohen, Feigenbaum 82].
Seite 6
1.
Lernende Systeme
Einführung
Der umgangssprachliche Begriff des Lernens ist wie die meisten solcher Konzepte sehr allgemein und umfaßt eine große Vielfalt von Ausprägungen, die je nach Lage und Intention ganz verschieden ausfallen können. Traditionell hat sich mit dem Lernbegriff die Pädagogik und die Psychologie beschäftigt, bis in den letzten Jahrzehnten auch die Kognitionstheorie Beiträge lieferte. Bei allen Variationen des Lernbegriffes gab es jedoch stets eine konstante Größe, ohne die Lernen nicht denkbar war: Es muß wenigstens ein Schüler vorhanden sein. Dieser und dazu das "Etwas", welches gelernt wird, scheinen aber wohl das einzige wiederkehrende Element zu sein. Der Schüler ist herkömmlich ein Mensch. Das Aufkommen intelligenter Systeme führte zu dem Gedanken, daß auch künstliche Gebilde lernen können, was wiederum der Ausgangspunkt des Maschinellen Lernens ist. Wenn wir unter einem "System" ganz allgemein etwas verstehen wollen, in dem in einer bestimmten wohldefinierten Sprache gewisse Einträge stehen, die sowohl extern manipuliert werden können (durch Löschen und Modifizieren alter Einträge, durch Hinzufügen neuer Einträge) als auch auf dieselbe Weise intern mit Mitteln des Systems verändert werden können (dies nennt man im allgemeinen einen Inferenzprozeß), so kann man sich also fragen, ob und wann ein solches System die Fähigkeit zum Lernen besitzt. Eine nicht ganz befriedigende Antwort wäre, daß eine jede der soeben erwähnten Manipulationen einen Lernprozeß beinhalten. Hier würde man sich etwa auf den Standpunkt stellen, daß ein Eintrag einer Null an einer bestimmten Stelle bedeutet, daß das System eben diese Null "gelernt" hat. Man ist deshalb unzufrieden mit einer solchen Auslegung des Lernbegriffes, weil man sich hierunter doch eine höhere intellektuelle Tätigkeit vorstellt und nicht ein einfaches Memorieren von Daten. Nun ist auch wiederum nicht ganz klar, was eine "höhere intellektuelle Fähigkeit" ist, aber jedenfalls verlangt man, daß sie auch im logischen Sinne von "höherer Stufe" ist. Es muß sich also wenigstens einmal um Sachverhalte handeln, die über andere Daten oder Sachverhalte oder Methoden oder Sachverhalte von Sachverhalten usw. reden. Ganz unberührt hiervon bleibt, daß solche höheren Sachverhalte auch selber wieder als Daten repräsentiert werden können oder müssen. Werden solche Sachverhalte dem System von außen eingegeben, so könnte man sagen, daß es diese "gelehrt" wurde, hat es dieselben selbst inferiert, so könnte man von einem Erkenntnisprozeß sprechen. Aus unserer menschlichen Erfahrung wissen wir, daß Lernen zum geringsten Teil aus bloßem Memorieren besteht, ja daß das Lernen sogar um so ineffektiver wird, je mehr letzteres überhand nimmt. Der größere Teil des Lernprozesses besteht vielmehr in dem Erlernen von adäquaten Wissensstrukturen, welches in der Regel zu Anfang nur durch kleinere Beispiele aufgefüllt wird. Die pädagogische Erfahrung lehrt dabei, daß der Term "adäquat" verschieden interpretiert werden kann und nicht nur von den gerade behandelten Details des Wissens abhängt. Maßgebend ist vielmehr die Gesamtfähigkeit, die das System am Ende des Lernprozesses haben soll; diese wird im allgemeinen in einem sogenannten Lerngegenstand und Lernziel zusammengefaßt. Verschiedene Lernziele begegnen uns im Studium häufig, ein Mediziner etwa lernt Physik anders als ein Mathematiker. Charakteristisch ist hierbei, daß umfassendere Lernziele mehr Strukturierung und vor allem höhere Abstraktionsstu-
Lernende Systeme
Seite 7
fen verlangen als weniger anspruchsvolle Lernziele. Dies ist eine klare Folge dessen, daß ein hochgestecktes Lernziel die Anwendung des erworbenen Wissens in vielen und eventuell schwierig zu behandelnden Situationen verlangt. Kommen hingegen nur ein oder zwei Beispiele in Frage, so lernt man einfacher diese beiden Beispiele auswendig als daß man versucht, das dahinterstehende Prinzip zu begreifen. Ein System externen Belehrungen zugänglich zu machen würde also bedeuten, es zunächst mit denjenigen Strukturen zu versehen, die nachher die intendierte Benutzung und Verwendung des einzugebenden Wissens in optimaler Weise ermöglichen. Diese Sicht vereinfacht aber die Lage auf eine etwas zu simple Weise. Es ist nämlich im Allgemeinen so, daß Lernziele häufig nicht von Anfang an feststehen, sondern schrittweise erweitert werden. Das hat dann zur Folge, daß einzelne Beispiele später durch Prinzipien erklärt werden und diese wieder gegebenenfalls durch höhere Prinzipien usw. Möglicherweise müssen dabei sogar Erklärungen revidiert werden. Wir wollen hier den Fall, daß Grundprinzipien in fundamentaler Weise erschüttert werden, außer Acht lassen. Vom Standpunkt des Knowledge Engineering bedeutet dies die Errichtung eines Systems von flexiblen Strukturen auf verschiedenen Abstraktionsgraden, welche sich sowohl horizontal (d.h. auf derselben Ebene) als auch vertikal (d.h. durch Einführung von höheren oder auch Zwischenschichten) erweitern lassen. Das Eingeben der einzelnen Daten selber, d.h. also das reine Memorieren, wird dann eine Tätigkeit von untergeordneter Bedeutung. Mit der Ausnahme einiger weniger experimenteller Programme, die im Rahmen von Forschungsarbeiten auf dem Gebiet des Maschinellen Lernens entwickelt wurden, verfügen bisherige KI-Systeme über sehr beschränkte bzw. gar keine Lernfähigkeiten, was bedeutet, daß das gesamte nötige Wissen in die Systeme eben doch "hineinprogrammiert" werden muß. Wurden dabei Fehler gemacht, können diese Systeme die Fehler bei Erkennung etwaiger Inkonsistenzen nicht selbständig korrigieren. Sie sind auch nicht in der Lage, ihr Verhalten über einen gewissen Zeitraum hinweg durch gemachte Erfahrungen zu verbessern oder neues Wissen über das Anwendungsgebiet selbständig zu erwerben. Sie können auch nur sehr eingeschränkt die verwendeten Algorithmen automatisch an sich ändernde Bedingungen adaptieren, neue Abstraktionen formulieren oder neue Problemlösungen durch Analogieschlüsse oder durch zielgerichtetes Experimentieren und Explorieren entdecken. Wegen der engen Verbindung von Lernfähigkeit und intelligentem Verhalten und wegen der Vorstellung, daß die Künstliche Intelligenz Einblicke in menschliches intelligentes Verhalten gewährt und Methoden und Techniken liefert, dieses Verhalten nachzubilden, postulieren viele Wissenschaftler das Verstehen von Lernvorgängen und die Konstruktion lernfähiger Computersysteme als neues, zentrales Ziel der Künstlichen - Intelligenz - Forschung. Die auftretende Frage nach der Realisierbarkeit eines solchen Vorhabens muß beantwortet werden und dies wirft sofort das Problem auf, allgemeine Kriterien zu formulieren, die bestimmen, wann ein Computersystem oder eine Maschine denn nun eigentlich als intelligent oder als lernfähig bezeichnet werden darf und wann ein solches Prädikat nicht gerechtfertigt ist. Allen verschiedenartigen Vorstellungen in dieser Richtung ist gemeinsam, daß Lernen den Zustand eines Systems verändert — sei dieses System nun eine Maschine oder ein Mensch — und zwar so ändert, daß das System nach dem Lernen "besser" geworden ist.
Seite 8
Lernende Systeme
Neben diesen grundsätzlichen Fragestellungen gibt es auch praktische Motive für die Entwicklung von Lernmethoden. Die Entwicklung von Methoden und Techniken, die es Computersystemen ermöglichen sollen, selbständig neues Wissen und neue Fertigkeiten zu erwerben ist von großem kommerziellen Interesse. Die Akquisition und kohärente Einbettung des Expertenwissens in die Wissensbasen von Expertensystemen stellt heutzutage immer noch einen Flaschenhals dar, den zu überwinden mit der Hilfe lernfähiger Systeme versucht wird. An anderen Stellen ist explizit formuliertes Wissen nicht vorhanden; an manchen Stellen ist nicht klar, ob sich das Wissen überhaupt in einfacher Form explizit formulieren läßt. Eine typische Wissensform dieser Art ist "Wissen", das Menschen oder Tiere im Laufe der Evolutionsentwicklung erworben haben. Hier können Lernverfahren unter Umständen das einzige Mittel zur Wissensakquisition sein. Ein Beispiel dafür ist etwa, wenn man einem Roboter das Gehen oder Sprechen beibringen will. Wir kennen längst nicht alle Prinzipien, die hinter diesen Fähigkeiten stecken, aber wir könnten sehr wohl Trainingspartner in einem Lernprozeß sein. Auf dem Gebiet des Maschinellen Lernens (Machine Learning, abgekürzt: ML) hat es in den letzten Jahren einige Ansätze zur vereinheitlichenden Sichtweise von verschiedenen ML-Systemen und Verfahren gegeben, die den meist ad-hoc entstandenen implementierten Systemen eine einheitliche und genügend abstrakte Terminologie liefern sollten, um sie deskriptiven, analytischen und auch vergleichenden Betrachtungen zugänglich zu machen. Viele dieser sogenannten Frameworks oder Unifying Views schränkten sich aber letztendlich doch nur auf eine bestimmte Familie von Lernsystemen oder -methoden ein, für die sie dann einen einheitlichen Betrachtungsrahmen darstellten, so daß der mit den beiden Begriffen intendierte Anspruch stark relativiert werden mußte. Aufgrund ständigen Wachstums und zunehmender Diversifizierung ergibt sich die Notwendigkeit eines allgemeinen und klaren Beschreibungsrahmens. Die Beschreibungen können auf drei Ebenen erfolgen; 1)
Die kognitive oder informelle Ebene: Hier wird der Sachverhalt in Termini der Umgangssprache beschrieben. Auf dieser Ebene kann man z.B. schon sagen, ob mit oder ohne Lehrer gelernt wird. Man sollte aber nicht in das Extrem verfallen, auf dieser Ebene unnötige Definitionen zu geben (z.B. was Wissen ist).
2)
Die formale Ebene: Hier haben die Definitionen in einer formal-logischen Weise zu erfolgen. Das bedeutet insbesondere, daß ein abgeschlossener Begriffskomplex vorliegt, der nicht je nach Problemlage durch ständig neue Begriffe und Methoden erweitert werden darf.
3)
Die Ebene der Implementierung und Datenstrukturen. Hier müssen die Begriffe und Vorstellungen der formalen Ebene in operative, auf heutigen Rechnern ausführbare Methoden umgesetzt werden.
Lernende Systeme
Seite 9
Kognitive Ebene
Repr sentationsebene
Implementationsebene
Jede Ebene kann als Realisierung der nächst höheren Ebene angesehen werden und für jede Ebene kann es mehrere Realisierungen auf den tieferen Ebenen geben. Im Bereich des ML ist noch viel Arbeit auf der obersten Ebene zu leisten. Dazu gehört erst einmal, die für die Beurteilung und den Vergleich von ML-Systemen relevanten Eigenschaften solcher Systeme explizit zu machen. Der Ansatz soll dann eine Menge von Klassifikationsdimensionen liefern, mit denen Lernsysteme beschrieben und klassifiziert werden können. Bereiche in dem durch diese Dimensionen aufgespannten Beschreibungsraum spiegeln konkrete Eigenschaften oder Komponenten von ML-Systemen wider. Allgemein kann man drei Ansätze zur Untersuchung von ML-Systemen unterscheiden: empirische, analytische und deskriptive Untersuchungen. Sie lassen sich teils auf der kognitiven und teils auf der formalen Ebene ansiedeln; es bestehen auch fließende Übergänge zwischen ihnen. 1) Empirische Untersuchungen. Mit Hilfe empirischer Untersuchungen wird allgemein zunächst eine möglichst detaillierte Beschreibung der Objekte und Zusammenhänge des betreffenden Untersuchungsbereichs angestrebt. Bei der Untersuchung von ML-Systemen werden daher spezifische Aufgaben und Anforderungen an ein spezifisches Lernsystem definiert und das Verhalten und die Performanz dieses spezifischen Systems bei der Erfüllung der vorgegebenen spezifischen Aufgabe beobachtet. Gelegentlich werden auch verschiedene Systeme anhand der empirisch ermittelten Daten verglichen. Dies ist bei weitem die häufigste Art der Untersuchung die in der Literatur zu finden ist und viele Aufgaben und Anwendungsbereiche, anhand derer implementierte Systeme untersucht wurden, sind in der Vergangenheit identifiziert worden. Empirische Erkenntnisse ergeben sich also als Resultat von Beobachtung und experimenteller Untersuchung von ML-Systemen. Die so gewonnenen Ergebnisse konstatieren aber lediglich systemspezifische Sachverhalte und lassen nur in seltenen Fällen direkte Vergleiche zwischen verschiedenen Systemen und Methoden zu. Es wird häufig nicht klar, was in den einzelnen Systemen für welchen positiven oder negativen Effekt verantwortlich war, auch findet man Beschreibungselemente aus allen drei Ebenen in bunter Reihe durcheinander. 2)Analytische Untersuchungen. Analytische Untersuchungen lassen sich nochmals in formale und informale Ansätze aufteilen. Formale analytische Untersuchungen definieren zunächst die Lernaufgabe bzw. das Lernziel des zu untersuchenden Systems und analysieren dann, ob ein Algorithmus existiert, der der Aufgabe gerecht wird oder sie analysieren einen bekannten Lernalgorithmus hinsichtlich seiner Berechnungskomplexi-
Seite 10
Lernende Systeme
tät, seiner Korrektheitsvoraussetzungen oder seiner Korrektheit. In einigen Fällen lassen sich schon strenge mathematische Beweise führen. Informale analytische Methoden versuchen allgemeine Erklärungen beobachteter Phänomene zu geben und allgemeine Prinzipien und Techniken aus den empirischen Resultaten zu extrahieren. Diese Vorgehensweise erwies sich teilweise als recht erfolglos. Die vorgeschlagenen, angeblich Gültigkeit besitzenden Prinzipien wie "Modellgetriebene Lernsysteme sind gegen Rauschen unempfindlicher als datengetriebene Lernsysteme" oder "Die Schwierigkeit einer Lernaufgabe wächst mit der Zahl möglicher Hypothesen" sind ungenau formuliert, oft Allgemeinplätze oder sogar unter gewissen Umständen nachweisbar falsch. Die Vorteile des informalen analytischen Ansatzes liegen in der Identifizierung von pragmatischen Aspekten des Untersuchungsgegenstands "Lernsystem", wie etwa Effizienz des Verfahrens und Relevanz der Domänen-Theorie, sowie der genaueren Beschreibung von aus empirischen Untersuchungen gewonnenen Erkenntnissen. Ein wesentlicher daraus resultierender Vorteil ist die Möglichkeit des Systemvergleichs. Informale analytische Untersuchungen finden sich in [Bundy, Silver, Plummer 85], [Lenat, Brown 84] und [Dietterich, Michalski 81]. 3)Deskriptive Untersuchungen. Deskriptive Untersuchungen erzeugen einen allgemeinen Rahmen — der wiederum formal oder informal sein kann — zur Beschreibung von ML-Systemen. Ein solcher Ansatz strebt eine einheitliche und klare Standardterminologie auf hinreichend abstrakter Ebene statt implementierungsabhängiger Beschreibungen an. Die einheitliche Beschreibungssprache erlaubt auch die einheitliche Beschreibung verschiedener Systeme. Wichtige Beziehungen zwischen verschiedenen Systemen, die durch Unterschiede auf der implementierungsnahen Ebene verborgen bleiben, können somit zum Vorschein kommen. Ein Problem ist allerdings die Vielfalt und Diversität existierender ML-Systeme. Viele sogenannte Ansätze beschränken sich daher auf bestimmte Typen und Familien von ML-Systemen (z.B. Konzeptlernsysteme), innerhalb derer sie eine vereinheitlichende Sicht erlauben. Auf andere Systeme lassen sie sich dann oft jedoch nicht "natürlich" anwenden. Einige Ansätze greifen auch lediglich bestimmte Aspekte des Lernens heraus. Deskriptive formale Ansätze werden z.B. in [Haralick 78], [Haralick, Kartus 78] und [Holland 75] vorgestellt. Deskriptive informale Ansätze sind in u.a. [Barto, Sutton 81], [Buchanan, Mitchell, Smith, Johnson 77], [Michalski 83] und [Mitchell 82] zu finden. Die Lernmodelle auf der kognitiven Ebene können auf sehr verschiedene Weisen formalisiert und implementiert werden. Eine Möglichkeit ist durch die neuronalen Netze und konnektionistischen Ansätze gegeben. Sie werden in diesem Teil der Ausarbeitung nicht weiter berücksichtigt, weil sie ausführlich in einem eigenen Teil erörtert werden.
Lernende Systeme
2.
Seite 11
Historische Entwicklung
Maschinelles Lernen als Forschungsgebiet innerhalb der KI und ihren Vorläufern hat eine bereits relativ lange Geschichte. Seit den Ursprüngen in der Kybernetik und dem eigentlichen Beginn Anfang der sechziger Jahre erfuhr es über die Jahre hinweg bis heute eine verschieden starke Forschungsintensität und eine Verschiebung in der Akzentsetzung. Es lassen sich vier Hauptphasen identifizieren: 1)
Die subsymbolische Phase (1950-1965): Neuronale Modellierung und Techniken aus der Entscheidungstheorie
2)
Die symbolische Phase (1962-1975): Symbolisches Konzeptlernen
3)
Wissensintensive Lernsysteme (1976-1988)
4)
Integrierte Lernsysteme (1988-...?)
2 . 1 . Die subsymbolische Phase (1950-1965) Haupterkennungsmerkmal der sehr optimistisch und mit viel Euphorie begonnenen subsymbolischen Phase der ML-Forschung war das Interesse, Lernsysteme für einen allgemeinen Verwendungszweck zu konstruieren, die gar keine oder nur sehr wenig Initialstruktur und problembezogenes Initialwissen besaßen und die durch eine Menge auf sie von außen einwirkender Stimuli, eine Möglichkeit der Rückkopplung und durch genügend Freiheitsgrade zur Selbstmodifikation ihrer Struktur sich selbst in Richtung auf ein Optimum reorganisieren und adaptieren würden. Hauptergebnisse dieser Richtung, deren Wurzeln in der Kybernetik lagen, war die Konstruktion einer Vielzahl von auf neuronalen Modellen basierenden Maschinen mit zufälliger oder teilweise zufälliger Initialstruktur. Systeme dieser Art, deren Lernaktivität darin bestand, ihre Struktur sukzessive zu verändern, wurden als neuronale Netze oder selbstorganisierende Systeme bezeichnet. Strukturveränderungen konstituierten sich dabei aus inkrementellen Änderungen der Wahrscheinlichkeiten, daß die Neuronalen Einheiten — typischerweise Schwellwertelemente — ein Signal weiterleiten oder nicht. Wegen der recht primitiven Computertechnologie zu jener Zeit waren die meisten Arbeiten entweder theoretischer Natur oder beschäftigten sich mit der Konstruktion spezieller experimenteller Hardwaresysteme, wie z.B. dem Perceptron (dem Analogon eines Neurons (vgl. [Rosenblatt 58]), dem Pandemonium (vgl. [Selfridge 59]) und Adelaine (vgl. [Widrow 62]). Die Grundlage für die Arbeiten auf diesem Gebiet legten in den vierziger Jahren Rashevsky im Bereich der mathematischen Biophysik (vgl. [Rashevsky 48]) sowie McCulloch und Pitts, die die Anwendbarkeit der symbolischen Logik zur Modellierung von Aktivitäten des Nervensystems beschrieben (vgl. [McCulloch, Pitts 43]). Weitere Arbeiten in dieser Richtung sind in [Rosenblatt 62], [Yovits, Jacobi, Goldstein 62], [Culberson 63] und [Minsky, Papert 69] zu finden.
Seite 12
Lernende Systeme
Ein den neuronalen Netzen verwandtes Forschungsgebiet, das evolutionäre Lernen, untersuchte die Simulation von Evolutionsprozessen, die durch zufällige Mutation und natürliche Selektion Systeme mit intelligentem Verhalten generieren wollte. Siehe hierzu unter anderem [Friedberg 58], [Friedberg, Dunham, North 59] und für neuere Resultate in dieser Richtung [Holland 80]. Parallel zu Forschungen über neuronale Modellierung und Techniken der Entscheidungstheorie entwickelten Wissenschaftler aus dem Gebiet der Kontrolltheorie adaptive Kontrollsysteme, die automatisch ihre Parameter ändern und sich somit veränderten oder gestörten Umgebungsbedingungen anpassen konnten um insgesamt ein stabiles Verhalten zu zeigen. Diese Techniken griffen wiederum auf die lange Entwicklungsgeschichte der Regelungstechnik zurück. Aus dem Forschungsansatz adaptives Lernen spalteten sich die neuen Disziplinen der Mustererkennung und der Kontrolltheorie ab, die einen entscheidungstheoretischen Ansatz für Maschinelles Lernen begründeten und (bisher) nicht mehr zur KI gezählt werden. Lernen wird hierbei gleichgesetzt mit dem Erwerb linearer, polynomialer oder verwandter Formen von Diskriminierungsfunktionen für eine gegebene Menge von Trainingsinstanzen (vgl. [Nilsson 65], [Koford, Groner 66], [Uhr 66], [Highleyman 67]). Das bekannteste und erfolgreichste Lernsystem, das diese Technik benutzte, ist Samuels Dame-Programm Checkers [Samuel 59], [Samuel 63]). Es sei hier hervorgehoben, daß eine Vielzahl mathematischer Verfahren sich unter einer anderen Terminologie mit diesem Thema beschäftigt. Die Verfahren fallen zumeist in die Bereiche numerische lineare Algebra, Approximationstheorie und Stochastik. Die praktischen Ergebnisse der neuronalen Modellierung und des entscheidungstheoretischen Ansatzes waren relativ bescheiden und die gestellten hohen Erwartungen wurden nicht erfüllt, so daß sich die Aktivitäten auf diesem Gebiet zusehends reduzierten. Minsky und Papert zeigten in einer Studie ([Minsky,Papert 69]), daß die Perceptron-ähnlichen Lernsysteme starken prinzipiellen Beschränkungen hinsichtlich potentiell möglicher Lernerfolge unterworfen sind. Das ließ aber die spätere Erkenntnis unberücksichtigt, daß das Perceptron nur eine sehr eingeschränkte Form neuronaler Netze ist. Nichtsdestoweniger setzte sich die (vernünftige) Meinung durch, daß Methoden ohne Wissen (tabula rasa-Methoden) kein guter Ansatzpunkt zur Konstruktion lernfähiger Systeme sein können; gewisse Initialstrukturen und initiales Wissen müssen vorhanden sein, soll überhaupt etwas gelernt werden können. Weitere Hinweise über die subsymbolische Phase stehen in der Ausarbeitung "Konnektionismus".
2.2. Die symbolische Phase (1962-1975) To acquire knowledge one needs knowledge.
In den frühen sechziger Jahren wurde das Gebiet des Maschinellen Lernens stark von Arbeiten in der Psychologie und der frühen KI-Forschung beeinflußt, die sich mit wissensbasiertem Problemlösen, dem Verstehen natürlicher Sprache und Modellen des menschlichen Lernprozesses beschäftigte (vgl. [Hunt, Hovland 63], [Hunt, Marin, Stone 66], und [Sussman 75]). Der Term "symbolisch" ist eng verwandt mit dem Term "explizit" für Wissensdarstellungen in der KI. Es bedeutet, daß die Interpretation des
Lernende Systeme
Seite 13
dargestellten einzig und allein aufgrund des tatsächlich Hingeschriebenen und einer allgemeinen Sprachregelung erfolgt; sie ist nicht abhängig von impliziten Vereinbarungen. Das schließt insbesondere aus, daß die Bedeutung des Textes durch Verhaltensweisen festgelegt wird. Das Beispiel der Beherrschung des Laufens macht dies klar: Explizit oder symbolisch heißt, daß der Bewegungsapparat vollständig axiomatisiert ist; es genügt nicht, daß man einfach laufen kann. Das neue Paradigma des symbolischen Konzeptlernens verwendete anstelle statistischer oder numerischer Methoden nun logische oder GraphenstrukturRepräsentationen, ging also von der subsymbolischen auf die symbolische Ebene der Repräsentation über. (Für eine detailliertere Diskussion der Unterscheidung zwischen symbolischer und subsymbolischer Repräsentation vgl. das Skript über Konnektionismus). Die Systeme lernten nun symbolische Beschreibungen, die Wissen auf höherem Abstraktionsniveau repräsentierten und machten starke strukturelle Annahmen über die zu erwerbenden Konzepte. Beispiele für Arbeiten innerhalb dieses Paradigmas sind Forschungen über den menschlichen Erwerb von Konzepten und verschiedene angewandte Mustererkennungssysteme. Eine der einflußreichsten Arbeiten innerhalb des Paradigmas symbolischen Lernens war Winston's Arch-System zum Lernen struktureller Beschreibungen (engl arch = Torbogen; man sollte zu erkennen lernen, wann eine Konstellation von Klötzchen einen "Torbogen" darstellte, vgl. [Winston 75]). Die Auffassung, daß Lernen und Wissenserwerb ohne ein gewisses Anfangswissen nur in sehr beschränktem Maße möglich ist, war nun allgemein akzeptiert. Man hatte den zu lernenden Sachverhalt "fast" schon zu kennen. Aufgabenorientierte Systeme zum Wissenserwerb im Kontext konkreter praktischer Probleme wurden konstruiert, wie etwa in [Buchanan, Mitchell 78] das System Metadendral, das Regeln zur Erklärung von Massenspektrometer-Daten generiert, wie sie im Dendral-System (s. [Buchanan, Feigenbaum, Lederberg 71]) verwendet werden. Jedem der implementierten Lernsysteme wurde beträchtliche Aufmerksamkeit zuteil, doch war jedes für sich genommen relativ speziell, zeigte jeweils interessante Aspekte eines Problems auf, lieferte aber keine Basis für eine zusammenhängende, kohärente Theorie des Gebietes Maschinelles Lernen. Im Gegensatz dazu war eine Theorie des Beweisens in der mathematischen Logik längst etabliert und wurde zur selben Zeit bereits in große Computersysteme umgesetzt.
2.3. Wissensintensive Lernsysteme (1976-1988) "Nil posse creari de nilo." (Lucretius: ‘De rerum natura’) "Von nichts kommt nichts." (Volksmund)
Die nächste Periode in der ML-Forschung, die Mitte der siebziger Jahre ihren Anfang hatte und bis etwa in das Jahr 1988 reichte, hat als charakteristische Merkmale die Beschäftigung mit wissensintensivem Lernen und die Untersuchung verschiedener Lernstrategien. Das Interesse gilt nicht mehr primär Systemen, die isoliert einfache Konzepte aus Beispielen lernen können, sondern allgemein einem ganzen Spektrum verschiedener Lernmethoden und Lernstrategien, die meist auf umfangreichem Wissen basieren und die tiefgehend untersucht wurden. Andere Wissenschaftler konstruierten Systeme, die sehr umfangreiches Domänenwissen inkorporierten und so in
Seite 14
Lernende Systeme
der Lage waren, höhere Konzepte zu erlernen. Hier ist vor allem das Programm AM ([Lenat 83]) zu nennen. D. Lenat hat in anderem Zusammenhang (u.a. Projekt CYC) seinen Standpunkt zum Lernen klargemacht. Trägt man den Lernerfolg als Kurve in Abhängigkeit zum bereits vorhandenen Wissen auf, dann steigt diese Kurve sehr langsam an. Eine Konsequenz daraus ist, das System zuerst mit sehr viel Wissen zu versehen, ehe man überhaupt mit dem Lernen anfängt. So hat das gegenwärtig laufende CYC-Projekt (MCC; Austin/Texas) zum Ziel, das System mit etwa 100 Millionen Tatsachen aus dem Bereich des "Common Sense" zu versehen. Die Etablierung des Gebietes Maschinelles Lernen als eigenständige Forschungsrichtung manifestiert sich in der Entstehung der ersten ML-Konferenzen und ML-Workshops (1980: CMU, 1983: Univ. of Illinois, 1985: Rutgers, 1987: UC Irvine, 1988: Ann Arbor, 1989: Ithaca).
2.4. Integrierte Systeme (1988 -...?) Aktuelle Schwerpunkte der Forschungsaktivitäten sind wissensintensive, verschiedene Lernstrategien integrierende Systeme und experimentelle Vergleiche von implementierten Systemen. ML wird nicht mehr als isoliertes Gebiet angesehen, das sich mit kleinen Beispielproblemen aus eingeschränkten Domänen beschäftigt, sondern seine Relevanz für Nachbargebiete innerhalb der KI wie etwa Problemlösen, Theorembeweisen, Planen, Verarbeitung natürlicher Sprache, Robotik und Expertensysteme ist allgemein erkannt und akzeptiert. Frühere Forschungsergebnisse des Maschinellen Lernens, wie beispielsweise die Arbeiten über Perceptrons, waren lange Zeit dem Vergessen anheim gefallen, nachdem gewisse theoretische Beschränkungen (eingeschränkter Formen) dieser Methoden aufgezeigt worden waren und sind erst in jüngerer Zeit im Zusammenhang mit lernfähigen konnektionistischen Netzwerken wieder ins Licht des Interesses gerückt. Ein aktueller Forschungsschwerpunkt ist das Erklärungsbasierte Lernen ("ExplanationBased Learning", EBL).
Lernende Systeme
3.
Seite 15
Begriffsbestimmungen und erste Einteilungen
Es wurde bereits mehrfach bemerkt, daß Lernen ein sehr allgemeiner Begriff zur Bezeichnung von Vorgängen und Prozessen ist, durch die Menschen (und Computersysteme) ihr Wissen vergrößern sowie Fertigkeiten erwerben und verfeinern können. Zu diesem Begriff haben verschiedene Wissenschaftszweige etwas zu sagen. In dieser Ausarbeitung konzentrieren wir uns auf die Fragestellungen und Lösungsansätze, die für die Informatik von Bedeutung sind. Es ist jedoch zweckmäßig, den Begriff "Lernen" wenigstens ganz kurz aus der Sichtweise der Disziplinen Psychologie und Kybernetik zu betrachten. Die bei der Diskussion verwendeten Begriffe entstammen dem Sprachgebrauch der jeweiligen Disziplin und werden hier nicht formal definiert oder vereinheitlicht. Es soll lediglich eine Annäherung an den Begriff von verschiedenen Standorten aus versucht und ein Gefühl für seine Komplexität und die Diversität möglicher Sichtweisen gegeben werden. Vieles davon wird später wieder aufgegriffen und präzisiert.
3.1. Der Begriff Lernen in der Psychologie In der Psychologie ist der Begriff Lernen eine allgemeine und umfassende Bezeichnung für das Erwerben oder Verändern von Reaktionen (Verhaltensänderungen) unter bekannten oder kontrollierten Bedingungen, sofern die Veränderungen relativ überdauernd ausfallen. Lernen kann auch ohne ein bewußtes Wiedererinnern stattfinden, z.B. bei dem Erwerb motorischer Fertigkeiten und wird daher vom Gedächtnis unterschieden. Die Psychologen Hilgard und Bower definieren Lernen als einen "Prozeß, durch den eine Aktivität über ein Reagieren auf eine angetroffene Situation begründet oder verändert wird, vorausgesetzt, daß die Eigenheiten der Veränderung nicht aufgrund angeborener Reaktionstendenzen, Reifung, oder vorübergehende Organismuszustände (z.B. Ermüdung, Drogen usw.) erklärt werden können" (vgl. [Hilgard, Bower 66]). In dieser Begriffsbestimmung erscheint Lernen als eine intervenierende Variable zwischen Ereignissen wie Übung und den daraus resultierenden Verhaltensänderungen. In der psychologischen Forschung wird ein begrifflich faßbares Element oder Merkmal möglicherweise veränderlicher Größe als Variable bezeichnet, sofern es beobachtbar ist oder beobachtbar gemacht werden kann (z.B. durch ein Verfahren oder einen Test) und sofern das Ergebnis der Beobachtung im Sinne einer Messung ausfällt. Als intervenierende Variable werden solche Variable bezeichnet, die sich mit den vom Experimentator hergestellten oder vorgefundenen Bedingungen, von denen ein Geschehen (eine Reaktion) ausgeht, mit ins Spiel setzen, die jedoch hinsichtlich des Umfangs ihres Einflusses (noch) nicht kontrolliert werden konnten. Je nach theoretischer Auffassung schwanken die Definitionen des Lernens in der Psychologie zwischen rein kognitiven und neurophysiologischen Erklärungsversuchen.
Seite 16
Lernende Systeme
Kognitive Lerntheorien gehen von der Auffassung aus, daß nicht Reiz-Reaktionsfolgen, sondern kognitive Strukturen erlernt werden. Kognitive Struktur oder kognitives Schema ist eine Bezeichnung für ein durch Erfahrung und/oder Prägung und/oder Reifung zustandegekommenes Bezugssystem, in dessen Rahmen sich Entitäten und deren Relationen untereinander in bezug auf eine bestimmte Klasse von Handlungen, Erscheinungen oder Operationen darstellen lassen und die somit Ordnungstendenzen repräsentieren. Hierunter fällt z.B. Lernen als eine Umgestaltung des kognitiven Feldes. Lernen wird danach als jede situations- und umgebungsbezogene Verhaltensänderung bezeichnet, die als Folge einer individuellen Informationsverarbeitung oder Problemlösung eintritt. Die Folge ist eine verbesserte Anpassung an die bestehenden Umwelteigenschaften oder deren Änderungen. Mit der Verhaltensänderung ist auch eine Korrektur der Gedächtnisstrukturen verbunden. Lernen kann somit als Ausbildung und Korrektur individuellen Gedächtnisbesitzes definiert werden. Neurophysiologische Lerntheorien beschäftigen sich mit der Funktionsanalyse des Nervensystems bzw. den chemisch-elektrischen Grundlagen des Lernprozesses, z.B. Lernen "als Prozeß des Herausbildens relativ überdauernder neuronaler Leitungsbögen durch simultane Aktivität der den Bogen konstituierenden neuronalen Elemente, so daß mit fortschreitender Veränderung der Zellstrukturen eine schnellere Aktivierung des gesamten Bogens dann erfolgen kann, wenn nur eines der neuronalen Elemente gereizt (aktiviert) wird" (vgl. [Bugelski 56]). Die das Lernen wesentlich beeinflussenden sozialen Komponenten werden lediglich in der Psychologie und Soziologie untersucht und unter dem Begriff Sozialisierung (Sozialisation) zusammengefaßt. Der soziale Kontext in dem Lernen stattfindet und die soziale Interaktion des Lerners mit seiner Umwelt sowie andere pragmatische Aspekte spielen beim Maschinellen Lernen (noch) keine Rolle, obwohl sie unbestritten entscheidend sind für jeglichen Lernprozeß. Der Begriff Lerner wird später formal gefaßt werden. Hier soll er zunächst informal und intuitiv als "Schüler" verstanden werden.
3.2. Der Begriff Lernen in der Kybernetik Kybernetik ist eine von Norbert Wiener (mit)begründete Disziplin, die sich unter Einbeziehung der Informationstheorie mit der Analyse der Struktur von Regelungsvorgängen jedweder Art und deren Nachahmung durch (elektronische) Apparaturen beschäftigt. Dort wird ein lernfähiges System als ein System verstanden, das die Fähigkeit besitzt, sein Verhalten gegenüber der Umwelt dadurch fortgesetzt zu optimieren (z.B. ein bestimmtes Ziel zu erreichen, eine Aufgabe zu lösen u.ä.), daß es früher aufgenommene Informationen bei künftigem Verhalten berücksichtigt. Das kommt oft auch dadurch zum Ausdruck, daß das System die benötigte Information nicht auf einmal, sondern sukzessive erhält, also für ein erfolgreiches Verhalten Lernen muß. Die Kybernetik versucht vor allem, das bei lebenden Systemen in vielfältigen Formen zu beobachtende Lernverhalten durch geeignete Strukturen zu modellieren sowie technisch durch den Entwurf und die Konstruktion lernfähiger Automaten zu imitieren. In einfacheren Fällen wird der Lernprozeß eines
Lernende Systeme
Seite 17
entsprechend aufgebauten Systems dadurch realisiert, daß die Folgen von Einwirkungen auf die Umgebung fortlaufend ausgewertet werden. Das System verhält sich dabei gegenüber seiner Umwelt nach dem Versuch-IrrtumPrinzip. Höhere Formen lernfähiger Systeme besitzen ein internes Modell der Umwelt, das es gestattet, mögliche Folgen von Einwirkungen auf die Umgebung in gewissen Grenzen (die u.a. auch von der Entwicklungshöhe des Systemtyps sowie vom erreichten Stadium des jeweiligen Lernprozesses abhängen) zu testen und damit vorherzusehen. Die Abgrenzung des Begriffs des lernfähigen Systems zu anderen hochentwickelten kybernetischen Systemtypen (insbesondere zu dem des selbstregulierenden und dem des adaptiven Systems) erfolgt in der Literatur nicht einheitlich. So wird z.B. das lernfähige System aus kybernetischer Sicht oft als spezielles adaptives System oder auch als Form eines selbstorganisierenden Systems verstanden. Im Prinzip besteht in der Kybernetik ein Zwiespalt zwischen zwei Ansätzen. Auf der einen Seite haben wir den physiologisch-systemtheoretischen Zugang, dessen Ziel ist, die Funktionsweise organischer Systeme zu analysieren oder zu simulieren. Man interessiert sich dabei für technische Systeme, deren Schaltungselemente und Bauprinzipien Lebewesen nachgebildet sind. Der zweite Zugang ist mathematisch-systemtheoretischer Art. Hier wird eine Problemstellung formalisiert und für die Lösung ein Gütekriterium angegeben. Dieses Kriterium resultiert zwar aus praktischen Anwendungen, ist jedoch für sich genommen rein mathematischer Art. Die Lernalgorithmen unterliegen danach nur noch einem mathematischen Kriterium. Das trägt zwar zur Klarheit bei, birgt aber die Gefahr einer an sich unerwünschten Lösung in sich.
3.3. Der Begriff Maschinelles Lernen in der KI In der Künstlichen Intelligenz existieren ebenfalls verschiedene Definitionsversuche des Begriffs Lernen, oder, wie es da auch heißt: Maschinelles Lernen. Die jeweiligen Akzentsetzungen werden im folgenden betrachtet. Es gibt immer noch Uneinigkeit darüber, was denn nun die "bessere" (man müßte wohl sagen: "die Vorstellungen besser treffende") Definition sei. Da sehr verschiedene Dinge unter dem Begriff Lernen subsumiert werden, kann von einer "richtigen" Definition auch in dem abgeschwächten Sinne keine Rede sein. Es handelt sich in jedem Falle auch nicht um formale Definitionen im mathematischen Sinne, sondern um informelle Begriffsbestimmungen, die in etwa beschreiben sollen, was man meint. Einige solcher Versuche zur Begriffsbestimmung und Ansichten zum Maschinellen Lernen sollen jetzt vorgestellt werden. Dies geschieht ohne den Versuch, die in den jeweiligen Definitionsversuchen verwendeten Begriffe zu vereinheitlichen. Maschinelles Lernen kann zunächst als Bezeichnung für ein Forschungsgebiet und eine Forschungsrichtung innerhalb der KI gesehen werden: "ML - a subfield of AI that deals with techniques for improving the performance of a computational system. It is now distinguished from studies of human learning and from specific knowledge acquisition tools" ([Greiner, Silver, Becker, Gruninger 88]). Wie bereits erwähnt, ist es weitverbreitete und akzeptierte Ansicht, daß Lernen eine Verbesserung des status quo ante bedeutet. (Allerdings muß der Begriff Verbesserung in diesem Zusammenhang eine Präzisierung erfahren. So
Seite 18
Lernende Systeme
wird Wein beispielsweise im Laufe der Zeit auch besser, doch würde niemand auf die Idee kommen, diesen Vorgang als Lernen zu bezeichnen.) Zwei in der KI bekannte Definitionsversuche des Begriffs Maschinelles Lernen, die ebenfalls das Merkmal der Verbesserung betonen, stammen von Herbert A. Simon und Marvin Minsky. Simon sieht Lernen als adaptive Änderungen in einem System, die es in die Lage versetzen, Aufgaben des gleichen Aufgabentyps nach erfolgtem Lernvorgang besser und effizienter zu lösen: "Learning denotes changes in the system that are adaptive in the sense that they enable the system to do the same task or tasks drawn from the same population more efficiently and more effectively the next time" (s. [Simon 83]). Diese Definition nimmt also an, daß das System eine bestimmte Aufgabe zu erfüllen hat. Die Forderung nach Verbesserung der Systemperformanz als wesentlicher Effekt eines Lernvorgangs ist allgemeiner Konsens. Dennoch gibt es als Lernen bezeichenbare Vorgänge, bei denen das Verbesserungskriterium nur schwer anwendbar ist. Dies wird an den weiter unten genannten Beispielen deutlich. Minsky bleibt daher in seiner Charakterisierung wesentlich allgemeiner und fordert, daß die Änderungen lediglich "nützlich" sind: "Learning is making useful changes in the workings of our minds." (s. [Minsky 86]). Der Begriff nützlich bezieht sich dabei natürlich auch auf eine Bewertung, die irgendwann einmal festgelegt werden muß. Ein etwas eingeschränktes Verständnis des Begriffs Lernen und der damit verbundenen Vorgänge stellt die Definition von Lernen als reine Akquisition expliziten Wissens dar. Diese Sichtweise war bei Wissenschaftlern aus dem Gebiet Expertensysteme durchaus verbreitet, sie läßt aber die Tatsache, daß der Erwerb von sogenannten Fertigkeiten motorischer oder mentaler Art durch Praxis und wiederholtes Üben auch eine Form des Lernens darstellt, völlig außer Acht. Anders ausgedrückt vernachlässigt diese Sichtweise den Unterschied zwischen Wissen und Können. Es gibt Dinge, die man kann, ohne zu verstehen, wie sie funktionieren; prominente Beispiele hierfür sind die Fähigkeiten des Sprechens oder Laufens. Ebenso stellt auch die Modifikation bereits bekannten Wissens eine Form von Lernen dar, die durch diese Sichtweise keine Berücksichtigung findet. So ist wieder zu unterscheiden zwischen der Akquisition von Wissen und der Akquisition von Fertigkeiten, die beide jedoch Formen des Lernens darstellen. Einige Autoren machen keine explizite Aussage darüber, in welcher Weise die von ihnen vorgestellten Techniken Lernen konstituieren. Andere versuchen präzisere und spezifischere Definitionen zu geben, aber mit im Endeffekt sehr verschiedenen Begriffen, so daß ein Vergleich wiederum nicht möglich ist. Es lassen sich eben nur vergleichbare Dinge miteinander vergleichen. R. S. Michalski findet Simons und Minskys Definitionen zu informal und redefiniert Lernen als "Learning is constructing or modifying representations of what is being experienced" (vgl. [Michalski 86]). Folglich ist seine Konzeption des Begriffs Lernen sehr stark an der Repräsentationsproblematik orientiert und das bedeutet, daß das Ziel von Lernen die Spezifizierung der Realität und deren adäquate und akkurate Repräsentation ist. Diese Sichtweise hatte nachhaltigen Einfluß in der KI. Der zentrale Aspekt beim Lernen ist hier also die Konstruktion einer angemessenen und genauen Repräsentation der das Lernsystem einbettenden Realität bzw. Umgebung, nicht so sehr die Verbesserung der Performanz.
Lernende Systeme
Seite 19
Performanzverbesserung kann aber als positive Konsequenz eines Lernvorgangs betrachtet werden und ist meist auch der Zweck, weshalb die Repräsentation überhaupt erzeugt oder modifiziert wurde. Aber sie muß im Zusammenhang mit den Zielen des Lerners gesehen werden. Da die meisten Lernvorgänge tatsächlich auch irgendeine Performanzverbesserung bedeuten und weil es einfacher ist, durch gelerntes Wissen bedingte Performanzänderungen zu messen, als das Wissen selbst in seiner Nützlichkeit zu beurteilen, wird Lernen oft mit Performanzverbesserung gleichgesetzt. Trotzdem ist Performanzverbesserung keine unbedingte Voraussetzung für jede Art von (erfolgreichem) Lernen. Es gibt Lernsituationen, wie etwa beim Lernen ästhetischer Werte, in denen dieser Aspekt nicht von so großer Wichtigkeit ist, und auch Lernsituationen, wo sogar eine Verringerung der Performanz aus der Sicht des Lerners durchaus als Lernen im positiven Sinne verstanden werden kann. Man stelle sich einen Beamten (oder einen Repräsentanten eines beliebigen anderen Berufszweiges...) vor, der es versteht, durch immer geschickter werdendes Verhalten nach außen den Eindruck zunehmender oder beständiger Aktivität zu erwecken, im Grunde aber objektiv weniger Arbeitsleistung erbringt. Dieses Beispiel macht deutlich wie wichtig es ist, bei der Beurteilung von Performanzaspekten die Ziele des Lerners zu kennen und zu berücksichtigen. Neues Lernen und damit Entwicklung kann immer dann stattfinden, wenn das Gleichgewicht und die Stabilität zwischen interner Repräsentation der Realität und der Realität selbst gestört sind, wenn also die aktuelle kognitive Struktur oder der epistemologische Zustand des Lerners in Widerspruch gerät zu Phänomenen der Umwelt. J. Doyle rückt vom Primat der Repräsentation ab und versteht Lernen als rationale Interpretation von Erfahrung, die vernünftige Änderungen von mentalen Zuständen bewirkt: "Learning is interpreting experience by making rational changes of mental state or operation" (vgl. [Doyle 88]). Eine noch etwas andere Akzentsetzung stellt die Beschreibung von Lernen als Optimierungsprozeß eines kognitiven Systems dar, wie es etwa J. G. Wolff beschrieben hat: "Learning, by natural or artificial systems, may usefully be seen as the development and refinement of knowledge structures towards a form which is optimally efficient for the several functions to be served." (s. [Wolff 87]). Der gleiche: "Learning may be seen as a process of exploiting the facilities offered by the formalism to develop a knowledge structure which is optimally efficient for one's needs." Neben der Einsicht, daß Lernen immer auch mit Verbesserung und Optimierung eines status quo im Hinblick auf gewisse Ziele zu tun hat, wird in dieser Aussage ebenfalls die Relevanz des zugrundeliegenden Wissensrepräsentationsformalismus erkannt. Paul D. Scott und R. S. Vogt ([Scott, Vogt 83]) diskutieren zwei mögliche Sichtweisen für ML-Systeme, die sie aufgabenorientiertes Lernen nennen für Systeme, die eine wie auch immer definierte Performanzverbesserung erreichen wollen, sowie wissensorientiertes Lernen für Systeme, deren einzige Aufgabe das Ansammeln und organisierte Repräsentieren von Wissen ist. Simons Definition des Lernens als Prozeß, der die Performanz eines Systems verbessert (vgl. [Simon 83]), ist völlig im Einklang mit der erstgenannten Sichtweise. Sie sieht ein lernendes System als ein System, das ständig eine bestimmte Aufgabe ausführt, das Resultat und die Qualität der Ausführung überprüft und daraufhin entsprechende Änderungen in der internen
Seite 20
Lernende Systeme
Repräsentation vornimmt, deren Effekt eine Verbesserung der Performanz des Systems bei der Durchführung der gestellten Aufgabe sein soll. Die Definition von Lernen als Konstruktion einer geordneten Repräsentation von Erfahrungen bietet eine andere Sicht auf ein Lernsystem. Ein solches System würde durch ständige Interaktion mit seiner Umgebung die Erfahrungen aufsammeln, verwerten und so ein internes Modell dieser umgebenden Welt aufbauen.
3.4. Klassifikation lernender Systeme 3.4.1. Das Szenario Um eine Vielfalt vorkommender Systeme zu klassifizieren, gilt es, sie in ihrem Umfang inhaltlich zu erfassen und die wesentlichen Merkmale zur Klassifikation zu extrahieren. Einige der hier interessierenden Klassifikationsmerkmale liegen auf der Hand, andere sind aus den vorangegangenen Diskussionen klar geworden. Eine Methodik zur vollständigen Klassifikation würde die Auflistung von Merkmalen (Dimensionen) erfordern, durch deren jeweilige konkrete Angaben ein vorliegendes System dann in eine Kategorie eingeordnet werden könnte. Dabei ist dann besonders auf taxonomische Aspekte zu achten: Es muß klar werden, welche Form von Lernen eine Unterform welcher anderen Form ist. Dies Programm kann nicht mit letzter Konsequenz durchgeführt werden; soweit die Ausführung erfolgt, reicht sie aber für unsere Zwecke aus. Interessant ist dabei auch die Frage, inwieweit die Dimensionen voneinander abhängig oder unabhängig sind und wie sich etwaige Abhängigkeiten beschreiben lassen. Möglicherweise kann so ein n-dimensionaler Beschreibungsraum zu einem n-k-dimensionalen Raum kollabieren. Manche Merkmale sind oft nur boolesch (z.B. Lehrer vorhanden - Lehrer nicht vorhanden ), andere haben kontinuierliche Wertebereiche oder sogar Intervalle als Wertebereiche. Bisherige Versuche klassifizierten ML-Systeme entlang verschiedener Beschreibungsachsen, die recht willkürlich gewählt waren, (vgl. [Michalski 83] und [Kodratoff, Michalski 89]). Manche Autoren schlugen Ansätze für die Betrachtung bestimmter Familien von ML-Systemen vor (vgl. [Holte 86], [Langley, Gennari, Iba 87]), oder verglichen einfach empirisch zwei oder mehrere Lernalgorithmen (vgl. [Rendell 89], [Kibler, Langley 88]). Yves Kodratoff versucht dagegen in [Kodratoff 89], die Vielfalt existierender MLSysteme mittels einer umfassenden Menge detaillierter, beschreibender Merkmale fragebogenähnlich zu erfassen. Um eine Bewertungs- und Beschreibungsmethode für möglichst viele MLSysteme konstruieren zu können, müssen deren Eigenschaften so generalisiert werden, daß die relevanten strukturellen und funktionalen Komponenten offensichtlich werden. Diese Generalisierung soll im nächsten Abschnitt in Form eines allgemeinen Modells erfolgen, das die allen ML-Systemen gemeinsamen Funktionalitäten und deren Zusammenwirken in einer einheitlichen Terminologie beschreibt. Um überhaupt nützlich sein zu können, muß das Modell ein minimal allgemeines Modell sein, also zwei Anforderungen gerecht werden:
Lernende Systeme
Seite 21
•
Es muß allgemein genug sein, um möglichst viele Systeme und Verfahren zu erfassen und
•
es muß speziell genug sein, um wichtige unterscheidende Merkmale nicht zu unterschlagen.
Als erstes wird ein Szenario dargestellt, in dem die denkbaren Objekte, die bei Lernvorgängen vorkommen können (aber nicht müssen), vorgeführt werden. Es handelt sich um eine Sichtweise, die das Lernen mehr "von außen" betrachtet; das formale Modell wird noch etwas anders aussehen.
Lerner vor dem Lernvorgang
Umwelt
Lehrer
Lernvorgang Vergleich Kritik
spezielle Informationen Erfolgskriterien
Steuerung Korrektur
Rückwirkung
durch Lernen verändert
Lerner nach dem Lernvorgang
Das lernende System wird ganz allgemein ein Lerner genannt. Es wird durch den Lernvorgang verändert. Das, was verändert wird, ist der Lerngegenstand. Die Umwelt wird auch die Lernumgebung genannt. Sie kann den Lerner und den Lernvorgang beeinflussen. Die Erfolgskriterien beinhalten vor allem ein Lernziel und im allgemeinen auch Gütekriterien, die eine Bewertung des Resultates des Lernvorganges erlauben; diese sind eng mit dem Lerngegenstand verknüpft.
Seite 22
Lernende Systeme
In einer sehr groben funktionalen Sicht bewirkt der Lernvorgang eine Transformation der Zustände des Lerners: Transformation
Anfangszustand
Zielzustand
Für das Verständnis von Lernvorgängen ist die Beobachtung zentral, daß Lernen nicht nur passiv ist. Was uns beim Auswendiglernen gerade davon abhielt, es als typisches Lernverfahren zu sehen, war gerade das Fehlen jeglicher Aktivität. Worin kann nun eine solche Aktivität bestehen? In einem formalen System doch nur darin, daß das System selbst Schlußfolgerungen durchführt. In der Tat haben viele Autoren die Stärke der Inferenzmechanismen des Lerners als Klassifikationsmaß benutzt. Dies ist nun aber nicht der einzige uns interessierende Parameter, aber er spielt im folgenden doch eine gewichtige Rolle. Als nächstes werden die auftretenden Begriffe nun in einer ersten Näherung etwas genauer beschrieben und detailliert. Später wird dies noch mehr verfeinert werden. 3.4.2. Die Rollen des Lehrers Zunächst wird nun der Lehrer diskutiert. Er kann in dem Szenario auch fehlen; wenn er vorhanden ist, kann er auf verschiedene Weisen agieren. Lernen mit Lehrer
Auswendiglernen Lernen durch Instruktion
Bewertung
Korrektur
Präsentation von Beispielen
• • • •
Direktes Einsetzen von Wissen Programmierung Konstruktion Abspeichern
im Detail
im Endeffekt
Diskussion: Die ersten drei Möglichkeiten der Aktivität eines Lehrers betreffen die Art der Präsentation des Lernstoffes. Die Einteilung spiegelt den Grad und die Komplexität der zur Herleitung von Wissen nötigen Inferenz wider, die der Lerner selbst durchführen muß. Es können daher zwei Extreme unterschieden werden: Der Lerner muß überhaupt keine Inferenzen durchführen, oder der Lerner muß einen erheblichen Aufwand an inferentiellen Prozessen betreiben. Zwischen diesen beiden Extremen lassen sich nun eine Reihe von Spielarten verschiedener Lernformen identifizieren. Die zunehmende Komplexität der vom Lernsystem durchzuführenden inferentiellen Prozesse und
Lernende Systeme
Seite 23
die damit verbundene zunehmende Unabhängigkeit des Lernsystems von einem eventuell vorhandenen externen Lehrer verschiebt die Verteilung des zu leistenden Aufwandes zwischen Lernsystem und diesem Lehrer und macht dessen Vorhandensein ggf. überflüssig. 1) Auswendiglernen: Dies ist ein Beispiel für das erste Extrem. Hierbei findet keinerlei Inferenz oder irgendwie anders geartete Wissenstransformation seitens des Lerners statt. Es wird das insgesamt dem Lerner zur Verfügung stehende Wissen durch einen Eingriff des Lehrers vergrößert. Der gesamte kognitive Aufwand muß vom Lehrer geleistet werden. Der Lehrer heißt hier zweckmäßigerweise auch Programmierer. Varianten dieser Vorgehensweise sind Lernen durch Programmierung, Konstruktion oder Modifikation und Lernen durch Behalten von Fakten und Daten, in etwa vergleichbar mit dem Laden von Datenbanksystemen. Im Extremfall artet der Lehrer zu einer passiven Informationsquelle aus, von der einfach kopiert wird. Diese Form des Lernens wird uns nicht weiter interessieren. 2) Lernen durch Instruktion: Hierunter wird allgemein der Wissenserwerb mit Hilfe eines Lehrers verstanden. Der Lerner muß das zu lernende Wissen von der Eingabedarstellung in seine interne Repräsentation transformieren und in das bereits vorhandene Wissen integrieren. Obwohl das Lernsystem jetzt selbst einige Inferenzen durchführen kann, obliegt dem Lehrer ein Großteil der Arbeit, denn er muß das Wissen so organisieren und dem Lerner präsentieren, daß dessen Wissen vergrößert wird. 3) Der Lehrer präsentiert Beispiele: Die Beispiele können im Lernprozeß eine unterschiedliche Rolle spielen, je nachdem, was und zu welchem Zwecke gelernt wird. Die Funktion des Lehrers besteht dabei darin, die Beispiele in sinnvoller und für den Lerner hilfreicher Reihenfolge darzubieten, um so eine möglichst schnelle Konvergenz des Lernvorganges zu erreichen. Hier ist der Lerner in großem Maße aktiv beteiligt bis hin zum selbständigen Entdecken neuer Theorien; er muß oft in ganz erheblichem Maß Inferenzen selbst vollziehen. Darauf kommen wir noch ausführlich zurück. Die nächsten beiden Punkte betreffen das Verhalten des Lehrers nach einem Lernvorgang. 4) Bewertung durch den Lehrer: Die Bewertung beschäftigt sich mit dem Lernerfolg und bezieht sich somit auf ein Lernziel und ein Gütekriterium. Sie kann auf zwei Arten erfolgen: 4.1) Im Detail: Hier werden atomare Lernaktionen beurteilt. Oft erfolgen diese Bewertungen auch lokal, d.h. sie betreffen nur einen Aspekt des Lernerfolges. Der Lerner kann diese Art der Bewertung meist ohne komplexe eigene Inferenzen verwenden. 4.2) Im Endresultat: Hier werden die Effekte mehrerer atomarer Lernaktionen zusammengefaßt. Das geschieht häufig dadurch, daß eine auf die Umwelt rückwirkende Aktion durch Verteilung von Lob und Tadel bewertet wird. Es ist dann nicht mehr klar, welcher Teil des Lernvorganges oder der Aktion für Erfolg oder Mißerfolg verantwortlich war. Häufig wird eine solche Bewertung auch von der Umwelt vorgenommen. Beurteilt wird zumeist auch eine Fähigkeit (wie etwa laufen zu können ohne zu stolpern) und kein explizites Wissen. Der Lerner benötigt hier komplexe Inferenzmechanismen, um diese Art der Bewertung zu verwenden.
Seite 24
Lernende Systeme
5. Korrektur durch den Lehrer: Hier greift der Lehrer in den Lernvorgang ein. Das kann auf verschiedene Weise geschehen. Einmal kann direkt etwas am Lernmechanismus geändert werden; zum anderen kann eine Lerneingabe (ein sog. Teaching-Input) in den vorhandenen Mechanismus geschehen. Das ist meist ein Vergleich der im Lerner erfolgten Änderung mit einer erwünschten Änderung und setzt dann eine Bewertung voraus. 3.4.3. Lernen ohne Lehrer Diese Lernform, auch unbeaufsichtigtes Lernen (engl. unsupervised learning) genannt, kommt ohne jegliche Hilfe von oder Interaktion mit einem externen Lehrer aus. Vom Lernsystem wird ein sehr viel höherer Inferenzaufwand als bisher gefordert. Der Lerner ist völlig auf sich selbst gestellt: Weder werden externes Wissen oder Beispiele dargeboten noch erfolgen Bewertungen von außen. An diese Stelle treten eigene Beobachtungen und Entdeckungen, die nach internen Kriterien verarbeitet werden. Lernen durch Beobachten und Entdecken
passives Beobachten
aktives Experimentieren
Das Lernen durch Beobachtung läßt sich wiederum durch den Grad der Interaktion mit der Umgebung subklassifizieren. Die diese Dimension auszeichnenden Extrema sind •
Passive Observation, wo der Lerner Beobachtungen verschiedenster Aspekte seiner Umgebung klassifiziert und taxonomisch anordnet und
•
Aktives Experimentieren, wo der Lerner seine Umgebung aktiv verändert — im Sinne von eigenständiger Generierung von Beispielen — und die Konsequenzen der Veränderungen interpretiert.
Ein Beispiel für den ersten Typ ist das Wettbewerbslernen, das im Teil Konnektionismus besprochen wird. Die im zweiten Typ vom Lerner intendierten Veränderungen der Umgebung können zufälliger Natur sein, sie können von einem bestimmten, allgemeinen Interessantheitsmaß geleitet werden oder durch Beschränkungen (Constraints) der Anwendungsdomäne fokussiert werden. Der Lerner formiert Hypothesen über die beobachteten Phänomene seiner Umwelt und verwendet sein bisheriges Wissen, um evtl. selbst Beispiele zu generieren, die zur Stützung oder zur Verwerfung von Hypothesen führen können.
Lernende Systeme
Seite 25
3.4.4. Lerngegenstand und Lernvorgang Das Ergebnis des Lernvorgangs ist eine Veränderung eines Teils des Lerners, etwa seiner Informationen oder Fähigkeiten. Der Lerngegenstand ist das Resultat der Veränderung. Ein Maßstab für die Veränderung ist das Ausmaß der Änderungen in den Datenstrukturen: Werden nur Parameter geändert oder auch Strukturen? Das sagt insofern nicht viel über die Natur des Gelernten aus, als in Parameter sehr viel implizit hineinkodiert sein kann. Deshalb interessieren wir uns hier für strukturelle Änderungen; dabei werden allenfalls auswendig gelernte Fakten schlecht berücksichtigt. Um den Gegenstand des Lernprozesses zu beschreiben, ist es wie erwähnt nützlich, sich einen Lernvorgang als Inferenzprozeß zu denken, der von der Umwelt und eventuell einem Lehrer mehr oder weniger unterstützt wird. In dieser Sichtweise unterscheiden wir drei Arten von solchen Prozessen: Lernen als Inferenzprozeß
Synthetisches Lernen
Analytisches Lernen
Lernen durch Analogie
Um diese Begriffe zu diskutieren, erinnern wir zunächst an die korrespondierenden Arten logischer Schlüsse. Sie haben syntaktisch alle dieselbe Form P 1 ,...,P n µ K. Die Pi sind die Voraussetzungen (Prämissen) des Schlusses und K ist die Konklusion. Die Semantik dieser Schlüsse ist jedoch sehr unterschiedlich. a)
Deduktive Schlüsse: Hier wird nur gefordert, daß die Konklusion wahr ist, falls alle Voraussetzungen wahr sind. Deduktive Schlüsse sind in der formalen Logik weitgehend untersucht, es existieren viele formale Kalküle, über deren Tragweite genaue Vorstellungen existieren (vgl. z.B. [Richter 78]). Sind die Prämissen eines deduktiven Schlusses nicht wahr, sondern nur (in welchem Sinne auch immer) "wahrscheinlich", dann muß natürlich die Konklusion auch nicht stimmen; man spricht dann auch von einem approximierenden deduktiven Schluß.
b)
Induktive Schlüsse: Hier muß die Wahrheit der Voraussetzungen die der Konklusion nicht unbedingt nach sich ziehen, die Konklusion soll jedoch (normalerweise) umgekehrt die Voraussetzungen deduktiv implizieren. Darüberhinaus soll die Konklusion eine Reihe von Nützlichkeitskriterien erfüllen, die je nach Anforderungen etwas variieren können; solche Kriterien können optimal oder suboptimal erfüllt werden, wodurch es sinnvoll wird, auch Approximationen zu betrachten. Die Grundvorstellung ist dabei stets, daß die Konklusion
Seite 26
Lernende Systeme
K die allgemeine Beschreibung eines gesetzmäßigen Zusammenhanges ist. Dies kann ein allgemeiner Begriff, eine Relation oder auch ein funktionaler Zusammenhang sein. Weil die Voraussetzungen das betrachtete Universum i.a. nur unvollständig beschreiben, hat der induktive Schluß auch grundsätzlich nur den Charakter einer Hypothese. Während für deduktive Schlüsse weitgehend formale Kalküle existieren, ist dies bei induktiven Schlüssen nicht der Fall. (Näheres über induktive Schlüsse findet man in [Richter 89].) c)
Analogieschlüsse: Analogieschlüsse zählen an und für sich nicht unter die traditionellen Schlüsse, obwohl sie im täglichen Leben sehr häufig auftreten. Sie haben mit induktiven Schlüssen gemeinsam, daß die Konklusion auch bei wahren Voraussetzungen nicht richtig sein muß. Es wird jedoch keine allgemeine Beschreibung oder ein Oberbegriff generiert, sondern die Konklusion steht gewissermaßen wieder auf derselben Stufe wie die Voraussetzungen. Grundlegend ist ein Ähnlichkeitsbegriff, denn die Analogie wird nur zu ähnlichen Sachverhalten gezogen.
An die induktiven Schlüsse stellt man stets die Minimalforderung, daß die Konklusion die Prämissen impliziert (also in gewissem Sinne erklärt). An diesen logischen Grundformen orientieren sich die Lernverfahren, aber sie gehen über die Tragweite der logischen Schlüsse hinaus. Insbesondere spielt sich das Lernen nicht nur in logischen Kalkülen ab, sondern meist in sehr komplexen Kontexten; nur wenn man Glück hat oder sehr einschränkende Bedingungen vorliegen, kann man sich unter Umständen auf einen Kalkül zurückziehen. Auf der anderen Seite kann man häufig eine Parallele zu mathematischen Algorithmen ziehen oder sogar diese direkt anwenden. 1) Synthetisches Lernen: Synthetische Lernverfahren basieren hauptsächlich auf induktiver Inferenz und sind charakterisiert durch die Generierung allgemeiner Regeln oder Hypothesen aus (meist multiplen) Beispielen. Oft werden synthetische Lernverfahren auch einfach als induktive oder empirische Lernverfahren bezeichnet, ohne auf die existierenden Unterschiede zu achten (vgl. [Dietterich 87]). Gelernt werden können dabei die verschiedensten Dinge, z.B.: •
Oberbegriffe (Konzepte), die vorgelegte Beispiele umfassen,
•
Funktionen, von denen nur einige Ein-/Ausgaberelationen bekannt sind,
•
Wahrscheinlichkeiten für das Auftreten gewisser Ereignisse.
Die Lernverfahren dieser Art sind sehr reichhaltig. Allein von der Art her, die Beispiele zu behandeln, ergeben sich viele Möglichkeiten. Ausgehend von einer Menge von Beispielen und Gegenbeispielen eines Konzepts besteht die Aufgabe des Lerners darin, eine allgemeine Konzeptbeschreibung zu finden. Ein Unterscheidungsmerkmal ist die Art der dem Lerner verfügbaren Beispiele. Diese können nur positiv, nur negativ (d.h. Gegenbeispiele) oder sowohl positiv als auch negativ sein. Sind nur positive Beispiele verfügbar, so liefern diese keine Informationen, um eine Übergeneralisierung bei der Hypothesengenerierung zu vermeiden. Daher sollten in diesem Fall entweder nur die minimal notwendigen Generalisierungen betrachtet oder eventuelles
Lernende Systeme
Seite 27
Domänenwissen zur Beschränkung der möglichen Konzeptbeschreibungen eingesetzt werden. Sind positive und negative Instanzen des zu lernenden Konzepts vorhanden, so können die positiven Instanzen zu Generalisierungen, die negativen Instanzen zur Vermeidung von Übergeneralisierungen verwendet werden, denn die gelernte Konzeptbeschreibung darf niemals auch negative Instanzen erfassen. Die Komplexität der durchgeführten Inferenz ist sehr viel größer als beim Lernen durch Instruktion, da keine allgemeinen Konzepte durch einen Lehrer vorgegeben werden, und ist auch etwas größer als beim Lernen durch Analogie (s.u.), da keine ähnlichen Konzepte als Ausgangspunkte für neue Konzepte vorgegeben werden. Die Strategie des Lernens aus Beispielen wird nun nochmals nach der Quelle der Beispiele subklassifiziert: (i)
Die Quelle kann der Lerner selbst sein, der mittels seines Wissensstandes aber nicht genau über das zu lernende Konzept "Bescheid weiß". So kann der Lerner selbst Instanzen des Konzepts generieren und von einem Lehrer als positive oder negative Beispiele klassifizieren lassen.
(ii)
Die Quelle ist der Lehrer.
(iii) Die Quelle ist die allgemeine Umgebung des Lernsystems. In diesem Fall ist die Erzeugung und Darbietung der Beispiele zufällig, denn der Lerner muß sich auf durch ihn relativ unkontrollierbare Beobachtungen verlassen. Schließlich kann Lernen aus Beispielen noch nach der Art der Darbietung von Beispielen subklassifiziert werden. Die Beispiele können alle auf einmal vorgelegt werden oder aber der Reihe nach. Im letzteren Fall muß das System Hypothesen über das zu lernende Konzept sukzessive nach Analyse weiterer Beispiele verfeinern und mit den bisherigen Beobachtungen und dem bisherigen Wissen konsistent halten. Diese inkrementelle Vorgehensweise scheint dem menschlichen Lernen sehr nahe zu kommen und erlaubt es dem Lerner, partiell gelernte Konzepte zu benutzen. Andererseits können schlecht gewählte initiale Trainingsbeispiele das System in die Irre führen, wenn sie nicht gleich von Anfang an auf die wesentlichen Aspekte des zu lernenden Konzepts fokussieren. Zusammenfassend erhalten wir bezüglich der Verwendung von Beispielen folgendes Bild:
Seite 28
Lernende Systeme
Lernen durch Beispiele
Quelle der Beíspiele
Lerner
Lehrer
Art der Beispiele
Umgebung positiv
Darbietung der Beispiele
positiv einmalig und negativ
inkrementell
Daneben gibt es aber noch weitere Kriterien zur Feinklassifikation dieser Art zu lernen. Wie synthetisches Lernen über rein logische Kalküle hinausgeht wird z.B. deutlich am Erkennen von Bildern. Man bekommt eine Unzahl von Pixeln vorgesetzt und lernt, ein Bild zu synthetisieren (etwa in grauer Vorzeit einen Löwen auszumachen, vor dem man sich besser in Acht nahm; dieser Lernvorgang hatte eine recht hohe Konvergenzgeschwindigkeit). 2) Analytisches Lernen: Das Ziel beim analytischen Lernen ist die Restrukturierung des bereits vorhandenen Wissens in eine nützlichere und effektivere Form, sodaß durchaus von Lernen im Sinne von Verbessern der Performanzfähigkeiten eines Systems gesprochen werden kann. Hierbei überwiegt also der Performanzverbesserungsaspekt gegenüber dem Erwerb gänzlich neuen Wissens. Beim analytischen Lernen ist die maßgebliche Inferenzstrategie die deduktive Inferenz auf (in der Regel reichhaltig) vorhandenem Wissen — speziell Domänenwissen — und der (in der Regel) singulären Erfahrung. Die deduktive Vorgehensweise bewirkt, daß der Effekt des Lernens nicht in Hypothesen besteht, sondern in wahren Aussagen, die nur unterschiedlich nützlich sein können. 3) Lernen durch Analogie: Lernen durch Analogie ist eine Lernstrategie, die existierendes Wissen über bekannte Sachverhalte mit starker Ähnlichkeit zu neu zu lernenden Sachverhalten in effektiver Weise transformiert und damit der neuen Situation anpaßt. Beispielsweise kann Wissen über ein bereits gelöstes Problem und über dessen Lösung für die Lösung eines neuen Problems verwendet werden, wenn es dem alten hinreichend ähnlich ist. Es ist dann nicht mehr erforderlich, für das neue Problem eine komplett neue Lösung zu finden, sondern es genügt, die alte Lösung entsprechend zu modifizieren, was sehr viel günstiger sein kann. Wichtig ist, daß keine allgemeinen Begriffe involviert sind (wie beim synthetischen Lernen); das Lernen spielt sich rein auf der Ebene der Beispiele ab. Man lernt von einem Beispiel für ein anderes, ohne sich über den gemeinsamen Hintergrund Gedanken zu machen. 3.4.5. Die Umwelt Die Umwelt kann im Prinzip beliebig komplex sein. Sie kann von Aktionen des Lerners beeinflußt werden, den Lerngegenstand, das Lernziel und Erfolgskriterien vorgeben. Das Lernziel eines Lernsystems hat maßgeblichen Einfluß auf das gesamte Systemverhalten. Die Festlegung des Lernziels und der Erfolgskriterien kann unterschiedlich erfolgen:
Lernende Systeme
Seite 29
Vorgabe von Lernziel und Erfolgskriterien
explizit
Konkrete Vorgabe des Lernziels
implizit
Güte- und Qualitätskriterien
In den Algorithmen verborgen
Der Verwendung von Gütekriterien liegt die Vorstellung vom Lernen als Suchprozeß zugrunde, wobei das Suchen im Bergsteigermodell (engl.: hillclimbing) gemeint ist. Ist das Lernziel erreicht oder hinreichend gut approximiert, können die Lernvorgänge abgebrochen werden. Auch der impliziten Vorgabe der Kriterien liegt meist diese Vorstellung zugrunde. Bei der konkreten Vorgabe des Lernziels hat man aber oft nicht die Option, das Lernziel zu approximieren. Die Bewertung, d.h. der Vergleich mit den Kriterien kann direkt erfolgen (durch Beobachtung des Lerners) oder auf dem Umweg über Rückkopplungen des Lerners mit der Umwelt; dann werden Handlungen bewertet, die der Lerner auf der Basis des Gelernten vollzieht.
Seite 30
4.
Lernende Systeme
Ein formales Lernmodell
Im ersten Abschnitt dieses Kapitels wird schrittweise ein Lernmodell für Maschinelles Lernen entwickelt. Die dort im Zusammenhang mit dem vorgestellten Modell eingeführte Terminologie wird zunächst anschaulich und intuitiv motiviert, um dann im zweiten Abschnitt wieder aufgegriffen und formal definiert zu werden. Das liefert die Grundlage für die nachfolgenden Kapitel, in denen die einzelnen Komponenten des Lernmodells und ihre möglichen Ausprägungen nochmals detaillierter diskutiert werden.
4.1. Der informelle Zugang Die Gesamtheit der bei einem Lernvorgang beteiligten Objekte (wie sie etwa im Szenario des letzten Abschnitts vorgestellt wurden), nennen wir auch das Lernsystem, die formale Beschreibung des Lernsystems ist das Lernmodell. Im folgenden wird der Versuch unternommen, ein minimal allgemeines Modell eines lernfähigen Systems schrittweise zu entwickeln und zu verfeinern. Die Arbeiten [Scott, Shalin, Wisniewski, Levi 88] und [Bisson, Laublet 89] haben das hier vorgestellte Modell beeinflußt. Das hier entwickelte Modell mit seinen verschiedenen strukturellen und funktionalen Komponenten und die im Zusammenhang mit dem Modell eingeführte Terminologie werden die Grundlage für die weiteren Untersuchungen sein. Sie konstituieren einen allgemeinen Ansatz für die Analyse der verschiedenen Lernverfahren und Methoden. Wir orientieren uns dabei an dem Szenario des letzten Abschnittes. Im Gegensatz zu der gewissermaßen naiven Sicht von 3.4.1 interessieren uns aber jetzt mehr interne Merkmale des Lerners. Ausgangspunkt ist die funktionale Sicht, die einen Lernvorgang als eine Zustandstransformation des Lerners sieht. Der Anfangszustand des Lerners ist in der Regel gekennzeichnet durch die Vorgabe eines Lernziels und dem eventuellen Vorhandensein gewissen Anfangswissens, etwa spezielles Wissen über das Anwendungsgebiet (sogenanntes Domänenwissen) und Metaoder Kontrollwissen. Der Zielzustand wird idealerweise nach einer Reihe von Transformationen erreicht und repräsentiert den gewünschten Zustand des Lerners nach Abschluß des Lernprozesses im Hinblick auf das Lernziel. Lernen soll dabei zunächst ganz allgemein und informal als Transformation von Erfahrungen in Hypothesen verstanden werden, die in der Regel die Anpassung, Verfeinerung, Erweiterung und Optimierung von Systemfähigkeiten im Hinblick auf eine zu lösende Aufgabe oder einen zu lösenden Aufgabentyp zur Folge hat. Diese Aufgabe kann auch im Ansammeln und Verfeinern von Wissen bestehen, ohne daß dabei ein (wie auch immer definierter) Performanzaspekt eine Rolle spielt. Mit dem Begriff Hypothese sollen auch die von einem Lernsystem erlernbaren sicheren Tatsachen subsumiert werden.
Lernende Systeme
Seite 31
Daß diese Änderungen der Systemfähigkeiten durch Änderungen der kognitiven Struktur bzw. des epistemologischen Zustandes in Form von Änderungen der Repräsentation erfolgen, wird an späterer Stelle noch zu sehen sein. Das folgende detailliertere Modell des Lernens soll als Ausgangspunkt für die Beschreibung der verschiedenen existierenden Lernansätze dienen. Zunächst werden die einzelnen funktionalen und repräsentationalen Komponenten des Modells beschrieben. Hierzu ein Schaubild: Umwelt U
Lerner L ν
Verwenden von Wissen zur Generierung von Erfahrungen
Verwenden von Wissen Evaluation der Erfahrungen
Generieren von Erfahrungen γ
Modifikation von (Kontroll-)Wissen
R G
B
M
Performanzelement P
E Verwenden alter Erfahrungen
Verwenden von Erfahrungen
D
H Verwenden von Wissen λ
Erzeugen von Hypothesen
Lernmodell
Die hier vorkommenden Bezeichnungen sollen jetzt erklärt werden. Rechtecke bedeuten in einer bestimmten Repräsentationsform dargestelltes Wissen und deklarative Informationen wie etwa Beispiele eines Konzeptes, Fakten, Objektbeschreibungen und Regeln etc., die im folgenden als repräsentationale Komponenten des Lerners bezeichnet werden. Kreise bzw. Ovale bezeichnen Funktionen bzw. funktionale Komponenten des Lerners und Pfeile geben den vorherrschenden Fluß von Daten und Informationen innerhalb des Modells wieder. Neben dem Lerner L selbst und der Umwelt U fällt im Modell noch der Performanzmodul P auf, der das gelernte Wissen des Lernsystems nutzen soll, um seine Aufgabe effektiver durchführen zu können. Für einzelne konkrete Lernverfahren wird die vorgestellte Modellierung entsprechend detailliert oder modifiziert werden. Die drei funktionalen Komponenten des Lerners sind: •
Die Lernfunktion λ, die aus Erfahrungen E und unter eventueller Verwendung bereits bekannten Wissens (D, M) neues Wissen H in
Seite 32
Lernende Systeme
Form von — zunächst Hypothesen — erlernt. Die Lernfunktion λ ist ein zentrales Charakteristikum eines jeden Lerners. Sie reflektiert die verwendete Inferenzstrategie (Induktion, Deduktion, Analogie, ...) und ihre Aufgabe ist die Erweiterung und/oder Modifikation des dem System verfügbaren Wissens. •
Der Erfahrungsgenerator γ, der im Hinblick auf das Lernziel G unter eventueller Verwendung bereits gelernten Wissens neue Erfahrungen E für die Lernfunktion λ erzeugen, oder bereits erzeugte Erfahrungen geeignet modifizieren kann.
•
Der Evaluator ν, der das erworbene Wissen (die erreichte Repräsentation) im Hinblick auf das Lernziel G bewertet, steuernd in Richtung auf eine gute Repräsentation wirkt und das Kriterium für erfolgreiches Lernen überprüft.
Die beiden repräsentationalen Komponenten des Lerners sind: •
Der Beschreibungsraum der Erfahrungen E, die von dem Erfahrungsgenerator γ erzeugt werden und der die zur Beschreibung der Beispiele gewählte Repräsentation charakterisiert. Dies kann bei symbolischen Konzeptlernsystemen beispielsweise eine Menge möglicherweise vorklassifizierter Trainingsbeispiele sein, die in einem ähnlichen Repräsentationsformalismus wie das Wissen in der Wissensbasis repräsentiert sein können, aber nicht müssen.
•
Die Wissensbasis R. Sie enthält: - Den Hypothesenraum H; - Die Basis B des Hintergrundwissens, das sich wie folgt aufteilt: • Die repräsentationale Komponente D enthält dabei das dem System über die Anwendungsdomäne bekannte Wissen in einer geeigneten Repräsentationssprache. Die Systeme unterscheiden sich hier hauptsächlich darin, ob solches Wissen überhaupt vorhanden ist und — sofern dies der Fall ist — im Umfang des Domänenwissens und im verwendeten Repräsentationsformalismus. • Die Komponente M korrespondiert mit vorhandenem Metawissen und allgemeinen Heuristiken zur Steuerung und zur Kontrolle des Lernens in Richtung auf eine akkurate Repräsentation des Wissens. Auch der noch zu besprechende Bias eines Lernsystems kann als (implizites) Metawissen aufgefaßt und hierunter gezählt werden. • Mit dem Lernziel G schließlich wird die zu bewältigende Lernaufgabe des Systems beschrieben.
Die eben eingeführten funktionalen und repräsentationalen Komponenten des Lernsystems beschreiben seine statischen Eigenschaften, ohne das dynamische Verhalten während des Lernens zu berücksichtigen. Dieser dynamische Aspekt wird durch die im Modell eingeführten Pfeile dargestellt, die die einzelnen Komponenten miteinander verbinden. Wie sich zeigen wird, unterscheiden sich viele der existierenden Lernverfahren auch im Vorhandensein bzw. Nichtvorhandensein einiger dieser Verbindungen.
Lernende Systeme
Seite 33
Die Umwelt U des Lernsystems spielt eine besondere Rolle für ein Lernsystem, da sie die Rolle der eben dargestellten drei funktionalen Komponenten übernehmen kann. In der Umgebung kann dabei vor allem ein externer Lehrer (in der Literatur oft auch "Orakel" genannt) vorkommen, der mit dem Lerner interagieren kann, indem er die Erfahrungen E für das Lernsystem L liefert (Übernahme der Funktion γ), das erlernte Wissen bewertet (Übernahme der Funktion ν) oder aber dem Lernsystem einfach neues Wissen mitteilt (Übernahme der Funktion λ). Die drei funktionalen Komponenten λ, γ und ν des Lernsystems stellen somit Schnittstellen zur Umwelt dar und der Grad, zu welchem diese Funktionen vom Lernsystem selbst bzw. von einem externen Lehrer übernommen werden, erweist sich als wichtiges unterscheidendes Merkmal für die verschiedenen Lernverfahren. Das Performanzelement P (auch als Ausführungselement bezeichnet) verwendet das vom Lernsystem gelernte Wissen, um seine Aufgabe effizienter durchzuführen. Es spielt insofern eine wichtige Rolle im Zusammenhang mit einem Lernsystem, als es in der Regel die Aktionen des mit dem Lernsystem gekoppelten Performanzelements sind, die durch Lernvorgänge verbessert werden sollen.
4.2. Der formale Ansatz Die informell eingeführten Begriffe werden jetzt formalisiert, wobei wir zum Teil bereits benutzte Bezeichnungen in entsprechender Weise verwenden. In den folgenden Definitionen handelt es sich mehr um Bezeichnungen, die in den nachfolgenden Abschnitten (teilweise auf verschiedene Weise) näher spezifiziert werden. Da wir uns noch nicht auf eine konkrete Repräsentationsform des Wissens festlegen wollen, gehen wir von einer nicht näher spezifizierten Repräsentationsform aus.
Definition: R sei die Menge allen Wissens, das in der gegebenen Repräsentationsform dargestellt werden kann.
R beschreibt damit den potentiellen Erkenntnisraum des Lerners.
Definition: R enthält folgende Teilmengen: (i) Die Hypothesenmenge H;
Seite 34
Lernende Systeme
(ii) (iii) (iv) (v) (vi) (vii)
das Domänenwissen D; das Metawissen M; das Erfahrungswissen E; die Lernziele G; das Hintergrundwissen B=D ˙ M ˙ G; das aktuale Gesamtwissen des Systems R=B ˙ H.
Die Repräsentationsform des Erfahrungswissens muß nicht notwendigerweise mit der des Domänen- oder Metawissens übereinstimmen. Die Erfahrungen E werden dynamisch erzeugt, sie können auch unsicher oder mit Rauschen behaftet sein. Ein Element g G ist ein einzelnes, spezielles Lernziel. Analog dazu ist e E eine einzelne Erfahrung, z.B. ein (Trainings-)Beispiel. Das gesamte Wissen R des Systems zerfällt in einen statischen und einen dynamischen Teil. In vereinfachter Form sieht die Aufteilung so aus: •
Der statische, d.h. im Lernprozeß nicht veränderte Teil besteht aus dem Hintergrundwissen B;
•
Der dynamische, d.h. im Lernprozeß veränderliche Teil besteht aus den Hypothesen H. Die allgemeinere Bezeichnung Hypothesen anstelle etwa der Formulierung "neu gelerntes Wissen" soll den tentativen und revidierfähigen Charakter des erworbenen Wissens hervorheben.
Das Hintergrundwissen B setzt sich aus dem anwendungsspezifischen Bereichs- bzw. Domänenwissen D und dem allgemeines Wissen und Heuristiken enthaltenden Metawissen M, sowie den Lernzielen G zusammen. Zu Beginn des Lernens ist R=B, d.h. es ist H=∅ . Diese Aufteilung trifft aber den richtigen Sachverhalt aus zwei Gründen nicht genau. Zum einen kann dynamisches Wissen durchaus zu statischem Wissen werden, nämlich dann, wenn die Hypothesen gesicherte Fakten sind oder (etwa durch die Hilfe eines Lehrers oder eines Beweises) zu solchen gemacht werden konnten. Zum anderen stimmt die Aussage, daß das Hintergrundwissen B zum statischen, unveränderlichen Teil eines Lernprozesses gehört, nur bedingt, denn es gibt Systeme deren dedizierte Aufgabe gerade das Erlernen und Modifizieren von Domänenwissen ist (vgl. Lenats AM oder das BACON-System); und dieses ist Teil des Hintergrundwissens. Um diesen Gesichtspunkten gerecht zu werden, muß der bis jetzt noch informelle Begriff des Lernprozesses so formalisiert werden, daß auch die Einteilung in statisches und dynamisches Wissen im Laufe der Zeit verändert werden kann. In gewissen kleinen Einheiten des Lernens sollte die Einteilung fest sein, zwischen solchen Einheiten sollten Änderungen erlaubt sein. Die folgende Beschreibung der Erzeugungsprozesse trägt dem Rechnung.
Definition:
Lernende Systeme
Seite 35
Der Erfahrungsgenerator γ ist eine Funktion γ: E×RµE.
Die Funktion γ soll neue Erfahrungen im Hinblick auf die zu lösende Lernaufgabe G und das bereits bekannte Wissen R generieren. Möglicherweise kann sie auch bereits erzeugte Erfahrungen E verwenden, indem sie sie leicht abändert.
Definition: Eine Erfahrungssequenz ist eine Folge E1, E2, ..., Ef mit E i ∑ E.
Jede Darbietung von Erfahrung kann — und hat es in der Regel auch — eine Modifikation der Wissensbasis des Lerners zur Folge haben, die sich in einer Änderung seiner Repräsentation der Realität bemerkbar macht. Änderungen können dabei das Hinzufügen von Hypothesen, die Änderung des Domänenwissens oder aber auch Modifikation des Metawissens sein. Dieser Sachverhalt wird mit dem Begriff Lernsequenz erfaßt.
Definition: Eine Lernsequenz ist eine Folge R0, R1, ..., Ri, Ri+1, ..., Rf (mit Ri∑R für alle i) von Repräsentationen, wobei R0 die initiale Repräsentation und damit das Initialwissen und Rf die finale Repräsentation, das Finalwissen ist.
Die Repräsentationen Ri spiegeln das momentane Wissen des Systems zum Zeitpunkt i über seine Umwelt wider, sie setzen sich aus dem Hintergrundwissen B und den erzeugten Hypothesen H zusammen und stellen die epistemologischen Zustände des Lernsystems dar. Hier wird der Zusammenhang zwischen Repräsentation, Zustand des Systems, Abbild der Welt und Wissen über die Welt deutlich. Bei einem Konzeptlernsystem beispielsweise entspräche die finale Repräsentation Rf dann der Repräsentation des gelernten Konzepts, die alle positiven, aber keins der negativen Beispiele des Konzepts erfaßt.
Seite 36
Lernende Systeme
Definition: Erfolgreiches Lernen liegt vor, wenn Rf=G ist.
Das Wissen des Systems stellt dann im Hinblick auf die zu erfüllende Lernaufgabe G eine akkurate und adäquate Repräsentation der Realität dar.
Definition: Ein Erfolgs- oder auch Qualitätskriterium ist ein Kriterium, das die erfolgreiche Lösung der Lernaufgabe durch das System definiert und mißt.
Ein Lernvorgang Ri µ Ri+1 ist der aufgrund der Interpretation der Erfahrung Ei+1 erfolgende Übergang von einer Repräsentation Ri zur Repräsentation Ri+1 (mit Ri, Ri+1∑R für alle i).
Definition: Die Lernfunktion λ ist eine Funktion λ: E×R µ H.
Die Lernfunktion verwendet Erfahrungen und bereits bekanntes Wissen zur Generierung neuer Hypothesen, die in die bestehende Wissensbasis eingebettet werden oder die Änderungen von bereits bekanntem Wissen bewirken. Wie noch gezeigt wird, ist eine Möglichkeit zur Klassifikation von Systemen die Frage, welches Wissen konkret zur Generierung der Hypothesen verwendet wird; Beim closed-loop learning wird nicht nur das Meta- und Domänenwissen, sondern ebenso bereits gelerntes Wissen (also bisher erzeugte Hypothesen) benutzt.
Definition: Der Evaluator ν ist eine Funktion: ν: E×Rµ Q.
Diese Evaluations- oder Qualitätsfunktion soll die Qualität der erzeugten Repräsentationen in Bezug auf das Lernziel bewerten. Q ist dabei eine Menge von die Repräsentation (d.h. das Wissen des Systems) beschreibenden Qualitätsmerkmalen und Bewertungen, im einfachsten Fall nur aus den Prädikaten {gut, schlecht} bestehend.
Lernende Systeme
Seite 37
Die Funktion ν macht eine Aussage darüber, ob eine zufriedenstellende Repräsentation der Realität gefunden wurde und dient somit — vermittels der Erfahrungsfunktion γ — der Steuerung in Richtung auf eine solche akkurate Repräsentation. Mit der bis hierhin eingeführten Terminologie und den Definitionen der Komponenten eines Lernsystems läßt sich der Begriff Lernsystem selbst jetzt formal beschreiben:
Definition: Ein Lernsystem L ist ein 5-Tupel (λ, γ, ν, R, E). Es besteht aus drei funktionalen Komponenten: der Lernfunktion λ zur Generierung von Hypothesen, sowie den Funktionen γ zur Generierung von Erfahrungen und ν zur Evaluation der Repräsentation sowie den repräsentationalen Komponenten E und R.
Um die Umgebung U und das Performanzelement P des Lernsystems mit einzubeziehen wird noch der Begriff der Lernstruktur eingeführt:
Definition: Eine Lernstruktur ist ein Tripel (U, L, P), wobei U eine Umwelt, L ein Lernsystem und P ein das Wissen des Lernsystems verwendendes Performanzelement ist.
Die möglichen Ausprägungen der funktionalen und repräsentationalen Komponenten eines Lernsystems bzw. einer Lernstruktur werden in den folgenden Kapiteln untersucht. Jeder Komponente ist dabei ein eigenes Kapitel gewidmet.
Seite 38
5.
Lernende Systeme
Die Wissensbasis R
Weil Lernvorgänge die Wissensbasis manipulieren, spielt ihre Struktur für ein erfolgreiches und effizientes Lernen eine zentrale Rolle. Wissensbasis und Lernmechanismus sind eng miteinander verzahnt, man kann nicht einfach zu einer Wissensbasis eine beliebige Lernkomponente additiv hinzufügen. Die Wissensbasis R eines Lernsystems setzt sich aus den drei repräsentationalen Komponenten Domänenwissen D, Metawissen M, Lernziel G sowie den von der Lernfunktion erzeugten Hypothesen H zusammen. Sie kann durch zwei wesentliche Aspekte charakterisiert werden: •
Ihre Form, also der jeweils verwendete Repräsentationsformalismus und
•
ihr Inhalt, d.h. die Art des in der Wissensbasis repräsentierten Wissens.
Die Form der Wissensbasis kann (vgl. etwa [Cohen, Feigenbaum 82]) selbst wieder an den folgenden Dimensionen ausgerichtet werden: 1)Ausdruckskraft der Repräsentation: Für jedes KI-System ist es von Bedeutung, ob ihm ein Repräsentationsformalismus zur Verfügung steht, mit dem das relevante Wissen einfach ausgedrückt werden kann. Relativ primitiv sind Merkmalsvektoren, sie eignen sich beispielsweise zur Beschreibung von Objekten ohne innere Struktur. Sie beschreiben Objekte mittels einer festgelegten Menge von Attributen (wie Größe, Farbe, Form etc.) und möglicher Ausprägungen dieser Attribute (wie klein/groß, rot/grün, rund/rechteckig). Logische Sprachen oder Framesysteme andererseits erlauben die Beschreibung strukturierter Objekte und von Relationen zwischen diesen Objekten. 2)Einfachheit der Inferenzmechanismen: Der zur Durchführung von Inferenzen erforderliche Berechnungsaufwand ist ein weiteres wichtiges Merkmal eines Repräsentationsformalismus. Eine in Lernsystemen häufig vorkommende Operation ist der Vergleich und die Unifikation zweier Beschreibungen um zu bestimmen, ob sie gleich sind oder durch eine Substitution gleich zu machen sind. Ein solcher Test ist bei Merkmalsvektoren sehr einfach durchzuführen, bei reichhaltigeren Beschreibungsverfahren aber aufwendiger. 3)Modifizierbarkeit der Repräsentation: Lernsysteme müssen das neu erlernte Wissen konsistent in die Wissensbasis integrieren und altes Wissen möglicherweise revidieren können. Bei Lernsystemen, die Repräsentationen wie Merkmalsvektoren oder Produktionsregeln verwenden, ist das Hinzufügen neuen Wissens relativ einfach, die dabei auftretenden Effekte sind aber nicht unproblematisch. Schwierigkeiten können auftreten, wenn das Lernsystem zeit- oder zustandsabhängiges Wissen erwirbt, das später eventuell revidiert werden muß, weil es in Widerspruch
Lernende Systeme
Seite 39
zu neuem Wissen gerät. Auch ist es möglich, daß Default-Annahmen im Lichte neuer Erkenntnis des Lernsystems hinfällig werden und zurückgezogen werden müssen (nichtmonotone Inferenzen). 4)Erweiterbarkeit der Repräsentation: Die Mächtigkeit des Repräsentationsformalismus reflektiert seine generative Struktur, d.h. das, was das Lernsystem potentiell zu repräsentieren und damit zu lernen in der Lage ist: Der Formalismus legt den potentiell erfaßbaren Kandidaten- oder Beschreibungsraum fest. Für diese Einschränkung des von einem Lernsystem Erlernbaren und der dadurch bewirkten Gerichtetheit auf das Erlernen nur ganz bestimmter, in der Repräsentationssprache ausdrückbarer Sachverhalte, wird in der Literatur oft auch der Begriff representational bias verwendet. Das Problem der eingeschränkten Ausdrucksmächtigkeit eines Repräsentationsformalismus wirft oft die Frage nach möglichen Erweiterungen des Formalismus und der Einführung neuer Begriffe auf. Um die Repräsentationssprache automatisch erweitern zu können, muß jedoch erst einmal der Mangel an Ausdrucksmächtigkeit als solcher vom System erkannt und danach eine geeignete Erweiterung durchgeführt werden (vgl. [Wrobel 88]). Vor diesem Hintergrund muß auch ein eventueller Wechsel des Repräsentationsformalismus während der Lernvorgänge (engl. representational shift) oder die Darstellung des Wissens in multiplen, gleichzeitig vorhandenen Repräsentationen gesehen werden (engl. multiple representation oder co-representation). Dies wird im Abschnitt "Repräsentationswechsel" genauer beschrieben. Der oder die verwendeten Wissensrepräsentationsformalismen legen fest, welche Prozesse darauf effizient arbeiten können und sie bestimmen in gewisser Hinsicht auch die potentiellen Grenzen des Erlernbaren, den potentiellen Erkenntnisraum des Lernsystems. Eine Repräsentation kann als Abbildung zwischen abstrakten Objekten oder Ereignissen und konkreten Objekten wie zum Beispiel eines Strings in einer formalen Sprache oder einem anderen Repräsentationsmechanismus gesehen werden. ML-Systeme können beispielsweise Parameter eines technischen Prozesses, algebraische Ausdrücke, strukturelle oder funktionale Beschreibungen physikalischer Objekte, Klassifikationstaxonomien, Planungsregeln, Problemlöseheuristiken, Handlungssequenzen für Roboteraktionen oder ähnliches lernen. Warnung: Trotz partieller Übereinstimmungen in den Bezeichnungen sind die verwendeten Formalismen zur Repräsentation des gelernten Wissens von den Lernzielen zu unterscheiden. Die Palette an verfügbaren Wissensrepräsentationsformalismen sei im folgenden (sehr kurz) skizziert. Sie stellt ein weiteres Klassifikationskriterium für ML-Systeme dar.
5.1. Die Form der Wissensbasis 5.1.1. Merkmalsvektoren Merkmalsvektoren (engl. feature vectors) beschreiben Objekte durch (meist numerische) Tupel einer festen und geordneten Anzahl von Merkmalsausprä-
Seite 40
Lernende Systeme
gungen. Die Merkmale können nur Werte aus einem bestimmten Wertebereich annehmen, der wiederum diskret oder kontinuierlich sein kann. Im Unterschied zu sog. symbolischen Repräsentationen wie etwa (color block23 red) oder (name: Flash Gordon), die Prädikate, Attribute und ähnliches in einer formalen Sprache explizit verwenden und entsprechende Inferenzmechanismen (z.B. Deduktion) zur Verfügung stellen, kodieren Merkmalsvektoren solche Informationen nur. Das Verständnis eines Merkmalsvektors setzt daher eine vorher getroffene Verabredung voraus; diese Verabredung kann für verschiedene Teile eines Programmes ganz unterschiedlich sein. So könnte etwa die geometrische Form eines Objektes ein Viertupel sein, das in der gegebenen Reihenfolge die Höhe, Breite, Tiefe und Rundheit (z.B. von 0 bis 7) des Objektes angibt. <1,1,1,0> beschreibt dann z.B. einen kleinen Würfel, <5,7,0,7> ein großes, flaches Oval. Da die Vektoren feste Längen haben und die möglichen Werte vordefiniert sind, lassen sie sich einfach durch Konkatenation ihrer Bitrepräsentation in Bitstrings überführen, im Beispiel ergibt dies 0 0 1 0 0 1 0 0 1 0 0 0 und 101111000111. In einem anderen Zusammenhang können diese Strings aber etwas ganz anderes kodieren; eine feste sprachliche Verabredung für die Bedeutung von Bitstrings existiert nicht, und deshalb kann man auch keine allgemeinen Inferenzmechanismen formulieren. Die Vorteile solcher Repräsentationen sind ihre leichte Manipulierbarkeit. Die Nachteile liegen in der bescheidenen Mächtigkeit der Repräsentation und der Tatsache, daß die Kodierung stets neu vorgenommen werden muß. Die strukturelle Einfachheit der Merkmalsvektoren bedingt, daß komplexe Strukturen nicht adäquat, d.h. für den Benutzer verständlich wiedergegeben werden können. Für manche Anwendungen, wie etwa digitalisierte Bilder oder Geräusche, sind Bitstrings aber geradezu prädestiniert, denn dort liegen die Informationen bereits als Bitfolgen vor. 5.1.2. Parameter in algebraischen Ausdrücken Parameter in algebraischen Ausdrücken sind normalerweise Zahlen oder (gewichtete) Koeffizienten in Formeln bekannter Struktur und werden vorzugsweise zur Repräsentation numerischen Wissens verwendet. Lernen in diesem Kontext kann als Finden und Optimieren numerischer Parameter und Koeffizienten zur Erfüllung eines Gütekriteriums (z.B. in der adaptiven Regelung) gesehen werden. Werden nicht nur Parameter in bereits bekannten, strukturell festen algebraischen Ausdrücken, sondern auch die Struktur der algebraischen Ausdrücke als Formeln von Funktionen selbst erlernt, so spiegelt sich hierin Wissen über die Abhängigkeit zwischen Eingangsgrößen und Funktionswert wider. Beispiele für parametrisches Lernen sind das Optimieren von Regelkreisen sowie das Optimieren und die Adaption von Trajektorien in der Robotik. Auch eines der bekanntesten klassischen Lernsysteme, Samuels CHECKERS Programm (s.[Samuel 59]), verwendete algebraische Ausdrücke und Parameterjustierung zur Evaluation von Brettkonfigurationen beim Damespiel. 5.1.3. Weitere Repräsentationsformalismen Auf die üblichen in der KI verwendeten Repräsentationsformalismen soll nur andeutungsweise eingegangen werden. Ihre Kenntnis wird hier vorausge-
Lernende Systeme
Seite 41
setzt; wir interessieren uns nur für den Zusammenhang mit Lernvorgängen und werden einige Formalismen in dieser Beziehung kurz andiskutieren. Assoziierte Paare von Eingangsvariablen und Ausgangsvariablen: Tabellen aus Paaren von Eingangs- und Ausgangsvariablen (Attribut-WertePaare) repräsentieren diskretes, statisches Wissen über den Zusammenhang von Variablen. Lernen konstituiert sich hier als Zuordnung von Eingangsvariablen zu Ausgangsvariablen in Form von Zustandstafeln, wobei ein kausaler Zusammenhang und eine innere Struktur der dadurch beschriebenen Objekte nicht berücksichtigt wird. Entscheidungsbäume: Entscheidungsbäume sind Bäume, deren Knoten mit relevanten Attributen von Objekten oder Situationen korrespondieren und somit Entscheidungen repräsentieren, wobei Nicht-Terminalknoten Fragen oder Auswahlmöglichkeiten darstellen. Von den Knoten wegführende Kanten sind mit alternativen Werten dieser Attribute, also mit Antworten assoziiert. Blätter des Entscheidungsbaums entsprechen Mengen von Objekten oder Situationen der gleichen Klasse. Hauptverwendungszweck von Entscheidungsbäumen ist die Erkennung und Zuordnung von Objekten und Situationen zu Klassen. Gelernt werden können gute oder optimale Pfade durch den Baum. Grammatiken in formalen Sprachen: Solche Grammatiken werden hauptsächlich beim Erlernen von Sprachen verwendet. Produktionsregeln: Die Verwendung von Produktionsregeln stellten ein verbreitetes, einfaches und auch im Maschinellen Lernen oft verwendetes Verfahren zur Repräsentation von Wissen dar. Neben der Konstruktion neuer Regeln durch die Lernfunktion können im wesentlichen drei weitere Grundoperationen unterschieden werden: •
Generalisierung einer Produktionsregel: Der Bedingungsteil der Produktionsregel wird weniger restriktiv ausgelegt, so daß die Regel bei einer größeren Situationsmenge feuern kann. Dies kann beispielsweise durch Weglassen eines Konjunkts bei konjunktiv verknüpften Bedingungen oder durch Ersetzen von Konstanten durch Variable erreicht werden.
•
Spezialisierung einer Produktionsregel: In den Bedingungsteil der Produktionsregel werden zusätzliche Bedingungen eingeführt, so daß die Regel weniger häufig feuern kann, weil sie nur noch einen kleineren Teil der Situationen erfaßt.
•
Komposition von Produktionsregeln: Mehrere Produktionsregeln werden zu einer komplexen Regel zusammengefaßt. Dadurch lassen sich redundante Bedingungen oder Aktionen vermeiden.
Logische Sprachen: Ausdrücke und Formalismen von (klassischen und nichtklassischen) logischen Sprachen verwenden in der Regel eine der Syntax der Aussagen- oder Prädikatenlogik verwandte Form und haben eine damit verbundene
Seite 42
Lernende Systeme
wohldefinierte Semantik. Sie beschreiben strukturierte Objekte, Situationen und Konzepte mit formalen logischen Ausdrücken, die aus Prädikaten, Variablen und Restriktionen über Variablen zusammengesetzt sind. Gelernt werden kann eine Vielzahl von Dingen wie allgemeine Begriffe, spezielle Zusammenhänge etc. Graphen, Netzwerke, Semantische Netze: Auch hier sind generell keine speziellen Lernvorgänge favorisiert. Ist die Darstellung mehr von den Graphen dominiert, dann überwiegen Lernmechanismen, wie sie bei Entscheidungsbäumen vorkommen. Ein häufiger Fall sind gewichtete Kanten; die Gewichte stellen wichtige Inhalte des Netzes dar und sind der Lerngegenstand vieler Lernverfahren (besonders bei konnektionistischen Ansätzen). Auf Graphen und Netzen operierende Lernverfahren verwenden oft Methoden wie Graphtransformation und Graphmatching, um Ähnlichkeits- und Vergleichsoperationen durchzuführen. Frames: Dies sind so allgemeine Formalismen, daß man mit ihnen keine speziellen Lernvorgänge assoziieren kann. Prozeduren und Funktionen: Die Darstellung von Wissen durch Prozeduren oder Funktionen ist besonders für Aktionssequenzen geeignet, wie sie etwa beim Erlernen von Bewegungstrajektorien eines Fertigungsroboters vorkommen.
5.2. Inhalt der Wissensbasis Der Inhalt der Wissensbasis ist ein zentraler Aspekt bei der Klassifikation von Lernsystemen. Kein Lernsystem ist in der Lage, von absolut gar keinem Anfangswissen ausgehend neues Wissen zu erzeugen. Eine gewisse Menge anfänglich vorhandenen Initialwissens muß zum Verständnis und zur Interpretation der vom Erfahrungsgenerator γ des Lernsystems gelieferten Information immer vorhanden sein. Dieses Initialwissen — in der eingeführten Terminologie als R0 in der Lernsequenz bezeichnet — kann anwendungsspezifisches Wissen über die Domänen oder auch Metawissen in Form von allgemeinen Problemlöseheuristiken oder Kontrollwissen oder beides sein. Im Lichte dieses Wissens und der dem Lernsystem dargebotenen Erfahrungen sowie unter Berücksichtigung des Lernziels G, das ebenfalls zum Initialwissen gehört, müssen dann auch die vom Lernsystem erzeugten Hypothesen evaluiert und ggf. verfeinert werden, die als neues Wissen in die Wissensbasis integriert werden. Nicht alle ML-Systeme verfügen jedoch über ein Initialwissen, das auch Wissen über die Domänen enthält. Hier ergibt sich eine Unterscheidungsmöglichkeit in Systeme mit und Systeme ohne Domänentheorie. Als das dem Lernsystem verfügbare Wissen R wurden bereits eingeführt: •
das Hintergrundwissen B (von engl. background knowledge), das - das Lernziel G,
Lernende Systeme
Seite 43
- das Domänenwissen D und - das Metawissen M umfaßt, •
sowie neues, von der Lernfunktion λ generiertes Wissen, in der eingeführten Terminologie also die Hypothesen H .
Die Aufteilung des im Lernsystem insgesamt vorkommenden Wissens in genau diese Komponenten ist inhaltlich motiviert. Das Initialwissen R0 ist das dem System zu Beginn des Lernens initial mitgeteilte Lernziel G, das eventuell vorhandene Domänenwissen D sowie das Metawissen M : R 0 =G ∪ D ∪ M Unter dem Hintergrundwissen B wird dann das dem Lernsystem insgesamt während eines jeden Lernschrittes Ri µ Ri+1 zur Verfügung stehende Wissen in der Wissensbasis R verstanden. Dieses Hintergrundwissen umfaßt damit das bereits anfangs vorhandene Initialwissen G ∪ D ∪ M. Die von der Lernfunktion λ generierten Hypothesen H, modifiziertes bzw. erweitertes Domänenwissen oder eventuell aufbewahrte Erfahrungen E sind dabei nicht einbezogen. Bemerkung: In der ML-Literatur wird der Begriff Hintergrundwissen gelegentlich mit dem Begriff Domänenwissen oder dem Begriff Metawissen gleichgesetzt. Eine Bemerkung zum Verhältnis von Hintergrundwissen zu analytischen und empirischen (bzw. synthetischen) Methoden sei hier an dieser Stelle bereits erwähnt: Der Unterschied besteht nicht so sehr in der Menge des vorhandenen Hintergrundwissens, sondern in der Art, wie es verwendet wird. Analytisches Lernen verwendet es zur Entdeckung von Eigenschaften innerhalb eines Beispiels (Intra-Beispiel Eigenschaften), empirisches Lernen kann es zur Entdeckung von Eigenschaften zwischen mehreren Beispielen benutzen (Inter-Beispiel Eigenschaften).
5.3. Das Lernziel Das Lernziel G (von engl. goal of learning) eines Lernsystems bestimmt die vom Erfahrungsgenerator γ zu erzeugenden Erfahrungen und die Evaluationsfunktion ν des Lernsystems verwendet das Lernziel G zur Überprüfung, ob die bisher erreichte Repräsentation akkurat genug ist, ob also das Lernziel erreicht und die Lernvorgänge daher abgebrochen werden können. Das Lernziel beinhaltet auch den Lerngegenstand. Seine genaue Festlegung kann •
explizit anhand von Güte- oder Qualitätskriterien,
•
durch konkrete initiale Vorgabe des Lernziels, oder auch
•
implizit durch die beim Lernen Verwendung findenden Algorithmen erfolgen.
Seite 44
Lernende Systeme
Einige der typischen Lernaufgaben und Lernziele von ML-Systemen sollen im folgenden vorgestellt werden; teilweise werden diese und andere noch gesondert ausführlich diskutiert. 5.3.1. Klassifikatoren und Lernen von Klassifikationen Ausgehend von einer Grundmenge M ist es das Ziel einer Klassifikation, die Elemente von M vorgegebenen Klassen zuzuordnen, die die Menge M partitionieren. Klassifikationen werden durch Klassifikatoren vorgenommen:
Definition: (i) Ein Klassifikator für eine Menge M ist eine Abbildung f:M µ I wobei I eine Menge ist, die Indexmenge genannt wird. (ii) Wenn I = { 0,1}, dann heißt P = {x | f(x) = 1} die Menge der positiven und N = {x | f(x) = 0} die Menge der negativen Elemente.
Die Menge I indiziert also die einzelnen Klassen. In einer Lernsituation ist diese Zuordnung normalerweise durch Beispiele vorgegeben und soll auf dieser Basis für alle Elemente gelernt werden. Zu den Standardaufgaben der Klassifikation gehören die meisten Probleme der Mustererkennung. Auf sie wird noch ausführlich im Teil "Konnektionismus" eingegangen. In vielen Fällen kann man die Klassifikationsaufgabe auch mit einer Diagnoseaufgabe gleichsetzen. Ein Klassifikator ( also die Funktion f ) ist ein mathematisches Objekt und insofern streng von einer möglichen Beschreibung zu unterscheiden. Klassifikatorbeschreibungen können auf sehr unterschiedliche Weise geschehen. So ist z. B. eine prädikatenlogische Formel P(x) eine Klassifikatorbeschreibung, die die Grundmenge in zwei Klassen einteilt (je nachdem, ob die Elemente die Formel erfüllen oder nicht, gehören sie zu P oder N). Wichtig ist. a) Eine Klassifikatorbeschreibung definiert einen eindeutig bestimmten Klassifikator; b) Zwei Klassifikatorbeschreibungeg können denselben Klassifikator definieren.
5.3.2. Konzeptlernen Konzpte sind als Klassifikatorbeschreibungen gedacht (in der Form von Verallgemeinerungen prädikatenlogischer Formeln), werden aber oft auch mit den Klassifikatoren selbst identifiziert. Das Lernen von Konzepten (in der
Lernende Systeme
Seite 45
englischsprachigen Literatur mit concept learning, concept acquisition, concept identification oder auch concept formation bezeichnet) ist sozusagen die prototypische und klassische Aufgabe des Maschinellen Lernens. Die Aufgabe lautet: Ausgehend von Beispielen (positive Beispiele) und/oder Gegenbeispielen (negative Beispiele) eines Konzepts über einer Menge M, finde eine Konzeptbeschreibung, die alle positiven, aber keins der negativen Elemente erfaßt; gelernt werden soll also das (unbekannte) Konzept. In der objektorientierten Repräsentation haben wir folgende Entsprechungen: •
Klasse ∫ Konzept und
•
Instanz der Klasse ∫ Beispiel des Konzepts.
Beim Konzeptlernen ist ein Lehrer vorhanden. Die dem Lernsystem dargebotenen Beispiele sind nämlich vom Lehrer als "positiv" oder "negativ" vorklassifiziert. Gesucht ist eine Konzepterkennungsfunktion:
positive Beispiele P
negative Beispiele N
Konzept K(X) Konzepterkennungsfunktion
Genauer: Es sei B ∑ M eine Menge von Beispielen und K eine Menge von einstelligen Prädikaten ("Konzepten") über der Menge M.
Definition: (i) Eine Beispieldarbietung ist ein Paar (P,N) mit P ∪ N ∑ B; die Elemente von P heißen positive und die von N negative Beispiele. (ii) Eine Konzepterkennungsfunktion eine Abbildung KE : {(P,N)| (P,N) Beispieldarbietung} µ K sodaß für Q(x)=KE (P,N) gilt: (a) Q(b) gilt für alle b P (b) ¬Q(b) gilt für alle b N
Seite 46
Lernende Systeme
Eine Konzepterkennungsfunktion generiert also aus Beispielen eine Klassifikatorbeschreibung. (ii) (a) heißt auch die Vollständigkeitsforderung (Erkennen aller positiven Beispiele eines Konzepts) und (b) heißt die Konsistenzforderung (Zurückweisung aller negativen Beispiele). Eine Konzepterkennungsfunktion realisiert einen induktiven Schluß. Im Bild: Vollständig, aber nicht konsistent:
+
-
Konsistent, aber nicht vollständig
+
-
Ein wichtiges Ziel ist natürlich daß das generierte Konzept nicht nur für die vorgelegten Beispiele sondern auch für die unbekannten Elemente von M vollständig und korrekt ist. Im allgemeinen wird es für eine Beispieldarbietung viele im obigen Sinne korrekte Konzepte geben:
+
-
Ein Optimierungskriterium für die Konzepterkennung kann dann sein, für eine bestimmte Klasse von Beispieldarbietungen minimale korrekte Konzepte zu generieren. Daneben gibt es aber gewöhnlich noch andere Kriterien. Im allgemeinen ist das Finden von Konzepterkennungsfunktionen ein mehrdimensionales Optimierungsproblem. Die Pragmatik der Konzepterkennung besteht natürlich darin, die Klassenzugehörigkeit weiterer Instanzen als nur der am Lernvorgang beteiligten zu entscheiden. Über die Art der Prädikate, die die Konzepte beschreiben, ist im allgemeinen nichts ausgesagt. Die Konzeptbeschreibungen können sowohl strukturelle als auch funktionale Beschreibungen sein. Oft können die Konzepte in Form konjunktiv verknüpfter Aussagen beschrieben werden. Diese Aussagen spezifizieren •
Eigenschaften und Attributwerte von das gegebene Konzept repräsentierenden Objekten,
•
Relationen zwischen Teilen von Objekten und
•
Eigenschaften dieser Objektteile.
Lernende Systeme
Seite 47
Ein spezielles Problem beim Konzeptlernen ist das Lernen von Konzepten, deren Beschreibung variabel und zeitlichen Veränderungen unterworfen ist. Solche Konzepte werden auch drifting concepts genannt. Beispielsweise können Klimaveränderungen in einer Umgebung Änderungen an Objekten in dieser Umgebung bewirken, deren Beschreibung oder Verhalten dann ebenfalls anders ist oder verändert wird. 5.3.3. Begriffliches Gruppieren Es handelt sich hierbei um eine Erweiterung bzw. Variation sowohl des Konzeptlernens wie auch der Klassifikation. Unter der Aufgabe des Gruppierens (engl. clustering) wird das Zusammenfassen von Erfahrungen (Beobachtungen, Objekten, Fakten usw.) in bestimmte Klassen verstanden. Beim begrifflichen Gruppieren (conceptual clustering) sollen diese Klassen mit bestimmten deskriptiven Konzepten der vorhandenen sprachlichen Ausdrucksmöglichkeiten korrespondieren. Im Unterschied zur Klassifikationsaufgabe aus 5.3.1 sind hier die Klassen (auch ihre Anzahl) nicht vorgegeben, sondern müssen erst entdeckt werden. Anmerkung: Die Terminologie ist hier in der Literatur nicht einheitlich! Eine generelle Möglichkeit zur Gruppenbildung ist wieder die Verwendung eines Ähnlichkeitsmaßes. Ein Ähnlichkeitsmaß kann auf mehrere Weisen zur Gruppenbildung verwendet werden. Eine Möglichkeit ist, die Gruppen so zu bilden, daß für jedes xM und jede Gruppe G gilt: xG
∫
(æy) (y G å y ≠ x å µ(x,y) > α) √ ((Æ y) (µ(x,y) ≤ α) å G={x}),
dabei ist α ein fester Schwellwert, 0<α<1. Ein Algorithmus zum Erzeugen solcher Gruppen ist sehr einfach zu finden. Erreicht wird dadurch: 1)
Objekte in einer Gruppe haben ähnliche Objekte in der Gruppe;
2)
Zwischen den Gruppen besteht ein "Ähnlichkeitsabstand".
Vorgehensweisen dieser Art haben jedoch den Nachteil, daß nur Aufzählungen für die einzelnen Gruppen generiert werden, aber keine Beschreibungen. Der Datentyp solcher Gruppen ist dann ein Aufzählungstyp, was bei großen Anzahlen sehr unhandlich wird. Bei neuen Beispielen muß dieser Typ u.U. erweitert werden, wobei wieder auf das Ähnlichkeitsmaß zurückgegriffen werden muß. Beim begrifflichen Gruppieren sollen die Konzepte für die Gruppeneinteilung gelernt werden. Man verlangt dabei nicht unbedingt die Disjunktheit der erzeugten Gruppen, jedoch dient sie als Optimierungskriterium. Das Ähnlichkeitsmaß und die Gruppenbildung müssen auf die zur Verfügung stehenden sprachlichen Mittel Rücksicht nehmen. Man spricht dann auch anstatt von einer Ähnlichkeit von einem konzeptuellen Zusammenhalt. Die Optimierungskriterien für das Lernen von begrifflichen Gruppierungen sind dann eine Kombination von denen des Konzeptlernens und denen des gewöhnlichen Gruppierens.
Seite 48
Lernende Systeme
Diese Lernform kann als spezifische Form des Lernens durch Beobachtung gesehen werden, sie stellt einen Prozeß des Strukturierens von Beobachtungen in begriffliche Kategorien dar. Im Unterschied zum Konzeptlernen ist hier kein Lehrer präsent, der die Objekte vorklassifiziert. 5.3.4. Qualitatives und quantitatives Entdecken Das Entdecken qualitativer und quantitativer Gesetzmäßigkeiten umfaßt Prozesse wie •
die Konstruktion von Beschreibungen und Hypothesen aufgrund einer Sammlung von Fakten und Beobachtungen, die nicht a priori in Mengen beispielhafter Konzepte vorklassifiziert waren,
•
das Klassifizieren gegebener Beobachtungen,
•
das Entdecken von Beziehungen zwischen Objekten und
•
die Formulierung von Theorien zur Erklärung beobachteter Phänomene.
Es tritt hier wieder eine Klassifizierungsaufgabe auf, der Unterschied zum Problem der begrifflichen Gruppierung besteht darin, daß nicht isolierte Konzeptbeschreibungen generiert werden sollen, sondern die Beschreibungen Relationen zwischen den Konzepten zum Gegenstand haben. Zur Erzeugung neuer Ausdrücke als Funktion der vorliegenden Erfahrungen und zum Ziehen von Schlüssen aus beobachteten Regularitäten werden meist Heuristiken verwendet. Die dem qualitativen und quantitativen Entdecken zugrundeliegende Absicht ist die Bildung eines Modells der Welt (der Domänen). Ein Problem das hierbei auftritt ist die Fokussierung auf bestimmte Aspekte. Dies hängt mit dem sog. Frameproblem der KI zusammen: Das betrachtete Universum ist i.a. zu groß, um stets als ganzes analysiert zu werden. Wenn z.B. die Frage der Entscheidung für oder gegen die Weiterverfolgung einer bestimmten Hypothese oder Theorie zur Debatte steht, können Maße zur Bewertung und Steuerung verwendet werden. Beispiele sind Kriterien wie "Interessantheit" (vgl.Lenats AM) oder "Nützlichkeit" (bei Rendell). Bemerkung: Diese und weitere dargelegte Beispiele zeigen die Vielzahl der vorkommenden Möglichkeiten. In praktischen Anwendungen treten stets bestimmte Problematiken auf, an die man im allgemeinen Fall nicht gedacht hat. Normalerweise ist es so, daß man (durch natürliche Intelligenz) jedem Fall durch gezielte Mechanismen beikommen kann. Will man ein formales System zur Problemlösung schaffen, benötigt man aber ein abgeschlossenes Gebäude von Begriffen, man kann sich dann nicht für spätere Fälle zur rechten Zeit etwas einfallen lassen. Das bedingt, auch und gerade für Lernverfahren, eine Beschränkung auf eine geeignete Klasse praktisch lösbarer Probleme. Qualitatives Entdecken beinhaltet das Taxonomieren der in den Erfahrungen vorkommenden Objekte und das Generieren von die jeweiligen Klassen beschreibenden Gesetzmäßigkeiten, sowie die Formulierung von Beziehungen zwischen den Klassen. Man vergleiche hierzu etwa [Lenat 83]: Sein AMProgramm entdeckte, ausgehend von einigen hundert Initialkonzepten und die Suche steuernden Heuristiken mathematische Konzepte wie etwa die Primzahlen, Teilbarkeitsregeln etc. und formulierte Vermutungen über mathematische Zusammenhänge. Ein Maß der interestingness von Konzepten
Lernende Systeme
Seite 49
steuerte eine Agenda-getriebene (best-first) Suche durch den Raum mathematischer Konzepte und Vermutungen. Quantitatives Entdecken untersucht die quantitativen Abhängigkeiten und Regularitäten zwischen den Objekten der Erfahrungen. Den Objekten, beschrieben durch eine Anzahl von numerischen oder symbolischen Merkmalen und zugehörigen Ausprägungen, liegt eine sie zueinander in Beziehung setzende Gesetzmäßigkeit zugrunde, die es als Regel auszudrücken gilt. Zum quantitativen Entdecken vgl. [Langley, Simon, Bradshaw 83]: Das BACON-System (benannt nach Sir Francis Bacon, 1561-1626), ist ein System zum Entdecken und Postulieren empirischer, quantitativer Gesetzmäßigkeiten, wobei es von numerischen Daten ausgeht. Es durchsucht dabei den Raum möglicher numerischer Gesetzmäßigkeiten, postuliert intrinsische Eigenschaften der beobachteten Phänomene und erkennt beispielsweise Symmetrien. BACON hatte verschiedene Anwendungsdomänen und (wieder-) entdeckte mehrere klassische Gesetze wie etwa das Dritte Keplersche Gesetz und die (chemischen) Gesetze von Dalton, Gay-Lussac und Cannizaro. 5.3.5. Lernen von Problemlösungen Im Prinzip ist dieses Lernen so allgemein, daß man darunter alles oder nichts verstehen kann. Es ist hier jedoch eine bestimmte Methodik gemeint, die sich weitgehend formal beschreiben läßt. Gemeint ist die Vorgehensweise des "Teile und herrsche": Das initiale Problem wird durch Dekomposition in Teilprobleme solange zerlegt, bis auf diese Teilprobleme Operatoren anwendbar sind, die das Teilproblem lösen. Der Begriff Operator bezeichnet Aktionen, die ein Problem direkt lösen können, ohne es vorher erneut in Teilprobleme zerlegen zu müssen. Diese Art des Problemlösens kann auch aufgefaßt werden als die Suche durch einen Raum möglicher Problemlösungen. Der Problemlösungsraum besteht dabei aus Zuständen, die vom Problemlöser durch Anwenden bestimmter Operatoren erreicht werden können. Die Problemlöseaufgabe besteht dann im Finden einer Operatorsequenz, die den Anfangszustand in den gewünschten Endzustand transformiert, der das ursprüngliche Gesamtproblem löst. Bemerkung: Damit ist die Problematik auf eine Standardaufgabe zurückgeführt, die auch in vielen anderen Kontexten auftritt, etwa in der Programmsynthese (welches Programm bewirkt eine gegebene Ein-/ Ausgaberelation) oder in der Robotik (welche Aktionsfolge leistet eine bestimmte Zustandsänderung). In dieser Betrachtungsweise lassen die folgenden drei typischen Ansätze für Problemlöseaufgaben nennen: 1) Das Erlernen von Heuristiken Heuristiken können die Suche in einem Suchraum steuern, indem sie Operatoren generieren, testen und auswählen. Das Problem dabei ist das Kodieren von Relevanzinformation in den Bedingungsteil von Regeln oder Operatoren: Operatoren sind oft nur manchmal gut; wann das der Fall ist, ist oft vom Kontext oder vom bisherigen Lösungsweg abhängig. Ist der Lerner vor die Aufgabe gestellt, die Anwendbarkeit von Operatoren und zugehörige Heuristiken selbständig zu lernen, muß er das sog. Lob-
Seite 50
Lernende Systeme
Tadel Problem lösen (engl.: credit/blame assignment). Hierbei muß er die Operatoren (Schritte, Entscheidungen) identifizieren, die für den Erfolg ("Lob") oder für das Scheitern ("Tadel") beim Versuch, das globale Ziel zu erreichen, letztendlich verantwortlich gemacht werden können. Es ist also hier ein Lehrer vorhanden; er sagt aber nicht, welcher Elementarschritt gut oder schlecht war, sondern nur, ob die Gesamtvorgehensweise erfolgreich war. Das Problem tauchte bereits in den Anfängen der KI im Zusammenhang mit Spielprogrammen auf: Welcher Zug in einer Zugsequenz war entscheidend für eine gute oder schlechte Spielsituation? Im Konnektionismus heißt diese Form des Lernens auch reinforcement learning. Beim Lernen von Heuristiken wird etwas abgewandelt das Problem verstanden, positive und negative Instanzen von Operatoren zu beurteilen, die einen Suchraum aufspannen. Verschiedene Aufgabenstellungen zum Lernen von Heuristiken und Möglichkeiten zur Bewältigung des Lob-Tadel-Problems sind: •
Lernen aus kompletten Lösungspfaden. Es werden komplette Lösungspfade betrachtet, wobei jeder Schritt (Operator) entlang eines solchen positiven Pfades positiv markiert wird. Andere, von der Lösung wegführende Operatoren werden negativ markiert. Vorsicht ist geboten, da Seitenpfade möglicherweise ebenfalls zum gewünschten Zielzustand führen können.
•
Lernen während der Anwendung von Operatoren. Die Zuweisung von Lob und Tadel erfolgt während des Suchprozesses, wobei unnötig lange Pfade, Sackgassen und falsche, nicht zu einer Lösung führende Pfade erkannt werden müssen.
•
Lehrlingslernen. Bei der Auswahl und Bewertung von Operatoren interagiert das Lernsystem mit einem Lehrer, der die Entscheidungen über positive und negative Instanzen von Operatoren fällt. Dies vermeidet exzessive Suche im Suchraum und ermöglicht direktes Feedback über die Nützlichkeit von Operatoren.
2) Erlernen von Makrooperatoren Ein Makrooperator setzt sich aus einer Sequenz primitiverer Operatoren zusammen und erlaubt somit die Vereinfachung des Problemlösens, da eine gröbere Suche im Problemlösungsraum erfolgen kann. 3) Analoger Wissenstransfer Beim Erlernen von Problemlösungen durch analogen Wissenstransfer wird die (bekannte) Problemlösung eines ähnlichen Problems so transformiert, daß sie auf das neue Problem anwendbar wird. Darauf wird noch genauer eingegangen. 5.3.6. Lernen von Grammatiken Die Aufgabe des Erlernens der einer Sprache zugrundeliegenden Grammatik ist der am meisten untersuchte Teil innerhalb des Problembereichs Spracherwerb. Ausgehend von einer Initialmenge grammatikalisch richtiger Ausdrücke (z.B. Sätze, Worte etc.) einer Sprache soll eine Prozedur zur Erkennung aller anderen möglichen Ausdrücke dieser Sprache generiert werden. Die so induzierte Grammatik kann beispielsweise in Form von Rewrite-
Lernende Systeme
Seite 51
Regeln, als Produktionsregeln oder in Form eines ATN dargestellt sein. Die dem Lernsystem dargebotenen Beispielsätze sind allesamt grammatikalisch korrekt, also positive Trainingsinstanzen. In formalen Sprachen, wie z.B. regulären (d.h. Typ 3) Sprachen wird die Aufgabe oft dahingehend variiert, daß sowohl positive wie negative Beispiele durch einen Lehrer vorgelegt werden.
5 . 4 . Das Domänenwissen Domänenwissen repräsentiert bereichsabhängiges Wissen über das betrachtete Anwendungsgebiet, in dem das Lernsystem sein Wissen vergrößern soll. Das Domänenwissen D kann auch aus mehreren voneinander unabhängigen Teilen bestehen, die Wissen über eine jeweils andere Domänen enthalten. Ist dies der Fall, wird das Domänenwissen über die verschiedenen Bereiche in getrennten Welten oder Theorien repräsentiert. Der Umfang des vorhandenen Domänenwissens und die Verwendung desselben ist ein wesentliches Merkmal existierender ML-Systeme. Die Systeme variieren ganz beträchtlich in der Menge des erforderlichen Domänenwissens: gar keins bzw. wenig bei induktiven und empirischen Systemen bis hin zu viel Domänenwissen bei deduktiven oder erklärungsbasierten Systemen. Letztere stellen nochmals unterschiedliche Anforderungen an das Bereichswissen und •
erlauben eine schwache Bereichstheorie in unvollständigen, inkohärenten oder allgemein schwer zu formalisierenden Domänen, oder
•
sie fordern eine starke (vollständige, kohärente, konsistente) Bereichstheorie wobei die Anwendung dieser Lernsysteme dann auf solche Bereiche eingeschränkt ist, in denen eine vollständige Bereichstheorie überhaupt formulierbar ist. Dies ist bei den wenigsten Bereichen der Fall, will man sich nicht auf Klötzchenwelt-Domänen beschränken.
So wie im täglichen Leben Wissen über die Welt kontextuelle Hinweise auf mögliche Verallgemeinerungen oder Problemlösungen gibt, Übergeneralisierungen vermeiden hilft und in spezifischen Situationen die Menge potentiell möglicher Annahmen auf eine Teilmenge von plausiblen Annahmen einschränkt, kann kontextuelle Information über das Anwendungsgebiet in Form von Domänenwissen in ML-Systemen ebenfalls wichtige Rollen spielen: 1)
Beim Kategorisieren und Klassifizieren von Erfahrungen. Bei der Darbietung von Erfahrungen E wurde in bisherigen ML-Systemen fast immer ein Lehrer-Schüler Verhältnis oder die interne Erzeugung von Erfahrungen durch das System selbst vorausgesetzt. Ziel ist aber die Entwicklung von ML-Systemen, die wirklich unabhängig und autonom sind, die Information selbständig evaluieren und entsprechendes Wissen akquirieren, ohne auf einen externen interpretierenden, helfenden und steuernden Lehrer angewiesen zu sein. Soll ein System aber in der Lage sein, ohne externe Hilfe (im Sinne von etwa bereits gefilterten und in positiv und negativ klassifizierten Beispielen) auf variierenden Informationen zu arbeiten, muß eine eigenständige Klassifikation der Information im Rahmen der Möglichkeiten des Systems liegen.
Seite 52
Lernende Systeme
Um in komplexen und realistischen Domänen intelligentes und sinnvolles Verhalten zu zeigen, darf diese zu erzeugende Klassifikation nicht nur rein syntaktisch sein, sondern muß auch semantisch motiviert sein. Domänenunabhängige oder auch vorbestimmte domänenspezifische syntaktische Constraints sind nicht flexibel genug, um den Anforderungen komplexer Anwendungen gerecht zu werden. Semantische Gültigkeit der vom Lernsystem generierten Klassifikationen kann in einer sich ändernden Domäne eher und einfacher überprüft werden, wenn das System über eine sich dynamisch anpassende Repräsentation des relevanten Domänenwissens und über Mechanismen zur Verwendung dieses Wissens verfügt. 2)
Domänenwissen zur Steuerung der Induktionsprozesse. Hintergrundwissen in Form einer Domänentheorie und kontextuelle Informationen kann auch zur Einschränkung des durch das Lernsystem generierten und induzierten Hypothesen dienen. Sie schränken so die potentiellen "induktiven Sprünge" ein und bewirken ein zielgerichteteres Verhalten und — wenn auch nicht notwendig gerechtfertigte — so doch kontextuell plausible und begründbare Generalisierungen.
In diesem Zusammenhang sei auf das erklärungsbasierte Generalisieren verwiesen, das gerade diese beiden Punkte berücksichtigt: Das Problem des Generalisierens wird redefiniert, indem sowohl das zu lernende Zielkonzept als auch das Trainingsbeispiel dem Lerner als explizite Eingabe vorgegeben werden. Aus diesem Trainingsbeispiel werden sodann nur durch die geforderte Domänentheorie gerechtfertigte Generalisierungen erzeugt. Nebenbei hat diese mehr zielgerichtete Vorgehensweise auch eine größere psychologische Plausibilität.
5.5. Das Metawissen Metawissen bedeutet allgemeines, domänenunabhängiges Wissen wie etwa allgemeine Problemlöseheuristiken, Wissen über die Verwendung von Wissen, Regeln über Regeln, Kontrollwissen etc. Metawissen ermöglicht es der Evaluationsfunktion ν das Wissen des Lernsystems zu untersuchen und zu bewerten und es in Richtung auf eine gute Repräsentation zu steuern. Metawissen kann explizit oder implizit vorhanden sein. Explizites Metawissen ist demzufolge ebenfalls in einem bestimmten Repräsentationsformalismus dargestellt. Implizites Metawissen steckt in der Kontrollstruktur oder den Verarbeitungsalgorithmen. Es wird in der Literatur oft auch als Bias (das bedeutet soviel wie Befangenheit oder Voreingenommenheit) bezeichnet (z.B. in [Kodratoff 89]). Es bewirkt ein nachträglich schwer zu erklärendes Systemverhalten bei der Auswahl von Hypothesenalternativen. So kann das System beispielsweise aus einer Menge möglicher Hypothesen die (syntaktisch) kürzeste oder die am Anfang einer Hypothesenliste stehende Hypothese als Kandidat auswählen, ohne daß diese Auswahlpräferenz explizit irgendwo vermerkt wäre. In [Utgoff 83] setzt Paul E. Utgoff Bias mit den vom Lerner beim Konzeptlernen verwendeten Heuristiken gleich; dies ist eine etwas irrefüh-
Lernende Systeme
Seite 53
rende Gleichsetzung, denn Heuristiken sollten explizit repräsentiertes Metawissen sein.
5.6. Die Hypothesen Die Lernfunktion λ erzeugt aufgrund der gemachten Erfahrungen E und unter eventueller Verwendung von Wissen R Hypothesen H, die in die Wissensbasis integriert werden. Eine Hypothese ist beispielsweise eine induzierte Konzeptbeschreibung oder Mengen alternativer Konzeptbeschreibungen oder kann aus neuen Kantengewichtungen in einem Graphen bestehen. Hypothesen werden zu Hintergrundwissen, wenn sie vom Lerner selbst oder von einem externen Lehrer validiert und in die Wissensbasis integriert wurden. An dieser Stelle sei auf die entsprechenden folgenden Kapitel verwiesen, in denen mögliche Ausprägungen dieser Komponente eines Lernsystems besprochen werden (Version-Space Methode, STAR Methode, etc.).
5.7. Wechsel der Repräsentation Es ist eine bekannte Tatsache, daß verschiedene Repräsentationsformen für verschiedene Zwecke unterschiedlich gut geeignet sein können. Beispiele: •
Prozedurale Darstellungen gewährleisten i.a. eine schnellere Verarbeitung, deklarative Darstellungen können übersichtlicher sein.
•
Einem System, das verschiedene Beispiele von "Tassen auf einem Tisch" betrachtet und so das Konzept einer "Tasse" erlernen soll, wäre am ehesten mit einer Beschreibungssprache gedient, die es ihm ermöglicht, sein Wissen über charakteristische Eigenschaften und beobachtbare Strukturen von Tassen zu formulieren. Im Gegensatz dazu würde ein Planungssystem eine Repräsentation bevorzugen, die den Zweck und die Funktion von Objekten beschreibt. Eine Unterscheidung muß hier auch gemacht werden zwischen der Verwendung der Beschreibung einer Tasse und dem Erlernen der Beschreibung einer Tasse.
•
Analytische uns synthetische Lernmethoden können kombiniert vorkommen und verschiedenartige Formalismen verlangen.
•
In [Flann, Dietterich 86] ist das Programm WYL beschrieben, das einfache Konzepte im Schach- und Damespiel lernt, indem es zwei verschiedene Vokabulare benutzt.
Im allgemeinen ist für komplexere Darstellungen nicht ein einziger Repräsentationsformalismus ausgezeichnet und Änderungen der Repräsentation erweisen sich als angebracht. Dazu zählen unter anderem •
die Wahl verschiedener Abstraktionsgrade,
•
die Verwendung verschiedener Repräsentationsformalismen und Transformationen zwischen diesen, sowie
Seite 54
•
Lernende Systeme
multiple Repräsentationen und Korepräsentationen.
Jeffrey C. Schlimmer stellt in [Schlimmer 87] das Konzeptlernsystem STAGGER vor, das in der Lage ist, konjunktive, disjunktive und negierte Konzeptbeschreibungen aus potentiell verrauschten Trainingsbeispielen zu erzeugen. Initiale Designentscheidungen bezüglich der Repräsentation des Konzeptwissens haben dort keinen einschränkenden oder nachteiligen Einfluß auf das Verhalten des Systems, da es die Repräsentation der Konzepte angemessen ändern kann. So können etwa die Gewichte geändert werden, mit denen die deskriptiven Elemente der Konzepte versehen sind, es können boolesche Kombinationen dieser deskriptiven Elemente erzeugt und reellwertige Attribute in Attribute mit diskreten Werten überführt werden. Damit wird es möglich, effektive Konzeptbeschreibungen zu konstruieren. Die Interaktion zwischen den genannten Methoden kann als eine Art kooperatives Lernen von Repräsentationen angesehen werden. Ein wichtiger Gesichtspunkt ist die richtige Wahl des Wissensrepräsentationsformalismus in Abhängigkeit von der zugrundeliegenden Aufgabe des Performanzsystems. Verschiedene Formalismen und damit die verfügbare Sprache und ihr Vokabular sind für verschiedene Aufgaben verschieden gut geeignet. Zunächst ist nicht sofort offensichtlich, welches Vokabular — das strukturelle oder das funktionale — verwendet werden sollte. Eine naheliegende Möglichkeit zur Auswahl wäre die Verwendung von strukturellen Beschreibungen für das Erkennen von Objekten und die Verwendung von funktionalen Beschreibungen für das Planen usw. Dieser Ansatz wurde beispielsweise in [Winston 75] für das ARCH-Programm, in [Buchanan, Mitchell, Smith, Johnson 77] für MetaDENDRAL, von [Quinlan 83] und in [Minton 84] gewählt. Die zu bewältigenden Schwierigkeiten bestehen in der Tatsache, daß neben den Repräsentationsanforderungen für die Performanzaufgabe auch die Repräsentationsanforderungen für die Lernaufgabe erfüllt sein müssen. Induktive Systeme (und nicht nur diese) müssen auf der syntaktischen Form der gelernten Objektbeschreibungen operieren. Der Bias solcher Systeme ist daher abhängig von der gewählten Syntax und dem gewählten Vokabular. In vielen Domänen kann ein Konzept etwa sehr elegant in einem bestimmten Vokabular beschrieben werden, das aber dennoch nicht effizient für die Performanzaufgabe verwendet werden kann. Wie ein Repräsentationwechsel im Prinzip vor sich gehen kann, sei am Beispiel des oben erwähnten Programmes WYL skizziert:
Lernende Systeme
Seite 55
Strukturraum Instanz
Funktionalitätsraum Envisionment
Instanz
Generalisierung
Konzept
Compilierung
Konzept
Durch einen Vorgang, der von den Autoren envisionment genannt wird, werden die in einer einfachen strukturellen Beschreibungssprache präsentierten Beispiele in funktionale Beispiele konvertiert, die dann mit induktiven Methoden zu einer funktionalen Konzeptbeschreibung generalisiert werden. Durch einen sich anschließenden Compilierungsschritt — Mostow und Keller ( vgl. [Mostow 82], [Keller 83]) nennen diesen Schritt Operationalisierung — werden diese Konzeptbeschreibungen danach wieder in strukturelle Konzeptbeschreibungen transformiert. Der Vorteil dieses Ansatzes, zwei Vokabulare (strukturell und funktional) zu verwenden und Induktion nur für die funktionalen Beschreibungen zu machen, liegt in der Tatsache, daß weniger Trainingsbeispiele benötigt werden, daß das Lernsystem einen einfachen Bias erhält (maximal spezifische konjunktive Generalisierungen) und daß es mit weniger Initialwissen auskommt. Insgesamt können weitere sehr verschiedene Techniken, die wir zum Teil bereits an anderer Stelle diskutiert haben, verwendet werden wie •
Compilierung von Constraints,
•
Entfernen irrelevanter Information,
•
Entfernen redundanter Information,
•
Ableiten von Makro-Operatoren,
•
Ableiten von Makro-Objekten und
•
Ableiten von Operatoren, die Probleme in Teilprobleme aufspalten.
Seite 56
6.
Lernende Systeme
Die Lernfunktion
Die Lernfunktion λ generiert aus den dargebotenen Erfahrungen und unter Verwendung von in der Wissensbasis repräsentiertem Wissen die Hypothesen H. Diese werden in die Wissensbasis integriert bzw. führen zur Modifikation von Wissen wie beispielsweise der Erweiterung von Domänenwissen. In 3.4.4 hatten wir Lernen als einen Inferenzprozeß aufgefaßt. So ist denn auch der für die Lernfunktion verwendete Inferenzmechanismus das die verschiedenen ML-Systeme am stärksten unterscheidende Merkmal. Für eine Lernfunktion stellen wir nun vier grundsätzliche Fragen: 1)
Wieviel neues Wissen kann gelernt werden ?
2)
Ist das gelernte Wissen korrekt ?
3)
Besteht Vertrauen in das gelernte Wissen ?
4)
Führt das gelernte Wissen zu einem effektiveren Verhalten ?
Diese Fragen haben teilweise logischen, subjektiven, wie auch pragmatischen Charakter. Sie sind jedoch nicht unabhängig voneinander; ihre Relationen zueinander sollen jetzt diskutiert werden.
6.1. Korrektheit und Vertrauen Korrektheit ist ein wohldefinierter logischer Begriff, wohingegen Vertrauen ein schillerndes kognitives Konzept ist. Der Grad der Konfidenz in das durch einen bestimmten Inferenzmechanismus erworbene Wissen kann verschieden hoch sein und von kategorisch über probabilistisch bis hin zu wenig Vertrauen reichen. Er hängt von verschiedenen Faktoren ab: Es ist allgemein bekannt, daß die Vorlage einer allgemeinen Regel (oder Direktive) ohne jegliche Erklärung oder sie unterstützende Beispiele mit nur geringem Vertrauen angenommen und akzeptiert wird. Das Vertrauen in die Aussage hängt dann in der Tat nur vom allgemeinen Vertrauen in denjenigen ab, der die Aussage gemacht hat. Dies kann bei einem ML-System beispielsweise ein externer Lehrer sein. Das Vertrauen in die gemachte Aussage wird größer, wenn man sie anhand von Beispielen testen und validieren kann. Es wird noch größer, wenn man die in der Aussage enthaltenen Regeln aufgrund eigener gemachter Erfahrungen selbst entwickelt hat, denn dann kann man sie belegen. Insgesamt ergibt sich: •
Korrektheit erzeugt Vertrauen nur im Zusammenhang mit zusätzlichen Elementen wie Erklärung, eigene Erfahrungen, zuverlässiger Lehrer etc.
•
Steigende Korrektheit erzeugt bei sonst gleichen Umständen steigendes Vertrauen (Vertrauen hängt monoton von der Korrektheit ab).
Lernende Systeme
Seite 57
6.2. Lernmächtigkeit, Korrektheit und Vertrauen Eine jede Lernfunktion λ bestimmt die Menge der möglichen von gegebenen Voraussetzungen zu lernenden Dinge. Als Inferenzprozeß aufgefaßt erzeugt λ zu Voraussetzungen Σ eine inferentielle Hülle λ(Σ); diese Hülle wollen wir auch die Lernmächtigkeit von λ nennen. Zentral ist hier nun, daß die Korrektheit des neu erworbenen Wissens mit der Lernmächtigkeit der Lernfunktion gekoppelt ist: •
Mit logischer Deduktion ist relativ wenig aber dafür absolut sicheres Wissen abzuleiten.
•
Unsichere Methoden wie induktive Inferenz erlauben i.a. mehr Ableitungen, die aber nicht unbedingt zu gesicherten Ergebnissen führen.
Dies hängt natürlich nicht nur von der Inferenzmethode selbst, sondern auch vom verwendeten Kalkül ab. In der Prädikatenlogik ist es jedoch so, daß es vollständige Kalküle gibt, die alle semantisch herleitbaren Folgerungen auch syntaktisch herleiten. In der Prädikatenlogik gilt also: Es gibt einen vollständigen Kalkül so, daß jeder Kalkül, der noch weitere Folgerungen herleitet, notwendigerweise auch inkorrekte Folgerungen herleitet. Deduktion ist also das einzig sichere Mittel zur Herleitung korrekten Wissens; außer durch Herleitung kann das sichere Wissen aber auch durch äußere Eingabe vergrößert werden. Lernmethoden, die sicheres Wissen partiell herleiten, (z.B. einfach durch Zugriffe auf die Datenbasis) können sich durch andere Eigenschaften wie Schnelligkeit auszeichnen. Darüber hinausgehende Inferenzmethoden können trotz ihrer Unsicherheit aber sehr nützlich sein. Unsicheres Wissen ist oft besser als gar keines; außerdem kann unsicheres Wissen u.U. extern validiert werden. Festhalten wollen wir, daß es schwieriger ist, korrektes Wissen z.B. durch Induktion zu erwerben — induktiv erworbenes Wissen ist lediglich durch bisherige Evidenz gerechtfertigt — als es durch Instruktion oder Anweisung vermittelt zu bekommen. Das gilt natürlich nur insofern, als der Lehrer, der die Anweisungen gibt, in diesem Sinne korrekte Anweisungen gibt, also perfekt ist. Da dies in der Realität normalerweise nicht immer gewährleistet ist, ist immer die Gefahr vorhanden, inkorrektes oder ungenaues Wissen zu akquirieren. Ein von Michalski in [Michalski 89] vorgestelltes "Trompetenmodell" beschreibt den Grad der Vertrauenswürdigkeit des mit den verschiedenen Inferenzmechanismen erworbenen Wissens im Zusammenhang mit der Menge des mit der jeweiligen Inferenzstrategie erwerbbaren Wissens:
Seite 58
Lernende Systeme
Abnehmende Schattierung entspricht abnehmendem Vertrauen in die Glaubwürdigkeit des inferierten Wissens
Durch Induktive Inferenz,
durch Analogie,
durch Approximative Deduktion
durch Deduktion,
durch direktes Retrieval aus der Wissensbasis herleitbares Wissen. Umfang des Wissens
Die Graufärbungen geben die abnehmende Vertrauenswürdigkeit wieder. Das Trompetenmodell ist aus zwei Gründen mehr als ein tendenzmäßig zu nehmendes Schema denn als eine exakte Taxonomie zu verstehen: 1)
Da die drei oberen Inferenzmethoden nicht exakt definiert sind.
2)
Vetrauen ist ein informeller Begriff, der nur teilweise von der Korrektheit bestimmt ist.
6.3. Nichtmonotonie und Vergessen Die Umkehrung des Abspeicherns ist das Löschen. Im Gegensatz zum Abspeichern ist Löschen ein irreversibler Prozeß und muß deshalb mit Vorsicht gehandhabt werden. Die bisher vorgestellten Inferenzmethoden hatten stets eine Vergrößerung des Datenbestandes zur Folge, von Löschvorgängen war nicht die Rede. Nichtsdestoweniger spielen sie auch beim Lernen eine bedeutende Rolle. Im Zusammenhang mit Lernvorgängen spricht man statt von Löschen normalerweise von Vergessen. Dieses Phänomen des Vergessens, meist von einer negativen Sichtweise als Fehlfunktion des Gedächtnisses bei Menschen oder als Fehlfunktion des Speichersystems bei Computern interpretiert, kann im Gegenteil als sehr nützlicher Vorgang angesehen werden, der das Verhalten eines Systems bei der effektiven Akquisition neuen Wissens stark verbessern kann. Die weitaus überwiegende Zahl von ML-Systemen befaßt sich nur mit dem Erwerb von neuem Wissen, das dem Lernsystem vor Beginn des Lernens noch nicht zur Verfügung stand. Relativ wenig Aufmerksamkeit wurde bisher dem Problem des Vergessens gewidmet. Es gibt zwei Gründe, warum Vergessen als eine nützliche Lerntätigkeit aufgefaßt werden kann: (i)
Bisher gelernte Einsichten (z.B. aufgrund von Beispielen gelernte Konzepte) können durch neue Beispiele (Erfahrungen) als inkorrekt erkannt werden und sollten deshalb wieder vergessen werden.
Lernende Systeme
(ii)
Seite 59
Durch gelernte und validierte Konzepte können Beispiele überflüssig werden, weil sie sich aus den neuen Konzepten herleiten lassen.
(iii) Das Wissen kann durch Lernvorgänge umorganisiert werden; die alten Strukturen sind ebenfalls überflüssig geworden. Der Punkt (i) hängt mit der Art der verwendeten Schlußweisen zusammen. Die über rein deduktive Schlüsse hinausgehenden Inferenzen zeichnen sich durch ihren nicht-monotonen Charakter aus. Unter monoton wird dabei verstanden:
Definition: Eine Inferenzmethode " |- " heißt monoton, falls gilt: Wenn Σ |- K und wenn Σ ∑ Σ', dann auch Σ' |- K.
Monotone Schlüsse bleiben also auch bei einer Vergrößerung der Prämissenmenge gültig und deduktive Schlüsse sind monoton. Die anderen Schlußweisen sind jedoch alle nicht- monoton; z.B. kann wie gesagt ein neues Beispiel eine vorher erlaubte Generalisierung unmöglich machen. Zu den verschiedenartigen Formen der nicht-monotonen Schlüsse vgl. etwa [Richter 89]. Das Wichtige bei solchen Schlüssen ist, daß sie gegebenenfalls revidiert werden müssen; dazu müssen Vorkehrungen in Form von Revisionsmechanismen getroffen werden; in der Wissensrepräsentation heißen solche Mechanismen gewöhnlich Truth-Maintenance-Methoden. In der Terminologie des Lernens heißt dies: unsichere Lernmethoden erfordern Methoden des Vergessens. S. Markovitch und P. D. Scott untersuchen weitere Aspekte des Vergessens bei Lernsystemen in [Markovitch Scott 88]. Sie diskutieren die Umstände, unter denen es vorteilhafter ist, Wissen aus der Wissensbasis zu löschen, als es zu bewahren und beschreiben experimentelle Arbeiten die belegen, daß sogar im Verlauf von Problemlösungen durch das Lernsystem akquiriertes korrektes Wissen für das Lösen zukünftiger ähnlicher Probleme für ein Lernsystem von Nachteil sein kann. Das zielt auf die Punkte (ii) und (iii), in denen Vergessen vom Standpunkt der Zweckmäßigkeit aus betrachtet wird. Solch "nützliches" Vergessen ist i.a. nicht nur Löschen, sondern mit Reorganisation und weiterer Strukturierung von Teilen der Repräsentationen verbunden. Dadurch kann das Wissen effizienter eingesetzt werden und bisher gebundene Ressourcen des Systems (wie etwa Speicherplatz) können wieder verfügbar gemacht werden. Eng mit dem Vergessen von Information ist das in 5.7 besprochene Abändern von Repräsentationsformen und auch der Repräsentationen selbst verbunden. Das kann dazu führen, daß auf eine bestimmte Art repräsentierte Informationsstücke für das System nicht mehr oder nur sehr schwer zugreifbar sind. Dies entspräche dann dem vollständigen Auslöschen von Information bzw. dem Abschwächen von Zugriffs- oder "Erinnerungspfaden". Auch die Verwendung von Regeln, deren Relevanz und "Präsenz im Bewußtsein des Lerners" mittels assoziierter Gewichte ausgedrückt wird, können hierzu verwendet werden.
Seite 60
Lernende Systeme
Die Gewichte dieser Regeln können bei häufigem, erfolgreichem Gebrauch einer Regel (sie ist also nützlich) erhöht werden. Führte ihre Verwendung nicht zum Erfolg, so wird das Gewicht der Regel herabgesetzt, bis sie unter Umständen ganz vergessen wird. Dies wird uns bei den konnektionistischen Ansätzen unter dem Namen "Hebb-artige Lernregeln" wiederbegegnen. Diesbezügliche Überlegungen haben (eben weil wir es mit Unsicherheit zu tun haben) meist auch einen stochastischen Charakter. Im Unterschied dazu compilieren analytische Methoden das Ergebnis eines Beweises einfach in eine andere Form und die resultierende Regel ist nun gerechtfertigt, denn sie verändert nicht die deduktive Hülle des Systemwissens (vgl. [Dietterich 86]). Der offensichtliche Nachteil dieser Verfahren liegt darin, daß die meisten analytischen Methoden nicht über das bereits vorgegebene Wissen hinaus gänzlich neues Wissen erwerben können. Die von ihnen erzeugten Regeln können wohl die Effizienz beeinflussen, mit der die Performanzaufgabe angegangen wird, aber sie können das externe Verhalten eines Lerners nicht so fundamental ändern wie induktive Methoden, in dem Sinne, daß die Verhaltensänderungen etwas qualitativ gänzlich Neues darstellten. Diese Aussagen müssen jedoch relativiert werden. Zunächst ist sehr wenig Wissen, das Menschen über eine bestimmte Domänene besitzen, deduktiv wirklich gültig. Meistens handelt es sich um mehr oder weniger plausible Heuristiken, die sich aber bewährt haben. Da Plausibilität keine transitive Eigenschaft ist, kann eine auf viele plausible Regeln begründete und daraus generierte Regel selbst durchaus sehr implausibel sein. Die Adäquatheit der mittels analytischer Methoden generierten Regeln sollte deshalb durch empirische Tests überprüft werden und dies reduziert ihren Unterschied zu den durch empirische Techniken allein erzeugten Regeln (vgl. [Pazzani 87]). Die umgekehrte Behauptung, daß die meisten analytischen Methoden nicht zu grundlegenden Verhaltensänderungen eines Systems führen können, gilt ebenfalls nur unter sehr unrealistischen Annahmen. Da alle Lernsysteme gewissen Grenzen hinsichtlich ihrer Verarbeitungsgeschwindigkeit und ihrer Speichermöglichkeiten unterworfen sind, erlaubt dem System die Hinzunahme oder Modifikation von Regeln, die eine Reduzierung des Speicherbedarfs oder eine Erhöhung der Effizienz bewirken, vor dem Lernen nicht lösbare Probleme und Aufgaben danach erfolgreich zu lösen. Folglich können auch analytische Methoden eine nach außen sichtbare Verhaltensänderung des Systems hervorrufen und die Bezeichnung Lernen ist daher gerechtfertigt. Bisher wurde Vergessen nur als der radikale Vorgang des Löschens angesehen. Zwischen "Löschen" und "nicht Löschen" gibt es jedoch verschiedene Abstufungen, die man als graduelles Vergessen bezeichnen kann. Das kann auf verschiedene Weisen bewerkstelligt werden, z.B.: •
Durch Ändern der Repräsentation kann der Zugriff auf manche Informationsstücke schwerer gemacht werden.
•
Regeln, die auf Wissen zugreifen oder Kanten in einem semantischen Netz, das das Wissen strukturiert, können Gewichte haben. Ein Änderung der Gewichte kann ein graduelles Vergessen bedeuten.
•
Ähnlichkeiten können abgeschwächt werden und so Zugriffe bei analogen Schlußweisen erschweren.
Lernende Systeme
7.
Seite 61
Die Erfahrungen und der Erfahrungsgenerator
Die vom Erfahrungsgenerator γ erzeugten Erfahrungen E stellen neben dem Wissen in der Wissensbasis (dem Hintergrundwissen D, M und dem Lernziel G) eine wichtige Eingangsinformation für die Lernfunktion λ dar, denn aus den Erfahrungen soll das Lernsystem neues Wissen über seine Umwelt, seine Anwendungsdomäne lernen, bzw. sein Wissen so modifizieren, daß eine Performanzaufgabe besser gelöst werden kann. Die von γ generierten Erfahrungen müssen deshalb in einer für die Lernfunktion λ verständlichen und verwendbaren Art und Weise dargestellt sein.
7.1. Die Erfahrungen Bei den Erfahrungen sind •
die Art der Erfahrungen,
•
die Qualität der Erfahrungen,
•
der Abstraktionsgrad und
•
der verwendete Repräsentationsformalismus
von Wichtigkeit. 7.1.1. Art der Erfahrungen Ein wichtiges Merkmal der Erfahrungen ist das, was sie darstellen: die Art der durch sie beschriebenen Information. Erfahrungen können sein: •
Beispiele eines zu erlernenden Konzepts (vgl. [Mitchell, Keller, Kedar-Cabelli 86]),
•
Beispiele von Problemlösungen aus denen allgemeinere Problemlösungen generalisiert werden sollen,
•
Beispiele von Beweisen,
•
Beispiele von Fällen, wie etwa in Diagnosesituationen,
•
Informationen über (z.B. chemische oder physikalische) Experimente, die zu qualitativen oder quantitativen Aussagen führen sollen (vgl. [Langley, Simon, Bradshaw 83]), oder auch
Seite 62
•
Lernende Systeme
Sätze aus Sprachen, deren zugrundeliegende Grammatik erlernt werden soll (vgl. [Carbonell, Langley 87]).
7.1.2. Qualität der Erfahrungen Ein weiterer, wichtiger Faktor ist die Qualität der Erfahrungen. Dieser allgemeine Begriff wird hier in spezieller Weise verwendet. Die von einem Lehrer oder vom System selbst generierten Erfahrungen können qualitativ gut sein, etwa im Sinne von gut ausgewählten positiven und negativen Trainingsinstanzen eines Konzepts in Verbindung mit einer geschickt gewählten Trainingssequenz für das Lernen aus Beispielen. In ungünstigen Fällen aber können die Informationen auch verrauscht, unvollständig, ungenau, fehlerhaft, unzuverlässig oder widersprüchlich sein. Möglicherweise werden sie auch in ungeschickter Reihenfolge präsentiert und sind deshalb für den Lerner nicht instruktiv oder leiten ihn in die Irre. Fehlermöglichkeiten, die das Lernverhalten des Lerners negativ beeinflussen, können sein: •
Falsch vorklassifizierte Trainingsbeispiele (ein positiv klassifiziertes Beispiel ist in Wirklichkeit ein negatives Beispiel eines zu erlernenden Konzepts),
•
Werte von Attributen des Beispiels sind unbestimmt, oder
•
Werte von Attributen des Beispiels sind falsch.
Die hierdurch auftretenden Problematiken hängen eng mit der Funktion γ zusammen. Sie haben starke Auswirkung auf die von der Lernfunktion λ generierten Hypothesen und auf den zur Korrektur des in die Irre geleiteten Lernsystems nötigen Aufwand. Während einige Systeme von der Korrektheit der zu interpretierenden Erfahrungen ausgehen, versuchen andere, auch mit verrauschten Erfahrungen umzugehen und für das Lernen zu verwenden. Um aus verrauschten Erfahrungen dennoch lernen zu können, existieren einige allgemeine Vorgehensweisen. Hier sind vor allem zu nennen: •
Das Verwenden statistischer Methoden. Bei genügender Anzahl von positiven, unverrauschten Erfahrungen können statistische Methoden nützlich sein.
•
Das Entfernen fehlerbehafteter Trainingsbeispiele. Hierbei ist es allerdings nicht immer leicht zu entscheiden, welche Erfahrungen und Beispiele wirklich fehlerhaft waren, daher ist meist eine externe Bewertung nötig.
•
Das Generalisieren der Tests (der Selektoren), die zur Klassifikation der Beispiele verwendet wurden, um sie weniger restriktiv zu gestalten.
•
Das Verwenden von Domänenwissen. Zusätzliches Hintergrundwissen in Form von in der Domäne gültigen Constraints oder Ähnlichem schränken die möglichen Inferenzen auf eine plausible Teilmenge ein und unterstützen so das System im Umgang mit verrauschten oder inkonsistenten Daten.
Lernende Systeme
7.1.3.
Seite 63
Abstraktionsgrad der Erfahrungen
Der Begriff Abstraktionsgrad der Erfahrungen bezieht sich dabei auf den Grad der Allgemeinheit der Information relativ zu den Erfordernissen des Lernziels (z.B. Lernen von Konzepten) bzw. den Anforderungen des Performanzelements (z.B. Erstellen von Diagnosen in einem Expertensystem). Erfahrungen auf hohem Abstraktionsniveau sind für eine größere Klasse von Problemen nutzbar, als es Erfahrungen auf niedrigerem Abstraktionsniveau sind, die möglicherweise nur für ein einzelnes Problem verwendet werden können. Andererseits ist zu abstrakte Information meist nicht operational, d.h. nicht direkt durch das Performanzelement verwendbar, was zu erhöhtem Aufwand seitens der Lernfunktion führt. Eine der Aufgaben der Lernfunktion λ ist es, die Kluft zwischen dem Abstraktionsgrad der durch den Erfahrungsgenerator γ gelieferten Erfahrungen E und dem Abstraktionsgrad der für die Lernaufgabe oder das Performanzelement relevanten Informationen zu überbrücken. Werden dem Lernsystem seine Erfahrungen beispielsweise in sehr abstrakter Form mitgeteilt, so muß es die fehlenden Details in geeigneter Weise selbständig ergänzen. Umgekehrt, für den Fall daß die Erfahrungen zu speziell waren, muß die Lernfunktion durch Weglassen unwichtiger Details Informationen generalisieren können. Die Entscheidung, welche Informationen wichtig und welche unwichtig sind und was Details sind, die weggelassen werden können, kann das Lernsystem im voraus natürlich nicht genau und exakt wissen und ist daher auf die Formulierung von Hypothesen angewiesen, wie die Kluft zwischen den verschiedenen Abstraktionsniveaus am besten zu überbrücken sei. Durch Feedback muß es dem Lernsystem ermöglicht werden, die erzeugten Hypothesen evaluieren und gegebenenfalls — im Lichte neuer Erkenntnis — revidieren zu können. Dies geschieht mittels der Evaluationsfunktion ν, die in einem eigenen Kapitel beschrieben wird. Zur Illustration sollen die folgenden beiden Beispiele dienen: •
Beim Auswendiglernen liefert der Erfahrungsgenerator γ (in diesem Fall ein externer Lehrer) die Erfahrungen E für das Lernsystem genau auf dem für die Lernaufgabe notwendigen Abstraktionsniveau und es müssen keine Hypothesen erzeugt werden. Die dargebotenen Erfahrungen sind in einem unmittelbar verwendbaren Repräsentationsformalismus repräsentiert und werden direkt in die Wissensbasis des Lernsystems integriert.
•
Beim Lernen aus Beispielen sind die dargebotenen Erfahrungen oft zu spezifisch und detailliert und somit muß das Lernsystem Hypothesen über den Beispielen zugrundeliegende, allgemeinere Regelmäßigkeiten oder Gemeinsamkeiten formulieren.
7.1.4. Repräsentationsformalismus Der für die Darstellung der Erfahrungen verwendete Repräsentationsformalismus muß der Lernfunktion λ angemessen sein. Grundsätzlich können hierzu alle in der KI bekannten Repräsentationsformalismen verwendet wer-
Seite 64
Lernende Systeme
den, die auch bereits im Abschnitt über Wissensrepräsentationsformalismen besprochen wurden. Die Entscheidung für oder gegen einen bestimmten Formalismus hat starke Konsequenzen. Während sich Aussagenlogik einerseits gut zur Darstellung von Objekten mit Attributen und zugehörigen Werten eignet, andererseits den Nachteil hat, daß sich die innere Struktur der beschriebenen Objekte oft nicht erkennen läßt, eignen sich höhere Repräsentationsformalismen wie Frames und semantische Netze zur Repräsentation von komplexeren Beziehungen. Das in der ML-Literatur am meisten untersuchte Gebiet des Lernens aus Beispielen verwendet zur Repräsentation der Erfahrungen (also der Beispiele) in der Regel auf Aussagenlogik basierende Formalismen. Die von der Erfahrungsfunktion γ generierten Beispiele sind meist durch Attribute und deren konkrete Ausprägungen charakterisierte Konzeptbeschreibungen.
7.2. Der Erfahrungsgenerator Der Erfahrungsgenerator γ erzeugt die für das Lernen nötigen Erfahrungen und Beispiele. Die Funktion γ kann für die Erzeugung von neuen Erfahrungen möglicherweise selbst bereits gelerntes Wissen verwenden, das Lernziel G berücksichtigen, alte, schon einmal generierte Erfahrungen modifiziert erneut darbieten oder ähnliches. Die möglichen Ausprägungen des Erfahrungsgenerators haben großen Einfluß auf das Verhalten des Lernsystems in bezug auf eine akkurate Repräsentation seiner Umwelt und auf die Geschwindigkeit, mit der diese Repräsentation gefunden werden kann. 7.2.1. Inkrementalität Ein Unterscheidungsmerkmal verschiedener ML-Systeme ist die Art, in der die Erfahrungen dem Lernsystem dargeboten werden. Zu unterscheiden sind •
nichtinkrementelle und
•
inkrementelle Vorgehensweisen.
Bei nichtinkrementeller Darbietung der Erfahrungen werden dem Lerner alle für das Lernen relevanten Informationen (also Konzept-Beispiele etc. ) komplett und auf einmal präsentiert. Ein gutes Beispiel hierfür ist das Induzieren von Entscheidungsbäumen ausgehend von einer initialen Menge von Erfahrungen. Diese Menge ist fest und wird während des Lernens nicht verändert. Alle relevanten Informationen müssen anfangs vorhanden sein. Inkrementelle Erzeugung von Erfahrungen bedeutet die sukzessive Erzeugung und Darbietung beispielsweise von positiven und/oder negativen Instanzen eines zu lernenden Konzepts oder von grammatikalisch korrekten Sätzen einer zu erlernenden Grammatik einer Sprache. Die Wahl der Reihenfolge der Erfahrungen spielt dabei eine erhebliche Rolle. Die Systeme können
Lernende Systeme
•
reihenfolgeabhängig oder
•
reihenfolgeunabhängig sein.
Seite 65
Reihenfolgeunabhängige Systeme werden gelegentlich auch als stabil bezeichnet. Sie lernen bei identischen Erfahrungen, bei denen nur die Darbietungsreihenfolge variiert wird, stets das gleiche Wissen. Inkrementelle Ansätze lassen sich eher als psychologisch plausible Modelle menschlichen Lernens verstehen, denn sie reflektieren den mit einer sich dynamisch ändernden Umgebung konfrontierten Lerner. Trotz dieser Unterschiede verwenden inkrementelle und nichtinkrementelle Methoden oft die gleichen grundlegenden Lernoperatoren und liefern auch vergleichbare und ähnliche Resultate. In vielen Fällen ist es auch möglich, von nichtinkrementellen Verfahren inkrementelle Varianten zu konstruieren. Schlimmer und Fisher (vgl. [Schlimmer, Fisher 86]) zeigten das mit ihrem System ID4, einer inkrementellen Version von Quinlans nichtinkrementellem ID3-System (vgl. [Quinlan 86]). Umgekehrt gibt es auch für inkrementelle Methoden nichtinkrementelle Varianten. Handelt es sich also nicht um grundsätzlich unvereinbare Ansätze, sondern muß man sie eher als verschiedene Versionen voneinander betrachten, so ergeben sich interessante Fragen bezüglich der möglicherweise beobachtbaren Unterschiede im Verhalten eines Lernsystems. Fragestellungen, die es zu untersuchen gilt, sind: •
Erwerben inkrementelle und nichtinkrementelle Versionen eines Verfahrens immer dieselben Wissensstrukturen, d.h. steckt in der finalen Repräsentation Rf im Prinzip das gleiche Wissen? Unter welchen Voraussetzungen erwerben sie dieselben Wissensstrukturen und unter welchen Voraussetzungen tun sie es nicht?
•
Wie viele Trainingsinstanzen benötigt jede Version um asymptotisches Verhalten erkennen zu lassen und auf eine (z.B.) Konzeptbeschreibung zu konvergieren?
•
Wo liegen die Unterschiede bezüglich des Verarbeitungsaufwands um ein bestimmtes Maß an Performanz zu erreichen?
Vertreter für inkrementelles und nichtinkrementelles Lernen findet man beim Konzeptlernen. Das inkrementelle Erzeugen von Erfahrungen läßt sich noch nach der Wiederverwendung bereits erzeugter Erfahrungen und von Wissen aus der Wissensbasis unterteilen: •
Keine Erinnerung an alte Erfahrungen (Beispiele). Bereits präsentierte und verarbeitete Beispiele werden nicht gespeichert. Die Erzeugung neuer Beispiele erfolgt von Grund auf neu. Bisheriges Wissen, insbesondere das Lernziel G kann dabei jedoch benutzt werden um die darzubietenden Erfahrungen geschickt zu wählen.
•
Partielle Erinnerung an Erfahrungen. Einige repräsentative, bereits gesehene und verarbeitete Beispiele werden gemerkt und können als Ausgangspunkt für die Darbietung eines verfeinerten Beispiels dienen. Alte Beispiele müssen evtl. nur leicht modifiziert werden.
Seite 66
•
Lernende Systeme
Vollständige Erinnerung an Erfahrungen. Alle bereits gesehenen und verarbeiteten Beispiele werden gespeichert und können verwendet werden (vgl. z.B. die späteren Abschnitte über Exemplar-Based Learning oder Case-Based Learning).
Betreffs des zweiten Punktes sei auf den Begriff des near-miss beim Konzeptlernen hingewiesen: Ein near-miss ist ein Gegenbeispiel eines Konzepts, das positiven Beispielen dieses Konzepts aber sehr ähnlich ist. Beim Lernen aus Beispielen ist ein solcher near-miss sehr nützlich zur Isolation signifikanter Merkmale und zur Beschränkung von Generalisierungen. Die obigen drei Typen des inkrementellen Konzeptlernens spiegeln verschiedene Trade-offs zwischen dem Grad des Speicherbedarfs, der Geschwindigkeit des Lernens (der Schnelligkeit der Konvergenz auf eine Konzeptbeschreibung) und der Qualität der gelernten Konzeptbeschreibungen wider (in ungeschickter Reihenfolge dargebotene Beispiele haben weniger nachteiligen Einfluß, wenn der Lerner auf sie zurückgreifen kann, um seine Hypothese zu revidieren). Zusammenfassend sind die zu beachtenden Gesichtspunkte beim inkrementellen Konzeptlernen: •
die Auswahl einer optimalen Menge von Trainingsinstanzen nach Merkmalen wie Typikalität, Repräsentativität etc. und
•
deren sinnvolle sequentielle Anordnung und Vorlage (optimale Sequenz), die beide zusammen die schnelle Konvergenz auf eine einzige Konzeptbeschreibung unterstützen.
In [Subramanian, Feigenbaum 86] wird gezeigt, wie eine optimale Menge von Trainingsinstanzen für einen Konzeptlerner durch Faktorisieren konjunktiver Konzepte in ihre Bestandteile erreicht werden kann. 7.2.2. Externer Lehrer und Orakel Die Rolle des Generierens von Erfahrungen kann — wie bei den anderen funktionalen Komponenten λ und ν eines Lernsystems — von einem externen Lehrer oder vom Lernsystem selbst übernommen werden. Eine dritte Möglichkeit ist das Beobachten der Umgebung des Lernsystems, der Fall also, in dem γ Erfahrungen zufällig erzeugt. In beiden Fällen spricht man häufig auch von einem Orakel. Somit ergeben sich folgende Möglichkeiten: •
Tutoring: Die Funktion γ wird von einem externen Lehrer übernommen der die Erfahrungen sinnvoll generiert.
•
Aktives Experimentieren: Das Lernsystem selbst übernimmt die (zielgerichtete und durch Wissen gesteuerte) Generierung von Erfahrungen.
•
Passives Observieren: Die extern von der Umgebung zufällig erzeugten Erfahrungen werden beobachtet, generalisiert, evtl. klassifiziert usw.
Lernende Systeme
8.
Seite 67
Die Evaluationsfunktion
Die Evaluationsfunktion ν übernimmt die Kontrolle der Lernvorgänge, wirkt steuernd in Richtung auf eine gute Repräsentation und überprüft, ob die vom Lerner erreichte Repräsentation der Domäne akkurat und adäquat ist, bzw. allgemeiner: ob das Lernziel G, das Kriterium für erfolgreiches Lernen (Rf=G) oder ein anderes Abbruchkriterium erreicht wurde. Die Funktion ν verwendet dabei Wissen aus der Wissensbasis, insbesondere Metawissen M zur Kontrolle und Steuerung des Lernens und das Lernziel G zum Überprüfen des erfolgreichen Lernens. Eventuell kann ν auch selbst Änderungen an der Wissensbasis vornehmen, indem sie Metawissen modifiziert und so Einfluß auf z.B. die Erzeugung von Erfahrungen durch den Erfahrungsgenerator γ nimmt. Genau zu trennen ist dabei zwischen Kontrolle einerseits und Bewertung bisheriger Lernergebnisse andererseits.
8.1. Kontrollstrategie Mögliche Kontrollstrategien können sein: •
Bottom-up (data driven): Lernvorgänge werden durch Vorliegen und Auswertung neuer Erfahrungen geleitet. Empirische Lernsysteme verwenden typischerweise eine bottom-up Kontrollstrategie.
•
Top-down (model driven): Die Lernvorgänge werden von einem Modell der Domäne geleitet. Analytische Lernsysteme sind hierfür repräsentativ.
•
Mixed: Mischformen aus bottom-up und top-down. Eine Erfahrung (ein Beispiel) kann zum Fokussieren auf im weiteren top-down gerichtetes Lernen dienen.
8.2. Erfolgskriterium Wie früher erwähnt, ist für die Beurteilung von Lernvorgängen ein Maß erforderlich, das auch darüber entscheiden kann, ob das Lernen erfolgreich war und die Lernvorgänge daher abgebrochen werden können. Ein Erfolgs- oder auch Qualitätskriterium Q ist ein Kriterium, das die erfolgreiche Lösung der Lernaufgabe G durch das System definiert, mißt und überprüft. Das Erfüllen des Kriteriums wird dann durch Rf=Q G oder auch einfach durch Rf=G notiert. Drei bekannte Erfolgskriterien sind •
Identifizierung im Limes, wobei für jede zulässige Repräsentation des Lernziels alle außer einer endlichen Anzahl in der durch das
Seite 68
Lernende Systeme
System erzeugten Sequenz von Hypothesen dem Ziel äquivalent sind (vgl.[Angluin, Smith 83] und [Gold 67]), •
Approximation in polynomialer Zeit, wobei das System mit "hoher Wahrscheinlichkeit" in polynomialer Zeit eine das Ziel mit "hoher Genauigkeit" approximierende Hypothese erzeugen muß (vgl. [Haussler 87] und [Valiant 84]) und
•
das PAC δε-Lernen (vgl. [Fayyad, Laird, Irani 89] und [Angluin, Laird 86]). PACδε-Lernen steht für probably approximately correct und ein Konzeptlernalgorithmus heißt PACδε-Lerner, wenn er mit einer Wahrscheinlichkeit größer als 1- δ eine Hypothese generiert, die nicht weiter als ε vom aktuell zu lernenden Konzept entfernt ist (entsprechend einem Abstandsmaß in bezug auf die Fehlerwahrscheinlichkeit). ε repräsentiert daher die Genauigkeit der generierten Hypothese, 1- δ die Zuverlässigkeit des Lerners.
Unter dem Begriff Konvergenz wird hier vorläufig im Zusammenhang mit erfolgreichem Lernen der informelle Begriff der Stabilisierung des Lerners auf eine bestimmte, finale Repräsentation Rf verstanden. Im Teil der Ausarbeitung "Konnektionismus" wird genauer auf die mathematische Beschreibung der einzelnen Ausprägungen der Konvergenz- und Stabilitätsbegriffe eingegangen. R. S. Michalski (vgl. [Michalski, Carbonell, Mitchell 86]) beschreibt drei Kriterien zur Evaluation der Qualität der durch das Lernsystem generierten Repräsentationen und damit des gelernten Wissens: Korrektheit, Effektivität und Abstraktionsebene. 8.2.1. Korrektheit Die Korrektheit des Gelernten bezieht sich auf den Grad der Genauigkeit mit der die erzeugten Repräsentationen die Realität wiedergeben. Dieser Grad charakterisiert die Abbildung zwischen Realität und Repräsentation und beschreibt die Vorhersagemächtigkeit (engl. predictive power) einer Repräsentation. Eine Konzeptbeschreibung A ist in diesem Sinne korrekter als eine Konzeptbeschreibung B, wenn A in mehr Fällen als B positive Instanzen richtig als solche erkennt und umgekehrt A in weniger Fällen als B negative Instanzen fälschlich als positiv erkennt. 8.2.2. Effizienz Das Kriterium der Effizienz versucht den Performanzaspekt eines Lernsystems zu erfassen. Effizienz charakterisiert die Nützlichkeit der generierten Repräsentation für ein gegebenes Ziel oder einen bestimmten Zweck. Eine Repräsentation ist in einem intuitiven Sinne effizient, wenn sie einfach anwendbar ist und starke Ergebnisse liefert (etwa im Sinne von "einen Suchraum stark einschränken" etc.). Der Begriff des Operationalitätskriteriums hängt hiermit eng zusammen. Eine Konzeptbeschreibung beispielsweise heißt operational, wenn sie effizient zur Erkennung von Instanzen des durch sie beschriebenen Konzeptes benutzt werden kann. [Keller 87] unterscheidet nochmals drei Aspekte von Operationalität:
Lernende Systeme
•
Variabilität,
•
Granularität und
•
Sicherheit, Gewißheit .
Seite 69
8.2.3. Abstraktionsebene Die Abstraktionsebene spiegelt den Gültigkeitsbereich und den Detaillierungsgrad einer Repräsentation wider und legt auch die Erklärungs- und Vorhersagemächtigkeit des Erlernten fest. Die Erklärungsmächtigkeit einer abstrakten Repräsentation ist größer in dem Sinne, daß sie allgemeinere Zusammenhänge und Regularitäten ausdrücken kann im Unterschied zu den mehr konkreten, spezifischen Repräsentationen. W. Van de Velde behandelt diese Problematik in [Van de Velde 88].
8.3. Lehrer und Orakel Die Funktion der Evaluation kann von einem externen Orakel (wieder ein Lehrer) oder vom System selbst übernommen werden. Systeme, bei denen lediglich die Bewertung der erreichten Repräsentation durch einen externen Lehrer übernommen wird, die Aufgaben von γ und λ aber vom System selbst, sind beispielsweise unüberwachte Klassifizierer, die durch Belohnung und Tadel (reinforcement) lernen.
Seite 70
9.
Lernende Systeme
Die Umwelt und das Performanzelement
Die Umwelt U eines Lernsystems L kann die Funktion aller drei funktionalen Komponenten γ, λ und ν übernehmen. Diese Funktionen stellen die Schnittstellen des Lernsystems nach außen dar.
9.1. Der Lehrer Oft besteht die Umgebung des Lernsystems hauptsächlich aus einem extern vorhandenen Lehrer, der eine Teilmenge der drei Funktionen übernehmen kann. Der externe Lehrer assistiert dem Lerner bei der Erfüllung seines Lernziels und unterstützt es bei der Suche nach einer akkuraten Repräsentation in Richtung auf erfolgreiches Lernen. Ein wichtiges Klassifikationsmerkmal ist daher der Grad der Interaktion des Lerners mit einem externen Lehrer. Für ein Lernsystem ergeben sich daher die beiden Extrema •
aktives, autonomes, unüberwachtes Lernsystem, das für die Erzeugung von Erfahrungen, die Formierung von Hypothesen und die Bewertung der Repräsentation völlig sich selbst überlassen ist und
•
passives, überwachtes System, das völlig von einer externen Steuerung abhängt.
Dazwischen existieren verschiedene Zwischenformen, die man als assistiertes oder unterstütztes Lernsystem bezeichnen kann. Je nachdem, welche Funktionen ein externer Lehrer übernimmt, ergeben sich nach [Scott, Shalin, Wisniewski, Levi 88] acht mögliche Ausprägungen: Rolle des ext. Lehrers
Beschreibung
ML-System bzw. ML-Methode
l,n,g
Interaktive Wissensakquisition learning apprentice Systeme Modellierung eines Studenten Konzeptlernen, Klassifizieren
TEIRESIAS FOO LEAP
l,n l,g g,n g
Clusteringsysteme theoriegesteuertes Lernen durch Beispiele Planen und Problemlösen
LMS ID3, version space, AQ11, Winstons ARCH Programm, Genetische Algorithmen CLUSTER/2, BACON EBG, EBL SOAR, STRIPS, Samuels CHECKERS Programm ACM
Lernende Systeme
Seite 71
Lernen durch Lob und Tadel ? Lernen durch Entdecken
n l Ø
Klassifizierer (classifier systems) ? AM, EURISKO, LEX
9.2. Das Performanzelement Das Performanzelement P ist kein Bestandteil eines Lerners, sondern der Umwelt. Dennoch spielt es eine nicht unerhebliche Rolle bei der Klassifikation von ML-Systemen, denn es charakterisiert deren Verwendungszweck und bildet zusammen mit der restlichen Umwelt und dem Lerner selbst eine Lernstruktur. Das Performanzelement P verwendet das verfeinerte Wissen der Wissensbasis R des Lerners in verschiedener Hinsicht; ist die Aufgabe des Lerners das Lernen neuen Wissens per se, so ist das Performanzelement eigentlich nicht existent. Ist die Aufgabe des Lerners das Verbessern des Verhaltens eines mit dem Lerner gekoppelten, anderen Systems, so wird dieses andere System durch das Performanzelement P beschrieben und das Wissen des Lerners zur effektiveren Durchführung der Performanzaufgabe verwendet. Als mögliche Verwendungszwecke des Lernsystems sind zu nennen: 1) Allgemeiner Verwendungszweck: Hierzu gehören die domänenunabhängige, theoretische Analyse von Lernmethoden und Algorithmen, allgemein die Untersuchung des potentiellen Raums von Lernalgorithmen. 2) Spezieller Verwendungszweck: Als spezielle Verwendungszwecke werden gesehen: •
Die kognitive Simulation und Modellierung menschlicher Lernprozesse und mentaler Mechanismen sowie die Entwicklung psychologischer Theorien, sowie
•
aufgabenorientierte Verwendungszwecke, die die Verbesserung der Performanz eines Systems bei bestimmtem Aufgaben zum Ziel haben. Hier ist noch einmal eine Subklassifikation nach verschiedenen Anwendungsgebieten möglich: - Wissensakquisition für Expertensysteme und Beratungssysteme, die dem Erwerb von Expertise und der konzeptuellen Datenanalyse dienen soll, - die Entwicklung intelligenter Tutorsysteme, - der Erwerb und das Verstehen natürlicher Sprache, - Computersehen, - die Entwicklung intelligenter, autonomer Systeme, - Theorembeweisen, - Planen,
Seite 72
Lernende Systeme
- Problemlösen etc. Damit sind alle repräsentationalen und funktionalen Komponenten des eingeführten Lernmodells sowie ihre möglichen Ausprägungen einmal diskutiert worden.
Lernende Systeme
Seite 73
1 0 . Synthetische Lernverfahren Das Schaubild des allgemeinen Lernmodells erfährt beim synthetischen Lernen die folgende Modifikation: Umwelt U
Lerner L ν
evtl. Verwenden von Wissen zur Generierung von Erfahrungen
Modifikation von (Kontroll-)Wissen
Lernziel? Klassifikationsverhalten?
R G
Evaluation der Erfahrungen
Generieren von Erfahrungen, viele Beispiele γ evtl. Modifikation alter Erfahrungen
B
M
Performanzelement P
E erwenden on rfahrungen
D
H Verwenden von Wissen λ
induktives Erzeugen von Hypothesen: Neues Wissen
Synthetisches Lernen im Lernmodell
Die einzelnen Ausprägungen des synthetischen Lernens werden jetzt anhand konkreter Beispiele diskutiert. Wie bereits in 3.4.4 erwähnt, basieren synthetische Lernverfahren auf induktiver Inferenz. Ein reines induktives Lernsystem erzeugt Wissen allein durch induktive Inferenz auf den gegebenen Fakten und unter Ausschluß von Hintergrundwissen. Induktives Lernen ist nicht angemessen für das Lernen von natürlichen Konzepten, die nicht vollständig durch notwendige und hinreichende Eigenschaften beschrieben und definiert werden können. Ein weiterer Nachteil von rein induktiven Lernverfahren ist, daß ihre Hauptfunktion im korrekten Erkennen und dem Identifizieren neuer Instanzen liegt, gelerntes Wissen aber eine ganze Reihe von Funktionen unterstützen sollte. Wir legen wieder eine Konzeptbeschreibungssprache (also eine Sprache zur Beschreibung von Klassifikatoren) zugrunde. Wichtig ist nun daß i.A. nicht alle in dieser Sprache definierbaren Ausdrucksweisen für Konzeptbeschreibungen zugelassen sind, sondern daß man sich meist auf ein Sprachfragment beschränkt. Das hat insbesondere zur Folge, daß gar nicht mehr alle
Seite 74
Lernende Systeme
möglichen Klassifikationen beschreibbar sind. Ein Beispiel soll dies illustrieren. Nehmen wir an, die Objekte der zugrundeliegenden Menge M seien durch n Attribut-Werte-Paare definiert mit den Attributen Ai, 1 ≤ i ≤ n, die die Wertebereiche W(Ai) haben mögen. Der Konzeptbeschreibungsraum K soll dann alle Formeln der Gestalt A1(x) = y1 å A2(x) = y2 å .... å An(x) = yn enthalten, wobei yi W(Ai) oder eine Variable z ist. Diese Beschreibungen sind aus dem Fragment der Prädikatenlogik, das nur Konjunktionen von Formeln der Gestalt Ai(x) = yi enthält. Es ist klar, daß längst nicht alle Klassifikatoren auf diese Weise beschreibbar sind. In einer Lernsituation haben wir demgemäß zu unterscheiden: 1) Ist die Klassifikation in K beschreibbar ? 2) Kann ein spezielles Verfahren eine gesuchte Beschreibung lernen ?
10.1. Lernen eines Konzeptes Der einfachste Fall von synthetischem Lernen ist das Lernen eines einzigen Konzeptes aus Beispielen. Ein solches Konzept ist wie erwähnt mit einer Klassifikationsaufgabe verknüpft: Man teilt die Objekte in zwei Klassen ein; die eine enthält die Instanzen des Konzepts und die andere die restlichen Objekte. Hat man das Konzept gefunden, läßt sich die Klassenzugehörigkeit eines Beispiels (meist) auf einfache Weise feststellen. In 5.3.2 hatten wir Konzepterkennungsfunktionen eingeführt, die zu Mengen von positiven und negativen Beispielen Verallgemeinerungen suchten und in 3.4.4 wurde dieses Lernen als induktive Inferenz gedeutet. Ein Konzept hieß vollständig, wenn es alle positiven Beispiele umfaßte und konsistent, wenn es keines der negativen Beispiele beinhaltete. Von vorgegebenen Beispielen ausgehend kann man sich nun viele induktive Schlüsse denken. Eine Möglichkeit, einen speziellen induktiven Schluß A (aus den Prämissen X1,...,Xn) auszuzeichnen besteht darin, daß er der am wenigsten allgemeine Schluß ist. Er ist dadurch gekennzeichnet, daß jeder andere induktive Schluß B bereits A deduktiv impliziert:
Lernende Systeme
Seite 75
B
A
Deduktion
X1 , ... , Xn
Induktion
Man fragt sich, warum man an den speziellsten Verallgemeinerungen interessiert ist. Der Grund liegt darin, daß induktive Schlüsse auch bei wahren Voraussetzungen nicht unbedingt zu Wahrheiten führen müssen: nicht optimale Verallgemeinerung
optimale Verallgemeinerung
vorgelegte positive Beispiele weitere nicht vorgelegte positive Beispiele negative Beispiele (nicht vorgelegt)
Defintionsgemäß umfaßt jede Verallgemeinerung alle bekannten positiven Beispiele (und sie soll alle bekannten negativen Beispiele ausschließen). Von den unbekannten Beispielen wird die Verallgemeinerung einige der positiven (evtl. nicht alle), aber meist leider auch einige der negativen umfassen. Die speziellste Verallgemeinerung hat nur eine minimale Menge von Beispielen; sie ist also dahingehend optimal, daß sie die wenigsten Fehler macht. Das Lernen von Konzepten kann inkrementell und nichtinkrementell erfolgen, d.h. es können die Beispiele sukzessiv oder simultan vorgelegt werden.
Seite 76
Lernende Systeme
Nichtinkrementelles Konzeptlernen: Gegeben:
•Beispiele und Gegenbeispiele eines Konzepts •Hintergrundwissen (Domänenwissen, allgemeine Constraints, Präferenzkriterium) Finde: eine allgemeine, vollständige und konsistente Konzeptbeschreibung
nichtinkrementelles Konzeptlernen
Inkrementelles Konzeptlernen: Gegeben: • eines oder mehrere Beispiele und die momentane Konzepthypothese H
• Hintergrundwissen Finde: eine allgemeine, vollständige und konsistente Konzeptbeschreibung, wobei folgendermaßen vorzugehen ist: • Eingabe ist positives Beispiel e+ : FALLS H erfaßt e+ DANN o.k. SONST generalisiere H: H:= generalize(H, e + ) • Eingabe ist negatives Beispiel e- : FALLS H erfaßt e- nicht DANN o.k. SONST spezialisiere H: H:=specialize(H, e - )
inkrementelles Konzeptlernen
10.1.1. Antiunifikation In der Prädikatenlogik läßt sich dies noch näher präzisieren und trifft auch für viele Fälle den gewünschten Sachverhalt. In diesem Abschnitt werden negative Beispiele nicht betrachtet. Die möglichen Beobachtungen seien sämtlich durch aussagenlogische Kombinationen von variablenfreien Atomformeln beschrieben. Zugelassen als induktive Schlüsse sind Formeln der Gestalt Æ x1, … , xnΦ, wobei Φ keine Quantoren enthält.
Lernende Systeme
Seite 77
In diesem Fall erhalten wir die Beispiele aus den induktiven Schlüssen zurück durch: 1)
Weglassen der Quantoren und nachfolgenden Substitutionen;
2)
eine anschließende logische Herleitung.
Weil in den induktiven Schlüssen nur Formeln erzeugt werden, deren einzige Quantoren Æ -Quantoren sind, lassen wir diese ganz weg; Variable sind somit stets allquantifiziert zu denken. Wenn keine weitere Hintergrundtheorie vorhanden ist, vereinfacht sich die Sache etwas, weil die Herleitung rein aussagenlogisch wird. Damit hat man das Auffinden einer Verallgemeinerung auf ein inverses Substitutionsproblem zurückgeführt; das Problem der speziellsten Verallgemeinerung ist dual zum Unifikationsproblem bei den automatischen Beweisverfahren.
Definition: (i) Für quantorenfreie Formeln Φ und Ψ gilt Φ ≥ Ψ genau dann, wenn es eine Substitution σ gibt, so daß Ψ µ σ(Φ) aussagenlogisch herleitbar ist. In diesem Fall heißt Φ allgemeiner als Ψ. (ii) Eine Antiunifikation von aussagenlogischen Formeln A1,… ,An ist eine Formel Φ mit Φ ≥ Ai, 1≤i≤n, so daß für alle Ψ mit Ψ ≥ Aj, 1≤j≤n auch schon Ψ ≥ Φ gilt.
Die Idee bei der spezieller-allgemeiner Relation ist, daß die allgemeinere Formel auf mehr (oder wenigstens nicht weniger Objekte zutrifft als die speziellere.Betrachten wir etwa die Formeln P(x), P(f(x)) und P(f(a)). In der ersten Formel kann man alle Objekte einsetzen, in der zweiten nur solche der Form f(t) und in der dritten nur das Objekt f(a). Wenn diese Formeln also eine Klasse K beschreiben, so werden sie sukzessive kleiner. Es gelten die Implikationen (P(x) µ x K) µ (Pf((x)) µ f(x) K), (Pf((x)) µ f(x) K) µ (P(f(a)) µ f(a) K). Sind die drei Klassenbeschreibungen aufgrund der Beobachtung erfolgt, daß f(a) P erfüllt und in K liegt, so sind hierfür alle drei Beschreibungen korrekt und vollständig. Die Antiunifikation liefert in der Tat die speziellste Verallgemeinerung der Beispiele. Interessiert sind wir natürlich an einem Antiunifikationsalgorithmus (für eine Klasse von Beispielen), der die Existenz einer Antiunifikation entscheidet und sie gegebenenfalls berechnet. In diesem Ansatz ist die Rolle von etwaigen Gegenbeispielen genau zu untersuchen. Wenn etwa A eine Atomformel und Φ eine Generalisierung ist, dann ist es nicht das gleiche, ob Φ das Gegenbeispiel A nicht umfaßt, d.h. Φ ≥ A
Seite 78
Lernende Systeme
nicht gilt, oder ob Φ die Negation ¬A umfaßt, d.h. Φ ≥ ¬A gilt. Im letzteren Fall wird mehr verlangt; Gleichwertigkeit gilt nur bei der "Closed-World-Assumption". Schauen wir uns zwei Beispiele für eine Antiunifikation an: (1) Gegeben seien die Beispiele P(f(a)) und P(f(b)), wobei f ein Funktionssymbol und a und b Konstanten sind; weiter seien x und y Variable. Ein Kandidat für die Antiunifikation ist P(y), denn es ist allgemeiner als jedes der Beispiele; der am wenigsten allgemeine Kandidat ist jedoch P(f(x)): P(y) (y|f(x)) (y|f(b))
(x|a) P(f(a))
(y|f(b))
P(f(x))
(x|b) P(f(b))
Wir prüfen noch die Frage, ob nicht auch P(f(a)) √ P(f(b)) eine Antiunifikation liefert. Dies beruht auf einem korrekten logischen Schluß, würde aber gegen die Intuition verstoßen die wir von einer Verallgemeinerung haben, denn eine Verallgemeinerung soll ja nicht einfach alle erfolgten Beobachtungen aufzählen. P(f(a)) √ P(f(b)) erfüllt zwar die Forderung, von jedem Beispiel aussagenlogisch impliziert zu werden, aber es gibt keine Substitution σ, sodaß σ(P(f(x))) durch die Formel P(f(a)) √ P(f(b)) aussagenlogisch impliziert würde. Mit anderen Worten, P(f(a)) √ P(f(b)) wäre in unserem Sinne nicht spezieller als P(f(x)). In den meisten Anwendungen (etwa beim Versionsraumalgorithmus, s.u.) sind solche Disjunktionen als induktive Schlüsse auch ausschlossen. Das "gelernte" P(f(x)) ist u.U. nicht korrekt, weil es natürlich noch weitere Elemente c geben kann, für die P(f(c)) nicht stimmt. (2) Gegeben seien die beiden Beispielaussagen P(a) √ Q(b) und P(a) √ R(c). In diesem Falle liefert die Antiunifikation einfach P(a), Substitutionen sind gar nicht beteiligt. Ein korrekter logischer Schluß würde das Resultat P(a) √ (Q(b) å R(c)) ergeben. Das "gelernte" P(a) ist u.U. nicht korrekt, weil die Wahrheit der Beispielaussagen eben gerade auf der Wahrheit von von Q(b) oder R(c) hätte beruhen können. Falls Q(b) und R(c) gerade Negationen voneinander wären, ergäbe die Verallgemeinerung aber wieder ein korrektes Ergebnis; der Schluß wäre nämlich gerade die Resolutionsregel. Die Lehre hieraus wollen wir in der Form von Verallgemeinerungsregeln formulieren:
Lernende Systeme
Seite 79
Verallgemeinerungsregel 1: Ersetzen eines Termes durch eine Variable, die in der Formel nicht vorkommt. Verallgemeinerungsregel 2: Weglassen eines oder mehrerer Disjunktionsglieder.
Durch die erste Regel kann man aus P(f(a)) sowohl P(x) wie auch P(f(x)) erhalten. Aus Regel 2 erhält man für Implikationen noch
Verallgemeinerungsregel 2': Weglassen von Prämissen in einer Implikation.
Eine solche Implikation ist z.B. die Regel (in Prologschreibweise) Q:R,S,T. Eine Verallgemeinerung wäre Q:- R,T . Diese Regeln verallgemeinern von einem Beispiel; sind mehrere Beispiele gegeben, dann suchen wir gemeinsame Verallgemeinerungen und müssen dazu die Regelanwendungen entsprechend einschränken. Es seien n Beispiele A1,…,An gegeben. Anwendung von Regel 1: Wende diese Regel so auf die Ai an, daß (i)
in jedem Fall dieselbe Formel A entsteht;
(ii) kein Substitutionsergebnis von A außer einer Variablennumerierung kann auf dieselbe Weise entstehen. Anwendung von Regel 2: Es seien alle Ai Disjunktionen. Wende diese Regel auf die Ai so an, daß (i)
in jedem Fall dieselbe Formel A entsteht;
(ii)
nicht in jedem Ai die gleiche Formel weggelassen wird.
Für die zweite Regel ergibt sich Entsprechendes für Implikationen.
Beispiel: Die Beispielaussagen seien: (1)
WENN Hat-Fieber(Karl) å Hat-Schnupfen(Karl) å Hustet(Karl) DANN Ist-Erkältet(Karl)
Seite 80
Lernende Systeme
(2)
WENN Hat-Fieber(Karl) å Hat-Schnupfen(Karl) å Hat-Kopfweh(Karl) DANN Ist-Erkältet(Karl)
(3)
WENN Hat-Fieber(Fritz) å Hat-Schnupfen(Fritz) DANN Ist-Erkältet(Fritz)
Die zweite Verallgemeinerungsregel ergibt angewandt auf (1) und (2) (4)
WENN Hat-Fieber(Karl) å Hat-Schnupfen(Karl) DANN Ist-Erkältet(Karl)
Aus (3) und (4) erhalten wir mit der ersten Regel dann WENN Hat-Fieber(x) å Hat-Schnupfen(x) DANN Ist-Erkältet(x)
D.h. also: wer Fieber und Schnupfen hat, ist erkältet. Normalerweise würde man so schnell natürlich nicht schließen. Man würde mehr Beispiele nehmen, nach verborgenen Parametern (das sind bisher unbekannte Einflußgrößen) suchen, Hintergrundwissen einsetzen und dergleichen mehr. Ist die zu lernende Verallgemeinerung vorgegeben (etwa von einem Lehrer), dann ergeben sich u.a. folgende Fragen: •
Wieviel Beispiele benötigt man minimal?
•
Mit welchen Beispielen lernt man schneller?
•
Welche Reihenfolgen von Beispielen sind "gut"?
10.1.2. Die Versionsraummethode Die Vorgehensweise des letzten Abschnittes wird jetzt wie folgt erweitert: 1)
Die zugrundeliegende Sprache ist nicht unbedingt die der Prädikatenlogik (obwohl diese unser Hauptbeispiel bleiben wird); für Beispiele und Verallgemeinerungen müssen die Sprachen nicht identisch sein.
2)
Es sollen sowohl positive wie auch negative Beispiele vorgelegt werden.
3)
Mittels eines Substitutionsbegriffes ist für zwei Aussagen Φ und Ψ die Relation Φ allgemeiner als Ψ festgelegt; die inverse Relation heißt spezieller. Diese Relation wird je nach den verwendeten Sprachmitteln leicht variieren, aber sie orientiert sich stets an der Relation "≥" des letzten Abschnitts; stets soll gelten, daß die allgemeinere Aussage auf nicht weniger Objekte zutrifft als die speziellere.
Für die Menge K der Konzeptbeschreibungen verlangen wir: (i) In K soll es eine allgemeinste Beschreibung A geben.
Lernende Systeme
Seite 81
Zwei Beschreibungen sind offenbar genau dann gegenseitige Verallgmeinerungen voneinander sein, wenn sie auch gegenseitige Spezialisierungen voneinander sind.
Definition: Zwei Beschreibungen heißen äquivalent, wenn sie Verallgemeinerungen voneinander sind.
Wir verlangen weiter: (ii) Äquivalente Beschreibungen sollen den gleichen Klassifikator definieren. Die Feststellung der Äquivalenz von zwei Beschreibungen kann im Allgemeinen ein sehr großes Problem werden. Im Falle des obigen Beispiels am Anfang des Kapitels mit den Attribut-Werte-Paaren ist dies jedoch sehr simpel, weil äquivalente Formeln sich nur durch eine Umbenennung von Variablen unterscheiden (falls alle Objekte mit möglichen Attributwerten in M vorkommen). Im folgenden wollen wir annehmen, daß wir von äquivalenten Beschreibungen stets nur eine betrachten können. In diesem allgemeineren Kontext muß es nicht immer eine eindeutig bestimmte speziellste Verallgemeinerung einer Konzeptbeschreibung geben, die ein vorgelegtes positives Beispiel umfaßt und entsprechend nicht eine eindeutig bestimmte allgemeinste Spezialisierung, die ein negatives Beispiel ausschließt, vielmehr haben wir i.a. mehrere Kandidaten dafür. Dies führt zu folgender Komplettierung unserer Anforderungen: (iii) Zu jedem Objekt a in M soll es mindestens eine speziellste Konzeptbeschreibung geben, die a umfaßt und mindestens eine allgemeinste, die a ausschließt. Alle a umfassenden (bzw. a auschließenden) Beschreibungen sollen allgemeiner als eine solche speziellste (bzw. spezieller als eine solche allgemeinste Beschreibung sein. (iv) Zu jedem Objekt a in M und jeder Konzeptbeschreibung Q soll es mindestens eine speziellste Verallgemeinerung von Q geben, die a umfaßt und mindestens eine allgemeinste, die a ausschließt. Alle a umfassenden (bzw. a auschließenden) und Q verallgemeinernden (bzw. spezialisierenden) Beschreibungen sollen algemeiner als eine solche speziellste (bzw. spezieller als eine solche allgemeinste Beschreibung sein. Gelegentlich gilt noch zusätzlich: Wenn Q1 K und Q2 K, dann ist auch (bezüglich ≥) sup(Q1,Q2) K (die speziellste Verallgemeinerung von Q1 und Q2) und inf(Q1, Q2) K (die allgemeinste Spezialisierung von Q1 und Q2). Beides garantiert jedoch noch nicht, das die in (iii) und (iv) geforderten Elemente eindeutig bestimmt sind. Handelt es sich jedoch um ein Fragment der Prädikatenlogik und sind Infima (bzw. Suprema) auch die Konjunktionen (bzw. die Disjunktionen), dann kann man die Eindeutigkeit garantieren.
Seite 82
Lernende Systeme
Bei unserem obigen Fall mit Attribut-Werte-Paaren waren die Konzepte in K unter Konjuktionsbildung abgeschlossen, aber nicht unter Disjunktionen. Etwas weiter unten gehen wir bei einem Beispiel weiter hierauf ein.
Wir erinnern daran, daß wir in 5.3.2 ein Konzept vollständig genannt hatten, wenn es alle positiven Beispiele umfaßte und konsistent, wenn es keines der negativen Beispiele umfaßte. Wir stellen uns jetzt vor, daß die Beispiele inkrementell präsentiert werden.
Definition: S = { s | s ist eine vollständige, konsistente Verallgemeinerung der Beispiele und es gibt keine Verallgemeinerung, die sowohl konsistent und vollständig als auch spezieller als s ist.}. G = { g | g ist eine vollständige, konsistente Verallgemeinerung der Beispiele und es gibt keine Verallgemeinerung, die sowohl konsistent und vollständig als auch allgemeiner als g ist.}. H = {h | h ist eine vollständige, konsistente Verallgemeinerung der Beispiele}.
Diese Mengen hängen natürlich von der Beispielmenge ab; bei endlich vielen Beispielen garantieren unsere Anforderungen die Existenz der Mengen S und G. Die Mengen S und G sind die Extrema der in Bezug auf Vollständigkeit und Konsistenz zulässigen Verallgemeinerungen; speziellere Verallgemeinerungen als die in S sind unvollständig und allgemeinere als die in G sind inkonsistent. H ist die Menge der insgesamt zulässigen Hypothesen für die gesuchte Verallgemeinerung; H heißt auch der Versionenraum (engl.: version space):
Lernende Systeme
Seite 83 inkonsistente Konzepte allgemeinere Konzeptbeschreibungen
speziellere Konzeptbeschreibungen unvollständige Konzepte
Der Versionenraum ist durch die "spezieller-allgemeiner-Relation" partiell geordnet. Diese partielle Ordnung erleichtert seine Verwaltung, man hat nur noch die Mengen S und G zu betrachten, die die oberen und unteren Grenzen in der Halbordnung bilden. Intuitiv enthält der Versionenraum eines Konzepts die Menge alternativer, "plausibler" Konzeptbeschreibungen, die mit den Trainingsdaten, dem Wissen und den Annahmen des Konzeptlerners konsistent sind. Diese Menge definiert ein partiell gelerntes Konzept und kann durch seine maximal allgemeinen und maximal speziellen Elemente (die Mengen G und S) repräsentiert werden. Ein Versionenraum kann betrachtet werden als kompakte Repräsentation aller möglichen, mit einer Menge von Trainingsinstanzen konsistenten und diese erfassenden Konzeptbeschreibungen. Wie verwendet man einen Versionenraum? Ziel aller Verallgemeinerungen ist die Anwendung zur Klassifikation neuer Beispiele. Ein solches Beispiel a sei vorgelegt.
WENN DANN
a ein Beispiel von allen Beschreibung aus S ist wird a als positiv erkannt;
WENN DANN
a kein Beispiel von allen Beschreibungen aus G ist wird a als negativ erkannt;
SONST
wird keine Entscheidung über a getroffen.
Aufgrund unserer Anforderungen sind diese Entscheidungen jedenfalls dann richtig, wenn sich die (unbekannte) Konzeptbeschreibung Q in K befindet. Dann ist Q nämlich allgemeiner als eine Beschreibung von S und spezieller als eine von G. Das Ziel muß also sein, den Versionenraum nicht leer aber möglichst klein, am besten einelementig, zu machen. Wir stellen jetzt einen Algorithmus vor, der bei sukzessiver Präsentation von Beispielen den Versionenraum verändert. Die Beispiele seien a1, a2 ..., und a1 sei positiv; weiter sei A die allgemeinste Konzeptkonzeptbechreibung; wir identifizieren die speziellste Beschreibung von a mit {a}.
Seite 84
Lernende Systeme
Algorithmus zur Elimination von Kandidaten aus dem Versionenraum: • Initialisierung:
S :={a 1 } , G := {A};
• Iterationsschritt:
a = an+1 sei vorgelegt:
• a ist positiv: - Entferne aus G alle Konzepte, die a nicht als Beispiel haben; - Ersetze die Elemente s aus S durch die speziellsten Verallgemeinerungen von s, die a als Beispiel haben und keines der früheren Gegenbeispiele umfassen; entferne sie, falls dies nicht möglich oder wenn sie dadurch allgemeiner als Elemente aus G werden; • a ist negativ: - Entferne aus S alle Konzepte, die a als Beispiel haben; - Ersetze die Elemente g aus G durch die allgemeinsten Spezialisierungen von g, die nicht a aber alle früheren positiven Beispiele als Beispiel haben; entferne sie, falls dies nicht möglich oder wenn sie dadurch spezieller als Elemente aus S werden; • Abbruchkriterium: Kein Beispiel mehr verfügbar oder G=S ist einelementig oder S oder G sind leer oder einer der Schritte ist nicht ausführbar. • Lernerfolg tritt ein bei G=S, und beide Mengen sind einelementig; sie enthalten dann das gesuchte Konzept. Ist S oder G leer, tritt Mißerfolg ein, ist keiner Schritte (mangels Beispiele) mehr ausführbar, wird der verbleibende Versionenraum als Hypothesenmenge für das gesucht Konzept ausgegeben.
Kommentar: Im Algorithmus werden beide Mengen S und G je nach Vorlage positiver bzw. negativer Beispiele genau dual behandelt und wir können uns auf positive Beispiele beschränken. Im ersten Schritt müssen die Elemente von G, die a nicht als Beispiele enthalten entfernt werden, denn eine weitere Verallgemeinerung würde eine Inkonsistenz nach sich ziehen. Wird ein Element aus S durch eine nötig gewordene Verallgemeinerung noch allgemeiner als ein Element aus G, muß es aus demselben Grund entfernt werden. Ist das gesuchte Konzept K in den betrachteten Ausdrucksweisen enthalten, so sieht man für jeden Iterationsschritt: (i)
K ist in S oder eine Verallgemeinerung eines Ausdruckes von S und
(ii)
K ist in G oder eine Spezialisierung eines Ausdruckes von G.
Unsere Anforderungen garantieren, daß die einzelnen Schritte stets im Versionsraum ausführbar sind. Zur Terminierung: Ist der Versionenraum und die Beispielmenge endlich, dann terminiert der Algorithmus stets. Zur Korrektheit: Wenn sich das gesuchte Konzept Q in K befindet, muß es stets allgemeiner als ein Konzept in S und spezieller als eines in G sein. Bei
Lernende Systeme
Seite 85
Mißerfolg kann das gesuchte Konzept daher nicht in in K liegen. Liegt das Konzept hingegen in K, dann kann bei genügend vielen Beispielen nur eine Terminierung mit positivem Lernerfolg erfolgen. Falls das gesuchte Konzept nicht in K liegt, kann hingegen keine Aussage gemacht werden. Beispiel: Wir betrachten Objekte, die durch zwei Attributwerte beschrieben sind und die •
Kreise, Dreiecke oder Quadrate und
•
groß oder klein
sein können. Der Graph aller Ausdrücke mit der spezieller-allgemeiner Relation sieht dann so aus (es ist nicht alles eingezeichnet):
(x,y) (x,Kr)
(x,Qu)
(x,Dr)
(kl,y)
(gr,y)
• • • (kl,Kr)
1.
(gr,Kr)
(kl,Dr)
(gr,Dr)
(gr,Qu)
Beispiel: (kl,Kr), positiv: Der Versionenraum wird dann aufgespannt durch S:={(kl,Kr)}, G := {(x,y)}.
2.
Beispiel: (gr, Dr), negativ: S := {(kl,Kr)}, G := {(x,Kr), (kl,y)}. Man beachte, daß G jetzt zwei Elemente hat. Für diese beiden Konzepte weiß man, daß sie notwendige Bedingungen an das zu lernende Konzept darstellen, aber keine hinreichenden.
3.
Beispiel: (gr,Kr), positiv: Der Algorithmus bricht jetzt ab mit S := {(x,Kr)}, G := {(x,Kr)}; gelernt ist somit das Konzept "Kreis".
Durch ein negatives Beispiel ist hier nur ein Objekt ausgeschlossen worden, nämlich der große Kreis und z.B. nicht das kleine Dreieck, darüber ist gar nichts gesagt. Wieso schließt unsere Lösung, das Konzept "Kreis" dies aus? Das liegt daran, daß gar nicht alle Konzepte prinzipiell zur Konkurrenz stehen und manche bereits in K ausgeschlossen sind. Wichtig ist, daß man auf diese Weise stets nur Konzepte lernen kann, die im gesamten Graphen auch vorkommen. Das ist etwa bei dem Konzept "kleiner Kreis oder großes Dreieck" nicht der Fall:
Seite 86
Lernende Systeme
(a)
Nach den beiden positiven Beispielen (kl,Kr) und (gr,Dr) erhielten wir schon S=G={(x,y)} und der Algorithmus würde mit einem falschen Ergebnis terminieren; das gesuchte Konzept wäre als Disjunktion nur auf einer beim Algorithmus übersprungenen Ebene formulierbar.
(b)
Wäre die Reihenfolge der Darbietung (kl,Kr) positiv, (gr,Kr) negativ, (gr,Dr) positiv, dann ergäbe sich nach dem zweiten Schritt S={(kl,Kr)} und G={(kl,y)} und nach dem dritten Schritt S = Ø.
Der Algorithmus würde für dieses Konzept also entweder ein inkorrektes Ergebnis liefern oder ohne Erfolg terminieren. Wir haben oben vermerkt, daß im Falle solcher Beschreibungen mit AttributWerte-Paaren K unter Konjunktionen abgeschlossen ist und daher die im Algorithmus geforderten speziellsten Verallgemeinerungen eindeutig bestimmt sind. Aus diesem Grund ist für solche Fälle, wie auch im vorliegenden, die Menge S immer einelementig. Die Schwierigkeiten, die wir gerade diskutiert haben rührten daher, daß die Konzepte nicht abgeschlossen unter der Bildung von Disjunktionen waren. Die Verallgemeinerungen, d.h. die Suprema im Graphen, versuchen natürlich, die Rolle der Disjunktionen zu spielen. Das geschieht so, daß zu einem Konzept K und einem Beispiel a die Disjunktion K √ {a} durch die speziellste Verallgemeinerung von K, die a noch umfaßt, ersetzt wird; diese wird jedoch, wie wir oben sahen, i.a. auch noch weitere Beispiele umfassen und damit nicht die korrekte Disjunktion sein. Die Probleme sind also: a) Man hat i. A. zu wenig Beispiele, um einen Abbruch zu erreichen. b) Es können nur Konzepte gelernt werden, die in K vorkommen.
10.2. Lernen von mehreren Konzepten Ein einzelnes Konzept entspricht einer Klassifikation in zwei Klassen: entweder gehört ein Beispiel zum Konzept oder nicht. Hat man mehrere Konzepte zur Auswahl, so entspricht das einer Disjunktion dieser Konzepte. Der Wunsch zum Lernen mehrerer Konzepte hat hauptsächlich zwei Gründe: (1)
Das eigentlich gesuchte Konzept ist selbst nicht in der Beschreibungssprache formulierbar, sondern nur als eine Disjunktion solcher formulierbaren Konzepte ausdrückbar.
(2)
Es sind von außen verschiedene Konzepte vorgegeben und die Klassifikation von Beispielen gemäß dieser Konzepte soll gelernt werden.
Bei mehreren Konzepten ergeben sich wesentlich folgende Unterschiede: (a)
Die Konzepte haben disjunkte Beispielmengen.
(b)
Die Konzepte überlappen sich.
Lernende Systeme
Seite 87
Ein wichtiges Anwendungsgebiet für das Lernen von mehreren Konzepten ist die Diagnostik. Ist die Beispielmenge in Form von Krankheits- oder Fehlersymptomen gegeben, dann können durchaus mehrere Krankheiten oder Fehlerursachen (die hier die Konzepte sind) vorliegen. Es ist häufig gerade bei mehreren Konzepten zweckmäßig und leicht möglich, das Lernergebnis in Form von Regeln auszudrücken. Dazu muß aber der Zusammenhang zwischen den Beispielen und den gelernten Konzepten explizit gemacht werden, es muß also der Lernweg in gewisser Weise transparent gemacht werden. Solche Regeln sind von der Form P(Beispiel) å Q(Beispiel) ... å ... R(Beispiel) µ Konzept(Beispiel) .
Gelernte Diagnoseregeln könnten etwa sein: Hat-Fieber(Person) å Hustet(Person) µ Hat-Grippe(Person); Hat-Fieber(Person) å Hustet(Person) µ Hat-Bronchitis(Person) ;
die Regeln spielen also die Rolle von Assoziationen und heuristischen Hinweisen. 10.2.1. Die Star-Methode und der AQ-Algorithmus Diese allgemeine Methode zur Generierung struktureller Beschreibungen aus einem vom Lehrer vorklassifizierten Beispiel basiert auf dem Konzept eines "Sterns", der die Mengen alternativer, konsistenter Generalisierungen eines einzelnen Beispiels darstellt (vgl. [Michalski 83]). Der Stern für ein Beispiel ist im wesentlichen die Menge G aus der Versionsraummethode, dargestellt in einer symbolisierten Form eines Venndiagrammes:
-
-
+ -
+ -
+
-
+
+
+
-
-
-
Die schraffierte Menge symbolisiert den Durchschnitt der Beispiele für die Konzepte des Sterns. Zur etwas genaueren Beschreibung muß zunächst die Sprache festgelegt werden. Die Behandlung von positiven und negativen Beispielen ist unsymmetrisch.
Sprachbeschreibung:
Seite 88
Lernende Systeme
Relationale Ausdrücke sind bestimmte aussagenlogische Kombinationen atomarer Formeln. Welche Kombinationen zugelassen sind, hängt von der speziellen Sprache ab. Konzeptbeschreibungen sind Konjunktionen relationaler Ausdrücke, in denen die Variablen Æ-quantifiziert gedacht sind.
Somit sind Disjunktionen von Konzeptbeschreibungen nicht automatisch äquivalent zu Konzeptbeschreibungen.
Definition: Sei N eine Menge von negativen Beispielen für ein Konzept und b ein positives Beispiel dafür, dann ist der Stern von b bezüglich N diejenige Menge G, die bei der Versionenraummethode bei der Präsentation von {b} und N entsteht. Diese Menge wird mit G(b,N) bezeichnet.
Die Menge G(b,N) entspricht einer Disjunktion für das gesuchte Konzept. Die Grundidee des AQ-Algorithmus ist nun, die Mengen G(b,N) für jedes positive Beispiel b einzeln zu erzeugen. Es sei eine Beispieldarbietung (P,N) vorgelegt.
AQ-Basis-Algorithmus: •
Initialisiere die Menge K der Konzeptbeschreibungen mit K := Ø;
•
Initialisiere die nicht behandelten positiven Beispiele Pn mit Pn = P;
•
(*) Wähle ein Beispiel b Pn ;
•
Bilde den Stern G(b,N);
• Wähle aus diesem Stern die BESTE Verallgemeinerung V aus und spezialisiere sie, wenn gewünscht; •
Setze K := K ˙ {V} und Pn := Pn \ Menge der von V erfaßten Beispiele
•
Wenn Pn = Ø, dann Stop. Sonst gehe zu (*);
Abbruchkriterium ist Pn = Ø. Die Lösung ist die Disjunktion der Elemente von K.
Lernende Systeme
Seite 89
Man wählt also zu jedem b eine Verallgemeinerung V, die alle negativen Beispiele vermeidet; dabei achtet man darauf, daß ein solches V auch bereits andere positive Beispiele umfaßt, für die man das Vorgehen dann nicht noch einmal machen muß. In dem Algorithmus ist der Begriff BESTE Verallgemeinerung noch nicht festgelegt. Grundsätzlich kann dieser auf der Grundlage verschiedener Optimalitätskriterien geschehen. Gewöhnlich nimmt man syntaktische Kriterien wie minimale Anzahl benutzter atomarer Relationen, kürzeste Länge des Ausdrucks etc., wobei man sich noch von inhaltlichen Vorstellungen leiten lassen kann. Oft kann der Stern eines Beispiels sehr groß werden; es ist dann zweckmäßig ihn einzuschränken. Dies geschieht wieder nach einem vorgegebenen Präferenzkriterium.
Definition: Es sei m eine natürliche Zahl. G(b,N, m) enthält die gemäß des Präferenzkriteriums ersten m Elemente von G(b,N).
Im Basisalgorithmus wird dann G(b,N) durch G(b,N,m) ersetzt. Insgesamt sollte der Basisalgorithmus nur als ein allgemeines Schema angesehen werden, das auf vielfältige Weise verfeinert und variiert werden kann. 10.2.2. TDIDT-Algorithmen TDIDT steht für Top-Down Induction of Decision Trees. Hier werden (einfache oder multiple) Konzepte in Form eines Baumes ("Entscheidungsbaum") notiert; diese Methode ist auch für das Lernen eines Konzeptes geeignet. Ein Pfad innerhalb eines Entscheidungsbaums ist eine Darstellungsform konjunktiv verknüpfter Bedingungen. Geht man von der Wurzel zu den Blättern, dann steht an jedem Knoten ein Attribut und an den davon ausgehenden Kanten seine mögliche Werte belegt, bis man schließlich ein Blatt erhält, an dem die Klasse des Beispiels steht, dessen Attributwerte auf dem Pfad von der Wurzel her angefallen sind. Dabei müssen natürlich nicht immer alle Attributwerte abgefragt werden, die maximale Länge der Pfade muß nicht immer ausgenutzt werden. Entscheidungsbäume sind mithin Klassifikatorbeschreibungen und es ist klar, daß bei einer endlichen Objektmenge M jeder Klassifikator so beschrieben werden kann. Die Qualitätsanforderung an einen solchen Baum besteht nebem der Korrektsheitsanforderung darin, mit möglichst wenig Abfragen für Werte auszukommen. Gelernt werden soll ein Entscheidungsbaum wieder aus vorgelegten Beispielen; beide Anforderungen können aufgrund einiger Beispiele natürlich i. A. nicht garantiert werden. Ein solcher Entscheidungsbaum wird bei TDIDT-Methode top-down und nichtinkrementell aus den vorliegenden Beispielen generiert. Die ersten Arbeiten zu TDIDT stammten von [Hunt, Marin, Stone 66], das bekannteste TDIDT verwendende System ist Quinlans ID3 ([Quinlan 86]).
Seite 90
Lernende Systeme
Der Basisalgorithmus der TDIDT-Methode ist naheliegend und einfach. Seien E die zu Beginn des Lernvorgangs vorhandenen Beispiele; sie müssen zu Beginn des Lernvorgangs komplett vorliegen.
Basisalgorithmus: WENN alle Beispiele in E gehören zur selben Klasse C DANN C ist das Ergebnis SONST •
selektiere ein EFFIZIENTES A mit den Werten w1 ,...,wn ;
•
partitioniere E in E1 ,...,En abhängig von den Wertausprägungen des Attributes A;
•
konstruiere Unterbäume T1 ,...,T n für E1 ,...,E n ;
•
das Ergebnis ist der Baum T mit der Wurzel A und den beschrifteten Kanten w1 ,...,w n zu den Unterbäumen T1 ,...,Tn .
Der Algorithmus wird rekursiv wieder auf die jeweiligen Unterbäume T i angewendet, solange bis jeder Knoten nur noch nicht weiter unterscheidbare Objekte, d.h. Objekte einer Klasse enthält.
Der Baum wird also nur so weit erzeugt, wie es zur Bestimmung der Klasse nötig ist. Offen bleibt hier noch, was EFFIZIENT heißt; hier wird noch die größte Schwierigkeit liegen. Im Falle des Konzeptlernens haben wir genau zwei Klassen und die Beispiele sind positive oder negative Instanzen des zu lernenden Konzepts, die jeweils als Liste fester Länge von Attribut-Wert Paaren repräsentiert sind. Das Lernergebnis ist ein Entscheidungsbaum, der an jedem Knoten einen Test enthält, um neue Instanzen entlang verschiedener Zweige den Baum "hinabsinken" und so klassifizieren zu lassen. Terminalknoten enthalten all jene Klassen von Instanzen, die bereits sortiert wurden und die nicht weiter unterscheidbar sind. Zur Erläuterung betrachten wir eine Beispielsituation. Wir haben die folgenden Attribute und Werte: Größe:
klein, groß;
Haarfarbe:
blond, rot, dunkel;
Augenfarbe:
blau, braun.
Es seien acht Beispiele vorgelegt, die wie folgt in zwei Klassen zerfallen: Erste Klasse={(klein, blond, blau), (groß, rot, blau), (groß, blond, blau)};
Lernende Systeme
Seite 91
Zweite Klasse={(groß, blond, braun), (klein, dunkel, blau), (groß, dunkel, blau), (groß, dunkel, braun), (klein, blond, braun)}.
Die erste Klasse soll die positiven und die zweite Klasse die negativen Beispiele enthalten. Je nachdem wie die Attribute im Entscheidungsbaum angeordnet werden, kann nun die Klassifikation verschieden schnell erfolgen. Fangen wir mit dem Attribut "Haarfarbe" an, so sind wir in zwei Fällen schon fertig, nur bei "blond" ergibt sich noch eine Aufspaltung ("+" und "-" bedeuten "zum Konzept gehörig" bzw. "nicht zum Konzept gehörig"):
Haar dunkel +:0 -:3
rot +:1 -:0
blond +:2 -:2
Die Kante "blond" muß also noch weiter verfolgt werden, weil sowohl positive wie auch negative Beispiele auftreten können. Wir fragen uns also nun, ob es unterschiedlich zweckmäßige Bäume gibt und wodurch sich solche Bäume überhaupt unterscheiden können. Das Ziel ist wieder durch die Klassifikationsaufgabe gegeben: Man möchte durch Nachschauen im Baum möglichst schnell feststellen, ob ein Beispiel zu einem bestimmten Konzept gehört oder nicht. Für die Auswahl des für jede Stufe des Baums besten, d.h. selektivsten Attributs, ist eine Bewertungsfunktion nötig, die den Informationsgehalt der Attribute bewertet, danach das "beste" Attribut auswählt und so top-down den Entscheidungsbaum induziert. Durch Auswahl des "besten" Attributes auf jeder Stufe soll gewährleistet werden, daß der Baum nicht zu tief wird, sondern mehr in die Breite wächst. Hier bietet sich ein wahrscheinlichkeitstheoretischer Ansatz an, um den Erwartungswert der Anzahl der zu testenden Attribute für ein zu klassifizierendes Objekt zu minimieren. Dazu benötigen wir einige Begriffsbildungen. Die zufälligen Ereignisse sind die denkbaren Konzepte (die Mengen von Beispielen entsprechen). Ist ein Beispiel ausgewertet, so ist genau eines der in der Klassifikation auftretenden Ereignisse A eingetreten, vor der Auswertung ist dies Ereignis aber unbekannt. Hat man den Wert eines Attributes bestimmt, so ist ein erstes Ereignis A1 eingetreten; z.B. "blond". Man kann dann (wie im Ansatz von Bayes) die a priori Wahrscheinlichkeit P(A) durch die (bedingte) a posteriori Wahrscheinlichkeit P(A | A1) ersetzen. Das Attribut soll so gewählt werden, daß der hierdurch erzielte Informationsgewinn maximal wird. Im folgenden sei ld der Logarithmus zur Basis 2.
Seite 92
Lernende Systeme
Definition: (i) Tritt bei einem Versuch A daß Ereignis A ein, so ist der Informationsgehalt dieses Eintretens I(A)=-ld(P(A)). (ii)
Bei einem Versuch A mit n möglichen und disjunkten Ausgängen A1,...,An ist die Entropie H(A )=-\I\su(i=1;n;P(Ai)·ld(P(Ai)))
Diese Definitionen lassen sich gut motivieren. Je sicherer ein Ereignis ist, desto geringer ist der Informationsgehalt (oder besser: Informationsgewinn, die "Überraschung") seines Eintretens. Wenn man von der inhaltlichen Bedeutung des Ereignisses absieht, dann ist einzig und allein die Wahrscheinlichkeit für den Grad dieser Überraschung verantwortlich; je unwahrscheinlicher das Ereignis ist, desto erstaunter sind wir; insbesondere gilt also I(A) = f(P(A)) mit bis jetzt noch nicht bestimmtem f: Für die Festlegung von f, d.h. für den Informationsgehalt I(A) drängen sich drei Forderungen auf: 1)
Ist C das Ereignis, das dem gemeinsamen Eintreten zweier unabhängiger Ereignisse A und B entspricht, dann soll I(C) = I(A) + I(B) gelten. Das resultiert in der Gleichung f(x·y) = f(x) + f(y).
2)
Kleine Änderungen in den Wahrscheinlichkeiten sollen nur zu kleinen Änderungen des Informationsgehaltes führen, d.h. die Funktion f ist stetig.
3)
Die dritte Forderung besteht nur in einer Normierung. Wir fordern (willkürlich) f(1/2) = 1.
Durch diese drei Forderungen ist f nun aber bereits aus mathematischen Gründen eindeutig bestimmt: Es folgt f(x) = -ld(x) und damit unsere Festlegung des Informationsgehaltes. Hätten wir eine andere Normierung, z.B. f(1/b) = 1, gewählt, so würde sich der Logarithmus zur Basis b ergeben, d.h. f(x) = -blog(x). Wir betonen noch einmal, daß dieser Begriff des Informationsgehaltes völlig von den Inhalten abstrahiert; man soll also den Begriff des Informationsgehaltes z.B. nicht mit der Wichtigkeit des Ereignisses verwechseln. Die Entropie eines Versuches ist der Erwartungswert der zufälligen Größe I, die die Werte I(Ai) mit den Wahrscheinlichkeiten P(Ai) annimmt, d.h. der mittlere Informationsgehalt der Ausgänge des Versuches. Die fraglichen Wahrscheinlichkeiten werden nun durch die entsprechenden Häufigkeiten in der Beispieldarbietung (die wir als Stichprobe auffassen können) geschätzt. In unserem Beispiel (in dem wir zwei Klassen, also zwei mögliche Ausgänge haben), ergibt sich für die Entropie eines Versuches, in dem ein Objekt gewählt wird
Lernende Systeme
Seite 93
H = - 3/8 · ld(3/8) - 5/8 · ld(5/8) = 0,954.
Definition: (i) Ist bei einem weiteren Versuch B das Ereignis B eingetreten, dann ist der bedingte Informationsgehalt I(A | B)=-ld(P(A | B)) (ii) Die bedingte Entropie ist H(A | B)=- \I\su(i=1;n;P(Ai | B)) · ld(P(Ai | B)) (iii) Hat B die m disjunkten Ausgänge B1,...,Bm, dann ist die Rückschlußentropie H(A | B)=\I\su(k=1; m;P(Bk) · H(A | Bk))
Ein solcher weiterer Versuch kann etwa durch das Attribut "Größe" gegeben sein; es gibt wieder zwei Ausgänge, nämlich "groß" und "klein" mit P(groß)=5/8 und P(klein)=3/8. Wichtig ist die Disjunktheit der Ausgänge, oder anders ausgedrückt, die Unabhängigkeit der Ereignisse B1,...,Bm. Damit erhalten wir für unser Beispiel: H(A | groß)=- 2/5 · ld(2/5) - 3/5 · ld(3/5)=0,971; H(A | klein)=- 1/3 · ld(1/3) - 2/3 · ld(2/3)=0,918; H(A | Größe)=5/8 · 0,971 + 3/8 · 0,918=0,951.
Seite 94
Lernende Systeme
Das folgende Bild gibt den gesamten Überblick:
Da nun der Gesamtausgang des Versuches A (d.h. die Klassenzugehörigkeit des fraglichen Beispiels) unbekannt ist, sollte man zweckmäßigerweise denjenigen Versuch B wählen, für den H(A | B) minimal und damit die Differenz H(A ) - H(A | B) maximal wird. In dieser Differenz steckt nämlich gerade der Informationsgewinn, der durch den Ausgang des Versuches B geliefert wird. Auf diese Weise haben wir den Begriff EFFIZIENT im Basisalgorithmus präzisiert. Hier sieht man auch deutlich, warum alle Beispiele präsentiert werden müssen. Oben haben wir erwähnt, daß wir nicht in allen Fällen die Minimalität der Anzahl der zu erfolgenden Stichproben garantieren können. Es kann jedoch eine andere Optimalität gewährleistet werden, nämlich daß der Erwartungswert der Anzahl der zu erfolgenden Abfragen minimal ist. Im Beispiel ist es am besten, zuerst die Haarfarbe zu testen; ein in diesem Sinne optimaler Entscheidungsbaum ist:
Lernende Systeme
Seite 95
Haarfarbe blond
+
Augenfarbe blau
+
rot
dunkel -
braun -
Insbesondere ist es hier nicht mehr nötig, die Größe zu testen. Das Resultat, also diesen Entscheidungsbaum, können wir bei den Entscheidungsbäumen besonders einfach durch Regeln repräsentieren. Man sammelt längs eines Pfades die Attributwerte auf, sie bilden dann den Bedingungsteil der Regel; die Konklusion ist die erschlossene Klassenzugehörigkeit. In unserem Beispiel: (Haarfarbe=blond å Augenfarbe=blau)µ + (Haarfarbe = blond å Augenfarbe = braun) µ (Haarfarbe = rot) µ + (Haarfarbe = dunkel) µ -
Diese Regeln sind nicht heuristisch, sondern exakt. In einer Variante könnte man auch zu heuristischen Vorgehensweisen kommen. Dazu würde man nicht den ganzen Baum erstellen (oder evtl. den ganzen nachträglich reduzieren), sondern dann aufhören, wenn die Klassenzugehörigkeit eines vorgelegten Beispiels bereits mit hinreichend großer Wahrscheinlichkeit bestimmt ist. Das kann die erhaltene Regelmenge stark reduzieren und so zur Effizienz beitragen. Es kann auch vorkommen, daß die Klassenzugehörigkeit mangels Kenntnis gewisser Werte gar nicht genau bestimmt werden kann, wodurch man auch wieder zu heuristischen Regeln kommt. Aufbauend auf dem Basisalgorithmus sind verschiedene Erweiterungen erfolgt, die vor allem mit folgenden Nachteilen fertig zu werden versuchen: •
die Restriktion auf Attribut-Wert Paare, die keine komplexeren relationalen Aussagen zuläßt,
•
eine gewisse Ineffizienz aufgrund der Nichtinkrementalität des Verfahrens: beim Auftreten neuer Beispielinstanzen muß der komplette Entscheidungsbaum jeweils neu berechnet werden,
•
damit ein gutes Diskriminierungsverhalten erreicht wird, sind viele Trainingsinstanzen nötig,
•
die Zahl der Trainingsinstanzen kann zu groß werden, um sie alle auf einmal behandeln zu können,
•
Hintergrundwissen wird nicht verwendet, ebensowenig wird bereits gelerntes Wissen verwendet (kein closed-loop - Lernen),
Seite 96
Lernende Systeme
•
die beschränkte Ausdruckskraft und unzulängliche Verständlichkeit des resultierenden Entscheidungsbaums,
•
die Methode erlaubt nur selektive statt konstruktiver Induktion, d.h. neue Terme oder Deskriptoren werden nicht erzeugt,
•
schließlich wird nur ein festgelegtes Präferenzkriterium verwendet.
Vor allem beschäftigen sich die Erweiterungen damit, große Beispielmengen verarbeiten zu können. Zusammenfassend bemerken wir, daß die TDIDT-Methode nicht nur Konzepte lernt, sondern vor allem spezielle Darstellungen derselben und daß der Kern im Lernen gewisser Wahrscheinlichkeiten besteht. Hierbei sind aber die üblichen Vorsichtsmaßregeln im Umgang mit den Gesetzen der Wahrscheinlichkeitstheorie zu beachten; bei dieser Methode ist auf die Unabhängigkeit der Attributwerte zu achten. Im betrachteten Beispiel ist ihre Annahme ohne Zweifel gerechtfertigt. Falls wir die Attribute und ihre Werte aber als Krankheitssymptome und ihre Ausprägungen und die Konzepte als Krankheitsdefinitionen betrachten, dann ist die Lage ganz anders. Hier nehmen wir ja gerade eine Ursache-Wirkung Beziehung an, die die Annahme der Unabhängigkeit von Symptomausprägungen von selbst verbietet. Für solche Zwecke müßte die TDIDT-Methode also noch verfeinert werden.
10.2.3. Der CN2-Algorithmus Der CN2-Algorithmus (benannt nach P. Clark und T. Niblett, vgl. [Clark, Niblett 89] kombiniert die Vorgehensweisen des AQ-Algorithmus mit den informationstheoretischen Aspekten der TIDT-Methode, genauer gesagt. des ID3-Algorithmus. Ein Unterschied zum AQ-Algorithmus ist, daß der CN2Algorithmus (wie die Versionsraummethode) auch negative Beispiele zuläßt. Ziel ist wieder die Klassifikation von Objekten. Erzeugt werden durch den Algorithmus Regeln, deren Prämissen (evtl. einstellige) Konjunktionen von Attribut-Werte-Paaren und deren Konklusionen Klassennamen sind (in der Literatur heißen die Attribut-WertePaare auch Selektoren und die Prämissen auch Komplexe). Vorgelegt ist eine Menge E von Beispielen und eine Menge K = {ki | 1 ≤ i ≤ n } von Klassen(namen), in die die Beispiele eingeordnet werden sollen. Wir beschreiben jetzt die allgemeine Form des CN2-Algorithmus. R bezeichne die zu erstellende Liste von Regeln zur Beschreibung der Klassenzugehörigkeit; die Prämissen der Regeln werden unten näher bestimmt. Beste_Prämisse ist eine lokale Variable.
Lernende Systeme
Seite 97
Algorithmus CN2(E): R = Ø; Repeat Beste_Prämisse := Find_Beste_Prämisse(E); If Beste_Prämisse ≠ Ø Then E' = Beispiele aus E, die durch Beste_Prämisse abgedeckt werden; E = E \ E'; R = R ˙ { Beste_Prämisse µ ki}, wobei ki die Klasse ist, die in E' am häufigsten auftritt; Until Beste_Prämisse = Ø oder E = Ø; Return R. Nun kommen wir zur Bestimmung der besten Prämissen; dabei tritt ein wiederum näher zu bestimmendes statistisches Element auf. STAR ist eine lokale Variable, sie bezeichnet eine Menge von Prämissen und erinnert an die STAR-Methode. Prämissen werden als inkonsistent bezeichnet, wenn sie zwei verschiedene Attribut-Werte-Paare mit denselben Attributen enthalten; die Spezialisierung einer Prämisse besteht in der konjunktiven Erweiterung durch ein weiteres Attribut-Werte-Paar. Einige Ausdrucksweisen werden erst anschließend behandelt. Algorithmus Find_Beste_Prämisse(E): STAR := {leere Prämisse}; Beste:Prämisse := Ø; While STAR ≠ Ø Do spezialisiere alle Komplexe in STAR und erzeuge NEW_STAR durch: NEWSTAR := {X å Y | X STAR, Y Attribut-Werte-Paar}; NEWSTAR := NEWSTAR | {X| X STAR oder X inkonsistent}; For All C NEW_STAR If C STATISTISCH SIGNIFIKANT AND C ist BESSER ALS Beste_Prämisse Then Beste_Prämisse := C;
Seite 98
Lernende Systeme
Repeat entferne die SCHLECHTESTEN Prämissen aus NEW_STAR Until card(NEW_STAR) ≤ MAX; STAR := NEW_STAR; Return Beste_Prämisse. MAX ist ein vom Benutzer festzusetzendes Maximum. Zu präzisieren bleiben zwei Begriffe: 1) Was heißt "schlechteste Prämisse" ? 2) Was heißt "statistisch signifikant" ? Durch diese beiden Begriffen unterscheidet sich dieser Algorithmus gerade vom AQ-Algorithmus. Die Frage 1) behandelt die Vorhersagekraft der Regel, während 2) ihre Zuverlässigkeit betrifft. Die Grundidee für 1) ist, solche Prämissen zu bevorzugen, die viele Beispiele einer Klasse abdecken, aber wenige Beispiel anderer Klassen. Hierzu greifen wir wieder auf die behandelten informationstheoretischen Begriffe zurück.
Def.: (i) Für eine Prämisse P ist E(P) = {A E | A erfüllt P}. (ii) Die Entropie E(P) einer Prämisse ist die Entropie H(E)=-\I\su(i=1;n;P(Ei)·ld(P(Ei))), wobei E die Ausgänge E1,...,En hat und Ei eintritt, wenn ein A E in der Klasse ki liegt. (iii) Prämissen mit größerer Entropie heißen schlechter und solche mit kleinerer Entropie besser.
Zur Messung statistischer Signifikanz gibt es verschiedene Verfahren, von denen der CN2-Algorithmus ein spezielles benutzt (die Likelihood-RatioMethode). Die Beispielmenge E wird als eine Stichprobe betrachtet, Ei und fi = H(Ei) ist die Häufigkeit, mit der ein Element von E in der Klasse ki liegt.. Das ergibt einen Vektor (f1, ...,fn) von Häufigkeiten, der in Relation zu einem weiteren Vektor (e 1 , ...,en ) gesetzt wird, der die entsprechenden erwarteten Häufigkeiten bei einer zufällig gewählten Stichprobe gleichen Umfangs wie E (also mit \I\su(i=1;n;fi )vielen Elementen) enthält.
Def.: Signifikanz(E) = 2 · \I\su(i=1;n;fi · log(fi/ei))
Lernende Systeme
Seite 99
Um statistisch relevant zu sein muß E(P) einen gesetzten Schwellwert überschreiten.
Zusammenfassend beschreiben wir das synthetische Lernen im Sinne des formalen Modelles und identifizieren seine Komponenten:
Repräsentationale Komponenten R
Alle symbolischen Repräsentationsformalismen sind geeignet.
M
Verschieden umfangreich: wenig bei z.B. empirischen Systemen (etwa Heuristiken zur Deskriptor-Selektion) bis viel bei synthetischen, entdeckenden Lernsystemen (z.B. Lenats AM; Heuristiken zur DeskriptorKonstruktion), meist explizit repräsentiert.
D
Verschieden umfangreich: selektiv-induktives bis konstruktiv-induktives Lernen.
G
Klassifikation, Conceptual Clustering, Konzeptlernen, Qualitatives und Quantitatives Entdecken, Lernen von Grammatiken und Problemlösungen etc.
E
Konkrete, oft vorklassifizierte Beispiele und Gegenbeispiele eines Konzepts. Typischerweise sind einige bis sehr viele (Trainings-) Erfahrungen nötig.
H
Generalisierungen von Erfahrungen, z.B. generalisierte Konzeptbeschreibungen etc. oder auch induzierte Entscheidungsbäume.
Funktionale Komponenten l
Induktive Inferenz auf den dargebotenen Erfahrungen.
g
Inkrementell oder nichtinkrementell.
n
Kontrollstrategie vorwiegend data-driven. Erfolgskriterium: Beurteilung des Klassifikationsverhaltens und der Vorhersagemächtigkeit des gelernten Wissens bzw. Überprüfung des Konsistenz- und Vollständigkeitskriteriums bei Konzeptbeschreibungen.
Performanzelement P
Spezielle, aufgabenorientierte Anwendungen.
Umgebung U
n meist extern, g extern oder intern (vgl. AM )
Erfolgskriterium
Seite 100
Rf = G
Lernende Systeme
Ein Konzept ist gelernt, wenn die Konzeptbeschreibung vollständig und konsistent ist, bzw. wenn das Lernsystem neue Beispiele korrekt klassifiziert.
Beispielsysteme BACON ([Langley, Simon, Bradshaw 83]), AM ([Lenat 83]), INDUCE ([Michalski 83]), ID3 ([Quinlan 86]).
Lernende Systeme
Seite 101
1 1 . Analytische Lernverfahren Beim analytischen Lernen ist die maßgebliche Inferenzstrategie die deduktive Inferenz auf (in der Regel reichhaltig) vorhandenem Wissen R — speziell Domänwissen D — und der (in der Regel) singulären Erfahrung E. Das Ziel beim analytischen Lernen ist die Restrukturierung des bereits vorhandenen Wissens in eine nützlichere und effektivere Form, sodaß durchaus von Lernen im Sinne von Verbessern der Performanzfähigkeiten eines Systems gesprochen werden kann. Hierbei überwiegt also der Performanzverbesserungsaspekt gegenüber dem Erwerb gänzlich neuen Wissens. Insbesondere das Erklärungsbasierte Lernen (Explanation-Based Learning, EBL) ist eine spezielle Ausprägung analytischen Lernens; gelegentlich wurde diese Methode auch mit dem Namen EBG (Erklärungsbasierte Generalisierung) bezeichnet. Das Schaubild des allgemeinen Lernmodells erfährt beim analytischen Lernen die folgende Modifikation: Umwelt U
Lerner L ν
Verwenden von Wissen zur Generierung von Erfahrungen
Modifikation von (Kontroll-)Wissen
Verwenden von Wissen
R G
Evaluation Generieren weniger Erfahrungder singulären en (oft genügt ein singuläres Erfahrung Beispiel) γ
effektiveres Wissen
B
M
Performanzelement P
E evtl. Verwenden alter Erfahrungen
Verwenden der singulären Erfahrung
D
H Verwenden von (Domain-) Wissen λ
Deduktives Erzeugen von effektiverem Wissen
Analytisches Lernen im Lernmodell
Eine Bemerkung zu dem Hintergrundwissen bei analytischen und synthetischen Methoden: Der Unterschied zwischen beiden Verfahrensarten ist nicht so sehr die Menge und der Umfang des vorhandenen Hintergrundwissens, sondern die Art, wie es verwendet wird. Analytisches Lernen verwendet es zur Entdeckung von Eigenschaften innerhalb eines Beispiels (Intra-Beispiel Eigenschaften), synthetisches Lernen kann es zur Entdeckung von Eigenschaften zwischen mehreren Beispielen benutzen (Inter-Beispiel Eigenschaften).
Seite 102
Lernende Systeme
11.1. Erklärungsbasiertes Lernen Charakteristisch für die EBL-Form des analytischen Lernens ist die Verwendung von Domänwissen zur Konstruktion einer Erklärung, warum eine Erfahrung (ein Trainingsbeispiel) positive Instanz eines Konzepts ist, und die Verwendung dieser Erklärung zur Konstruktion einer "operationalen" Beschreibung. Der Begriff Erklärung wird dabei im Sinne eines exakten Beweises benutzt. Gegeben sind neben der (einzigen) positiven Trainingsinstanz auch das zu lernende Zielkonzept, das Lernergebnis ist eine Beschreibung des Konzepts. Nötig hierzu ist eine Bereichstheorie als Menge von Axiomen und Inferenzregeln, die "Erklärung" ist dann ein Korrektheitsbeweis der spezifischen Problemlösung innerhalb der Axiome der Bereichstheorie. Die Vorteile sind, daß logische Rechtfertigungen der Konzeptbeschreibungen erzeugt werden, daß eine einzige positive Instanz genügt und daß negative Instanzen überflüssig sind. Weitere Vorteile sind die relative Immunität gegen verrauschte Daten, da der Erklärungsprozeß falsch klassifizierte Instanzen nicht erklären kann und sie daher verwirft. Die Nachteile zu synthetischen Methoden sind der große Umfang des nötigen Bereichswissens sowie die unter Umständen erhebliche Suche durch den Erklärungsraum, weniger durch den Konzeptbeschreibungsraum, wie es bei den synthetischen Lernverfahren der Fall ist. Erklärungsbasiertes Lernen hat zwei Phasen: •
Die deduktive Beweisphase
•
Die induktive Verallgemeinerungsphase
Zunächst geben wir einen groben Umriß der Vorgehensweise an: Gegeben: • Zielkonzept: Eine Konzeptdefinition, die das zu lernende Konzept beschreibt, aber das Operationalitätskriterium nicht erfüllt. Hier wird spezifiziert, was gelernt werden soll. •
Trainingsbeispiel: Ein positives Beispiel des Zielkonzepts.
• Domänentheorie: Eine Theorie (z.B. in Form von Fakten und Regeln), die zur Erklärung der Zugehörigkeit des Trainingsbeispiels zum Zielkonzept dient. • Operationalitätskriterium: Eine Bedingung die die (syntaktische) Form angibt, wie das zu lernende Konzept aussehen darf. Gesucht: Eine weitere Konzeptdefinition, die für die ursprüngliche hinreichend ist (d.h. diese logisch impliziert) und die das Operationalitätskriterium erfüllt. Verfahren: • Beweise: Konstruiere einen Beweis mit Hilfe der Bereichstheorie, der zeigt, daß das Übungsbeispiel das Zielkonzept erfüllt. Konstruiere so, daß alle Formeln an den Blättern des Beweisbaumes das Operationalitätskriterium erfüllen.
Lernende Systeme
Seite 103
• Verallgemeinere: Propagiere das Zielkonzept durch den Beweisbaum. Dabei werden sukzessive die Terme des Beweises durch die (allgemeineren) Terme im Zielkonzept ersetzt. Die so entstehenden Beweisschritte müssen durch allgemeine Regeln der Domäntheorie abgedeckt sein. • Resultat: Die Konjunktion der resultierenden Blätter des Beweisbaumes ist die gesuchte hinreichende Konzeptdefinition.
Das Operationalitätskriterium soll garantieren, daß das Konzept in eine leichter verarbeitbare Form transformiert wird. Die Verallgemeinerungsphase ist nötig, um zu gewährleisten, daß die neue Konzeptdefinition auch hinreichend für die alte ist. Es wird ein korrektes Resultat geliefert; jedes Objekt, das der neuen Definition genügt, erfüllt auch die alte Definition. Die Vorgehensweise soll an einem Beispiel aus der Literatur illustriert werden. Wir verwenden dabei die Prolog-Notation; das hat insbesondere zur Folge, daß auch die Beweise in Prologform notiert werden. Das
safe-to-stack
Beispiel:
(safe-to-stack(X,Y) soll beschreiben, daß man kann): •
gefahrlos auf
Y
abstellen
Ursprüngliche Definition des Zielkonzeptes: safe-to-stack(X,Y)
•
X
∫
lighter(X,Y) √ not(fragile(Y))
Beispielbeschreibung (Menge von Fakten) für obj1 und obj2 : on(obj1,obj2) isa(obj1,box) isa(obj2,endtable) color(obj1,red) color(obj2,blue) volume(obj1,1) density(obj1,0.1)
•
Domänentheorie: safe-to-stack(X,Y) :- not(fragile(Y)) safe-to-stack(X,Y) :- lighter(X,Y) lighter(X,Y) :- weight(X,W1), weight(Y,W2), less(W1,W2) weight(X,V*D) :- volume(X,V), density(X,D) weight(X,5) :- isa(X,endtable)
•
Operationalitätskriterium:
Formuliere das Ergebniskonzept nur in Termen, die auch im Beispiel vorkommen (isa, on, color, volume, density etc.). • Gesucht ist eine für safe-to-stack(X,Y) hinreichende Konzeptdefinition in Termini von weight, less, volume etc.; eine Definition mittels "lighter" oder "fragile" ist ausgeschlossen.
Seite 104
Lernende Systeme
Die Beweisphase: Es muß safe-to-stack(obj1,obj2) mit der Domäntheorie bewiesen werden. Dies wird daher das Ziel des Prologprogrammes, welches aus den Fakten und Regeln der Domäntheorie und der Beispielbeschreibung besteht. Ein solcher Beweis ist: safe-to-stack(obj1,obj2)
lighter(obj1,obj2)
weight(obj1,0.1)
weight(obj2,5)
volume(obj1,1)density(obj1,0.1)
less(0.1,5)
isa(obj2,endtable)
Die Pfeile reflektieren dabei nicht die Prologaufrufe, sondern die dadurch beschriebenen (dazu inversen) logischen Implikationen. Die Ausdrücke an den Blättern erfüllen das Operationalitätskriterium. Die Verallgemeinerungsphase: Das Zielkonzept wird von oben nach unten, d.h. von der Wurzel zu den Blättern, durch den Beweisbaum propagiert. Die angewandte Verallgemeinerungsregel ist die Ersetzung von Konstanten durch Variable. Man erhält so an den Blättern einen generalisierten Ausdruck, der eine hinreichende Konzeptdefinition darstellt (wobei p1 und p2 für obj1 und obj2 stehen): safe-to-stack(x,y)
Zielkonzept:
safe-to-stack(p1,p2) {x/p1,y/p2}
lighter(p1,p2) lighter(x,y)
lighter(p1,p2) {x/p1,y/p2}
weight(p1,w1)
weight(p2,w2)
less(w1,w2)
weight(x,w1)
weight(y,w2)
less(w1,w2)
weight(p1,v1*d1) {x/p1,v1*d1/w1}
weight(p2,5) {y/p2,5/w2}
volume(p1,v1)
density(p1,d1)
isa(p2,endtable)
volume(x,v1)
density(x,d1)
isa(y,endtable)
Das Ergebnis der Generalisierung ist die Konzeptdefinition
less(v1*d1,5)
Lernende Systeme
Seite 105
volume(X,V1) å density(X,D1) å isa(Y,endtable) å less(V1*D1,5) .
Nach Konstruktion ist sie hinreichend für die ursprüngliche Definition. Diese Tatsache kann man auch in der abgeleiteten Regel volume(X,V1) å density(X,D1) å isa(Y,endtable) å less(V1*D1,5) µ safe-to-stack(X,Y)
ausdrücken. Die neue und die alte Definition sind hingegen nicht äquivalent; es gilt nicht volume(X,V1) å density(X,D1) å isa(Y,endtable) å less(V1*D1,5) ∫ safe-to-stack(X,Y)
Das gelernte Konzept ist somit schwächer als das ursprüngliche, weil es weniger Beispiele umfaßt. Es ist jedoch eben durch die einfacheren Teilaussagen leichter evaluierbar und abstrahiert von der für das Beispiel unwesentlichen Eigenschaft fragile(Y); andererseits kommen auch für die Begründung unerhebliche Prädikate des Beispiels wie "color" nicht vor. In gewissem Sinn konzentriert sich die neue Konzeptdefinition also auf das "Wesentliche". Wir halten fest: 1)
Das gelernte Konzept hat an Allgemeinheit verloren.
2)
Die definierenden Begriffe des gelernten Konzeptes enthalten gerade jene Prädikate, die vom System leicht bestimmt werden können; dadurch kann die Zugehörigkeit eines Beispiels zum Konzept leichter entschieden werden.
Nimmt man mehrere Beispiele, so liefert die Anwendung dieses Verfahrens auf jedes einzelne Beispiel mehrere Konzepte, die man zu einer Disjunktion zusammenfassen kann. Das analytische und speziell das erklärungsbasierte Lernen kann nutzbringend in der Wissensakquisition eingesetzt werden. So kann das allgemeine Zielkonzept aus Lehrbuchwissen resultieren; liefert ein Experte ein konkretes Beispiel, so besteht ein Teil seiner Erklärung darin, daß er das Beispiel auf dem Hintergrund des Lehrbuchwissens erklärt (deduktive Phase). Die Generalisierung des Beispiels komplettiert dann die Erklärung des Experten. Vgl. hierzu [Bergmann 90]. Zusammenfassend beschreiben wir das analytische Lernen im Sinne des formalen Modelles und identifizieren dessen Komponenten:
Repräsentationale Komponenten R
Symbolische Repräsentation.
M
Explizites Metawissen.
D
Sehr viel Domänenwissen nötig. Oft wird das Vorhandensein einer vollständigen Domäntheorie gefordert.
Seite 106
Lernende Systeme
G
Explizites Lernziel ist allgemein meist die Restrukturierung des bereits vorhandenen Wissens in eine nützlichere und effektivere Form, so z.B. die Operationalisierung einer Konzeptbeschreibung.
E
In der Regel ein einziges Trainingsbeispiel, eine singuläre Erfahrung.
H
Erklärung, warum das Beispiel ein Beispiel des Konzepts ist und die für das Zielkonzept hinreichende, generalisierte Konzeptdefinition, die das Operationalitätskriterium erfüllen soll. Intensionale Konzeptbeschreibung.
Funktionale Komponenten l
Deduktion.
g
Nichtinkrementelle Darbietung einer einzigen Erfahrung
n
Intern in dem Sinne, daß das System eine Erklärung dafür generiert, weshalb das Beispiel Beispiel des Konzepts ist, und das Operationalitätskriterium überprüft; extern, weil letztendlich der Benutzer über die erzeugte Beschreibung befindet.
Performanzelement P
Spezielle, aufgabenorientierte Anwendungen.
Umgebung U
g und in gewisser Hinsicht auch n.
Erfolgskriterium Rf = G
Erfolgskriterium ist ein Operationalitätskriterium
Lernende Systeme
Seite 107
1 2 . Analoge Lernverfahren
12.1. Allgemeines Mit einer neuen Problemsituation konfrontiert neigen Menschen dazu, sich an alte, in gewissem Sinne ähnliche und vergleichbare Situationen und dazugehörige Verhaltensmuster zur Lösung des Problems zu erinnern. Diese Verhaltensmuster und die sie konstituierenden Aktionen können in abgewandelter Form eventuell für die Lösung des aktuellen Problems von Nutzen sein, denn sie ersparen den Aufwand, der zu einer grundsätzlich neuen Lösungsfindung nötig wäre. Allgemein wird unter Lernen durch Analogie die Transformation und Extension existierenden Wissens aus einer Domäne verstanden, um eine ähnliche Aufgabe in einer anderen Domäne mit ähnlichen Eigenschaften durchzuführen und z.B. ein ähnliches Problem zu lösen. Das Wissen über die bekannte Domäne wird als die Basis, das in der anderen Domäne zu inferierende Wissen bzw. die zu erzielende Problemlösung wird als das Ziel des Analogieprozesses bezeichnet. Das Schaubild des allgemeinen Lernmodells erfährt beim Lernen durch Analogie die folgende Modifikation: Umwelt U ext. Lehrer Lerner L ν
Modifikation von (Kontroll-)Wissen
Verwenden von Wissen
R G
Generieren einer Erfahrung (z.B. neues Problem)
B
M γ
E evtl. Verwenden alter Erfahrungen
Verwenden der Erfahrung zur Suche nach einer ähnlichen
D
H
Verwenden von Wissen: Finden einer ähnlichen Erfahrung (eines ähnlichen Problems) mit Lösung
λ
Analoge Inferenz
Modell des Lernens durch Analogie
Performanzelement P
Seite 108
Lernende Systeme
Ein allgemeines Schema für das Lernen durch Analogie ist: Basis
Ziel
A
α
A´'
β′
β B
α′
B´'
Grundschema Analogie
Vorgegeben ist zunächst A'. Links ist in der Basisdomäne eine bereits bekannte Inferenzkette AµβB zu sehen; diese ist im Gedächtnis abgespeichert. A repräsentiert das Wissen der Basisdomäne, es ist ein Analogon in der Zieldomäne zu A'. B ist das Ergebnis der Inferenzkette β. Das Ziel analoger Inferenz ist nun die Bestimmung der verbleibenden Teile B' und β'. Zunächst wird ein Zusammenhang α zwischen Wissen der Basisdomäne A und der Zieldomäne A' etabliert. Basierend auf α wird die Analogie durch Modifikation der ursprünglichen Inferenzkette β so vervollständigt, daß Unterschiede zwischen A und A' berücksichtigt werden und man die resultierende neue Inferenzkette A'µβB' erhält. β' leitet die gewünschte Konklusion B' in der Zieldomäne ab, wobei B' durch die Relation α' mit der ursprünglichen Konklusion B der Basisdomäne in Zusammenhang steht. Die Wirksamkeit der Analogie beruht dabei auf einer Ähnlichkeit zwischen A und A'. Konkret sind folgende Aufgaben zu erledigen: 1)
Suche zu A' ein ähnliches, gelöstes Problem A.
2)
Übertrage die Lösung von A sinngemäß auf A'.
Damit ist der Analogieschluß zwar abgeschlossen, nicht aber der Problemlöseprozeß. Wir halten nämlich fest: Analogieschlüsse haben mit induktiven Schlüssen gemeinsam, daß sie nicht notwendig korrekt sind. Deshalb hat hier noch ein dritter Schritt zu erfolgen: 3)
Verifiziere die Lösung.
Lernende Systeme
Seite 109
12.2. Ähnlichkeit 12.2.1. Grundlegende Begriffe Der Ähnlichkeitsbegriff ist also von zentraler Bedeutung für die Analogieschlüsse. Zur Präzision der Redeweisen stellen wir noch fest: •
Ähnlichkeit besteht zwischen den (Problem-) Situationen A und A'.
•
Analog sind die Problemlösungen β und β'.
Wie bei allen Begriffen hat auch der Ähnlichkeitsbegriff die beiden Aspekte •
inhaltliche Bedeutung und
•
formale Axiomatisierung.
Zur inhaltlichen Bedeutung ist zu sagen, daß es keinen Sinn macht, absolut von "der Ähnlichkeit" zweier Objekte zu sprechen. Ist ein formaler Rahmen festgelegt, so ist auch die Gleichheit von Objekten determiniert. Hingegen läßt auch ein formaler Rahmen die Möglichkeit vieler Ähnlichkeitsmaße offen. Ähnlichkeit besteht also stets nur bezüglich bestimmter Aspekte von Objekten, und diese sind ganz wesentlich von ihrem Verwendungszweck, d.h. von der Pragmatik bestimmt. Betrachten wir ein Beispiel: 1)
Will man Autos zum schnellen Fahren verwenden, so mag man sie ähnlich nennen, wenn sie die gleiche Höchstgeschwindigkeit und eine vergleichbare Straßenlage haben.
2)
Möchte man Autos in die gleiche Garage stellen, dann wird man Autos ähnlich nennen, wenn ihre äußeren Maße nicht stark voneinander abweichen.
Ein weiteres Beispiel zeigt, daß bestimmte unerwünschte Nebenerscheinungen schwer vermeidbar sind, die Ähnlichkeitsrelation wäre noch nicht einmal transitiv: 3)
Man kann z.B. sagen, daß Lissabon und Kaiserslautern ähnlich sind (weil sie beide gute Fußballteams haben) und auch Kaiserlautern und Kusel ähnlich sind (weil sie beide in der Pfalz liegen), aber man wird sich schwer tun, eine Ähnlichkeit zwischen Lissabon und Kusel zu finden. Der Grund dafür ist offensichtlich, beide genannten Ähnlichkeiten fanden bezüglich ganz verschiedener Aspekte statt.
Die Einschränkung auf Aspekte wird durch eine Abstraktionsabbildung (vgl. [Richter 89]) geleistet. Typisch dafür ist die Auswahl gewisser Parameter, die meist zudem noch qualitativ betrachtet werden (d.h. man abstrahiert auch noch von den exakten numerischen Werten). Die Pragmatik bringt einen weiteren Aspekt in die Diskussion. Wird die Ähnlichkeit für Analogieschlüsse gebraucht, so hat man meist eine gute Vorstellung davon, ob die erhaltene Lösung brauchbar ist. Das läßt einen a posteriori Rückschluß auf die Güte der verwandten Ähnlichkeit zu. Diese a posteriori Information ist aber a priori nicht direkt erhältlich. Möchte man also zwei Autos als ähnlich bezeichnen, wenn sie eine vergleichbare Straßen-
Seite 110
Lernende Systeme
lage haben, so läßt sich das leicht durch Testfahren feststellen (Ähnlichkeit bei der Klassifikation). Dem Konstrukteur ist diese Information jedoch nicht zugänglich; ihm ist das Auto durch technische und numerische Informationen gegeben und nur danach kann er eine Ähnlichkeitsdefinition erbringen (Ähnlichkeit beim Problemlösen). Das Problem des Konstrukteurs ist, solche Aspekte zu verwenden, die zu einer "guten" Ähnlichkeitsdefinition führen. Dies geschieht meist nicht auf einen Schlag, sondern iterativ; man kann die Suche nach einem guten Ähnlichkeitsmaß selbst wieder als einen Lernprozeß auffassen. Bei der Formalisierung des Ähnlichkeitsbegriffes kann man drei verschiedene Ausgangspositionen einnehmen: 1)
Formalisierung von "x und y sind ähnlich";
2)
Formalisierung von "x und y sind unähnlich";
3)
Formalisierung von "x und y sind ähnlicher als x und z".
Die erste wurde oben schon diskutiert und die zweite läßt sich auf sie zurückführen. Der dritte Ansatz trägt dem Rechnung, daß Objekte einander unterschiedlich ähnlich sein können. Man sollte also nicht die Relation "x und y sind ähnlich" axiomatisieren, sondern eine Funktion, die besagt, mit welchem Grade x und y ähnlich sind. Das trägt der Tatsache Rechnung, daß Ähnlichkeit sinnvollerweise keine Relation ist, die zwischen Objekten entweder besteht oder nicht besteht, sondern besser mit den Begriffen "mehr oder weniger" erfaßt werden kann. Zu diesem Zwecke benötigen wir eine entsprechende Relation. Wir führen hier aber zuerst eine vierstellige Relation Ä(x,y,u,v) (gelesen als: "x ist ähnlicher zu y als u zu v") ein, die den Bedingungen (i)
Ä(x,x,u,v)
(ii)
Ä(x,y,u,v) ∫ Ä(y,x,u,v) ∫ Ä(x,y,v,u)
genügt. Die gewünschte Relation R(x,y,z) ist dann durch R(x,y,z) :∫ Ä(x,y,x,z) definiert. Für das analoge Schließen benötigt man letztlich die Relation R. Sie wird verwendet, um zu einem x "ein ähnlichstes y" aus einer Menge zu finden. Dies genügt dann der Bedingung ÆzR(x,y,z). Eine wichtige Frage ist nun, welchen Bedingungen die Relation R genügen soll. Wenn x fest ist, dann definiert R eine zweistellige Relation y « z : ∫ R(x, y, z); wir setzen noch " y und z sind unvergleichbar" : y z : ∫ ¬(y « z) å ¬(z « y).
Lernende Systeme
Seite 111
Axiomatische Anforderungen an "«": 1) " « " ist eine schwache Ordnung, d.h. « ist asymmetrisch ( y « z und z « y ist unmöglich) und es gilt: Aus y « z folgt y « u oder u « z für jedes u. 2) " "ist reflexiv und transitiv. Aus 1) folgt insbesondere die Irreflexivität und die Transitivität von «. Fast man jeweils Mengen unvergleichbarer Objekte zusammen, so sind alle Objekte bezüglich der Ähnlichkeit zu x bis auf Unvergleichbarkeit linear angeordnet. Wie wir gesehen haben, führt ein naiver Umgang mit dem Ähnlichkeitsbegriff leicht zu einer Verletzung dieser Forderungen, vor allem wenn man verschiedene Aspekte vermischt. Das führt auf die Idee, von einzelnen Ähnlichkeitsrelationen (die nicht weiter hinterfragt werden) auszugehen. Sie mögen jeweils einzelne Aspekte repräsentieren und sollen den Anforderungen genügen. Solch einzelnen Aspekte können etwa der Preis, die Farbe oder die Lage eines Objektes sein. Je enger man solch einen Aspekt faßt, desto eher wird es gelingen, die axiomatischen Anforderungen zu erfüllen. Die Aufgabe besteht dann darin, diese einzelnen Ähnlichkeitsrelationen zu einer Gesamtrelation zu amalgamieren. Eine sehr simple Methode besteht darin, die Reihenfolge der Einzelrelationen (in der Ähnlichkeit zu einem festen Objekt x) in eine Punktbewertung umzuwandeln und diese Punkte dann zu addieren ( Borda's Methode, 1781). Wir geben ein Beispiel, an dem 5 Objekte t, y, z, u und v und 5 Aspekte beteiligt sind: t
y
z
u
v
1
4
3
2
1
0
2
2
4
3
0
1
3
3
2
1
0
4
4
4
3
0
2
1
5
1
4
2
3
0
Summe
14
16
8
6
6
Der Sieger, d.h. das zu x ähnlichste Objekt ist also y, gefolgt von t, z usw. Nun stellen wir uns vor, daß wir unsere Datenbasis von den in diesem Fall relativ uninteressanten Objekten z und u befreien, aber im übrigen die Relationen beibehalten wollen. Die maximale Punktzahl ist dann 3 und wir erhalten:
1
t
y
v
2
1
0
Seite 112
Lernende Systeme
2
1
2
0
3
1
0
2
4
2
1
0
5
1
2
0
Summe
7
6
2
Es zeigt sich, daß hierdurch auch die Reihenfolge der anderen Objekte verändert wird, denn jetzt ist t der Sieger. Das ist ein höchst unerwünschter Nebeneffekt, denn beim Löschen uninteressanter Objekte muß im Prinzip die gesamte Datenbasis bezüglich der Ähnlichkeitsrelation neu durchgerechnet werden. Es zeigt sich aber, daß dies keine spezielle Eigenschaft der vorgeführten Methode ist, sondern daß hier ein tieferliegendes Phänomen vorliegt. Es sei U das Universum der Objekte (es gelte |U| ≥ 3), S die Menge der schwachen Ordnungen auf U und A ≠ Ø die Menge der Aspekte sowie F = {f| f : A µ S }. Gesucht wäre eine allgemeine Vorschrift, jedem f F eine Ordnung « S zuzuweisen, also eine Funktion s : F µ S. Diese Funktion s sollte nicht völlig willkürlich sein; die folgenden Forderungen sind recht naheliegend. a) Wenn y f(A) z für alle A A, dann soll auch y σ(f) z gelten (d.h. y soll jedenfalls dann vor z liegen, wenn dies für alle Aspekte der Fall ist). b) Wenn f und g bezüglich der Objekte y und z übereinstimmen, dann soll dies auch für s(f) und s(g) gelten. Die amalgamierte Relation s(f) soll sich also für y und z nicht ändern, wenn man f auf anderen Objekten verändert (die sog Unabhängigkeit von irrelevanten Alternativen, die bei Borda's Methode verletzt war). c) Es soll keinen Aspekt A A geben, so daß für alle Objekte y,z U gilt: Wenn y f(A) z, dann auch y s(f) z. Es soll sich also nicht nur ein einzelner Aspekt durchsetzen.
Diese Forderungen wurden vielfach in den Wirtschaftswissenschaften diskutiert. Die Begriffe wurden so interpretiert, daß die Ordnungen Präferenzordnungen und die Aspekte die Wähler waren; F war dann die Menge der Wahlgänge und s bestimmte die allgemein verbindliche Präferenzordnung. Bedingung a) hieß auch das Demokratieprinzip und die in c) verbotenen Funktionen waren die Diktatorfunktionen. Der folgende Satz ist der sog. Unmöglichkeitssatz von Arrow:
Satz: Es gibt keine Funktion, die den Bedingungen a), b) und c) genügt. Ein Beweis findet sich z.B. in [Richter82]. Der Satz zeigt für unseren Kontext auf, daß bei der Amalgamierung von Ähnlichkeitsrelationen aus Einzelaspekten nicht alle Wünsche gleichzeitig zu erfüllen sind und daher Vorsicht geboten ist.
Lernende Systeme
Seite 113
Wir kommen jetzt zu numerischen Fassungen der Vorstellung von "mehr oder weniger ähnlich(bzw. unähnlich)", also zu den Ähnlichkeitsmaßen und Distanzfunktionen.
Definition: Ein Ähnlichkeitsmaß auf einer Menge M ist eine reellwertige Funktion µ:M2 µ [0,1] mit (i) µ(x,x) = 1 (ii) µ(x,y) = µ(y,x)
(i) und (ii) entsprechen der Reflexivität und Symmetrie einer Ähnlichkeit; wichtig ist aber, daß der Grad der Ähnlichkeit über längere Ketten hin abnehmen kann; so ist auch etwa die Relation "sehr ähnlich" zu sein i.a. nicht transitiv. Im zweiten Ansatz der Unähnlichkeit wird von einer "Distanz" zwischen Objekten ausgegangen, die entsprechend mit einer Funktion modelliert wird.
Definition: Eine Distanzfunktion auf einer Menge M ist eine reellwertige Funktion d:M2 µ |R + mit (i) d(x,y) ≥ 0 und d(x,x)=0 (ii) d(x,y)=d(y,x)
Normalerweise wird zusätzlich noch die Dreiecksungleichung d(x,y) + d(y,z) ≥ d(x,z) verlangt, wodurch man dann eine sogenannte Quasimetrik (manchmal auch Pseudometrik genannt) erhält. Meist verlangt man aber nicht die Bedingung, daß x ≠ y schon d(x,y) > 0 impliziert, man erhält also keine Metrik. Das kommt daher, daß die Distanzfunktion oft nur auf einige Merkmale der betrachteten Objekte zugreifen kann, die nicht ausreichen, sie zu unterscheiden. Prinzipiell ist es oft nicht nötig, irgend etwas über numerische Werte von Ähnlichkeitsbeziehungen zu wissen. In der Praxis ist es jedoch meist angeraten, diesen Umweg zu gehen. Ähnlichkeitsmaße und Distanzfunktionen induzieren solche Ähnlichkeitsrelationen auf natürliche Weise, wodurch sich auch eine Kompatibilitätsrelation zwischen Maßen und Distanzen ergibt. Für gegebenes µ und d setzt man
Definition:
Seite 114
(i) (ii) (iii)
Lernende Systeme
Ä µ(x,y,u,v) ∫ µ(x,y) ≥ µ(u,v) ; Äd(x,y,u,v) ∫ d(x,y) ≤ d(u,v) ; µ und d heißen kompatibel, wenn gilt: Ä µ(x,y,u,v) ∫ Ä d(x,y,u,v).
Wenn eine bijektive, ordnungsinvertierende Abbildung f:Wertebereich(d)µ Wertebereich(µ) mit f(0)=1 und µ(x,y) = f(d(x,y)) existiert, dann sind d und µ kompatibel. Andererseits kann man solche Abbildungen auch benutzen, um sich zu gegebenem d bzw. µ ein kompatibles Pendant zu verschaffen. Einfache Funktionen dieser Art sind f(x)=1 - \f(x;x+1) bzw., falls ein größter Abstand max existiert: f(x)=1 - \f(x;max) . Der Begriff der Ähnlichkeit ist eng mit dem der Unsicherheit verknüpft. Setzt man für eine Distanzfunktion d und Objekte x, y x ≈ d y ∫ d(x,y)=0, so ist ≈d eine Ununterscheidbarkeitsrelation (vgl. [Richter 89]). Man kann z.B. für sie die Methode der groben Mengen verwenden. Die Wertebereiche von µ und d sind reelle Zahlen, die man aber in doppelter Hinsicht interpretieren kann. Die einfachste Möglichkeit ist, sie als eine Ordinalskala anzunehmen, da spielt nur eine Rolle, ob ein Werte größer oder kleiner als ein anderer ist. Weitergehend ist, |R als Kardinalskala anzunehmen. Dann spielt nicht nur die Relation der Werte der Funktionen eine Rolle, sondern auch die Differenz und der Quotienter Abstände dieser Funktionen. Die ordinalen Relationen sind meist intuitiv einsichtig, während die Umwandlung in Kardinalitäten sehr schwierig ist. Das liegt daran, daß die ersteren lokaler, die letzteren aber globaler Natur sind, weil Zahlen als Werte stets universell vergleichbar sind. Auch die Beziehungen zwischen ordinalen und kardinalen Skalen wurden ausführlich im Bereich der Nutzenfunktionen diskutiert, vgl. z.B. [Wagner 83]. 12.2.2. Einige Ähnlichkeitsmaße Wir beschränken uns auf den Fall, daß den Objekten Merkmalsvektoren der Länge n zugeordnet sind, auf denen das Ähnlichkeitsmaß operiert, dabei werden wir Ähnlichkeitsmaße und Distanzfunktionen stets alternativ verwenden. Die Argumente der Vektoren seien normalerweise reelle Zahlen. Das birgt die Schwierigkeit in sich, daß eine Zahl benutzt werden muß um auszudrücken, daß ein Wert unbekannt ist; gelegentlich drücken wir dies auch durch ein extra Symbol aus. Wir beschränken uns hier vorerst auf den Fall der booleschen Vektoren, bei denen die Argumente 0 und 1 sind, was für die meisten prinzipiellen Betrachtungen ausreicht. Im folgenden seien x=(x1 ,...,xn ) und y=(y1 ,...,yn ) zwei Merkmalsvektoren.
Lernende Systeme
Seite 115
Die bekannteste und einfachste Distanzfunktion ist der Hammingabstand: H(x,y)=n - \I\su(i=1;n; xi·yi) - \I\su(i=1;n;(1-xi)·(1-yi)), d.h. H(x,y) ist die Anzahl der unterschiedlichen Koordinaten von x und y. Eine einfache Verallgemeinerung ist der gewichtete Hammingabstand. Ein Gewichtsvektor hat die Form α = (α1,...,αn) mit \I\su(i=1;n; αi) = 1. Der mit α gewichtete Hammingabstand ist dann Hα (x,y) = n - \I\su(i=1;n; αi·xi·yi) Dieser Abstand erlaubt es, in den Gewichten gewisse Informationen über die Bedeutung der Attribute zu kodieren. Eine sehr weitgehende Verallgemeinerung des Hammingabstandes ist durch das Tversky-Kontrastmodell gegeben (vgl. [Tversky 77]) und ist für boole'sche Attribute erklärt. Für zwei Objekte x und y seien A := Menge der Koordinaten, die für x und y gleich sind; B := Menge der Koordinaten, die für x = 1 und für y = 0 sind; C := Menge der Koordinaten, die für y = 1 und für x = 0 sind ; Die allgemeine Form des Tversky - Abstandes ist T(x,y) = a · f(A) - b · f(B) - g · f(C) wobei f eine reellwertige Funktion und a, b, g reelle Zahlen sind. Das Wissen, welches so ein Maß über die Klassifikaktion haben kann, steckt dann in den Größen f, α, β und γ. Man beachte, daß ein Tversky-Maß nicht notwendig symmetrisch ist. Die meisten verwendeten Maße liegen in ihrer Allgemeinheit zwischen dem Hamming- und dem Tversky - Abstand. Man führt zweckmäßigerweise folgende Bezeichnungen ein: a=\I\su(i=1;n; xi · yi) , b=\I\su(i=1;n; xi · (1-yi) ), c=\I\su(i=1;n; (1-xi)· yi) , d=\I\su(i=1;n; (1-xi )· (1-yi)). Damit haben wir: n=a + b + c + d, H(x,y)=b + c=n - (a + d);
Seite 116
Lernende Systeme
max=n ist der maximale Abstand. Erklären wir mittels f(x)=1 \f(x;max) ein kompatibles Ähnlichkeitsmaß µH, so ergibt sich µ H (x,y)=\f(a+d;n)=1 - \f(b+c;n). Das Ähnlichkeitsmaß µH ist sehr natürlich; es hat auch die Bezeichnung Simple Matching Coefficient (John Stuart Mill 1843). Der Hammingabstand und das Maß µH läßt sich nun auf verschiedene Weise variieren. Möglichkeiten für die Variation sind: a)
µ hängt in unterschiedlicher Weise von den xi und yi ab. Das bedeutet, daß gewisse Ausprägungen dieser Argumente die Ähnlichkeit sehr viel mehr beeinflussen als andere. Es kann dann vorkommen, wenn bestimmte Werte eines xi den gesamten Vektor fast sicher bestimmen. Nehmen wir z.B. eine Gesamtheit von vielen Autos an, die entweder blau (x1=0) oder rot (x1=1) sind. Die blauen Autos sollen untereinander alle sehr ähnlich sein, aber sehr unterschiedlich von den roten, während bei den roten unter sich alle Möglichkeiten gleich vorkommen mögen. Ist nun x1 =0 oder y1=0, dann sollte diese Koordinate sehr viel stärker in das Maß eingehen, als wenn beide Werte 1 sind.
Lernende Systeme
Seite 117
b)
µ hängt in unterschiedlicher Weise von den Argumentstellen, aber nicht mehr von den Argumentwerten selbst ab. Dies ist häufig gegeben, weil einfach manche Informationen für den intendierten Zweck uninteressant sind.
c)
µ hängt nur noch von den Größen a, b, c und d ab.
Im Fall a) gilt insbesondere die folgende Bedingung i.a. nicht: Invarianz unter der Vertauschung von 0 und 1: µ(x 1 , ..., xn , y1 , ..., yn )=µ((1-x 1 ), ...,(1-xn ),(1-y 1 ), ...,(1-yn )) Im Fall c) lassen sich aber zwei sehr einsichtige Anforderungen formulieren: Monotoniebedingung: µ(a,b,c,d) ist monoton wachsend in a und d und monoton fallend in b und c. Symmetriebedingung: µ(a,b,c,d) ist invariant unter der Vertauschung von b und c, d.h. µ(a,b,c,d)=µ(a,c,b,d). Gelegentlich möchte man nämlich entweder den Koordinaten, an denen die beiden Argumente gleich sind oder denen, wo sie verschieden sind, eine unterschiedliche Bedeutung zukommen lassen. Das leistet z.B. folgende Berechnungsvorschrift, wobei 0<α<1 ist: µα(a,b,c,d)=\f(α(a+d);α(a+d) + (1-α)(b+c)) Für α=1/2 erhält man dann wieder µH. Will man die übereinstimmenden bzw. die unterschiedlichen Merkmale stärker gewichten, so bieten sich auch die Maße µ(a,b,c,d)=\f((a+d);(a+d) + 2(b+c)) bzw. µ(a,b,c,d)=\f((a+d);2(a+d) + (b+c)) an. Ist die Invarianzbedingung für 0 und 1 verletzt und wird dabei der 1 größere Bedeutung zugemessen, kann man das Maß µ(a,b,c,d)=\f(a;a + b + c) nehmen. Jetzt betrachten wir Situationen, wo wir µ von individuellen Koordinaten abhängen lassen wollen. Generell ist die Methode, den Hammingabstand mit Gewichtsfaktoren zu versehen.
Seite 118
Lernende Systeme
Man nehme also w=(w1,...,wn) mit \I\su(i=1;n;wi)=1 und setze H w (x,y)=\I\su(i=1;n; (wi·xi·yi + wi·(1-xi)·(1-yi))). Die Frage ist, wie man die Gewichte geschickt auswählt. Einmal spielt natürlich die individuelle Wichtigkeit der Merkmale eine Rolle; darüber mag etwas bekannt sein, aber man kann allgemein keine Aussagen darüber machen. Die Monotoniebedingung hat insbesondere zur Folge: Wenn a' aus a durch Veränderung einer Komponente so entsteht, daß a' und b an dieser Komponente übereinstimmen, dann gilt d(a,b) ≥ d(a',b). Plausibilität dieser Bedingung basiert auf der Vorstellung der Unabhängigkeit der einzelnen Komponentenwerte. Ein vorerst etwas künstliches Gegenbeispiel ist durch die boole'sche XORFunktion gegeben, hier werden die Argument-Wertepaare (0,0) und (1,1) sowie (0,1) und (1,0) identifiziert. Ein Ähnlichkeitsmaß, das diese Klassenbildung mit einem geeigneten Schwellwert vornehmen würde, müßte also gerade im Sinne der Gleichheit von Komponenten sehr "unähnliche" Objekte ähnlich machen. Es können jedoch auch in ganz natürlichen Fehlerdiagnosesituationen solche Phänomene auftreten: Gegeben seien zwei Batterien B1 und B2, wovon die Batterie B1 ziemlich uninteressant sein soll, aber B2 sehr wichtig ist. Es seien weiter drei Lampen xi, 1≤i≤3, gegeben, die unsere Sensoren sind. Dabei sei: - x1 mißt B1 und B2 (Serie), - x2 mißt B1 oder B2 (Parallelschaltung), - x3 mißt B1. Betrachten wir nun folgende Merkmalsvektoren: a = (0,1,1), a' = (0,1,0) und b = (0,0,0). Das bedeutet: a : B1 arbeitet und B2 arbeitet nicht, a' : B1 arbeitet nicht und B2 arbeitet, b : weder B1 noch B2 arbeiten. Im Sinne unsere Modellvorstellung müßten wir d(a,b) ≤ d(a',b) verlangen, was aber der Monotonie widersprechen würde. Das liegt eben daran, daß zwischen den einzelnen Komponenten der Merkmalsvektoren bestimmte Abhängigkeiten existieren. Ein bestimmter Wert einer Komponente kann dann je nach Kontext eine ganz unterschiedliche Bedeutung haben. Eine weitere Klasse von solchen Beispielen entsteht so, daß das eigentliche Interesse an einer Kombination von Attributwerten liegt. Betrachten wir Paasagiere a, b und c in einer Straßenbahn. Die Attribute mögen u.a. Einstiegsstation, Zielstation und Fahrpreis des Tickets umfassen. Die Einstiegsstation sei für diese Passagiere unterschiedlich, die Zielstation
Lernende Systeme
Seite 119
gleich. Der Fahrpreis sei für a und b gleich, für a und c aber unterschiedlich. Demnach müßten bei Monotonie des Maßes a und b ähnlicher als a und c sein. Man kann jedoch leicht die Lage so präzisieren, daß a und c korrekte Fahrpreise bezahlt haben, während b ein Schwarzfahrer ist. Der gleiche Fahrpreis hat eben in Gegenwart unterschiedlicher Fahrstrecken etwas ganz Verschiedenes. Dies Beispiel läßt sich auch sofort auf technische Geräte (z.B. Stromversorgung, Stromanforderung) übertragen. Die bisherigen Maße haben alle eine a priori festgelegte Berechnungsvorschrift. Man kann auf diese Weise zwar gewisse Koordinaten und Werteausprägungen bevorzugen, aber man muß dies vor der Betrachtung der Beispiele tun. Sind nun Mengen von Beispielen vorgelegt, so kann man sich von statistischen Verteilungen leiten lassen. Diese können u.U. nicht vorher bekannt sein und mögen durch Häufigkeiten geschätzt werden. Hängt das Maß von solchen Häufigkeiten ab, dann sollte es sich auch von Beispielmenge zu Beispielmenge ändern. Dabei steht wieder das Prinzip Pate, daß seltene Ereignisse mehr Information liefern als häufige, was dazu führt, seltenen Werteausprägungen ein größeres Gewicht bei der Berechnung des Ähnlichkeitsmaßes zu geben. Es seien also Merkmalsvektoren x1,...,xm gegeben, xk =(xk1,...,xkn). Wir setzen N i1 =\I\su(k=1;m;xki) , N i0 =\I\su(k=1;m;(1-xki)), wodurch wir die Einsen und Nullen des i-ten Merkmals zählen. Eine Möglichkeit ist nun: Für Vektoren x und y sei: a'=\I\su(i=1;n;xi·yi·\f(Ni0;m)) und d'=\I\su(i=1;n;(1-xi)·(1-yi)·\f(Ni1;m))
Seite 120
Lernende Systeme
sowie µ=\f(a' + d';a' + b + c + d') . Entsprechende Änderungen kann man in den anderen Formeln vornehmen. Eine andere Möglichkeit ist, die \f(Ni0;m) und \f(Ni;m) als Gewichte im Hammingmaß zu verwenden. Schließlich wollen wir den Bereich der binären Merkmalsvektoren verlassen und beliebige Werteausprägungen erlauben. Der Hammingabstand überträgt sich sofort auf diesen Fall. Hat nun ein Attribut mehrere Werteausprägungen, dann ist es sinnvoll, das Übereinstimmen zweier Werte um so höher zu bewerten, je mehr Werte möglich sind (denn dann ist die Koinzidenz ein seltenes Ereignis). Das folgende Maß berücksichtigt die Alternativenzahl: µ(x,y)=\f(1;m) · \I\su(i=1;n;mi·δ(xi,yi)), wobei mi die Alternativenzahl des i-ten Attributs ist, m = \I\su(i=1;n;m i) und δ(x i,y i)=\B\LC\{(\A\AL(0, x i ≠ yi,;1, x i = y i .)) Schließlich betrachten wir noch den Fall, daß Attributwerte unbekannt sind. Hier sind zwei Vorgehensweisen denkbar: •
optimistische Strategie: Nehme an, daß die Werte vermutlich gleich sind und drücke dies in einer Erhöhung des Ähnlichkeitsmaßes aus.
•
pessimistische Strategie: Nehme an, daß die Werte vermutlich verschieden sind und drücke dies in einer Verminderung des Ähnlichkeitsmaßes aus.
Die optimistische Strategie kann in der Ausdrucksweise der Distanzfunktionen zu einer Verletzung der Dreiecksungleichung führen: Es seien die Werte von xi und zi verschieden, aber der Wert von yi sei unbekannt. Dann ist d(x i , y i ) = "klein" und d(y i ,z i ) = "klein", aber d(xi,zi)="groß"; man hat dann die Zahlen nur so zu wählen, daß "klein" + "klein" < "groß" ist. Ein Beispiel für ein solches Maß wird uns später im PATDEX-System begegnen (vgl. 12.4.3). 12.2.2. Taxonomien Ein weiterer spezieller Fall liegt vor, wenn die betrachteten Objekte in einer Baumstruktur angeordnet sind, etwa in einer objektorientierten Hierarchie. Dann kann man als Distanz zweier Objekte ein Abstandsmaß im Graphen nehmen, z.B. die Länge des kürzesten Weges, der die Objekte verbindet. Beispiel:
Lernende Systeme
Seite 121
Werkzeug
Säge
Motorsäge
Zange
Bandsäge
Kombizange
Kneifzange
Kneifzange und Kombizange sind sich hier ähnlicher als etwa Kombizange und Bandsäge. Wir haben es hier auch inhaltlich mit einer Hierarchie zu tun, je weiter oben sich Pfade verzweigen, desto wesentlicher sind die Objekte an den Blättern verschieden und desto größer ist sinnvollerweise ihr Abstand. Im vorliegenden Falle sind Kneifzange und Kombizange durch den kleinsten gemeinsamen Oberbegriff Zange verbunden. Das Beispiel gibt nun zu zwei Überlegungen Anlaß: (1) Wir können hier ausdrücken, daß die beiden Zangen untereinander "ähnlicher" sind als jede von ihnen zu einer Kreissäge ist. (2) Man kann offenbar alle Eigenschaften von der einen Zangenart auf die andere übertragen außer denjenigen, die Bezug nehmen auf Inhalte von Slots, die in den beiden Fällen verschieden gefüllt sind. Eine Formalisierung von (1) erfordert eine Abstandsdefinition, in der wir nur auf die Grapheneigenschaften der Hierarchie Bezug nehmen: Wir setzen l (X,Y) als die Anzahl der Knoten zwischen X und Y (bzw. ∞, falls X und Y unvergleichbar sind ) sowie d(A, B) = min ( max ( l (A, C), l (B, C)) | C Oberknoten von A und B) falls A und B einen gemeinsamen Oberknoten haben, sonst sei d(A, B) = ∞. Objekte mit geringerem Abstand werden dann als ähnlicher angesehen als solche mit größerem. Diese Argumentation trifft nicht mehr zu, wenn ein Entscheidungsbaum vorliegt. Die Attribute an den Knoten (wie im früheren Beispiel etwa Größe und Haarfarbe) sind gleichberechtigt; was weiter oben angeordnet ist, wird durch informationstheoretische Überlegungen bestimmt. Das gerade eingeführte Abstandsmaß macht dann also nicht viel Sinn.
An diesem Grundmuster analogen Handelns und Schließens lassen sich eine Reihe wesentlicher Kritikpunkte anbringen: (1) Der eingeführte Abstandsbegriff ist nur dann sinnvoll, wenn die Taxonomie auch eine inhaltliche Hierarchie repräsentiert. Häufig müssen aber in einer Taxonomie auch Merkmale wie Länge, Breite und Höhe untergebracht werden, die sich in ihrer Wichtigkeit gar nicht unterscheiden, und die
Seite 122
Lernende Systeme
deshalb auch keine Ähnlichkeiten gewichten können. Zudem würde die Hierarchie dann unnötige Duplizierungen aufweisen; so müßte etwa zu jeder Länge wieder jede Breite erscheinen usw. Abhilfe kann hier schaffen, die relevanten Parameter zu gewichten und damit einen Abstand zu erklären. (2) In Situationen mit komplexem Kontext läßt sich die Zulässigkeit einer Aktion nicht auf das Nachprüfen weniger Vorbedingungen reduzieren Deshalb muß die durch Analogie übertragene Aktion häufig erst noch auf sehr individuelle Weise modifiziert werden. (3) Bei "kleiner Ähnlichkeit" (z.B. bei großem Abstand) unterscheiden die verglichenen Objekte sich meist noch in anderen als den gerade diskutierten Parametern. Dann ist häufig weder die Art der analogen Übertragung präzise festgelegt noch die Gültigkeit des übertragenen Schlusses gesichert. (4) Viele Analogiebetrachtungen geschehen ohne die Kenntnis eines abstrakten Oberbegriffes; in diesem Falle fehlt ein gemeinsamer Bezugspunkt für die aktuelle und die frühere analoge Situation.
12.3. Analogieschlüsse und analoges Lernen Nach [Carbonell 86] können zwei grundsätzliche Methoden für analoge Schlußweisen unterschieden werden: •
Die Methode der Transformational Analogy: Sie ist die direkteste Methode zum Transfer von alten Problemlösungen auf das neue Problem, wie sie in 12.1 in der Abbildung "Grundschema Analogie" dargestellt ist.
•
Die Methode der Derivational Analogy: Sie betrachtet nicht nur ähnliche Problemsituationen, sondern berücksichtigt komplette Lösungswege.
12.3.1.
Transformational Analogy
Bei Vorliegen eines neuen Problems werden bei der Methode der Transformational Analogy die folgenden Schritte durchgeführt: •
Durchsuchen des Teils des Speichers, das alte Problembeschreibungen enthält (auch Episodengedächtnis genannt), nach einer oder mehreren, der aktuellen Problembeschreibung ähnlichen Beschreibung, evtl. der ähnlichsten.
•
Auffinden der zur alten Problembeschreibung gehörigen Lösung(en). Gibt es mehr als eine, so betrachte die Menge alternativer Lösungen.
•
(Inkrementelle) Transformation der gefundenen, alten Lösung, bis sie den Anforderungen und Constraints des neuen Problems genügend nahe kommt.
Lernende Systeme
•
Seite 123
Falls eine erfolgreiche Transformation nicht herstellbar ist, suche nach weiteren ähnlichen Problembeschreibungen oder gebe den Analogie-Prozeß auf.
Der schwierigste Schritt ist die Lösungstransformation. Sein Erfolg hängt wesentlich von der Güte des Ähnlichkeitsmaßes (in Bezug auf das Problem) ab. Eine heuristische und oft verwendete Vorgehensweise besteht in folgenden beiden Schritten: (i)
Suche eine aus Teiltransformationen (Ti|1≤i) bestehende Transformation T: bekannte Problembeschreibung µ aktuelle Problembeschreibung.
(ii)
Wende T auf die bekannte Lösung an und erhalte so einen Kandidaten für die Lösung des aktuellen Problems.
Wir verdeutlichen dies an einem Beispiel, in dem die Beschreibungsparameter graphisch repräsentiert sind:
Auffinden
Bekanntes Problem Aktuelles Problem
transformieren
bekannte Lösung
analoge Lösung
Dieser Vorgehensweise sind natürlich Grenzen gesetzt; vor allem muß die so erhaltene Lösung aber auch auf Korrektheit geprüft werden. Betrachten wir ein Beispiel: Vorgelegt sei das aktuelle Problem "linkes Hinterrad wechseln", das ähnlichste bekannte Problem sei "rechtes Hinterrad wechseln". Dazu sei eine Aktionsfolge bekannt, die dieses Problem löst. Die Transformation T:rechtsµlinks bildet die aktuelle Problembeschreibung auf die bekannte ab. Entsprechend wendet man T auf die Lösung an. Dies gibt jedoch nicht automatisch eine korrekte Lösung. So könnte in der Beschreibung der bekannten Aktionsfolge "rechts" auch noch an anderen Stellen als den intendierten auftauchen (z.B. "nehme den Schraubenschlüssel in die rechte Hand"), was eine Inkorrektheit zur Folge hätte.
Seite 124
Lernende Systeme
12.3.2. Derivational Analogy Die Methode der Derivational Analogy nutzt im Unterschied zur Transformational Analogy Zwischeninformationen aus, die während der Lösungsgenerierung und des Problemlöseprozesses erzeugt wurden, aus der endgültigen Lösung aber nicht mehr ersichtlich sind. Solche Zwischeninformationen sind beispielsweise Unterzielstrukturen, die formuliert wurden, generierte aber verworfene Problemlösealternativen mit Angabe von Gründen und Rechtfertigungen, der Zugriff auf und die Verwendung von anderen Wissensstrukturen und von Hintergrundwissen, Abhängigkeiten zwischen Entscheidungen etc. Das Grundschema der Analogie verfeinert sich entsprechend: Derivational Analogy:
partielle Abbildung, Derivationen Neues Problem
bereits gelöstes Problem2 Wiedergabe der Derivationen
Lösung des neuen Problems
bereits gelöstes Problem1
Lösung des alten Problems1
Lösung des alten Problems2
Methode der Derivational Analogy
Die Transformation der Lösung allein, wie bei der Transformational Analogy Methode, ignoriert all diese Zwischeninformationen und fokussiert lediglich auf die resultierende Sequenz instantiierter, mit externen Aktionen korrespondierender Operatoren und berücksichtigt nicht die Gründe, weshalb diese Aktionen erfolgten. In der Konsequenz erlaubt die Strategie der Derivational Analogy daher das Herstellen entfernterer Analogien ohne essentielle Aspekte des Problems zu unterschlagen. Die Rechtfertigungen für jeden Schritt des Problemlösungsprozesses werden bewahrt und nur, wenn dieselbe Rechtfertigung auch in der neuen Situation gilt, wird der entsprechende Schritt auch als Teil der neuen Lösung vorgeschlagen. Bei Diagnoseaufgaben genügt häufig die Verwendung der transformational analogy (wobei oft die Lösung unverändert übernommen werden kann), während für Planungsaufgaben die viel detailliertere Vorgehensweise der derivational analogy nötig ist; insbesondere kann ein Plan in unveränderter Form in der Regel nur in identischen Situationen übernommen werden. Im Bereich physikalisch-technischer Vorgänge treten analoge Schlußweisen häufig so auf, daß die Ähnlichkeit zwischen zwei Vorgängen darin besteht, daß ihnen zugeordnete mathematische Formeln "ähnlich" sind. Die Ähnlichkeit besteht meist darin, daß die Grundform einer Gleichung in beiden Fällen dieselbe ist, auftretende Konstante aber unterschiedlich sind. Das erlaubt dann eine einfache Übertragung der gefundenen Lösungen. Anwendung findet diese Vorgehensweise meist, wenn die Lösung des Problems aufwendige Experimente erfordert. Man kann häufig einen sehr teuren Versuch durch einen billigen Laborversuch mit analogen Eigenschaften ersetzen. Viele Beispiel dazu finden sich in [Moog 85].
Lernende Systeme
Seite 125
In etwas anderer Weise als bisher treten Analogien auf, wenn das Problem darin besteht, sie zu erkennen. Ähnlichkeitsmaße sind hier erst einmal gar nicht gegeben. Der Hauptvertreter dieser Form ist die Analogie der Verhältnisse: A verhält sich zu B wie C zu X. Dabei kann X bekannt oder gesucht sein, und wir unterscheiden zwei Fälle: 1)
X ist bekannt; gesucht ist dann der Aspekt, der die Analogie liefert. Ein Beispiel ist: Paris ist für Frankreich, was London für England ist.
2)
X ist gesucht, etwa: Paris verhält sich zu Frankreich wie Managua zu X.
Letztere Fragen tauchen sehr häufig in Intelligenztests auf. Hier wird aber nicht mittels Analogie, sondern auf eine Analogie geschlossen. Ein bekanntes Programm, daß sich mit diesen Fragen auseinandersetzt, ist das "Analogy"System von Th. Evans, vgl. [Evans 68]. Zusammenfassend beschreiben wir das Lernen durch Analogie im Sinne des formalen Modelles und identifizieren dessen Komponenten:
Repräsentationale Komponenten R
Symbolische Repräsentation von Fällen etc. Keine Einschränkung hinsichtlich der Repräsentationsformalismen.
M
Situation wie bei D.
D
Verschieden umfangreich: Relativ wenig, wenn lediglich ähnliche Strukturen die Grundlage für die Analogie sind, aber relativ viel, wenn Informationen wie Ziele, Zwecke usw. berücksichtigt werden sollen.
G
Kann beliebig sein (Lösung eines neuen Problems, Diagnose eines neuen Falles usw.)
E
Konkretes aktuelles Problem (z.B. aktueller Fall)
H
Aufgefundener ähnlicher Fall führt durch geeignete Modifizierung zu analoger Lösung des aktuellen Problems.
Funktionale Komponenten l
Analoge Inferenz.
g
Inkrementelle Darbietung neuer Probleme oder Fälle.
n
Kontrollstrategie meist gemischt, top-down und bottom-up. n kann auch durch das System übernommen werden, indem es Rechtfertigungen für die aufgefundenen ähnlichen Kandidaten bildet.
Performanzelement P
Spezielle, aufgabenorientierte Anwendungen.
Seite 126
Lernende Systeme
Umgebung U
g und n meist extern.
Erfolgskriterium Rf = G
Nicht allgemein meßbar: Zufriedenstellende Lösung je nach Aufgabe.
12.4. Fallbasiertes Schließen 12.4.1. Allgemeines Das fallbasierte Lernen (Case-Based-Learning, CBL) kann als ein Spezialfall des Lernens durch Analogie betrachtet werden. Es zeichnet sich wesentlich durch zwei Besonderheiten aus: •
Ziel ist eine allgemeine Problemlösung und nicht nur etwa eine spezielle Klassifikationsaufgabe.
•
Die Fallbasis ist nicht statisch. Neue Fälle und ihre Lösungen werden aufbewahrt und beeinflussen die Lösung zukünftiger Fälle.
Durchzuführen sind folgende Schritte: •
Erinnern an ähnliche Fälle,
•
Auswahl des am besten passenden Falles,
•
Lösungstransfer (ganz oder Teile der Lösung),
•
Aktualisieren der Fallbasis (Einbettung des aktuellen Problems in die Fallbasis und Feedback mit Benutzer).
Anstelle der Analyse von Beispielen zur induktiven Erzeugung von allgemeinen Regeln verwenden CBL-Systeme die Beispiele zur direkten Analyse von Problemen. Grundidee ist das Speichern einer großen Anzahl von Erfahrungen (Fällen, gelösten Problemen) und die Benutzung dieser Fälle, um die neuen Eingabe-Informationen zu verarbeiten. Drei Punkte sind hierbei zu berücksichtigen: •
Welche Beispiele (Fälle) werden zur Verarbeitung neuer Eingaben verwendet und woher kamen sie?
•
Wie wird der für die jeweilige aktuelle Eingabe zuständige Fall ausgewählt?
•
Was macht das System mit dem erinnerten Fall, um das neue Problem zu lösen?
Lernende Systeme
Seite 127
Die Beantwortung dieser drei Fragen hat folgende mögliche Arten von fallbasiertem Lernen zur Konsequenz: •
Case-matching Systeme: Neue Eingabefälle werden genauso wie bereits bekannte Fälle behandelt, an die sich erinnert werden konnte (z.B. Lebowitz' IPP System: Ein fallbasiertes System, das Zeitungsartikel über Terroristen versteht). Hierbei findet allerdings kein Schlußfolgern, sondern einfaches "match and apply!" statt. Die Einschränkungen dieses Ansatzes liegen auf der Hand.
•
Case-adaptation: Adaption des wiedererinnerten Falles an die aktuelle Eingabesituation. Die Art der Adaption hängt von der Domäne und der Aufgabe ab. Einfachste Adaptionsstrategie ist die Benutzung nur einiger Merkmale des gefundenen Falles, um Inferenzen über den Eingabefall zu rechtfertigen (z.B. Hammonds CHEF System: Ein fallbasiertes System zur Planung, [Hammond 89]).
Probleme, die beim fallbasierten Lernen zu bewältigen sind, sind folgende: •
Die Fallbasis muß alle möglicherweise auftretenden Fälle abdecken können.
•
Für das Wiederauffinden von und sich Erinnern an geeignete alte Fälle müssen effiziente Suchroutinen vorhanden sein.
•
Der zu einer neuen Eingabe ähnlichste Fall in der Fallbasis muß nicht gleichzeitig derjenige sein, der sich am einfachsten adaptieren läßt.
Um die Fallbasis effizient behandeln zu können, sollte sie einerseits möglichst klein sein; um alle Fälle abdecken zu können, sollte sie aber auch möglichst groß sein. Diese beiden Anforderungen widersprechen sich also. Die Auflösung dieses Dilemmas liegt darin, die Fälle geschickt auszuwählen. Stellt man sich um jeden Fall eine verallgemeinerte Kugel vom Radius r vor (sie enthält alle Fälle, die vom Mittelpunkt einen kleineren Abstand als r haben), und wählt man r so, daß man innerhalb einer Kugel eine gute Transformation der Lösungen hat, dann ergibt sich die Aufgabe, den Raum aller Fälle mit einer minimalen Anzahl von solchen Kugeln zu überdecken. Die Mittelpunkte dieser Kugeln sind dann Fälle, die man als "typisch" für die jeweilige Kugel bezeichnen würde, sie sollten die Fallbasis konstituieren. Ein Vorteil von CBL gegenüber anderen Lernverfahren ist die einfache Modifizierbarkeit der Systeme. Das Hinzufügen neuer Fälle kann nicht zu schwierigen Interaktionen mit anderen Fällen führen, wie es etwa bei regelbasierten Systemen beim Hinzufügen neuer Regeln der Fall ist. Ein weiterer Vorteil ist, daß die Repräsentation als "Fall" oft eine "natürlichere" Form der Repräsentation ist (z.B. bei medizinischer Diagnose, Jurisdiktion, Fallanalyse in der Wirtschaft, etc.), als etwa Regeln. Neuere Übersichten über fallbasiertes Schließen findet man in [Barletta 91] und [Kolodner 91]. Es folgt noch eine Auswahl existierender Systeme.
Seite 128
Name CYRUS SHRINK MEDIATOR IPP CHEF MBRtalk CASEY NEXUS JULIA HYPO PROTOS PRODIGY JOHNNY PATDEX REFINDER SIZZLE CABARET CREEK CcC Cabplan
Lernende Systeme
Anwendung Auskunftssystem Diapnostik in der Psychiatrie Schlichtung von Streitfällen Verstehen von Zeitungsartikeln über Terroristen Erstellen von kulinarischen Menüs Aussprache von englichen Wörtern Diagnose von Herzerkrankungen Spracherkennung Zusammenstellung von Mahlzeiten Entscheidungsunterstützung bei Kreditvergaben Wissensakquisition Integriertes CBR Tool Lesen von Texten Technische Diagnostik Wissensakquisition und Wissensverfeinerung Konfiguration von Computeranlagen Rechtssprechung Diagnosesystem Ähnlichteilsuche Arbeitsplanung
Literatur [Kol83a] [KS85] [Sim85] [Leb86] [Ham86] [SW86] [Kot88] [Bra87] [Kol87] [RA88] [Bar88] [MKK+88] [Sta88] [SW89] [SS89] [Off89] [RKW89] [Aam89] [Hes90] [PPW92]
12.4.2. Fallbasiertes Schließen und Klassifikation Wir wollen jetzt sehen, wie man Fälle und ein Ähnlichkeitsmaß zur Klassifikation von Objekten verwenden kann. Gegeben sei eine Menge M und ein Ähnlichkeitsmaß sim auf M.
Definition: (i) Eine Fallbasis FB ist eine Teilmenge von M. (ii) Wenn a M, dann heißt b FB nächster Nachbar zu a, wenn sim(a,b) ≥ sim(a,c) für alle c FB ist. (iii) Der durch (FB, sim) beschriebene Klassifikator ordnet jedem a M die Klasse eines nächsten Nachbarn zu.
Dieser so beschriebene Klassifikator ist dann nicht eindeutig bestimmt, wenn ein Objekt mehrere nächste Nachbarn hat, es werden dann zusätzliche Festlegungen benötigt, die uns aber hier nicht interessieren sollen. Wichtig ist die Beobachtung, daß die Information über eine Klasseneinteilung bei einem solchen Klassifikator über beide Komponenten FB und sim verteilt ist. Die Informationsverteilung kann auf verschiedene Weise geschehen, wir geben zwei Extremfälle an: (a) FB = M und sim(x,x) = 1, sim(x,y) < 1 für x≠y. Hier haben wir ein triviales Maß und alle Information steckt in FB.
Lernende Systeme
Seite 129
(b) Es seien zwei Klassen P und N gegeben und FB = {a,b} mit a P und b N; sim(x,y) = 1 für x P und y = a, y N und y = b; für alle anderen Paare sei sim(x.y) = 0. In diesem Fall steckt fast alle Information im Ähnlichkeitsmaß. Die nächste Beobachtung resultiert darin, daß es nicht mehr einfach ist zu bestimmen, wann zwei Klassifikatorbeschreibungen denselben Klassifikator definieren. Eine noch elementarere aber ähnlich schwierige Frage ist, welche Klassifikatoren sich in der Form (FB, sim) beschreiben lassen. Im obigen Extremfall (a), wo wir FB = M hatten, ist die Antwort klar: Jeder Klassifikator ist beschreibbar. Im Falle (b) mit zweielementiger Fallbasis hängt die Antwort offenbar von der zugelassenen Klasse von Maßen ab. Wählt man 3 boole'sche Attribute und das Hammingmaß, dann ist z.B. die Klasseneinteilung C1 = {(0,0,0} und C2 = M \ C1 mit keiner zweielementigen Fallbasis beschreibbar. 12.4.3. Der euklidische Fall Wir spezialisieren jetzt die Objekte auf Punkte im n-dimensionalen reellen Raum und der Abstand d sei der gewöhnliche euklidische Abstand (wodurch dann entsprechend auch ein Ähnlichkeitsmaß bestimmt werden kann). Auf diese Weise wird eine Attribut-Wert Darstellung der Objekte kodiert. Die einzelnen Koordinaten entsprechen den Attributen und die Koordinatenwerte den Werten für die Attribute. Eine Reihe der folgenden Überlegungen und Resultate sind auch im allgemeinen Fall gültig, die Formeln gelten jedoch meist nur im eukliduschen Fall. Wir werden drei Lernalgorithmen IB1, IB2 und IB3 vorstellen, vgl. [Aha, Kibler, Albert 91], die auf inkrementelle Weise und mit einem Lehrer die Klassen derart lernen, daß für ein neues Objekt (ein Vorschlag für) die Klassenzugehörigkeit bestimmt werden kann. Alle drei Algorithmen arbeiten nach folgendem Muster: 1) Gegeben ist eine Trainingsmenge T von Objekten. Diese wird inkrementell eingegeben. 2) Bestimme eine Fallbasis FB, in die gewisse Objekte von T aufgenommen werden. Der Lehrer klassifiziert diese Objekte. Der Lernvorgang ist damit beendet, man erhält eine strukturierte Fallbasis FB, die auf zweierlei Weise strukturiert ist: a) Durch den euklidischen Abstand d; b) durch die Klassenangabe der Objekte. Zur Klassifikation wird FB nach der methode des nächsten Nachbarn benutzt: Gegeben ein Objekt x:
Seite 130
Lernende Systeme
1) Suche in FB ein Objekt y mit d(x,y) minimal; 2) Schlage als Klasse von x diejenige von y vor. Diese Vorgehensweise, die vielfältig variiert werden kann, nennt man auch das Prinzip des nächsten Nachbarn. Alle drei Algorithmen sind sehr einfach und unterscheiden sich nur dadurch, welche Objekte von T in die Fallbasis aufgenommen werden. K(x) bezeichne die Klasse von x.
Definition: Wenn die zu lernende Klasse K und T die Trainingsmenge ist, dann sei Ti(K) die durch den Algorithmus i ( i = 1,2,3) gelernte Klasse, d.h. die Menge derjenigen Punkte deren nächster Nachbar aus der Fallbasis in K liegt.
Algorithmus 1: 1) Setze FB: = Ø; 2) Für alle Objekte x T: 2.1) Für alle Objekte y FB: 2.1.1) Setze d(y) := d(x,y); 2.1.2) Wähle ymin so, daß d(ymin) ≤ d(y) für alle y FB; 2.2) Wenn K(x) = K(ymin), dann "Klassifikation korrekt", sonst "Klassifikation inkorrekt". 2.3) Setze FB:= FB ˙ {x} Dieser Algorithmus nimmt also einfach alle vorgelegten Fälle auf. Das tun die beiden anderen Algorithmen nicht. Algorithmus 2: 1) Setze FB: = Ø; 2) Für alle Objekte x T: 2.1) Für alle Objekte y FB: 2.1.1) Setze d(y) := d(x,y);
Lernende Systeme
Seite 131
2.1.2) Wähle ymin so, daß d(ymin) ≤ d(y) für alle y FB; 2.2) Wenn K(x) = K(ymax), dann "Klassifikation korrekt"; sonst "Klassifikation inkorrekt" und setze FB:= FB ˙ {x}. Hier werden also nur die falsch klassifizierten Objekte in die Fallbasis FB aufgenommen. Im letzten Algorithmus wird das noch einmal variiert. Wir benötigen hierzu zwei neue Begriffe: 1) Die Klassifizierungsgüte G(y) eines Objektes y. Die genaue Spezifikation kann auf mehrfache Weise erfolgen, z.B. durch Angabe des relativen Prozentsatzes p der bisher im Algorithmus richtig klassifizierten anderen Objekte. G(y) soll jedenfalls eine reellwertige Funktion sein. 2) Das Prädikat akzeptabel(y). Es soll genau dann gelten, wenn G(y) ≥ r, wobei r ein zu wählender Schwellwert ist. Algorithmus 3: 1) Setze FB: = Ø; 2) Für alle Objekte x T: 2.1) Für alle y FB mit akzeptabel(y), falls solche existieren: 2.1.1) Setze d(y) := d(x,y); 2.1.2) Wähle ymin so, daß d(ymin) ≤ d(y) für alle y FB; 2.2) Wenn kein solches y existiert: 2.2.1) Wähle n zufällig aus [1, |FB|]; 2.2.2) Setze ymin := das y FB, das zu x das n-te bezüglich des Abstandes d ist. 3) Wenn K(x) = G(ymin, dann "Klassifikation korrekt"; sonst "Klassifikation inkorrekt" und setze FB:= FB ˙ {x}; 4) Für alle y FB mit d(y) ≤ d(ymin): 4.1) Berechne K(y); 4.2) Wenn ¬akzeptabel(y), dann setze FB:= FB\{y}. In diesem Algorithmus wird also versucht, nur die "guten Klassifizierer" als Objekte zu behalten. Über alle drei Algorithmen lassen sich viele Aussagen machen. Wir beschränken uns auf einen Konvergenzsatz für den ersten Algorithmus. Diese Aussage beinhaltet ein statistisches Element. Wir benötigen eine Definition.
Seite 132
Lernende Systeme
Definition: Sei X ∑ |Rn und auf X sei ein Wahrscheinlichkeitsmaß P gegeben, es seien ferner g,e > 0 und es sei S ∑ |Rn. Dann heißt S ein (e,g) - Netz für X, falls ein Y ∑ X mit P(Y) < g existiert, sodaß für alle x (X\Y) ein s S existiert mit |s - x| < e.
Als nächstes beweisen wir ein Überdeckungslemma, wobei wir der Einfachheit halber die Dimension des Raumes als 2 wählen. Lemma: Es sei X = [0,1]≈ [0,1] und seien 0 < e,g,d < 1. Dann gibt es ein n0 > 0, sodaß für jedes S ∑ X ( jede "Stichprobe") mit |S| = n > n0 gilt P(S ist (e,g) - Netz für X) ≥ 1- d. Beweis: Wir partitionieren X in k2 Teilquadrate, wobei k noch geeignet zu bestimmen ist; die Menge dieser Teilquadrate sei Q. Wir setzen: Q1 := {q Q| P(q) ≥ g/k2 }, Q2 := Q \ Q1. Q 2 ist die in der Definition eines (e , g ) - Netzes zugelassene Ausnahmemenge, denn die Gesamtwahrscheinlichkeit, daß ein Punkt in dieser Menge ist addiert sich auf zu einer Zahl < g/k2 · k2 = g. Es bleibt die Menge Q1 zu untersuchen.Es sei x0 S und q0 Q1. Dann gilt: P( ¬ (x0 q0) ) ≤ 1 - g/k2 ; P( für kein x S ist x q0) ≤ (1 - g/k2 )n; P( für kein x S und kein q Q1 ist x q) ≤ k2 · (1 - g/k2 )n ≤ k2 · exp(ng/k2 ) . Durch die Wahl von n0 = k2/g · ln(k2 / d ) erzwingen wir dann P( für kein x S und kein q Q1 ist x q) ≤ d. Wir wählen jetzt k noch so daß k > "Länge der Diagonale im Quadrat mit der Seite e ", d.h. k > √ 2/e, dann haben die Punkte in den Quadraten alle eine Abstand < e voneinander, was die Behauptung zeigt. Eine Verallgemeinerung des Überdeckungslemmas auf n Dimensionen ergibt, daß man k > √ n/e zu setzen hat und k2 durch kn ersetzen muß. Für die benötigte Zahl der Beispiele ergibt sich dann n0 = kn/g · ln ( (√ n/d)n)
Lernende Systeme
Seite 133
Wir benötigen schließlich noch die folgende Definitionen, es sei X ∑ |R2 und e > 0.
Definition: (i) Der e - Kern von X ist Ke (X) = {x X | für alle y mit | x - y | < e ist y X}. (ii) Die e - Umgebung von X ist Ue (X) = {x X | es gibt ein y X mit | x - y | < e}.
Damit können wir jetzt unseren gewünschten Satz beweisen. Zu lernen sei eine Klasse X; die Trainingsmenge T spielt die Rolle der Stichprobe S des Lemmas und n,n0, e,g,d sollen ebenfalls die dortige Bedeutung haben. Satz (Konvergenztheorem für den IB1-Algorithmus): Wenn |T| = n ≥n0, dann existiert eine Menge Y mit P(Y) < g , sodaß mit Wahrscheinlichkeit ≥ 1 - d gilt: Ke (X) \ Y ∑ T1(X) \ Y ∑ Ue (X) \ Y. Beweis: Es sei Y die Ausnahmemenge, die das Lemma vorsieht, insbesondere ist P(Y) ≤ g. Wir behandeln die beiden Inklusionen getrennt. 1) Sei x Ke (X) \ Y, mit Wahrscheinlichkeit ≥ 1 - d gibt es dann ein y T mit | x - y | < e. Wegen x Ke (X) ist y X, woraus x T1(X) folgt. 2) Sei x T1(X) \ Y, dann ist der nächste Nachbar y von x in T ein Element von X; mit Wahrscheinlichkeit ≥ 1 - d ist wieder | x - y | < e. Daraus folgt aber x Ue (X) \ Y. Ein spezieller Fall dieses Satzes ist durch Ke (X) = Ø gegeben; dann kann auch die von Algorithmus 1 vorhergesagte Menge T1(X) leer sein. Man sieht weiter, daß T1(X) im allgemeinen um so kleiner sein kann, je kleiner auch Ke(X) ist. Dies entspricht auch der durch die Anschauung gegebenen Erwartung, daß der Algorithmus um so schlechter sein wird, je "dünner" die Klasse X (im Sinne der euklidischen Geometrie) ist. Dem Rechnung zu tragen ist der Sinn der Einführung anderer Abstandsmaße. Die Klasseneinteilung des durch den durch (FB,d) gegebenen Klassifikator teilt die euklidusche Ebene in Polygone bzw. im n-dimensionalen Fall in Polyeder auf. Jedes Polygon enthält nur Punkte einer Klasse und der nächste Nachbar zu Punkten aus einem Polygon ist ein Punkt aus FB, der ebenfalls in diesem Polygon liegt. Enthalten die Polygone jeweils nur einen Punkt, dann heißt die Polygoneinteilung auch ein Voronoidiagramm für FB. Eine alternative Klassifikatorbeschreibung würde dann in der Konstruktion des Voronoidiagramms aus FB und der Angabe eines Test für die Polygonzugehörigkeit bestehen. Das ist aber recht aufwendig (wenigwegen der
Seite 134
Lernende Systeme
Komplexitätsklasse an sich, als mehr wegen der hohen Konstanten). Die oben angegebenen Algorithmen versuchen, FB zu verkleinern ohne die Polygone zu ändern. 12.4.4. Das PATDEX - System 12.4.4.1. Allgemeine Beschreibung PATDEX (vgl. [Stadler,Wess 89],[Althoff, De la Ossa, Maurer, Stadler, Wess 90] ) steht für "Pattern Directed Expert System" und wurde an der Universität Kaiserslautern im Rahmen des MOLTKE-Projektes (Models, Learning, and Temporal Knowledge in an Expert System for Technical Diagnosis) entwickelt. Die Grundzüge dieses Systems wollen wir etwas genauer studieren, um einen Eindruck zu bekommen, wie ein reales komplexes System aussieht.Dabei beginnen wir mit einer kurzen informellen Beschreibung. PATDEX ist ein fallbasiertes Expertensystem zur Fehlerdiagnose in CNC(Computer Numerical Controlled) Bearbeitungsmaschinen. Es verwendet als Techniken des Maschinellen Lernens das Lernen aus Fällen, Lernen durch Analogie, sowie Lernen durch Gedächtnisadaption. Unter Lernen durch Gedächtnisadaption wird dabei das Abspeichern und Aktualisieren individueller Erfahrungen und statistischer Informationen verstanden. Das Systemverhalten soll durch die Verwendung dieser Techniken dem Verhalten eines menschlichen Experten in der Domäne "Fehlerdiagnose bei CNC-Maschinen" beim Problemlösen sehr nahe kommen, da die von einem Experten typischerweise verwendeten Lerntechniken das Lernen aus Beispielen und das Verwenden analoger Schlüsse sind. Die von PATDEX verwendeten Fälle sind Beispiele für das Problemlöseverhalten eines menschlichen Experten. Der Experte lernt, indem er diese Fälle als Beispiele abspeichert und sie als positive oder negative Rückkopplung zur Verbesserung seines Problemlösewissens verwendet. Analogien zwischen aktuellem Problem und alten, bereits bekannten und gelösten Problemen werden zur Steuerung und Fokussierung des Problemlöseprozesses verwendet. Das PATDEX System geht ähnlich vor, indem es beide Ansätze integriert: Eine Komponente des Systems speichert die gelernten Fälle ab, eine andere verwendet die Fälle zum analogen Schließen. Der Benutzer des Systems startet den Problemlöseprozeß, indem er beobachtete Symptome eingibt, die der aktuellen Problemsituation entsprechen. PATDEX versucht dann, mittels eines Ähnlichkeitsmaßes, den ähnlichsten Fall samt zugehöriger Lösung in der Fallbasis aufzufinden, wobei evtl. nach weiteren Symptomen und Symptomwerten gefragt wird. Die Auswahl des besten Falles geschieht auf der Grundlage eines Ähnlichkeitsmaßes, das für jeden Fall der Fallbasis ausgerechnet wird. Die Repräsentation der Erfahrungen (Fälle) geschieht mittels eines gerichteten, gewichteten Graphen, der Erfahrungsgraph genannt wird. Die Knoten des Graphen repräsentieren Situationen (d.h. Mengen von beobachteten Meßwerten und anderen Beobachtungen), die Gewichte der Kanten zwischen den Knoten stehen für die bedingten Wahrscheinlichkeiten, daß die durch den Endknoten der Kante bezeichnete Situation im Diagnoseprozeß als
Lernende Systeme
Seite 135
nächste vorkommt unter der Bedingung, daß die durch den Anfangsknoten der Kante repräsentierte Situation die momentane Situation beschreibt. PATDEX kann als System zum empirischen Lernen aus Beispielen (Fällen) betrachtet werden, wobei das zu lernende Konzept das diagnostische Problemlöseverhalten eines menschlichen Experten ist. Das Systemverhalten beeinflussende Faktoren sind die Beschreibungssprache für die Fälle, das Ähnlichkeitsmaß, die verschiedenen Aktualisierungsfunktionen (für diverse Schwellwerte und Kantengewichtungen), sowie Heuristiken zur Auswahl von Tests zur Überprüfung weiterer Symptome. PATDEX lernt inkrementell, denn jeder neue Fall kann in den Erfahrungsgraphen integriert werden, ohne ihn neu konstruieren zu müssen. Das modifizierte Wissen steht PATDEX für die Lösung eines evtl. unmittelbar folgenden Falles sofort zur Verfügung und somit lernt PATDEX in einem geschlossenen Kreislauf (closed loop learning) unter Wiederverwendung bereits gelernten Wissens. Der Benutzer des Systems hat die Möglichkeit von PATDEX vorgeschlagene Diagnosen zu verwerfen bzw. zu korrigieren. Der neue Fall bzw. der korrigierte wird abgespeichert und alle Schwellwerte und Gewichte des Systems werden aktualisiert. 12.4.4.2. Grundbegriffe der Diagnostik Für das Weitere müssen wir uns kurz mit der Diagnostik selbst beschäftigen. Die Grundbegriffe der Diagnostik in diesem Rahmen sind:
Definition: • Symptome S1,...,Sn: Dies sind die meßbaren oder erfragbaren Größen, die die Informationen liefern, auf deren Basis eine Diagnose erstellt werden kann. Jedes Symptom si kann Werte aus einem Wertebereich Wi annehmen. Ein Symptomwert kann unbekannt sein; vereinfachend wird angenommen, daß im Laufe eines Diagnoseprozesses ein Symptom nur einmal einen Wert annehmen kann, den es dann beibehält. • Untersuchungen U1,...,Un: Diese liefern Werte für Symptome, wenn sie aufgerufen werden. Die Wertezuweisung selbst erfolgt extern, aber im System selbst können den Untersuchungen Parameter wie Kosten zugeordnet sein.
Seite 136
Lernende Systeme
• Diagnosen D1,...,Dm: Sie beschreiben Fehlfunktionen des Systems in Termini von Symptomwerten. Sind gewisse Symptomwerte unbekannt, dann ist auch der Wahrheitswert einer Diagnose unbestimmt. Trotzdem können auch dann Diagnosen schon eine gewisse Plausibilität oder Wahrscheinlichkeit haben; in diesem Falle sind sie Hypothesen.
Im Verlaufe eines Diagnoseprozesses müssen hinreichend viele, aber nicht überflüssig viele Symptomwerte durch Untersuchungen bereitgestellt werden. Den Begriff der unvollständigen Information erfassen wir mit folgender Beschreibung:
Definition: Eine Situation ist ein Tupel Sit=(wi1,...,wik), wik Wik, 1≤j ≤n.
Eine Situation soll einen Informationszustand beschreiben, für die genannten ij sei wij der gemessene Wert von sij, der Wert aller übrigen si sei unbekannt. Die Situationen sind die Objekte, auf denen das Ähnlichkeitsmaß operieren wird. Ganz wesentlich ist dabei, daß viele ihrer Werte unbekannt sind. Nun führen wir Fälle ein.
Definition: Ein Fall ist ein Paar (Sit, D), wobei D eine Diagnose ist, die auf die Situation Sit zutrifft.
Hier haben wir drei Möglichkeiten: •
Die Situation Sit determiniert die Diagnose D nicht vollständig (d.h. D wurde im vorliegenden Fall nur richtig geraten).
•
Die Situation Sit enthält für die Diagnose D redundante Informationen.
•
Sit bestimmt D eindeutig und keine echte Teilmenge von Sit leistet dies.
Die dritte Möglichkeit ist erstrebenswert; eine Situation ist also auf eine minimale Weise hinreichend zu komplettieren. Das Problem ist, daß dies im Hinblick auf eine noch unbekannte (richtige) Diagnose zu geschehen hat. Die Komplettierung erfolgt mit Untersuchungen, die entsprechend auszuwählen sind.
Lernende Systeme
Seite 137
12.4.4.3. Erfahrungswissen Folgesituationen auf gegebene Situationen sind nun im Anwendungskontext verschieden wahrscheinlich. Wir haben es hier mit bedingten Wahrscheinlichkeiten zu tun, die aber wiederum unbekannt sind. Wir schätzen sie durch beobachtete Häufigkeiten, wobei eine in der Fallbasis gespeicherte Menge von Fällen vorgegeben ist:
Definition: Sei Sit1∑Sit2. Sit1 determiniert Sit2 mit dem Determinationsfaktor δ, wenn δ=δ(Sit1, Sit2)=\f(|{Sit | Sit2 ∑ Sit }| ;|{Sit |Sit1 ∑ Sit }|)
In Sonderfällen, nämlich wenn der Determinationsfaktor 1 ist, kann eine Situation total determinieren, d.h. funktional bestimmen, sonst sprechen wir von partieller Determination. Insbesondere sind die Werte von Situationen i.A. nicht unabhängig von einander. Diese Begriffe führen zur Definition des Informations- und des Erfahrungsgraphen:
Definition: (1) Der Informationsgraph ist ein gerichteter Graph mit (i) Knotenbeschriftungen: Situationen (ii) Kantenbeschriftungen: Untersuchungen, deren potentieller Ausgang die Anfangssituation in die Endsituation überführt. (2) Der Erfahrungsgraph enthält zusätzlich als Kantenbeschriftung den Determinationsfaktor δ(Sit1, Sit2), wobei Sit1 und Sit2 die Beschriftung der Anfangs- und Endknoten der Kante sind.
Im Laufe des Diagnoseprozesses wird ein Pfad im Informationsgraphen durchlaufen, der durch die tatsächlich ausgeführten Untersuchungen definiert ist. Es wird ebenfalls ein Pfad im Erfahrungsgraphen durchlaufen. Die zusätzlichen Beschriftungen haben aber den Sinn, den Benutzer zu leiten, um die tatsächlich vorliegende vollständig bestimmte Situation soweit zu erken-
Seite 138
Lernende Systeme
nen, wie es zur Erstellung der korrekten Diagnose nötig ist. Ein Beispiel zeigt, wie wir uns durch den Erfahrungsgraphen navigieren: 1 0,1
2
0,1
0,2
3
0,3
4 0,4
0,3
0,4
0,2
0,8
0,2
0,3
5
6
7
Situation 1 möge die initiale Situation sein. In den Situationen 2, 3 und 4 seien Symptome A, B und C mit bestimmten Werten erhoben; weiter seien erhoben: A und B in Situation 5; A und B (mit anderen Werten) in Situation 6; B und C in Situation 7; A und C in Situation 8. Die Determinationsfaktoren an den Kanten weisen den Weg so, daß man von 1 über 3 nach 7 kommt. 12.4.4.4. Ähnlichkeit Um Analogieschlüsse durchführen zu können benötigt PATDEX ein Ähnlichkeitsmaß. Dieses Maß µP wird in Ergänzung zu den Beispielmaßen aus 12.2.2 angegeben, es orientiert sich an dem Kontrastmaß von Tversky. Die Argumente von µP sind Situationen; dabei ist wichtig, daß in einer Situation gewisse Informationen (d.h. Symptomwerte) unbekannt sein können. Des weiteren ist das Maß jetzt in Abweichung früherer Festlegungen im Prinzip unsymmetrisch, obwohl die Festlegungen der Parameter es wieder symmetrisch machen.. Wir unterscheiden nämlich zwischen einer Situation Sit eines Falles aus der Fallbasis und der Situation Sitakt eines aktuellen Falles. Dabei soll Sitakt grundsätzlich das erste Argument sein, d.h. wir betrachten µ(Sitakt,Sit). Es werden die folgenden Bezeichnungen benutzt: Sit akt = (w i1 ,...,w ik ), Sit=(v r1 ,...,v rj ); H = {i 1 ,...,i k } , K = {r 1 ,...,r j } ; G={i | i H∩K, wi=vi}, die Menge der gleich belegten Symptome; W={i | i H∩K, wi≠vi}, die Menge der unterschiedlich ("widersprüchlich") belegten Symptome;
Lernende Systeme
Seite 139
U=H \ K, die Menge der im aktuellen Fall unbekannten, in Sit aber bekannten Symptome. R=K \ H, die Menge der im aktuellen Fall im Vergleich zu Sit redundanten Symptome. Das generelle Ähnlichkeitsmaß ist von der Form µ(Sitakt, Sit)=\f(α|G| + β|W| + γ|U| + ä|R|; |G ∪ W ∪ U ∪ R|). Die Parameter α, β, γ und δ können nun verschieden gewählt werden; derzeit ist die Festlegung so getroffen: α =1,
β =-2,
ä
=-1/2,
γ = -1/2;
somit haben wir µPAT=\f(|G| - 2|W| - 1/2(|U| +|R|) ; |G ∪ W ∪ U ∪ R|). Dieses Maß ist nicht auf [0,1], sondern auf [-2,1] normiert, was aber keine Schwierigkeiten bereiten sollte. Die Motivierung dieses Maßes besteht in ihrem defensiven, pessimistischen Charakter. Unterschiedliche Symptomwerte werden relativ hoch bewertet, die Vermeidung von Fehlern steht also im Vordergrund. Ein ordinal, aber nicht kardinal äquivalentes auf [0,1] normiertes Maß ist µ = \f(a · |G| ; a ·|G| + b ·|W| + g ·|U| + ä ·|R|). Wir halten fest, daß das Ähnlichkeitsmaß aber im Gegensatz zu unseren bisherigen Betrachtungen unsymmetrisch ist, weil der aktuelle Fall und der Fall der Fallbasis eine ganz unterschiedliche Rolle spielen. 12.4.4.5. Die Vorgehensweise Die Diagnosestrategie baut auf den beiden Pfeilern Erfahrungsgraph und Ähnlichkeit eine analoge Schlußweise wie folgt auf: Gegeben sei eine aktuelle Situation Sitakt: 1)
Suche zu Sitakt einen Fall (Sit,D) mit "hinreichend ähnlicher" Situation Sit.
2)
Ist µPAT(Sitakt,Sit) "hinreichend groß", dann übernehme die Diagnose D des Falles.
3)
Andernfalls führe eine Untersuchung durch, die das Symptom erhebt, für das im Erfahrungsgraphen eine Kante eine mit maximalem Determinationsfaktor zur entsprechenden neuen Situation führt.
Dies Verfahren terminiert, weil irgendwann alle Symptome erhoben sind. Wir haben noch zu erklären, was "hinreichend ähnlich" und "hinreichend groß" heißt. Zu diesem Zweck wird die Fallbasis partitioniert. Es sei µ = µ(Sit akt ,Sit), zwei Konstanten ε und ζ mit 0<ε < ζ <1 seien vorgegeben. Als Kategorien haben wir:
Seite 140
Lernende Systeme
Ausgeschieden:
µ = -2
Unwahrscheinlich:
-2 < µ < 0
Möglich:
0≤µ<ε
Wahrscheinlich:
ε≤µ<ζ
Ausreichend:
ζ<µ<1
Bewiesen:
µ = 1.
Die abgelehnten Fälle werden nicht mehr weiter in Betracht gezogen und die unwahrscheinlichen Fälle werden vorläufig eliminiert. Die möglichen Fälle werden weiter behandelt, aber wegen ihnen werden keine eigenen Untersuchungen getätigt. Die wahrscheinlichen Fälle sind "hinreichend ähnlich", sodaß gemäß des Erfahrungsgraphen Untersuchungen erhoben werden. Für die ausreichenden Fälle ist die Ähnlichkeit "hinreichend groß", sodaß die Diagnose übernommen werden kann. Für die bewiesenen Fälle ist es sogar nicht nötig, die Diagnose durch andere Mechanismen zu verifizieren. Ist ein aktueller Fall behandelt, dann wird er in die Fallbasis aufgenommen; dadurch ändert sich der Erfahrungsgraph, weil sich die Determinationsfaktoren ändern. Ein Lernvorgang beeinflußt also die folgenden, wir haben es mit einem "Closed-Loop-Learning" zu tun. Zusammenfassend beschreiben wir das PATDEX-System im Sinne des formalen Modelles und identifizieren dessen Komponenten:
Repräsentationale Komponenten R
Erfahrungsgraph für die Fallbasis. Die Knoten entsprechen Informationssituationen und die Kantengewichte bedingten Wahrscheinlichkeiten.
M
Heuristiken zur Auswahl von Tests, Ähnlichkeitsmaß.
D
***
G
Richtige Fehlerdiagnose, gute Simulation des menschlichen Diagnostikers.
E
Fälle
H
Zum Fall gehörige Diagnose.
Funktionale Komponenten l
g
Abspeichern und Behalten von Fällen; Closed-Loop-Lernen durch Analogie und aus Beispielen. Modifikation von Fällen und Gewichten im Erfahrungsgraphen. Inkrementelle Darbietung neuer Fälle durch den Benutzer.
Lernende Systeme
n
Seite 141
Benutzer kann bewerten und akzeptieren oder verwerfen. Das System selbst kann Plausibilitätsprüfungen vornehmen.
Performanzelement P
Spezielle, aufgabenorientierte Anwendungen: Fehlerdiagnose von CNCBearbeitungszentren.
Umgebung U
Benutzer hat Einfluß auf n und übernimmt g durch Bereitstellung der Symptome des Falles.
Erfolgskriterium Rf = G
Richtige Diagnosen.
Die Vorgehensweise des PATDEX-Systems wollen wir jetzt einer detaillerten Kritik unterziehen, die in der Beschreibung der Weiterentwicklung PATDEX/2 [Wess 90] resultiert.
Seite 142
Lernende Systeme
12.4.5. PATDEX/2 (A) Wichtigkeit von Symptomen: Es ist klar, daß nicht alle Symptome für eine Diagnose von gleicher Bedeutung sind und es liegt nahe, diese mittels eines Gewichtsfaktors auszudrücken. Dabei gibt es zwei Möglichkeiten: (1) Globale Gewichtung: Jedes Symptom Si erhält einen Gewichtsfaktor w i. (2) Lokale Gewichtung: Jedes Symptom Si erhält bezüglich jeder Diagnose Dj einen Gewichtsfaktor wij. Es ist klar, daß eine lokale Gewichtung präziser ist, aber diese Gewichte sind auch schwieriger zu akquirieren. Wir fassen diese Gewichte in einer Relevanzmatrix zusammen: R = (wij) oder ausführlicher:
D1
D2
.......
Dm
S1
w11
w12
.......
w1m
S2
w21
w22
.......
w2m
.
.......
........
.......
........
.
.......
........
.......
........
Sn
wn1
wn2
........
wnm
Dabei soll 0 ≤ wij ≤1 gelten und die Spaltenvektoren sollen auf 1 normiert sein, um Verzerrungen zu vermeiden: \I\SU(i=1;n;wij = 1). Die Werte der Relevanzmatrix kann man z.B. erfragen, was aber schon ein zweifelhaftes Verfahren ist. Weiter unten werden wir sehen, wie man diese Werte lernen kann. Vorerst werden wir uns aber mit den verschiedenen Symptomtypen auseinandersetzen. (B) Gleich und unterschiedlich belegte Symptome. Bisher war davon ausgegangen, daß die Art des Unterschiedes zwischen zwei Symptomwerten keine Rolle spielte. Sowohl bei quantitativen wie auch bei qualitativen Werten müssen diese aber in der Regel berücksichtigt werden. Für einen Wertebereich W geschieht dies mittels einer Funktion
ö : W2 µ [0,1]. Diese Funktion kann auf verschiedene Weise erklärt werden. Bei Boole'schen Werten ist die einfachste Form natürlich
Lernende Systeme
Seite 143
1 ö (a, b) = w e n n a = b ; 0 wenn a ≠ b
;
es kann aber sein, daß die Werte asymmetrisch sind, d.h. das gleichzeitige Auftreten oder Nichtauftreten wird verschieden gewertet, also etwa: 1 wenn a = b = 1; c ö (a, b) = w e n n a = b = 0 ; 0 wenn a ≠ b wobei 0 < c <1 zu wählen ist. Im allgemeinen hat man hier Bereichswissen einzusetzen, für kleine Wertemengen kann man sich ö in Form einer Matrix notieren. Man kann das ganze auch so auffassen, daß hier eine Ähnlichkeit zwischen Symptomwerten erklärt werden muß. Wir werden später sehen, wie dies in die Relevanzmatrix eingeht. (C) Redundante Symptomewerte. Die Werte dieser Symptome sind in der aktuellen Situation aber nicht im abgespeicherten Fall vorhanden. Da sie für die Ähnlichkeit negativ zählen, kann man den Abstand einfach dadurch noch vergrößern, daß man im aktuellen Fall völlig harmlose Symptomwerte ermittelt, die im Fall der Fallbasis nicht erhoben wurden. Diesen unerwünschten Effekt kann man dadurch beheben, daß zwischen normalen und abnormalen Symptomwerten unterschieden wird. Die ersteren sollen dem ordnungsgemäßen Funktionieren des Systems entsprechen, während die letzeren einem fehlerhaften ("pathologischen") Zustand entspringen sollen. Wir unterscheiden wieder zwei Möglichkeiten: (1) Globale Abnormität : Der Wert ist in allen Situationen pathologisch. (2) Lokale oder kontextabhängige Abnormität: Der Wert ist nur in bestimmten Situationen pathologisch. In beiden Fällen wird hier wieder Bereichswissen benötigt. Wir sind besonders an Wissen interessiert, das zur Feststellung der Abnormität dient; es kann z. B. in der Form von Regeln (also deklarativ) notiert werden. Die Konsequenz zur Berechnung des Ähnlichkeitsmaßes ist: In die Berechnung von µP gehen von den redundanten Symptomen nur die als abnorm festgestellten ein. Eine etwas radikalere Vorgehensweise wäre gewesen, die redundanten Symptome überhaupt nicht zu betrachten. Das wäre aber mit Diagnosen erkauft gewesen, die bestimmte beobachtete pathologische Symptomwerte gar nicht in Betracht ziehen und u.U. auch gar nicht erklären können, was wiederum auch nicht erwünscht ist. (D) Unbekannte Symptomwerte. Auch unbekannte Symptomwerte werden negativ gewertet. Wieder unterscheiden wir zwischen normalen bzw. erwarteten und außergewöhnlichen Symptomwerten der Situation aus der Fallbasis, nur daß unser Ausgangspunkt hier der Normalfall ist. Wieder haben wir die zwei Möglichkeiten für den im Fall der Fallbasis bekannten Symptomwert:
Seite 144
Lernende Systeme
(1) Globaler Normalfall: Der Wert ist generell erwartet, also ein Defaultwert. (2) Lokaler Normalfall: Der Symptomwert ist nur in gewissen Situationen normal. Hier werden die Determinationsregeln verwendet und wir haben wieder verschiedene Fälle. (a) Totale Determinationen, d.h. funktionale Abhängigkeiten; (b) partielle Determinationen, d.h. solche mit Faktor < 1. Die Vorgehensweise zur Berechnung des Ähnlichkeitsmaßes µP ist: - Berechne für Sitakt alle total determinierten Symptomwerte und setze sie ein; - Setze in Sitakt alle unbekannten Defaultwerte ein; - Setze in Sitakt alle partiell determinierten Symptomwerte ein, deren Determinationsfaktor oberhalb eines gewählten Schwellwertes h > 0 liegt.. Diese Überlegungen gestatten uns jetzt, daß Ähnlichkeitsmaß neu zu definieren. In einer Variation der früheren Größen G, W, R und verwenden wir nun die folgenden Ausdrucksweisen, wobei die Diagnose Dj festgehalten und gleichzeitig ein Schwellwert h gewählt sei: Sit akt = (w i1 ,...,w ik ), Sit=(v r1 ,...,v rj ); G'={i | ö(wi, vi) ≥ h }, die Menge der ähnlich belegten Symptome; W'={i | ö(wi, vi) < h}, die Menge der nicht ähnlich belegten Symptome; U'= die Menge der im aktuellen Fall unbekannten, in Sit aber bekannten Symptome. R'=die Menge der abnormen im aktuellen Fall im Vergleich zu Sit redundanten Symptome. G = \I\SU(Si G'; ; wij · ö(xSi,ySi)); W = \I\SU(Si W'; ; wij · (1 - ö(xSi,ySi))); R = |R'|; U = \I\SU(Si U'; ; wij). Damit können wir nun unser Ähnlichkeitsmaß neu definieren: µP/2= \f(|G| - 2|W| - 1/2(|U| +|R|) ; |G ∪ W ∪ U ∪ R|)
Lernende Systeme
Seite 145
Es bleibt noch die erwähnte Aufgabe, die Einträge in die Relevanzmatrix zu bestimmen. Wir gehen nicht von "Expertenmeinungen" aus, sondern wählen einen adaptiven Lernvorgang. Wir verwenden dazu die Fallbasis FB gleichzeitig als Trainingsmenge T, können also die Korrektheit von gestellten Diagnosen überprüfen. a) Initialphase: Es sei hij die Häufigkeit des Auftretens (in der Trainingsmenge) des Symptomwertes Si bei Fehlern mit der Diagnose Dj. Wir setzen: wij = \f(hij; \I\SU(i = 1; n; hij)) . Es sei bemerkt, daß mit diesen Gewichten selbst für die Beispiele der Trainingsmenge die Diagnose normalerweise nicht korrekt gestellt wird.
b) Lernphase: Es sei ein Fall (Sitakt, D) aus der Trainingsmenge vorgelegt und das System möge (Sit, D') als den Fall FB auswählen, dessen Diagnose übernommen wird. Wenn D = D', dann wird nichts verändert; für D ≠ D' ergeben sich zwei Möglichkeiten. (1) Sit ∑ Sitakt: Die Lösung D' für Sit war offensichtlich nur zufällig richtig, der Fall (Sit,D') wird daher aus der Fallbasis gestrichen. (2) Es gilt nicht Sit ∑ Sitakt: Der Fall (Sit,D') bleibt in der Fallbasis, aber einige Gewichte werden geändert. Das soll so geschehen, daß - die Ähnlichkeit von Sitakt und Sit unter den Schwellwert h sinkt; - \I\SU(i=1;n;wij = 1) bleibt. Redundante Symptomwerte verwenden keine Gewichte, also bleibt hier nichts zu verändern. Die Gewichte unterschiedlich belegter und unbekannter Symptomwerte werden jedoch erhöht, während die gleichbelegter Symptomwerte erniedrigt werden. Dies kann numerisch auf verschiedene Weise geschehen und wir wollen hierauf jetzt nicht weiter eingehen. Es sei jedoch bemerkt, daß diese Lernregel im wesentlichen auf die sog. Grossbergregel hinaus läuft, die im Wettbewerbslernen eine Rolle spielt. Abschließend zum PATDEX-System erwähnen wir noch, daß das Erschließen der Diagnose nur ein Teil der Aufgabe ist. Wesentlich ist auch das Erschließen des nächsten auszuführenden Tests, um den Informationsstand, ausgedrückt durch die Situationen, um einen Symptomwert zu verbessern. Das geschieht aber im Prinzip nach dem gleichen Muster wie wir es für die Diagnosen vorgeführt haben. Literatur zu PATDEX/2 ist [Richter,Wess 91] und [Althoff, Wess 91].
Seite 146
Lernende Systeme
12.4.6. Ein erster Vergleich von fallbasiertem und induktivem Schließen Sowohl beim induktiven wie beim fallbasierten Schließen erfolgt die Schlußfolgerung auf der Grundlage von Einzelfällen, die einmal Beispiele und zum anderen Fälle heißen. In beiden Situationen gilt das Hauptinteresse weniger dem erfolgten Schluß selbst als vielmehr seiner Verwendung für nachfolgende Probleme. Wir haben früher erwähnt, daß ein Unterschied in der Tendenz liegt, bei der Induktion zunächst eine Generalisierung zu erzeugen, während man im fallbasierten Ansatz möglichst direkt vom gespeicherten Fall auf die aktuelle Problematik zusteuern möchte. Es ist jedoch schwer, diesen Unterschied zu präzisieren, denn auch im Prinzip der Übertragung von Fällen steckt natürlich eine gehörige Position Generalisierung. Im Falle der Klassifikation haben wir einerseits die Form von symbolischen Konzeptbeschreibungen Q(x) und andererseits die Paare (FB,sim), also in beiden Fällen Klassifikatorbeschreibungen. Induktive Algorithmen lernen die Q(x) und fallbasierte die (FB,sim); es läßt sich zeigen, daß beide Vorgehensweisen auf einer abstrakten rekursionstheoretischen Ebene äquivalent sind, vgl [Jantke 92]. Auf der konkreteren Ebenen wird der Unterschied jedoch deutlich sichtbar. Dieser besteht sehr wesentlich darin, daß sich die induktiven Verfahren an logischen Kalkülen orientieren, während die fallbasierten mehr numerisch orientiert sind. Der Vorteil der letzteren Sicht ist grundsätzlich, daß man leichter mit verrauschten Eingaben fertig wird. Wir wenden uns jetzt speziell dem dem Vergleich der Versionsraummethode und den IB-Algorithmen zu. Ein erster Unterschied ist: Wenn bei der Versionsraummethode ein Beispiel a nicht zu einer direkten Aktualisierung einer Formel des Versionsraums führt, dann kann dies auch später nie mehr notwendig werden, die Formel kann diesen Fall also getrost "vergessen". Die Nichtberücksichtigung eines Fall für (FB,sim) kann sich jedoch in späteren Situationen als durchaus schädlich erweisen. Weiter haben wir schon darauf hingewiesen, daß im Falle von AttributWerte-Paaren die Äquivalenz von Klassifikatorbeschreibungen leicht festzustellen ist, anders als bei Beschreibungen der Form (FB,sim). Man kann sich also beim Versionenraum im wesentlichen auf die Klassifikatoren selbst beschränken. Ist der gesuchte Klassifikator in K, dann terminiert der Versionsraumalgorithmus stets auf diesen zu und alle etwaigen speziellen Strategien würden daran nichts ändern. Versucht man, Lernalgorithmen für Beschreibungen (FB, sim) zu erklären, so ist das Ergebnis keineswegs mehr eindeutig, weil man eben nur Beschreibungen des Klassifikators erzeugt, und diese können sehr unterschiedlich sein. Betrachtet man die Ausdruckskraft von Klassifikatorbeschreibungen, dann ist die Beschränkung auf konjunktive Beschreibungen für den Versionsraum recht vernünftig und einfach durchzuführen. Hierfür läßt sich auch der Versionsraumalgorithmus fallbasiert simulieren, vgl. [Globig 93]. Die Ausdruckskraft von Beschreibungen mit Ähnlichkeiten ist jedoch weitaus größer. Auf zweierlei Weisen kommen hier implizit Disjunktionen ins Spiel:
Lernende Systeme
Seite 147
1) Durch die Fallbasis FB; ein Objekt kann zu diesem oder jenem Fall ähnlich sein; 2) durch das Maß; die Ähnlichkeit kann auf diese oder jene Weise zustande kommen (schon beim Hammingabstand). Deshalb sind die Möglichkeiten für Lernalgorithmen für (FB,sim) reichhaltiger als diejenigen für bestimmte Formelklassen.
Seite 148
Lernende Systeme
1 3 . Literaturverzeichnis [Aamodt 89] Aamodt A. : Towards Robust Expert Systems that Learn from Experience. Proceedings 3rd European Workshop on Knowledge Acquisition 1989. [Aha, Kibler, Albert 91] Aha D.W., Kibler D., Albert M.K.: Instance-Based Learning Algorithms.Machine Learning 6 (1991), S.37-66. [Althoff, De la Ossa, Maurer, Stadler, Wess 90] Althoff K.-D., De la Ossa A., Maurer F., Stadler M., Wess S.: Case-Based Reasoning for Real World Applications. Interner Bericht, Fachbereich Informatik, Universität Kaiserslautern, 1990. [Althoff, Wess 91] Case-Based Knowledge Acquisition, Learning and Problem Solving for Diagnostic Real World Tasks. Proc. EKAW 1991. [Angluin, Laird 86] Angluin D., Laird P.D.: Identifying K-CNF formulas from noisy examples. Technical Report, Yale University DCS/TR478, Yale University, 1986. [Angluin, Smith 83] Angluin D., Smith C.H.: Inductive Inference: Theory and Methods. In: ACM Computing Surveys, vol.15, 237-269, 1983. [Bareiss 88] Bareiss, R. : PROTOS : A Unified Approach to Concept Representation, Classification and Learning. Dissertation Vanderbilt Unoversity 1988. [Barletta 91] Barletta, R.: An Introduction to Case-Based Reasoning. AI-Expert 6(8), August 1991. [Barto, Sutton 81] Barto A.G., Sutton R.S.: Goal Seeking Components for Adaptive Intelligence: An Initial Assessment. In: Report AFWAL-TR-81- 1070, Dept. of Computing and Information Science, University of Massachusettes at Amherst, Massachusettes, 1981. [Bergmann 90] Bergmann R.: Generierung von Skelettplänen als Problem der Wissensakquisition. Diplomarbeit Universität Kaiserslautern 1990. [Bisson, Laublet 89] Bisson G., Laublet P.: A Functional Model to evaluate Learning Systems. In: Procs. EWSL-89, 37-48, 1989. [Bradshaw 87] Bradshaw, G. : Learning about Speech Sounds: The NEXUS Project. Proceedings of the 4th International Workshop on Machine Learning 1-11, 1987. [Buchanan, Feigenbaum, Lederberg 71] Buchanan B.G., Feigenbaum E.A., Lederberg J.: A heuristic programming study of theory formation in sciences. In: Procs. of the 2nd International Joint Conference on Artificial Intelligence, 40-48, London, 1971. [Buchanan, Mitchell 78] Buchanan B.G., Mitchell T.M.: Model-directed learning of production rules. In: Pattern-directed Inference Systems, Waterman D.A., HayesRoth F. (eds.), Academic Press, New York, 1978. [Buchanan, Mitchell, Smith, Johnson 77] Buchanan B.G., Mitchell T.M., Smith R.G., Johnson C.R.jr.: Models of Learning Systems. In: Encyclopedia of Computer Science and Technology, 11, 24-51, Marcel Dekker Inc., New York, 1978. [Bugelski 56] Bugelski B.R.: The Psychology of Learning. 1956.
Lernende Systeme
Seite 149
[Bundy, Silver, Plummer 85] Bundy A., Silver B., Plummer D.: An Analytical Comparison of some Rule-Learning Programs. In: Artificial Intelligence, vol.27, no.2, 137-181, 1985. [Carbonell, Langley 87] Carbonell J.G., Langley P.: Machine Learning. In: Shapiro S.C., Eckroth D, Vallasias G.A. (Hrsg.): Encyclopedia of Artificial Intelligence, vol.1, Wiley-Interscience Publication, 464-488, 1987. [Clark, Niblett 89] Clark,P., Niblett,T. : The CN2 Induction Algorithm. Machine Learning 3, S.261-282, 1989. [Cohen, Feigenbaum 82] Cohen P.R., Feigenbaum E.A.: The Handbook of Artificial Intelligence. vol. 1-3, William Kaufmann Inc., Los Altos, Cal., 1982. [Culberson 63] Culberson J.: The minds of robots. The University of Illinois Press, Urbana, Illinois, 1963. [Dietterich 86] Dietterich T.G.: Learning at the knowledge level. In: Machine Learning, vol.1, 1986, 287-315, 1986. [Dietterich 87] News and Notes: AAAI-86 Learning papers: Developments and Summaries. In: Machine Learning, vol.2, no.1, 83-96, 1987. [Dietterich, Michalski 81] Dietterich T.G., Michalski R.S.: Inductive Learning of Structural Descriptions: Evaluation Criteria and Comparative Review of Selected Methods. In: Artificial Intelligence, vol.16, 257-294, 1981. [Doyle 88] Doyle J.: On Rationality and Learning. Carnegie-Mellon University, March 1988, CMU-CS-88-122, Carnegie-Mellon, 1988. [Evans 63] Evans, T.: ANALOGY: A Heuristic Program to Solve Geaometric Analogy Problems In: Semantic Information Processing, Marvin Minsky (Ed.), MIT Press,Cambridge, MA, 1968. Auf der Grundlage einer PhD-Doktorarbeit am MIT, 1963 [Fayyad, Laird, Irani 89] Fayyad U.M., Laird J.E., Irani K.B.: Conference Report: 5th International Conference on Machine Learning. In: AI Magazine, summer 1989, 79-84, 1989. [Flann, Dietterich 86] Flann N.S., Dietterich T.G.: Exploiting Functional Vocabularies to Learn Structural Descriptions. In: T.M. Mitchell, J.G. Carbonell, R.S. Michalski (eds.): Machine Learning: A Guide to Current Research. Kluwer Academic Publishers, Boston, Dordrecht, Lancaster, 71-74, 1986. [Friedberg 58] Friedberg R.M.: A Learning Machine: Part 1. In: IBM Journal, vol.2, 2-13, 1958. [Friedberg, Dunham, North 59] Friedberg R., Dunham B., North T.: A Learning Machine: Part 2. IBM Journal of Research and Development, vol.3, 282-287, 1959. [Globig 93] Fallbasiertes und symbolisches Lernen. Dipl.Arbeit Kaiserslautern 1993. [Gold 67] Gold M.: Language identification in the limit. In: Information and Control, vol.5, 447-474, 1967. [Greiner, Silver, Becker, Gruninger 88] Greiner, Silver, Becker, Gruninger: A review of Machine Learning at AAAI-87. In: Machine Learning vol.3, p.79, 1988. [Hammond 86] Hammond, K.: CHEF : A Model of Case-Based Planning. Proceedings AAAI 1986.
Seite 150
Lernende Systeme
[Haralick 78] Haralick R.M.: Structural pattern recognition, homomorphisms, and arrangements. In: Pattern Recognition, vol.10, 223-236, 1978. [Haralick, Kartus 78] Haralick R.M., Kartus J.S.: Arrangements, homomorphisms, and discrete relaxation. In: IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-8, no.8, 600-612, 1978. [Haussler 87] Haussler D.: Bias, Version Spaces and Valiants Learning Framework. In: Proceedings 4th International Workshop on Machine Learning, 324-336, Morgan-Kaufman, 1987. [Hestermann 90] Hestermann Ch. : Entwurf und Implementierung einer Expertensystemkomponente für den Fallvergleich und ihre Erprobung am Beispiel der Ähnlichteilsuche prismatischer Werkstücke. Diplomarbeit Karlsruhe 1990. [Highleyman 67] Highleyman W.H.: Linear decision functions with applications to pattern recognition. In: Procs. of IRE, no.50, 1501-1504, 1967. [Hilgard, Bower 66] Hilgard E.R., Bower G.H.: Theories of Learning. 1966. [Holland 75] Holland J.H.: Adaption in Natural and Artificial Systems. An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. University of Michigan Press, Ann Arbor, MI, 1975. [Holland 80] Holland J.H.: Adaptive algorithms for discovering and using general patterns in growing knowledge bases. Policy Analysis and Information Systems, vol.4, no.3, September 1980, 1980. [Holte 86] Holte R.C.: A Conceptual Framework for Concept Identification. In: Mitchell T., Carbonell J.G., Michalski R.S. (eds.): Machine Learning - A Guide to Current Research, 1986. [Hunt, Hovland 63] Hunt E.B., Hovland C.I.: Programming a model of human concept formation. In: Computers and Thought, Feigenbaum E.A., Feldman J. (eds.), MacGraw-Hill, 310-325, New York, 1963. [Hunt, Marin, Stone 66] Hunt E.B., Marin J., Stone P.T.: Experiments in Induction. Academic Press, New York, 1966. [Jantke92] Formalizations in Case-based Reasoning. In: SEKI-Working Paper SWP-92-11, Kaiserslautern 1992, S. 9-14. [Keller 83] Keller R.: Learning by Re-Expressing Concepts for Efficient Recognition. In: Proceedings AAAI-83, 182-186, Washington D.C., 1983. [Keller 87] Keller R.M.: Defining operationality for explanation-based learning. In: Procs. of the 6th National Conference on Artificial Intelligence 1987, 482-487, 1987. [Kibler, Langley 88] Kibler D., Langley P.: Machine Learning as an Experimental Science. In: Procs. EWSL-88, 3-20, Glasgow, 1988. [Kodratoff 89] Kodratoff Y.: Characterizing Machine Learning Programs. A European Compilation. In: Technical Report RR 507, Universite Paris Sud, 1989. [Kodratoff, Michalski 89] Kodratoff Y., Michalski R.S.: Machine Learning: An Artificial Intelligence Approach (vol.3). 1989. [Koford, Groner 66] Koford T.S., Groner G.F.: The use of an adaptive threshold element to design a linear optimal pattern classifier. In: IEEE Transactions -Information Theory, vol.1T-12, 42-50, 1966.
Lernende Systeme
Seite 151
[Kolodner 83a] Kolodner, J.L.: Maintaining Organization in a Dynamic Long-term Memory. Cognitive Science 7, 1983. [Kolodner 83b] Kolodner, J.L.: Reconstructive Model: A Computer Model. Cognitive Science 7, 1983. [Kolodner 91] Kolodner,J.L. : Improving Human Decision Making through Case-Based Decision Hiding. AI-Magazin 1, 1991. [Kolodner, Simpson 85] Kolodner, J.L., Simpson. R.L. : Problem Solving and Dynamic Memory. In: C. Riesbeck (ed.): Experience, Memory and Reasoning. Lawrence Erlbaum 1985. [Kolodner 87] Kolodner,J.L. : Extending Problem Solver Capabilities through Case-based Inference. Proceedings of the 4th International Workshop on Machine Learning , 1987. [Kotton 88] Kotton, P.: Reasoning about Evidence in Causal Explanations. Proceedings Case-based Reasoning Workshop, DARPA, 1986. [Langley, Gennari, Iba 87] Langley P., Gennari J.H., Iba W.: Hill-Climbing Theories of Learning. In: Proceedings 4th International Workshop on Machine Learning, 1987. [Langley, Simon, Bradshaw 83] Langley P., Simon H.A., BradshawG.L.: Rediscovering Chemistry with the BACON System. In: Michalski R.S., Carbonell J., Mitchell T.: Machine Learning: An Artificial Intelligence Approach, vol.1, Tioga Publishing Company, 1983. [Lebowitz 86] Lebowitz, M. : Not the Path to Perdition: The Utility of Similarity-based Reasoning. Proceedings AAAI 1986. [Lenat 83] Lenat D.B.: The role of heuristics in learning by discovery. Three case studies. In: [Michalski, Carbonell, Mitchell 83]. [Lenat, Brown 84] Lenat D.B., Brown J.S.: Why AM and EURISKO appear to work. In: Artificial Intelligence, vol.23, no.3, 269-294, 1984. [Markovitch, Scott 88] Markovitch S., Scott P.D.: The Role of Forgetting in Learning. In: Proceedings of 5th International Conference on Machine Learning, 1988. [McCulloch, Pitts 43] McCulloch W.S., Pitts W.: A logical calculus of ideas imminent in nervous activity. In: Bull. Math. Biophysics, vol.5, 115-133, 1943. [Michalski 83] Michalski R.S.: A Theory and Methodology of Inductive Learning. In: Machine Learning: An Artificial Intelligence Approach, vol.1, 83- 134, Tioga Publ. Comp., 1983. [Michalski 86] Michalski R.S.: Understanding the nature of learning: Issues and research directions. In: Machine Learning: An AI Approach, vol. 2, 3- 25, 1986. [Michalski 89] Michalski R.S.: Evolving Research in Machine Learning. Vortragsfolien European Summer School on Machine Learning, 1989. [Michalski, Carbonell, Mitchell 86] Michalski R.S., Carbonell J.G., Mitchell T.M. (Eds.): Machine Learning: An Artificial Intelligence Approach (Vol.2). Morgan Kaufmann, Los Altos, CA., 1986. [Michalski, Larson 78] Michalski R.S., Larson J.B.: Selection of the most representative training examples and incremental generation VL1 hypotheses: The underlying methodology and the description of programs ESEL and AQ11. Technical Report 867, Comp. Sci. Dept., Univ. of Illinois, 1978.
Seite 152
Lernende Systeme
[Minsky, Papert 69] Minsky M., Papert S.: Perceptrons. MIT Press, Cambridge, Mass., 1969. [Minton 84] Minton S.: Constraint-Based Generalization in Learning Game Playing Plans from Single Examples. In: Proceedings AAAI-84, 1984. [Minton 88] Minton S.: Learning efficient search control knowledge: an explanation-based approach. Ph.D. Thesis, Computer Science Dept., Carnegie-Mellon University, Carnegie-Mellon, 1988. [Minton, Knoblock, Kuoka+ 88] Minton S, Knoblock C., Kuoka D, Gill Y., Carbonell J. : PRODIGY 1: The Manual and Tutorial Technical Report, Carnegie Mellon University 1988. [Mitchell 82] Mitchell T.M.: Generalization as Search. In: Artificial Intelligence, vol.18, no.2, 203-226, 1982. [Mitchell, Keller, Kedar-Cabelli 86] Mitchell T.M., Keller R.M., Kedar-Cabelli S.T.: Explanation-based Generalization: A unifying view. In: Machine Learning, vol.1, no.1, 1986, 47-80, 1986. [Moog 85] Moog W.: Ähnlichkeits- und Analogielehre. VDI-Verlag 1985. [Mostow 82] Mostow D.: Transforming declarative advice into effective procedures: a heuristic search example. In: Michalski R., Carbonell J., Mitchell T. (eds.): Machine Learning: An Artificial Intelligence Approach, Tioga Press, Palo Alto, CA, 1982. [Nilsson 65] Nilsson N.J.: Learning Machines. MacGraw-Hill, New York, 1965. [Offut 89] Offut D.: SIZZLE: A cbr-system. Technical Report, Carnegie Mellon University 1989. [Paulokat, Praeger, Weß 92] Paulokat J., Praeger R., Weß S.: CAbPLAN- Fallbasierte Arbeitsplanung. In: SEKI-Working Paper SWP-92-11, Kaiserslautern 1992, S. 9-14. [Pazzani 87] Pazzani M.: Inducing Causal and Social Theories: A Prerequisite for Explanation-Based Learning. In: Proceedings of 4th International Workshop on Machine Learning, 230-241, Morgan Kaufman, Irvine, CA, 1987. [Quinlan 83] Quinlan J.R.: Learning efficient classification procedures and their application to chess end games. In: [Michalski, Carbonell, Mitchell 83], Tioga Press, 1983. [Quinlan 86] Quinlan J.R.: Induction of Decision Trees. In: Machine Learning, vol.1, no.1, 81-106, 1986. [Rashevsky 48] Rashevsky N.: Mathematical Biophysics. University of Chicago Press, Chicago, IL, 1948. [Rendell 89] Rendell L., Cho H., Seshu R.: Improving the Design of Similarity Based Rule-Learning Systems. In: Int. J. of Expert Systems, vol. 2, No. 1, 97-133, 1989. [Richter 78] Richter M.M.: Logikkalküle. B.G. Teubner Verlag, Stuttgart, 1978. [Richter 82] Richter M.M.: Ideale Punkte, Monaden und Nichtstandard-Methoden. Vieweg Verlag 1982. [Richter 89] Richter M.M.: Prinzipien der Künstlichen Intelligenz. B.G. Teubner Verlag, Stuttgart, 1989.
Lernende Systeme
Seite 153
[Richter90] Richter M.M.: Konnektionismus. Vorlesungsmanuskript Kaiserslautern 1990. [Richter,Wess 91] Similarity, Uncertainty and Case-Based Reasoning in PATDEX. In: Frontiers of Computing (ed. R.S. Boyer), Kluwer Acad. Publ. 1991, S. 249265. [Rissland, Ashley 88] Rissland E.L., Ashley, K.D. : Credit Assignment and the Problem of Competing Factors. Proceedings of Case-based Reasoning Workshop, DARPA, 1088. [Rissland, Kolodner, Waltz 89] Rissland E.L., Kolodner J.L., Waltz D.: Proceedings Workshop Case-based Reasoning, DARPA, 1988. [Rosenblatt 58] Rosenblatt F.: The Perceptron: A probabilistic model for information storage and organization in the brain. In: Psychological Review, vol.65, 386407, 1958. [Rosenblatt 62] Rosenblatt F.: Principles of Neurodynamics and and the Theory of Brain Mechanisms. Spartan Books, Washington D.C., 1962. [Samuel 59] Samuel A.L.: Some studies in machine learning using the game of checkers. In: IBM Journal of Research and Development, no.3, 211- 229, 1959. [Samuel 63] Samuel A.L.: Some studies in machine learning using the game of checkers. In: Feigenbaum E.A., Feldman J. (eds.): Computers and Thought, MacGrawHill, 71-105, New York, 1963. [Schlimmer 87] Schlimmer J.C.: Incremental Adjustment of Representations for Learning. In: Procs. of 4th Int: Workshop on Machine Learning, 79- 90, 1987. [Schlimmer, Fisher 86] Schlimmer J.C., Fisher D.: A case study of incremental concept induction. In: Procs. of AAAI-86, 496-501, American Association for Artificial Intelligence, Menlo Park, 1986. [Scott, Shalin, Wisniewski, Levi 88] Scott P.D., Shalin V.L., Wisniewski E.J., Levi K.R.: A formal analysis of machine learning systems for knowledge acquisition. In: Int. J. Man-Machine Studies, 29, 429-446, Academic Press, 1988. [Scott, Vogt 83] Scott P.D., Vogt R.C.: Knowledge Oriented Learning. In: Procs. IJCAI83, 432-435, 1983. [Selfridge 59] Selfridge O.G.: Pandemonium: A paradigm for learning. In: Procs. of the Symposium on Mechanization of Thought Processes, Blake D., Uttley A. (eds.), HMSO, 511-529, London 1959. [Sharma, Sleeman 89] Sharma S., Sleeman D,: Case-based Knowledge Acquisition and Refinement: The Refiner System. University of Aberdeen 1989. [Simon 83] Simon H.A.: Why should machines learn? In: [Michalski, Carbonell, Mitchell 83]: Machine L earning: An Artificial Intelligence Approach, vol.1, 25-37, Palo Alto, 1983. [Simpson 85] Simpson. R.L. : A Computer Model of Case-based Reasoning in Problem Solving. Dissertation, Georgia Institute of Technology 1985. [Stanfill 88] Stanfill C.: Learning to Read.: A Memory Based Model. Proceedings Workshop Case-based Reasoning, DARPA, 1988. [Stanfill, Waltz 86] Stanfill C., Waltz D.: Towards Memory-based Reasoning. Communications of the ACM 29, S.1213-1229, 1986.
Seite 154
Lernende Systeme
[Subramanian, Feigenbaum 86] Subramanian D., Feigenbaum J.: Factorization in experiment generation. In: AAAI-86, zit. n. [Dietterich 87], 1986. [Sussman 75] Sussman G.J.: A Computer Model of Skill Acquisition. American Elsevier, New York, 1975. [Tversky 77] Tversky A.: Features of Similarity. Psychological Review 84, S.327-352, 1977. [Uhr 66] Uhr L.: Pattern Recognition. John Wiley and Sons, New York, 1966. [Utgoff 83] Utgoff P.E.: Adjusting Bias in Concept Learning. In: Proceedings IJCAI-83, 447-449, 1983. [Valiant 84] Valiant L.G.: A Theory of the Learnable. In: Communications of the ACM, vol.27, no.11, 1134-1142. Bzw. in: Procs. of the ACM Symposium on Theory of Computing, 436-445, 1984. [Van de Velde 88] Van de Velde W.: Quality of Learning. In: Proceedings of ECAI-88, 408-413, 1988. [Wagner 83] Wagner M.: Kardinalität in der Nutzentheorie. Mathematical Systems in Economy 81 (1983). [Wendel 90] Wendel O.: Identifikation und Evaluation von Klassifikationsdimensionen für Machine-Learning Systeme. Diplomarbeit Universität Kaiserslautern 1990. [Wess 90] Wess, S: PATDEX/2 - Eins ystem zum fallfokusierenden Lernen in technischen Diagnosesituationen. Diplomarbeit Universität Kaiserslautern , 1990 und SEKIWorking Paper SWP-91-01, 1991 [Widrow 62] Widrow B.: Generalization and information storage in networks of Adelaine 'Neurons'. Spartan Books, 435-461, (Yovitz M.C., Jacobi G.T., Goldstein G.D. (Eds.)), Washington D.C., 1962. [Winston 75] Winston P.H.: Learning structural descriptions from examples. In: P.H. Winston (Ed.): The Psychology of Computer Vision, McGraw-Hill, New York, 1975. [Wolff 87] Wolff J.G.: Cognitive Development as Optimization. In: L.Bolc (ed.): Computational Models of Learning, 161-205, 1987. [Wrobel 88] Wrobel S.: Automatic Representation Adjustment in an Observational Discovery System. In: Sleeman D., Richmond J. (Hrsg.): Procs. 3rd EWSL-88, 253-262, 1988. [Yovits, Jacobi, Goldstein 62] Yovits M., Jacobi G., Goldstein G. (eds.): Self-Organizing Systems. Spartan, Washington DC, 1962.