OD LOGIKI KLASYCZNEJ DO NIEMONOTONICZNEJ
David Makinson
OD LOGIKI KLASYCZNEJ DO NIEMONOTONICZNEJ
Przełożył Tomasz Jarmużek
D David Makinson, Bridges from Classical to Nonmonotonic Logic, (Text in Computing, Vol. 5), published by King’s College 2005 ISBN 1-904987-00-1 Copyright © by 2005 David Makinson and King’s College
T Tomasz Jarmużek R dr hab. Zbigniew Tworak P Maciej Nowicki
Copyright © for the Polish edition by Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika Toruń 2008 Copyright © for the translation by Tomasz Jarmużek ISBN 978-83-231-2196-1
W N U M K ul. Gagarina 39, 87–100 Toruń Redakcja: tel. (0-56) 611 42 95, fax 611 47 05 e-mail:
[email protected] Dystrybucja: ul. Reja 25, 87–100 Toruń tel/fax (0-prefix-56) 611 42 98 e-mail:
[email protected] www.wydawnictwoumk.pl Wydanie pierwsze. Nakład 300 egz. Druk: Drukarnia Cyfrowa UMK ul. Gagarina 5, 87-100 Toruń tel. (056) 61122 15
Spis treści
Uwagi tłumacza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii Przedmowa do wydania polskiego . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
Przedmowa do wydania angielskiego . . . . . . . . . . . . . . . . . . . . . . . .
x
Rozdział 1. Podstawy logiki niemonotonicznej . . . 1.1. Wszyscy wnioskujemy niemonotonicznie . . 1.2. Konsekwencja klasyczna i jej własności . . . 1.3. Nieporozumienia oraz złe przyzwyczajenia . 1.4. Trzy sposoby zwiększania liczby konkluzji . 1.5. Powtórzenie materiału i dalsze poszukiwania
. . . . . .
. . . . . .
. . . . . .
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych 2.1. Od konsekwencji klasycznej do założeń osiowych . 2.2. Od założeń osiowych do założeń domyślnych . . . 2.3. Uszczegółowienia, warianty i uogólnienia . . . . . 2.4. Powtórzenie materiału i dalsze poszukiwania . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. 1 . 1 . 3 . 11 . 19 . 20
w tle . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
23 23 30 41 59
Rozdział 3. Ograniczenie zbioru wartościowań . . . . . . . . . 3.1. Od konsekwencji klasycznej do wartościowań osiowych 3.2. Od wartościowań osiowych do wartościowań domyślnych 3.3. Konkretyzacje i uogólnienia . . . . . . . . . . . . . . . . 3.4. Powtórzenie materiału i dalsze poszukiwania . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
61 61 69 75 85
Rozdział 4. Zastosowanie dodatkowych reguł . . . . . 4.1. Od konsekwencji klasycznej do reguł osiowych 4.2. Od reguł osiowych do reguł domyślnych . . . . 4.3. Uogólnienia i warianty . . . . . . . . . . . . . 4.4. Powtórzenie materiału i dalsze poszukiwania .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
87 87 95 101 111
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną 5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty . . . . . . . . . . 5.2. Probabilistyczne charakterystyki konsekwencji klasycznej . . . . . . . . . 5.3. Nadklasyczne probabilistyczne relacje konsekwencji . . . . . . . . . . . 5.4. Próby zbliżenia inferencji probabilistycznej i jakościowej . . . . . . . . . 5.5. Powtórzenie materiału i dalsze poszukiwania . . . . . . . . . . . . . . .
. . . . . .
114 115 125 130 134 141
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
vi
Spis treści
Rozdział 6. Krótkie porównanie . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Związki z logiką zmiany przekonań . . . . . . . . . . . . . . . . . . . . 6.2. Związki z logiką aktualizacji przekonań oraz logikami kontrfaktycznych i dyrektywalnych okresów warunkowych . . . . . . . . . . . . . . . . . . 6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji . . . . . . 6.4. Powtórzenie materiału i dalsze poszukiwania . . . . . . . . . . . . . . .
. 143 . 143 . 150 . 157 . 166
Dodatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 A. Dowód twierdzenia 4.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 B. Objaśnienie symboli specjalnych . . . . . . . . . . . . . . . . . . . . . . . 172 Odpowiedzi do wybranych ćwiczeń . . . . . . . . . . . . . . . . . . . . . . . . . 175 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 Skorowidz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Uwagi tłumacza
Tłumacz chciałby serdecznie podziękować osobom, które przyczyniły się do pojawienia się polskiej wersji Bridges from Classical to Nonmonotonic Logic. Przede wszystkim należy zacząć od autora oryginału, prof. Davida Makinsona. Bez Jego zgody, wsparcia oraz ogromnej dozy życzliwości ta wersja tłumaczenia nigdy nie ujrzałaby światła dziennego. W procesie przygotowywania i poprawiania translacji dużą rolę odegrały również inne osoby. Tłumacz chciałby wyrazić swoją wdzięczność recenzentowi tłumaczenia, prof. Zbigniewowi Tworakowi z Uniwersytetu Adama Mickiewicza w Poznaniu. Jego krytyczne, ale również konstruktywne uwagi pomogły uniknąć wielu błędów. Do powstania polskiego tłumaczenia przyczyniły się też koleżanki i koledzy z Katedry Logiki UMK w Toruniu. Zawsze można było liczyć na ich pomoc w zakresie prac edytorskich oraz udział w dyskusjach nad problemami merytorycznymi i wyborem terminologii. Szczególne podziękowania należą się zwłaszcza prof. Andrzejowi Pietruszczakowi oraz prof. Jackowi Malinowskiemu. Ponadto należy wspomnieć, że krytyczna i wnikliwa lektura całego rękopisu, której podjął się dr Maciej Nowicki oraz korekta językowa dokonana przez mgr Joannę Szalachę, umożliwiły tłumaczowi poprawienie wielu usterek i uniknięcie niejasnych sformułowań. Osoby te w krytycznych chwilach w znacznym stopniu wspierały tłumacza na duchu. Osobą, o której nie wypada nie wspomnieć, jest również dr Bożena Woźna. Jej cenne uwagi pomogły dopracować część polskiej terminologii. Tłumacz chciałby także podziękować swoim Rodzicom. Ich nieustanne i pełne wyrozumiałości motywowanie nie pozwoliło mu ustąpić z zawczasu obranej drogi, mimo jej licznych i niespodziewanych zakrętów. Należy podkreślić, że wiele terminów użytych w oryginalnym wydaniu nie miało wcześniej swoich polskich odpowiedników. Zaproponowane w tłumaczeniu polskie terminy mogą więc budzić pewne kontrowersje. Decyzje translatorskie są jednak zawsze trudne. Dlatego też w miejscach, gdzie po raz pierwszy pojawiają się polskie propozycje, w nawiasach towarzyszą im, ich angielskie, oryginalne sformułowania.
viii
Uwagi tłumacza
W ostatniej fazie przygotowań do druku tłumacz spotkał się z ogromną pomocą ze strony red. Mirosławy Buczyńskiej. Nadto życzliwość dr. Marka Nasieniewskiego oraz rozmowy z mgr. Piotrem Zegarskim pozwoliły ostatecznie sfinalizować zamierzenie, pomimo jego opóźnienia. Wymienionym tu osobom tłumacz również chciałby wyrazić wdzięczność. Mimo pomocy wielu osób, w polskiej wersji mogą pojawić się pewne usterki. Jest rzeczą oczywistą, że za wszystkie odpowiedzialność ponosi wyłącznie tłumacz.
Przedmowa do wydania polskiego
Z wielką przyjemnością przyjmuję ukazanie się polskiego tłumaczenia mojej książki Bridges from Classical to Nonmonotonic Logic. Fakt ten cieszy mnie zwłaszcza dlatego, że jej charakter jest głęboko zakorzeniony w tradycji polskiej logiki, która ukształtowała się w okresie międzywojennym i — pomimo zwrotów i zawirowań historii — jest rozwijana do dzisiaj. W szczególności dotyczy to pojęcia operacji konsekwencji, jednego z najważniejszych logicznych narzędzi pochodzących z tej tradycji. Pojęcie to jest centralne dla omówienia problemu rozumowań niepewnych, stanowiących przedmiot tej książki. Chciałbym podziękować Wydawnictwu Naukowemu Uniwersytetu Mikołaja Kopernika za publikację tłumaczenia. Szczególne podziękowania należą się Tomaszowi Jarmużkowi, za inicjatywę oraz podjęcie się zadania przetłumaczenia książki na język polski. Jego głęboka wiedza na temat omawianych problemów umożliwiła mu oddanie sensu każdego paragrafu książki, przy jednoczesnym uwzględnieniu przyjętej w Polsce technicznej terminologii. Korzystając z okazji, poprawiłem kilka drobnych błędów, które pojawiły się w wersji oryginalnej oraz zwiększyłem jasność paru sformułowań. Mam nadzieję, że lektura tej książki będzie równie przyjemna, co pouczająca.
David Makinson
Przedmowa do wydania angielskiego
Dla kogo napisano tę książkę? Niniejsza książka jest przeznaczona dla wszystkich, którzy słyszeli o logice niemonotonicznej i chcieliby posiąść obszerniejszą wiedzę na jej temat. W szczególności chcieliby więc poznać odpowiedzi na następujące pytania: jakie są jej wiodące idee, w jaki sposób różni się ona od logiki klasycznej, jaki jest jej związek z problemem prawdopodobieństwa? Stawiając sprawę bardziej ogólnie: jak logika niemonotoniczna działa i jak można ją stosować? Oto pytania, na które spróbujemy odpowiedzieć tak jasno, jak to możliwe, nie przeciążając tekstu szczegółami technicznymi, ale również nie pozostając wyłącznie na poziomie nieformalnym, pozbawionym detali. Praca ta została napisana dla studentów, nauczycieli prowadzących zajęcia, ale również dla samouków. Czytelnik-samouk spotka się jednak ze szczególnie trudnym zadaniem, gdyż zabraknie mu możliwości konsultacji. Kierując się sympatią, spróbujemy mu jednak możliwie pomóc poprzez wyczerpujące wyjaśnianie wszystkich istotnych kwestii, omawianie pewnych kwestii dla lepszego ich zrozumienia na kilka sposobów, podsumowywanie każdego rozdziału, i wreszcie proponując ćwiczenia oraz rozwiązania niektórych z nich. Zabiegi te będą oczywiście użyteczne dla wszystkich czytelników, jednak zwłaszcza dla tych, którzy uczą się samodzielnie.
Co Czytelnik powinien już wiedzieć? Obcowanie z przedmiotem takim jak nasz wymaga pewnej minimalnej wiedzy i uczciwie rzecz biorąc, musimy już na samym początku powiedzieć, co będzie przy lekturze wymagane. Tym, którzy nie posiadają żadnego doświadczenia w zakresie logiki klasycznej, a którzy być może sięgnęli po tę książkę kierując się ciekawością, musimy poradzić, aby ją na razie odłożyli, udali się zdobyć podstawową wiedzę na temat logiki klasycznej i dopiero wtedy powrócili. W przeciwnym wypadku znajdą się w sytuacji człowieka, który próbuje uczyć się algebry za-
Przedmowa do wydania angielskiego
xi
nim dowiedział się czegokolwiek o arytmetyce, poznać technikę kontrapunktu bez znajomości gamy, lub wyrobić sobie dobry literacki styl, nie mając pojęcia o gramatyce. Studenci informatyki, matematyki, filozofii bądź językoznawstwa mogą wziąć udział w podstawowym kursie logiki oferowanym przez ich wydziały oraz przestudiować podręczniki zalecane przez nauczycieli. Jeśli natomiast ktoś studiuje samotnie, interesując się zagadnieniami z zakresu informatyki lub matematyki, może wziąć pod uwagę rozdziały 6–8 książki Jamesa Heina Discrete Structures, Logic and Computability (Jones and Bartlett, Boston, wydanie drugie, 2002). Osoby zaangażowane raczej w humanistyczne studia powinny popracować nad książką L.T.F. Gamuta Logic, Language and Meaning: Volume I. Introduction to Logic (Chicago University Press, 1991). Ci natomiast, którzy będą mieli dość szczęścia, mogą sięgnąć po moją książkę Topics in Modern Logic (Methuen, London 1973; rozdziały 1, 3), której nakład jest już wyczerpany (polski czytelnik może przestudiować książkę Andrzeja Grzegorczyka, Zarys logiki matematycznej, PWN, Warszawa 1984, lub inne jej wydanie). We wprowadzeniu przypomnimy pewne własności klasycznej logiki zdaniowej, ale w specjalnym celu. Piszemy o pomijanych w wielu pracach aspektach logiki zdaniowej, które jednak są istotne dla rozwijania tytułowego zagadnienia. W szczególności dotyczy to pewnych bardzo ogólnych pojęć, które pojawiają się nie tylko w kontekście klasycznej operacji konsekwencji, ale także w wielu innych kontekstach. Należy do nich na przykład ogólne pojęcie operacji lub relacji domknięcia, pojęcie zwartości czy pojęcie reguły Horna. Czytelnik powinien również umieć posługiwać się pewnymi prostymi narzędziami matematycznymi. Można je podzielić na dwa rodzaje. Pierwszy jest związany z „praktyczną teorią mnogości”: podstawowymi operacjami na zbiorach (takimi jak skończone przecięcie, suma, dopełnienie), indeksowanymi rodzinami zbiorów, nieskończonymi przecięciami i sumami zbiorów, uporządkowanymi parami, iloczynami kartezjańskimi, traktowaniem relacji i funkcji jako zbiorów uporządkowanych par, pojęciem dobrego porządku. Drugi rodzaj narzędzi to indukcja matematyczna jako środek dowodowy, w różnych jej formach ograniczonych do zbiorów przeliczalnych. Jej znajomość jest wymagana do dowodzenia wielu standardowych własności indukcyjnie zdefiniowanych zbiorów, które napotkamy, od zbioru formuł logiki zdaniowej rozpoczynając. Wszystkie te narzędzia są zwykle nauczane na elementarnym kursie logiki, a także stanowią przedmiot podstawowych kursów z zakresu teorii obliczeniowej i matematyki dyskretnej. Dla tych czytelników, którzy nie mieli z nimi żadnego kontaktu, nie ma innej alternatywy niż powrót do kursu podstawowego lub lektury pierwszych rozdziałów podręcznika do takiego kursu. Sprawdzoną lekturą jest tu książka Seymoura Lipschutza Set Theory and Related Topics (McGraw-Hill
xii
Przedmowa do wydania angielskiego
Education, New York, wydanie drugie, 1998), w szczególności pierwsze pięć rozdziałów. Propozycję alternatywną stanowią rozdziały 1–4 wspomnianej wcześniej książki Heinego. Tym jednak, którzy chcieliby się zapoznać z tymi zagadnieniami przedstawionymi w sposób elegancki i systematyczny, polecić należy pierwsze dwanaście rozdziałów książki Paula Halmosa Naive Set Theory (van Nostrand, New York 1960), która stanowi pozycję nie do przecenienia. (Z kolei polskiego czytelnika odsyłamy do książki Kazimierza Kuratowskiego oraz Andrzeja Mostowskiego, Teoria mnogości wraz ze wstępem do opisowej teorii mnogości, PWN, Warszawa 1978.) Dowody pewnych wyników zaprezentowanych w tej książce, jak np. twierdzenie 2.7, odwołują się do zasad maksimum, takich jak np. lemat Kuratowskiego-Zorna. Znajomość tych zasad, w sposób w jaki zostały one wyłożone w dziewiątym rozdziale książki Lipschutza lub rozdziałach 14–17 książki Halmosa, jest niezbędna dla pełnego zrozumienia dowodów. Trzeba dodać, że ich znajomość sama w sobie stanowi cenną wiedzę. Jednakże nawet bez niej osoba czytająca książkę może osiągnąć częściowe zrozumienie, postępując według następującej dyrektywy: rozważ dane twierdzenie tylko dla skończonego przypadku i pamiętaj, że jeśli podzbiór danego skończonego zbioru ma pewną własność, to jest on zawsze zawarty w przynajmniej jednym podzbiorze maksymalnym, który ma tę własność. W opinii autora wszystkie omawiane tu zagadnienia powinny być nauczane w szkołach i w pewnych wyróżniających się miejscach rzeczywiście są. Uczenie się ich jest nie tylko przyjemne, ale również niezbędne we współczesnym, elektronicznym świecie. Niestety, są jednak również studenci, którzy zdobywają wykształcenie akademickie, nie mając z nimi żadnego kontaktu. Podsumowując, tym, którzy nie mają wymaganego, minimalnego zaplecza wiedzy, musimy powiedzieć: do zobaczenia — mamy nadzieję, że zobaczymy się później. Tym zaś, którzy są gotowi, mówimy: witajcie i rozpoczynajcie lekturę!
Główne zagadnienia poruszane w książce Z zewnątrz logika niemonotoniczna jest często postrzegana jako coś dość tajemniczego. Nawet od wewnątrz może ona jawić się jako rzecz mało uporządkowana, na którą składa się wiele systemów proponowanych przez różnych autorów, podążających w różnych kierunkach. Kilka dostępnych na ten temat podręczników wydaje się utrwalać to wrażenie. Naszym głównym celem jest usunięcie części tej tajemniczej aury i pokazanie, że logika niemonotoniczna nie jest czymś tak trudnym do studiowania, jak może się to wydawać na pierwszy rzut oka. W rzeczywistości jest ona łatwa do przyswojenia dla każdego, kto posiada opisane wcześniej podstawy w zakresie
Przedmowa do wydania angielskiego
xiii
logiki klasycznej oraz stosowania wskazanych narzędzi matematycznych. Jak jednak zasygnalizujemy w pierwszym rozdziale, wymaga to pozbycia się pewnych przyzwyczajeń z logiki klasycznej, gdyż mogą one prowadzić do nieporozumień. Dalej pokażemy, że jest wiele systemów logicznych, które spełniają funkcję naturalnych pomostów pomiędzy klasyczną operacją konsekwencji a głównymi rodzajami logiki niemonotonicznej opisanymi w literaturze. Logiki te, nazywane tutaj paraklasycznymi, stosunkowo prosto jest zdefiniować, a następnie badać. Dostarczają one trzech głównych sposobów uzyskiwania większej ilości wniosków z danego zbioru przesłanek, niż zachodzi to w ścisłej dedukcji, czyli przy zastosowaniu starej, dobrej, klasycznej operacji konsekwencji. Te trzy zasadnicze sposoby można po kolei nazwać skradaniem się (creeping), pełzaniem (crawling) lub przeskakiwaniem (jumping) do wniosków. Podobnie jak logika klasyczna, wszystkie one są monotoniczne, chociaż posiadają pewne wyróżniające cechy tych niemonotonicznych systemów, do których prowadzą, stanowiąc konceptualne przejście. W efekcie stanowią one trzy szlaki wiodące od ziemi ojczystej logiki klasycznej do niemonotonicznych wybrzeży. W niniejszej książce badamy każdą z tych dróg po kolei. Zaczynamy od najprostszej, która opiera się na zamyśle stosowania ustalonego i stałego zbioru dodatkowych przesłanek ukrytych w tle. Następnie rozważamy sposoby prowadzące do tego samego efektu przez wykluczenie pewnych klasycznych wartościowań. Na końcu natomiast badamy trzecią z dróg, która opiera się na przyjęciu dodatkowych reguł wnioskowania obok wyjściowych przesłanek. W każdym z tych przypadków otrzymujemy pewien monotoniczny system pomostowy, który może zostać w prosty i rozsądny sposób przerobiony na system niemonotoniczny. W rzeczywistości każdy z systemów pomostowych prowadzi do dość dużego zakresu systemów niemonotonicznych, których różnorodność jest prezentowana w literaturze. W naszym przypadku nie stanowią one już dalej nieuporządkowanej magmy, ponieważ każdy z nich jest wariantem jednej z trzech wyjściowych idei. W dalszej kolejności nasza książka zajmuje się także subtelnym problemem związku pomiędzy logiką a prawdopodobieństwem, a mówiąc bardziej szczegółowo, związku pomiędzy logiką klasyczną, inferencją probabilistyczną i rozumowaniami niemonotonicznymi. Z jednej strony mamy bowiem kilka różnych sposobów charakteryzowania klasycznej konsekwencji w terminach probabilistycznych. Z drugiej zaś, możemy także użyć prawdopodobieństwa do zdefiniowania operacji konsekwencji, zarówno monotonicznej, jak i niemonotonicznej. Okazuje się, że w pewnych istotnych kwestiach różnią się one od operacji zdefiniowanych we wcześniejszych rozdziałach. Pokażemy jednak, iż istnieją również sposoby, aby je do siebie zbliżyć.
xiv
Przedmowa do wydania angielskiego
Należy zauważyć, że istnieją oczywiste podobieństwa pomiędzy pewnymi sposobami definiowania niemonotonicznych relacji inferencji oraz konstrukcjami, które są używane do innych celów — np. logik rewizji i aktualizowania przekonań, logik kontrfaktycznych okresów warunkowych oraz logik dyrektywalnych okresów warunkowych (conditional directives). Ostatni rozdział książki traktuje właśnie o związku pomiędzy tymi wszystkimi sposobami „organizacji przekonań” i tym, co je różni. Prezentuje on również przykłady twierdzeń o reprezentacji dla pewnych głównych systemów logiki niemonotonicznej. Nie próbujemy jednak opisać wszystkich reprezentacji, które można znaleźć w literaturze. Jest ich bowiem zbyt wiele, a ich liczba wciąż rośnie. Wybrane zostały natomiast dwa przypadki strategiczne. Jeden z nich jest opisany z pełnym dowodem, natomiast drugi wraz z jego zasadniczą konstrukcją jest jedynie zarysowany.
Czym nie będziemy się zajmować Skoro powiedzieliśmy, czym będziemy się zajmować, winni jeszcze jesteśmy czytelnikowi — w szczególności potencjalnemu nauczycielowi, który zastanawia się nad wykorzystaniem tej książki — wyjaśnienie, jakie tematy związane z niemonotoniczną logiką nie zostaną tu poruszone. Wszystkie relacje inferencji studiowane w książce są zdefiniowane na czysto zdaniowym języku zbudowanym wyłącznie z klasycznych stałych logicznych. Mógłby być on oczywiście rozszerzony do języka pierwszego rzędu, jednak większość interesujących problemów pojawia się już na poziomie zdaniowym. Biorąc pod uwagę tę kwestię, rozszerzenie takie zwiększyłoby poziom trudności, nie przynosząc wcale większej wartości poznawczej. Nie będziemy również badać logik, w których klasyczne spójniki zostały zinterpretowane w sposób nieklasyczny. W taki sposób, dla przykładu, są czasami prezentowane systemy logiki programowania (logic programming) z negacją rozumianą na różny sposób jako niepowodzenie (negation as failure). Jednakże, jak zasugerujemy w rozdziale czwartym, lepiej jest je przedstawiać jako reguły działające na zdaniach, wyrażone w jakimś fragmencie języka klasycznego. Badania nad logiką programowania stały się obecnie dziedziną samą w sobie, gdzie nacisk jest położony na problem obliczeniowej złożoności, co nie należy do zakresu naszych zainteresowań. Osoby zainteresowane stanem obecnych badań nad logikami programowania powinny sięgnąć do następujących pozycji, które realizują różne cele: praca Gelfonda i Leone’a (2002) opisuje logiki programowania z „semantyką zbioru odpowiedzi” (answer set semantics), praca Brewki, Dixa i Konolige’a (1997) — w szczególności rozdziały 6–7 — przedstawia z kolei przegląd różnych podejść do logiki programowania z negacją, natomiast książka Barala (2003) oferuje ujęcie encyklopedyczne.
Przedmowa do wydania angielskiego
xv
Do przedmiotu naszych zainteresowań nie będą należały również języki stanowiące rozszerzenie języka logiki klasycznej o funktory nieklasyczne. Dla przykładu, nie będziemy rozważać logik autoepistemicznych. Powstają one właśnie przez dodanie do spójników boolowskich specjalnego typu operatora, którego introspektywne odczytanie daje niemonotoniczny efekt. Pomimo związku tych logik z pewnymi logikami indywidualnych reguł domyślnych (maverick default-rule), poprzez translację Konolige’a i innych, są one dość odmienne od logik głównego nurtu, o czym decydują powody przedstawione w rozdziale czwartym. Czytelnika, który jest zainteresowany studiowaniem logik autoepistemicznych, odsyłamy do podrozdziału 4.2 pracy Brewki, Dixa, Konolige’a (1997) lub do bardziej szczegółowego przeglądu Konolige’a (1994). Warto jeszcze wspomnieć o dwóch podejściach do zagadnienia niemonotonicznych rozumowań, w których stałe logiczne nie odgrywają szczególnie dużej roli. Pierwsze z nich to teoria zawodnych sieci dziedziczenia (the theory of defeasible inheritance nets), a drugie to abstrakcyjna teoria zawodnej argumentacji (the abstract theory of argument defeat). W obydwu przypadkach przedmiot jest zogniskowany na pojęciu ścieżki (w sieci) lub rozumowania (w dyskusji), które obala lub jest konkurencyjne dla innego rozumowania, oraz na ustalaniu ostatecznego efektu złożonych wzorów nakładających się obaleń. W tych przypadkach w grę wchodzą dość specjalne problemy, których nie dyskutujemy w niniejszej książce. Czytelnika zainteresowanego pierwszym z tych zagadnień odsyłamy do przeglądowej pracy Horty’ego (1994). Drugie z zagadnień jest natomiast opracowane przez Prakkena i Vreeswijka (2001) oraz w artykule García i Simariego (w przygotowaniu). Nasza książka nie pretenduje zatem do bycia kompleksowym ujęciem wszystkich badań, które mogą należeć do zakresu nazwy logika niemonotoniczna. Książka ta prezentuje natomiast pewne centralne idee, nadając im koherentną strukturę i starając się wyjaśnić je najlepiej jak to możliwe.
Strategia prezentacji Kiedy rozpocząłem planowanie tej książki, podążałem utrwalonymi przyzywyczajeniami, dążąc do maksymalnej ogólności. Mamy tak wiele różnych dostępnych, formalnych podejść do logiki niemonotonicznej — myślałem. Należałoby wprowadzić tam odpowiedni porządek, co wymagałoby znalezienia możliwie najbardziej ogólnego schematu, pod który one podpadają. Wtedy moglibyśmy zaprezentować te różne podejścia jako wiele szczególnych przypadków tego schematu. Szybko jednak stało się jasne, iż taka strategia jest trudna do realizacji. Sprawdza się dobrze, kiedy skoncentrujemy się na określonych rodzajach relacji konsekwencji i sposobach ich generowania, które mogą być klasyfikowane według
xvi
Przedmowa do wydania angielskiego
ustalonego zbioru spełnianych przez nie regularnych warunków. W takim wypadku rozpoczynamy od minimalnego zbioru warunków, definiując tym samym bardzo szeroką klasę operacji konsekwencji i stopniowo dodajemy kolejne warunki, definiując węższe klasy. Ta metoda została wykorzystana w moim artykule General theory of cumulative inference (Makinson, 1989) oraz w pracy General Patterns in Nonmonotonic Reasoning (Makinson, 1994). Jednakże jeśli ktoś jest zainteresowany sposobami generowania relacji konsekwencji, tak jak jest to przedstawione w tej książce, wtedy opisana strategia traci sens. Poszczególne sposoby różnią się bowiem radykalnie. Próba wyabstrahowania na ich gruncie pojęcia bardziej ogólnego sposobu prowadzi do wyniku, który jest nieintuicyjny, nieodpowiedni do dalszej pracy oraz z matematycznego punktu widzenia niewiele wnoszący. Z tego też powodu organizacja tej książki jest podporządkowana zupełnie innej zasadzie. Można by ją opisać jako zasadę tematu i jego wariacji. Każdy z trzech wspomnianych sposobów uzyskiwania logiki niemonotonicznej — przez dodanie stałego zbioru przesłanek, odrzucenie pewnych wartościowań oraz dodanie stałego zbioru reguł — będzie opisany przez wprowadzenie paradygmatycznego sformułowania, a następnie przez naszkicowanie pewnych szczególnych przypadków, wariacji oraz uogólnień. Chociaż zaledwie kilka wariacji pojawia się już na poziomie systemów pomostowych, to na poziomie niemonotonicznym ich ilość znacznie wzrasta. Lepiej jest rozumieć je jako otwartą rodzinę spokrewnioną z jakimś centralnym egzamplarzem niż jako poszczególne przypadki pewnej definicji opisującej całą tę dziedzinę. Matematykom takie podejście może wydawać się niezgodne z ich praktyką, jednak jest to jedyny rozsądny sposób rozwijania naszego problemu. Ponadto trzeba zauważyć, iż nawet matematycy są przyzwyczajeni w pewnych przypadkach do takiego postępowania. Kiedy na przykład weźmiemy pod uwagę przegląd różnych aksjomatycznych podejść do teorii mnogości, widzimy, iż nikt nie spróbowałby na obecnym etapie jej rozwoju podawać abstrakcyjnych definicji pojęć konstytuujących teorię mnogości, które pasowałyby do podejść Zermelo-Fraenkla, Quine’a oraz innych, traktując je jako specjalne przypadki tych pojęć. W takich sytuacjach za standardową procedurę uchodzi konceptualne określanie kilku szerokich linii podejścia, podanie przykładów każdego z nich, a następnie zarysowanie pewnych z ich wielu wariantów. Taką procedurę, jako sposób postępowania, obieramy właśnie w tej książce.
Powtórzenie materiału i dalsze poszukiwania Każdy rozdział kończy się podrozdziałem „Powtórzenie materiału i dalsze poszukiwania”. Podrozdziały te składają się z trzech części, które mają za zadanie pomóc czytelnikowi powtórzyć omówiony materiał oraz sięgnąć po dalsze pozycje
Przedmowa do wydania angielskiego
xvii
z zakresu tematu. Pierwsza część stanowi powtórzenie głównej idei przedstawionej w rozdziale. Druga część jest listą podstawowych, wprowadzonych pojęć, zarówno formalnych, jak i nieformalnych. Pojęcia te nie są tam ponownie wyjaśniane, lecz jedynie wymienione na potrzeby sprawdzenia w czasie powtarzania, czy są dobrze rozumiane. Jednakże czytelnik może ustalić ich formalne definicje i nieformalne wyjaśnienia, wyszukując w tekście odpowiadające im terminy, zapisane tam pochyłą czcionką. Ostatnia część to krótki wybór pozycji przeznaczonych do dalszej, samodzielnej lektury. Niektóre z nich opisują dokładnie te same zagadnienia, co podjęte w rozdziale, lecz pod innym kątem, w sposób bardziej szczegółowy lub z mocniejszym naciskiem na problemy, którym nie poświęciliśmy uwagi. Inne zaś poszerzają zakres. Ogólnie rzecz biorąc, proponowane lektury nie są obszerne pod względem objętości. Są to zwykle artykuły bądź rozdziały książek. Jedynie niekiedy zalecamy bardziej obszerne pozycje.
Jaki jest najlepszy sposób czytania tej książki? Najlepiej weź ołówek do ręki i pisz na marginesach. Nie bierz niczego na wiarę. Sprawdzaj twierdzenia, znajduj błędy (koniecznie powiadom o nich autora:
[email protected]), stawiaj pytania i problemy. Jak zwykle najlepszym sposobem sprawdzenia, czy ktoś zrozumiał daną definicję jest umiejętność podania zarówno jej egzemplifikacji, jak i przypadków negatywnych. Jeśli ktoś, dla przykładu, nie jest w stanie zastosować danego twierdzenia do prostych przypadków ani wyciągnąć bezpośrednich konsekwencji, to niestety nie rozumie go. Bez tych umiejętności czytelnik łudzi się jedynie, że zrozumiał materiał. Właśnie z tego powodu książka ta zawiera ćwiczenia. Wiele z nich wymaga od czytelnika uzasadniania różnych stwierdzeń, które pojawiają się w tekście. Aby jednak pomóc odważnym samoukom utrzymać dyscyplinę w rozwiązywaniu ćwiczeń, a także aby ułatwić pracę nauczycielom, do niektórych ćwiczeń, oznaczonych gwiazdką, dołączono na końcu książki rozwiązania. Oprócz ćwiczeń w książce podane są również pewne problemy. Są one jednak bardziej skomplikowane niż ćwiczenia, ponieważ wymagają więcej niż tylko podania pozytywnych lub negatywnych przykładów danej definicji lub prostego jej zastosowania wraz z prostym dowodem. Ich rozwiązanie może wymagać umiejętności odnajdywania odpowiedzi i znajdowania dla nich dowodów lub wykazywania, że prowadzą do fałszywych konsekwencji. Obydwie umiejętności mają charakter nabyty, a ich poziom wzrasta wraz z praktyką. Ostatnią propozycją są projekty. Są one zadaniami długoterminowymi, bez względu na to, czy ich realizacja zależy od zainteresowań i zaangażowania cza-
xviii
Przedmowa do wydania angielskiego
sowego czytelnika, czy celów nauczyciela. Wymagają one wzięcia pod uwagę dodatkowych pozycji z literatury, które stanowią punkt wyjścia do dalszej pracy. Osoby, którym z jakiś powodów się śpieszy i chcą przestudiować wyłącznie rzeczy najważniejsze, mogą jedynie przejrzeć lub nawet pominąć podrozdział 2.3, prezentujący partykularyzacje i uogólnienia zagadnienia poruszanego w tym rozdziale. Podobnie ma się rzecz z podrozdziałami 3.3 oraz 4.3. Czytelnicy ci muszą jednak obiecać autorowi, że jeszcze kiedyś do nich powrócą! Można również pominąć dość techniczny podrozdział 5.4. Pominięcie większej ilości materiału związane jest jednak z ryzykiem utraty pełnego obrazu przedstawianego problemu.
Wskazówki dla nauczycieli Doświadczenie autora w zakresie prowadzenia zajęć na podstawie materiału z tej książki wskazuje, iż omówienie jednego podrozdziału wymaga średnio jednej godziny, nie licząc podrozdziału 1.1 oraz dodatkowych części sprawdzających. W sumie daje to dwadzieścia godzin nauki na omówienie całej książki lub piętnaście na omówienie wspomnianej powyżej wersji minimalnej. Ostateczny czas wymagany dla takich zajęć zależy oczywiście od poziomu i zaplecza wiedzy studentów. W szczególności nauczanie tych słuchaczy, których wiedza o logice klasycznej nie zawiera takich pojęć, jak relacja, operacja konsekwencji, czy też zwartość, może wymagać więcej czasu niż jedną godzinę na przestudiowanie podrozdziału 1.2. Mając ich właśnie na myśli, autor zawarł tam szczególnie wiele ćwiczeń. Z drugiej strony, podrozdziały zatytułowane „uszczegółowienia i uogólnienia” dają nauczycielom więcej swobody, pozwalając położyć nacisk na ich ulubione zagadnienia.
Przyjęte konwencje Twierdzenia są ponumerowane liczbami, które w pierwszej kolejności odpowiadają numerom rozdziałów. Dla przykładu, pierwsze oznaczone twierdzenie w tej książce pojawia się w podrozdziale 1.3 i jest oznaczone jako twierdzenie 1.1. Należy zauważyć, iż tylko główne fakty są wyszczególnione w ten sposób. Wiele mniej ważnych faktów pojawia się po prostu w tekście, co uważny czytelnik powinien znaleźć i zaznaczyć. To samo dotyczy zresztą definicji. Tylko kilka istotnych definicji zostało tam wyróżnionych. Pozostałe pojawiają się w tekście, gdzie łatwo je zlokalizować, ponieważ definiowane terminy są wydrukowane pochyłą czcionką. Przyjęta w książce notacja jest dość standardowa. Jeden wyjątek stanowi użycie zwykłych nawiasów zamiast ostrych w celu oznaczenia par uporządkowanych. Będziemy zatem pisać (x, y) zamiast hx, yi. W rozdziale czwartym uprościmy
Przedmowa do wydania angielskiego
xix
również zwykle przyjmowany sposób zapisu reguł domyślnych (default rules). Ponadto w spisie symboli (dodatek B) przypominamy i objaśniamy symbole stosowane w opisie logik niemonotonicznych. W przedmowie stosowaliśmy pełny opis bibliograficzny wspominanych prac. Podobnie będziemy czynili w częściach poświęconych propozycjom dalszych lektur. W głównym tekście będą one miały jednak charakter skrócony wyłącznie do nazwiska i daty, jak np. Gabbay (1985). Ich rozszerzenie wraz ze wszystkimi niezbędnymi danymi znajduje się na końcu książki.
Podziękowania Podczas rozwijania podstawowych idei towarzyszących tej książce, wielokrotnie były one prezentowane na rozmaitych warsztatach, konferencjach, w pismach naukowych, a także podczas uniwersyteckich kursów. Rozwinięta tutaj ogólna wizja logiki niemonotonicznej, w formie bardziej odpowiedniej dla profesjonalnych logików, została zarysowana w pracy Makinson (2003a). Jej krótki zarys, zaadaptowany dla potrzeb środowiska ekonomistów zainteresowanych logiką, został przedstawiony w pracy Makinson (2003b). Skrócona wersja niniejszej pracy, pozbawiona ćwiczeń, odpowiedzi oraz podrozdziałów powtórkowych pojawiła się jako przegląd Makinson (2005). Znaczna część tekstu została napisana w czasie, kiedy autor nauczał na kursie logiki niemonotonicznej na Wydziale Nauk Komputerowych w King’s College, wiosną, w semestrze 2003/2004. Duże podziękowania za pytania oraz pomoc w uczynieniu książki bardziej przystępną należą się studentom i osobom przeglądającym ten materiał. Mam tu na myśli w szczególności następujące osoby oraz ich pomoc: Audun Stolpe i Robert Schubert — wnikliwe pytania, Xavier Parent i Simon Speed — znalezienie pewnych błędów w ćwiczeniach i propozycje niektórych modelowych odpowiedzi, David Gabelaia — uwagi i ważne spostrzeżenia. Także wielu innych ludzi poczyniło pomocne uwagi w istotnych kwestiach merytorycznych, zwłaszcza podczas procesu powstawania pracy. Należą do nich: Gerd Brewka, Björk Bjurling, Marc Denecker, Michael Freund, Donald Gillies, Dov Gabbay, Jörg Hansen, Daniel Lehmann, João Marcos, Włodek Rabinowicz, Hans Rott, Karl Schlechta oraz pewien anonimowy recenzent z Journal of the IGPL. Książka ta jest dedykowana pamięci mojego wcześniejszego współpracownika, Carlosa Alchourróna, który zmarł w styczniu 1996. Pomimo jego fascynacji logiką zmiany przekonań, nie pokładał on nadziei w jej sąsiadce — logice niemonotonicznej, do czego nie mogłem go zresztą nigdy przekonać. Podczas pisania tej książki uświadomiłem sobie, że stanowi ona kontynuację naszych dyskusji.
Rozdział 1
Podstawy logiki niemonotonicznej
1.1. Wszyscy wnioskujemy niemonotonicznie W dobrze wszystkim znanych opowiadaniach o Sherlocku Holmesie jego towarzysz Watson często wypowiada się na temat zdumiewającej siły dedukcji, którą prezentuje detektyw. Każdy jednak, kto posiada jakąś wiedzę na temat dedukcji czy to w postaci z czasów twórczości Conana Doyla, czy w postaci współczesnej, jest świadomy, że chodzi tutaj o coś innego. Żadna bowiem z konkluzji, do których dochodzi Sherlock Holmes, nie wynika w sposób dedukcyjny z rozważanych przez niego świadectw. Jego rozumowania zawierają natomiast różne ukryte założenia oraz opierają się na domysłach, co powoduje stałą możliwość ich zawodności. Chociaż według relacji Watsona, Sherlock Holmes zazwyczaj wyciąga wnioski zgodne z rzeczywistością, to jednak w prawdziwym życiu możliwość pomyłki jest dużo większa, niż pozwala na to przyjemna fikcja. Mimo zawodności operacji, które wykonuje Holmes, trudno odmówić im miana rozumowań. Holmes odwołuje się nie tylko do jawnie wzmiankowanych obserwacji, ale również pośrednio i w sposób milczący do niewyeksplikowanej wiedzy, zawierającej różne reguły oraz heurystyczne wskazówki. Co istotne, zakres uzyskiwanej w tych wnioskowaniach wiedzy może zmieniać się, kiedy zwiększy się zakres wyjściowych informacji. Dotyczy to w szczególności uzyskanych wcześniej wniosków, które mogą tracić ważność. Niekoniecznie oznacza to jednak, że we wcześniejszych rozumowaniach popełniono błąd. Poprzednie wnioskowania mogą być wciąż kwalifikowane jako najlepsze i najbardziej rozsądne na gruncie wcześniejszej bazy informacyjnej. To właśnie stanowi istotę rozumowań niemonotonicznych. Nie są one jednak domeną jedynie Sherlocka Holmesa. W ten sposób wnioskują lekarze, mechanicy, osoby zajmujące się komputerami i wszyscy ci, którzy muszą coś zdiagnozować, aby podjąć dalsze działania. Roboty, które wybierają sposób poradzenia sobie z przeszkodami, również muszą posłużyć się podobnymi wnioskowaniami, szybko przeprowadzając je w „czasie rzeczywistym” bez przerywania pracy. Archeolodzy porządkujący znalezione zabytki widzą, jak ich wcześniejsze wnioski na temat
2
Rozdział 1. Podstawy logiki niemonotonicznej
wieku, funkcji i pochodzenia danego artefaktu zmieniają się, kiedy pojawiają się nowe świadectwa. W niektórych przypadkach możemy nie uznawać tego typu wnioskowań, uważając, że posiadane świadectwa nie wystarczają do wyciągnięcia jakichkolwiek konkluzji. Byłaby to wyraźnie racjonalna postawa, której celem jest osiąganie konkluzji pewnych. Jest jednak wiele sytuacji, które wymagają natychmiastowego działania, opartego na wnioskach, których niepewność jest wyjątkowo oczywista. Zdarzają się na przykład sytuacje medyczne, w których pacjent może umrzeć, jeśli szybko nie zostanie podjęte jakieś działanie. Może nie być wtedy czasu na przeprowadzanie dalszych testów, które zwiększyłyby ilość wyjściowych informacji. Konieczna jest natomiast natychmiastowa diagnoza, która zadecyduje, jakie działania należy podjąć. Jesteśmy więc czasem zmuszeni dokonywać wnioskowań, będąc jednocześnie świadomi ich zawodności, a nawet słabości. Jeśli bowiem czekalibyśmy na dedukcyjną pewność, nie wyciągając w międzyczasie żadnych wniosków, moglibyśmy się jej nigdy nie doczekać. Opisywany rodzaj wnioskowań jednocześnie wiąże się często z dużą ilością materiału, na podstawie którego lepiej lub gorzej ktoś wnioskuje. Kiedyś Winston Churchill powiedział, że „prawdziwy geniusz posiada umiejętność oceniania informacji pod kątem ich niepewności, niebezpieczeństwa i spójności”. Ogólnie rzecz biorąc, tego typu ocena jest przeprowadzana przez wnioskującego intuicyjnie, z niewielką dawką refleksji i zrozumienia używanych w trakcie jej mechanizmów. Dlatego też wręcz domaga się ona formalnej analizy. Podchodząc do zagadnienia bardziej technicznie, powiemy, że rozumujemy niemonotonicznie, kiedy w taki sposób wyciągamy konkluzję na podstawie danych informacji, że może ona być odrzucona, jeśli zdobędziemy dodatkowe informacje, nawet nie odrzucając żadnej ze starych przesłanek. Krótko mówiąc, daną relację konsekwencji nazwiemy niemonotoniczną wtedy i tylko wtedy, gdy może być tak, iż zdanie x jest konsekwencją zbioru zdań A, ale nie jest konsekwencją jego nadzbioru A ∪ B. W tym momencie czytelnik może powiedzieć: „Oczywiście, w taki właśnie sposób wszelkie wnioskowania muszą być przeprowadzane, nie może być inaczej. To nic nowego. Na pewno każdy standardowy system logiki musi uwzględniać to zjawisko”. Ostatecznie bowiem, chociaż sam termin jest współczesny, to samo zagadnienie niemonotoniczności nie jest nowe. Przez setki lat było ono badane przez epistemologów; dla przykładu Locke oraz Hume zajmowali się nim w siedemnastym i osiemnastym wieku. Od długiego czasu jest ono bliskie uprawiającym nauki prawne oraz występuje w filozofii nauk empirycznych. Jednakże do dziś żaden z głównych systemów logiki nie uwzględnia problemu niepewności i niemonotoniczności. Koncentrują się one bowiem na problemie czysto dedukcyjnej inferencji, gdzie konkluzje są przyjmowane na podstawie przesłanek w sposób
1.2. Konsekwencja klasyczna i jej własności
3
konieczny, bez jakichkolwiek wyjątków czy wątpliwości. Systemy te są jednak monotoniczne: kiedy poprawnie wywnioskujemy w nich jakieś zdanie na podstawie danego zbioru przesłanek, to jest ono konsekwencją dowolnego większego zbioru przesłanek, który zawiera wszystkie przesłanki wyjściowe. Takie podejście dobrze sprawdza się w pewnych kontekstach, w szczególności w dziedzinie matematyki. Ostatecznie bowiem logika, o której mowa, została rozwinięta w celu lepszego zrozumienia dowodów matematycznych. Mamy tu na myśli tzw. logikę klasyczną, na którą składa się: logika zdaniowa (lub prawdziwościowa) oraz logika predykatów (lub logika kwantyfikatorów). Wyjątkowy sukces logiki klasycznej w zakresie analizy rozumowań matematycznych w dużej mierze przesłonił jednak jej ograniczenia w dziedzinach wykraczających poza jej pierwotny zakres zastosowań. Nie twierdzi się oczywiście tutaj, że logika dedukcyjna działa źle. Nie należy również żałować, że historycznie rzecz biorąc rozwój logiki nastąpił w ten sposób. Chociaż bowiem przedmiotem naszych rozważań jest logika niemonotoniczna, stale będziemy stosować logikę klasyczną. Dzieje się tak z dwóch powodów. Po pierwsze, nasze przedsięwzięcie ma charakter matematyczny. Należy zatem prowadzić je zgodnie z zasadami klasycznej dedukcji. Po drugie zaś, systemy niemonotoniczne, które tutaj będziemy studiować, zostaną zdefiniowane przy użyciu konsekwencji klasycznej.
1.2. Konsekwencja klasyczna i jej własności Jak już powiedzieliśmy, zakładamy, że czytelnik jest chociaż częściowo obeznany z pojęciem konsekwencji klasycznej logiki zdaniowej. Spróbujemy jednak odświeżyć tę wiedzę, przypominając definicje i pewne istotne właściwości, które nie zawsze są omawiane w podstawowych podręcznikach. W dalszych partiach książki ich znajomość będzie bowiem konieczna. Klasyczna logika operuje na formalnym języku, którego formuły są zbudowane ze skończonej ilości liter zdaniowych (lub liter elementarnych) przy użyciu odpowiednio wybranych spójników prawdziwościowych. Dla przykładu, możemy zastosować dwuargumentowe spójniki ∧, ∨ i jednoargumentowy spójnik ¬, rozumiane zgodnie ze zwykłymi prawdziwościowymi tabelami dla koniunkcji, alternatywy oraz negacji. Zbiór tych trzech spójników jest funkcjonalnie zupełny w tym sensie, że za ich pomocą można zdefiniować pozostałe spójniki prawdziwościowe. Formuły zbudowane w powyższy sposób będą tutaj nazywane boolowskimi, a ich zbiór będziemy oznaczać za pomocą litery L. Materialną implikację → oraz równoważność ↔, również określone za pomocą odpowiednich tabel prawdziwościowych, wprowadzamy w zwykły sposób jako skróty.
4
Rozdział 1. Podstawy logiki niemonotonicznej
Przez przyporządkowanie będziemy rozumieć dowolną funkcję ze zbioru liter zdaniowych w dwuelementowy zbiór {0, 1}. Każde przyporządkowanie może być w jednoznaczny sposób rozszerzone do wartościowania boolowskiego (krócej — jeżeli kontekst jest jasny — wartościowania), czyli funkcji v ze zbioru wszystkich formuł w dwuelementowy zbiór {0, 1}, która na literach zdaniowych zgadza się z wyjściowym przyporządkowaniem, a jednocześnie dla formuł złożonych z ∧, ∨, ¬ zachowuje się zgodnie z ich tabelami prawdziwościowymi. Kiedy A jest zbiorem formuł, zapis v(A) = 1 będzie skrótem dla stwierdzenia: v(a) = 1, dla dowolnego a ∈ A. Żeby nie komplikować notacji, będziemy używać tej samej litery v zarówno dla oznaczenia przyporządkowania, jak i wartościowania, które ono wyznacza. Niech A będzie dowolnym zbiorem formuł, niech x będzie dowolną formułą. Powiemy, że x jest klasyczną konsekwencją A wtedy i tylko wtedy, gdy nie istnieje takie wartościowanie, że v(A) = 1, podczas gdy v(x) = 0. Standardowo piszemy: A ` x, gdzie znak ` jest symbolem oznaczającym relację wynikania. Kiedy po jego lewej stronie mamy do czynienia ze zbiorem jednoelementowym, notację upraszczamy, opuszczając nawiasy i pisząc: a ` x, zamiast {a} ` x. Widać zatem, że klasyczna konsekwencja jest relacją pomiędzy formułami, lub precyzyjniej mówiąc pomiędzy zbiorami formuł z lewej strony i pojedynczymi formułami z prawej. Może być ona także opisana jako pewna operacja działająca na zbiór formuł A, i dająca w rezultacie większy zbiór Cn(A). W efekcie operacja konsekwencji gromadzi razem wszystkie formuły, które są konsekwencjami danych przesłanek. Obydwa podejścia do klasycznej konsekwencji są w prosty sposób współdefiniowalne. Mając relację `, operację Cn możemy zdefiniować w następujący sposób: Cn(A) = {x : A ` x}; i odwrotnie, wychodząc od operacji Cn, można zdefiniować ` za pomocą następującej definicji: A ` x wtedy i tylko wtedy, gdy x ∈ Cn(A). Także i tutaj uprościmy notację w przypadku, gdy A jest singletonem, pisząc x ∈ Cn(a) zamiast x ∈ Cn({a}). Obydwa podejścia są użyteczne. Niekiedy jedno jest jednak wygodniejsze niż drugie. Na przykład, często łatwiej wyobrażamy sobie pewne własności w terminach relacji, chociaż prościej i bardziej zwięźle dowodzi się ich, używając operacji. To samo można powiedzieć o nieklasycznych konsekwencjach, które dalej będziemy rozważać. Z tego też powodu czasami będziemy stosować jedno, a czasami drugie podejście. Czytelnik powinien się więc nauczyć czynić tak samo. Pojęcie konsekwencji jest blisko powiązane z pojęciem niesprzeczności. Mówimy, że zbiór formuł A jest klasycznie niesprzeczny (lub spełnialny) wtedy i tylko wtedy, gdy istnieje takie boolowskie wartościowanie v, że v(A) = 1, tj. v(a) = 1, dla każdego a ∈ A. W przeciwnym razie powiemy, że zbiór A jest sprzeczny (lub niespełnialny). Klasyczna konsekwencja oraz niesprzeczność są oczywiście pojęciami współdefiniowalnymi: A ` x wtedy i tylko wtedy, gdy zbiór A ∪ {¬x}
1.2. Konsekwencja klasyczna i jej własności
5
jest sprzeczny; i w drugą stronę, zbiór A jest niesprzeczny wtedy i tylko wtedy, gdy A 0 f , gdzie f jest dowolną kontrtautologią, np. p ∧ ¬p. Relacja klasycznej konsekwencji posiada wiele użytecznych właściwości. Zaczniemy od tego, że jest ona relacją domknięcia, co znaczy, że dla dowolnych zbiorów formuł A, B oraz dowolnych formuł a, x spełnia ona następujące warunki: Zwrotność albo inkluzja
jeśli a ∈ A, to A ` a
Kumulatywna przechodniość (CT) lub cięcie
jeśli A ` b dla każdego b ∈ B oraz A ∪ B ` x, to A ` x
Monotoniczność
jeśli A ` x oraz A ⊆ B, to B ` x
Własności te wyrażone w języku Cn mówią, że klasyczna konsekwencja jest operacją domknięcia w tym sensie, że dla dowolnych zbiorów formuł A, B spełnia następujące warunki: Inkluzja albo zwrotność
A ⊆ Cn(A)
Kumulatywna przechodniość (CT) lub cięcie
jeśli A ⊆ B ⊆ Cn(A), to Cn(B) ⊆ Cn(A)
Monotoniczność
jeśli A ⊆ B, to Cn(A) ⊆ Cn(B)
Pierwszy z warunków posiada dwie nazwy. Jest on zwykle nazywany zwrotnością w wypadku relacji, lub inkluzją, kiedy jest wyrażany w terminach operacji. Jest to jednak dokładnie to samo pojęcie, kiedy dokonamy translacji. Drugi z warunków ma wiele nazw w literaturze, z których najbardziej rozpowszechnioną jest właśnie kumulatywna przechodniość, skracana do CT lub cięcie. Ostatni termin należy jednak używać z pewną ostrożnością. Kiedy bowiem dla przykładu pracujemy z logiką klasyczną w ujęciu Gentzena, jest on używany nie tylko dla tej zasady, lecz również dla wielu jej wariantów. Niektórzy czytelnicy mogą być trochę zdziwieni, widząc warunek kumulatywnej przechodniości dla relacji ` zamiast prostej przechodniości, do której są przyzwyczajeni, albo w singletonowej wersji (jeśli a ` b i b ` x, to a ` x), albo w ogólnej postaci (jeśli A ` b dla wszystkich b ∈ B i B ` x, to A ` x). Faktycznie, gdy mamy zarówno zwrotność i monotoniczność, to kumulatywna przechodniość jest równoważna z ogólną postacią prostej przechodniości. W dalszej części jednak będziemy koncentrować się na relacjach, które nie są monotoniczne i w tym kontekście — jak to pierwszy zauważył Gabbay (1985) — lepiej jest pracować z kumulatywną przechodniością niż z jej prostą wersją. Inni czytelnicy, którzy są już obeznani z operacją domknięcia w logice lub w algebrze abstrakcyjnej, mogą być z kolei zdziwieni widząc warunek kumulatyw-
6
Rozdział 1. Podstawy logiki niemonotonicznej
nej przechodniości, podczas gdy zwykle mieli do czynienia z idempotencją, czyli z warunkiem Cn(A) = Cn(Cn(A)). Podobnie jednak jak przedtem, warunki te są równoważne, chociaż nie indywidualnie, lecz na gruncie pozostałych dwóch warunków definiujących pojęcie operacji domknięcia. W wypadku, gdy rozważamy relację, która nie spełnia warunku monotoniczności, również lepiej jest korzystać z warunku (CT) niż z idempotencji. Głównym aktorem naszego spektaklu jest właśnie monotoniczność, a właściwie jej brak, po tym jak ginie w pierwszym akcie. W szczególnym wypadku wynika z niej singletonowa monotoniczność: jeśli a ` x, to {a, b} ` x. Klasyczna relacja konsekwencji posiada również blisko związaną własność, znaną jako singletonowa, koniunkcyjna monotoniczność, wzmacnianie przesłanek lub ∧+(lewostronne): jeśli a ` x, to a ∧ b ` x. Własności te nie są dokładnie takie same. Ostatnia dotyczy koniunkcji. Są jednak równoważne dla każdego systemu, w którym koniunkcja dwóch zdań będąc przesłanką zachowuje się tak samo, jak zbiór tych zdań. Powyższe trzy zasady definiujące pojęcie relacji domknięcia są przykładami reguły Horna, nazywanej tak od nazwiska Alfreda Horna, który zwrócił uwagę na jej znaczenie. Ogólnie rzecz biorąc, w odniesieniu do relacji reguła Horna mówi, że jeśli przedmioty pewnego rodzaju należą do relacji, to należą do niej także pewne inne przedmioty. Żadne z założeń reguły Horna nie jest jednak negatywne — żadne nie wymaga, aby jakieś przedmioty nie należały do relacji. Ponadto konkluzja tej reguły nie może mieć postaci alternatywy, nie może więc mówić, że przy danych założeniach jeden albo drugi przedmiot należy do relacji. Reguły oparte na idei Horna mają bardzo użyteczne własności. Warto wspomnieć, że kiedy każda relacja w pewnej rodzinie relacji spełnia daną regułę Horna, wtedy relacja zdefiniowana za pomocą przecięcia wszystkich relacji w tej rodzinie również spełnia tę regułę. Powyższe trzy warunki dla relacji konsekwencji wzięte razem są — przy założeniu którejś z podanych definicji — równoważne z ich odpowiednikami dla operacji konsekwencji. Należy dodać, że są one także równoważne osobno, jeśli nie liczyć tego, że przejście od warunku (CT) sformułowanego dla operacji Cn do jego sformułowania dla relacji ` wymaga małej pomocy ze strony warunku zwrotności. Warto na końcu jeszcze przypomnieć, że klasyczna konsekwencja posiada własność zwartości, co znaczy, że jeśli A ` x, to istnieje taki skończony podzbiór A0 ⊆ A, że A0 ` x. W języku operacji konsekwencji własność ta przyjmuje postać: jeśli x ∈ Cn(A), to istnieje taki skończony podzbiór A0 ⊆ A, że x ∈ Cn(A0 ). Ze zwartością blisko związana jest następująca własność maksymalności, którą wiele razy będziemy stosować w roli użytecznego narzędzia: jeśli A 0 x, to istnieje taki maksymalny zbiór A+ ⊇ A, iż A+ 0 x. Znaczy to, że dla dowolnego jego nadzbioru A++ ⊃ A+ mamy: A++ ` x. Powyższa własność może być wyrażona
1.2. Konsekwencja klasyczna i jej własności
7
bardziej ogólnie, za pomocą pojęcia niesprzeczności: jeśli suma zbiorów A i B jest niesprzeczna, to istnieje taki zbiór formuł A+ ⊇ A, który jest maksymalnie niesprzeczny z B. Innymi słowy, A+ jest niesprzeczny z B i nie ma żadnego jego nadzbioru A++ ⊃ A+ , który byłby niesprzeczny z B. Omówiona własność może być wyprowadzona z własności zwartości (lub otrzymana bezpośrednio podczas dowodu twierdzenia o zwartości), albo dowiedziona niezależnie. Biorąc pod uwagę jej długą nazwę, również będziemy nazywać ją „zwartością”. Wszystkie te własności logiki klasycznej są w tym sensie abstrakcyjne, że nie odnoszą się do żadnych stałych logicznych: ∧, ∨, ¬. Klasyczna konsekwencja ma oczywiście wiele własności dotyczących każdego z tych spójników. Własności te wynikają z ich tabel prawdziwościowych, jak na przykład dwie następujące własności: a ∧ b ` a ` a ∨ b. Wiele z nich jest już czytelnikowi znanych, nie będziemy więc ich wyliczać. Przypomnimy jednak jedną, która odegra ważną rolę w naszych rozważaniach. Jest to własność łączenia przesłanek w alternatywę, OR lub ∨+(lewostronne). Ma ona następujący charakter: jeśli A ∪ {a} ` x oraz A ∪ {b} ` x, to A ∪ {a ∨ b} ` x. Jak widać, jest to również reguła Horna. W języku operacji konsekwencji może być ona wyrażona następująco: Cn(A ∪ {a}) ∩ Cn(A ∪ {b}) ⊆ Cn(A ∪ {a ∨ b}). Część tę zakończymy uwagą o charakterze historycznym. Pojęcie operacji domknięcia jest związane z pracami Kuratowskiego z zakresu topologii z lat dwudziestych zeszłego wieku. W logice jest jednak ono zdefiniowane ogólniej, nie wymaga ani spełnienia warunku, że Cn(∅) = ∅, ani warunku Cn(A ∪ B) = Cn(A)∪Cn(B), z których w topologii korzystał Kuratowski. Obydwa te warunki są fałszywe dla klasycznej oraz wielu innych konsekwencji logicznych. Pojęcie operacji domknięcia w obecnej formie zostało zdefiniowane przez Tarskiego (1930) i stopniowo przenikało do abstrakcyjnej algebry, np. w pracach Cohna (1965) oraz do logiki, np. Brown i Suszko (1973), Wójcicki (1988). Inne pojęcie domknięcia, zdefiniowane przez warunki inkluzji i idempotencji jest użyteczne w teorii krat, gdzie czasami bywa nazywane domknięciem Moore’a.
Ćwiczenia Ta część zawiera więcej ćwiczeń niż pozostałe podrozdziały, aby upewnić osobę podejmującą lekturę, że posiada ona odpowiednie zaplecze do realizacji tego zamiaru. Osoby, które słabo pamiętają zagadnienia z logiki klasycznej, powinny zanim przejdą do udzielania odpowiedzi pewne rzeczy sobie przypomnieć.
8
Rozdział 1. Podstawy logiki niemonotonicznej
1. Spójniki prawdziwościowe (a) Opisz tabele prawdziwościowe dla spójników koniunkcji, alternatywy oraz negacji. (b) Podaj ścisłą definicję zbioru wszystkich formuł języka zdaniowego, zbudowanych za pomocą spójników: ∧, ∨, ¬. (c) Opisz tabele prawdziwościowe dla implikacji materialnej: →, równoważ˙ ności materialnej: ↔, oraz alternatywy rozłącznej: ∨. (d) Zdefiniuj →, ↔ oraz ∨˙ za pomocą ∧, ∨, ¬. (e) Zdefiniuj ∨ za pomocą ∧, ¬ oraz ∧ za pomocą ∨, ¬. 2. Definicje klasycznej konsekwencji (a)∗ Używając znaku ∅ na oznaczenie pustego zbioru formuł, wyjaśnij, co według podanej definicji konsekwencji klasycznej znaczy, że ∅ ` x. (b) Niech A będzie skończonym i niepustym zbiorem formuł. Z kolei niech V A będzie koniunkcją wszystkich elementów A (w dowolnej kolejności oraz z dowolnie występującymi nawiasami). Pokaż, że: A ` x wtedy i tylko V V wtedy, gdy A ` x, a także, iż: A ` x wtedy i tylko wtedy, gdy V ∅ ` A → x. (c) Zbadaj prawdziwość stwierdzenia z tekstu, mówiącego, że A ` x wtedy i tylko wtedy, gdy zbiór A ∪ {¬x} jest sprzeczny, oraz że zbiór A jest niesprzeczny wtedy i tylko wtedy, gdy A 0 f , gdzie f jest dowolną kontrtautologią. (d) Niech A będzie dowolnym zbiorem formuł zbudowanych co najwyżej za pomocą koniunkcji i alternatywy. Niech x będzie również formułą zbudowaną za pomocą co najwyżej koniunkcji i alternatywy. Pokaż, że jeśli A ` x, to istnieje przynajmniej jedna wspólna litera zdaniowa występująca zarówno w x, jak i w jakimś elemencie A. Jak oceniłbyś to stwierdzenie, jeśli dopuścilibyśmy jeszcze spójnik negacji? (e) Powiemy, że zbiór formuł F, zbudowanych za pomocą spójników: ∧, ∨, ¬, dobrze się zachowuje wtedy, gdy dla dowolnych a, b spełnione są warunki: • a ∧ b ∈ F wtedy i tylko wtedy, gdy a, b ∈ F, • a ∨ b ∈ F wtedy i tylko wtedy, gdy a ∈ F lub b ∈ F, • ¬a ∈ F wtedy i tylko wtedy, gdy a < F. Pokaż, że dla dowolnego wartościowania v : L → {0, 1}, zbiór {a ∈ L : v(a) = 1} dobrze się zachowuje. Pokaż również, że jeśli F dobrze się zachowuje, to istnieje wartościowanie v : L → {0, 1}, takie że: F = {a ∈ L : v(a) = 1}. Stosując powyższe twierdzenie jako lemat, pokaż, że A ` x
1.2. Konsekwencja klasyczna i jej własności
9
wtedy i tylko wtedy, gdy x jest elementem każdego dobrze zachowującego się zbioru formuł X, który zawiera zbiór A. 3. Warunki definiujące operację domknięcia (a)∗ Pokaż, że każdy z warunków domknięcia: zwrotność, kumulatywna przechodniość oraz monotoniczność, wyrażony w języku relacji lub operacji, jest spełniony dla konsekwencji klasycznej. ∗ (b) Sprawdź, czy warunki domknięcia dla Cn są równoważne z odpowiednimi warunkami dla `, używając definicji Cn(A) = {x : A ` x}. Wskaż, w którym dokładnie miejscu wymagany jest warunek zwrotności przy dowodzie (CT) dla relacji ` na podstawie warunku (CT) dla operacji Cn. (c) Przeformułuj warunek (CT) dla operacji Cn w taki sposób, żeby stał się on równoważny analogicznemu warunkowi dla ` bez dodatkowego warunku zwrotności. (d) Przeformułuj (CT) dla ` w taki sposób, żeby stał się równoważny analogicznemu warunkowi dla operacji Cn bez dodatkowego warunku zwrotności. 4. Idempotencja i przechodniość (a) Wyraź warunek zwykłej przechodniości dla operacji Cn. Wyraź idempotencję (będzie wyglądało to dziwnie) jako własność relacji `. ∗ (b) W tekście była mowa o tym, że przy założeniu warunku zwrotności i monotoniczności, warunek kumulatywnej przechodniości jest równoważny ogólnej wersji zwykłej przechodniości. Pokaż, że rzeczywiście tak jest. ∗ (c) W tekście twierdzono również, że w definicji operacji domknięcia możemy zastąpić (CT) przez idempotencję, jeśli założymy warunki inkluzji oraz monotoniczności. Pokaż, że to prawda. (d) Pokaż, że przy założeniu zwartości, singletonowa przechodniość wystarczy do udowodnienia jej ogólnej wersji. 5. Reguły dla alternatywy (a)∗ Pokaż, że konsekwencja klasyczna spełnia warunek łączenia przesłanek w alternatywę (OR). (b)∗ Rozważ następującą regułę: jeśli A ∪ {a ∨ b} ` x, to A ∪ {a} ` x lub A∪{b} ` x. Czy jest to reguła Horna? Czy zachodzi ona dla konsekwencji klasycznej? 6∗ . Reguły dla koniunkcji. Rozważ następującą regułę, zwaną łączeniem konkluzji w koniunkcję (AND) lub ∧+(prawostronne): jeśli A ` x oraz A ` y, to A ` x∧y. Czy jest to reguła Horna? Czy zachodzi ona dla konsekwencji klasycznej?
10
Rozdział 1. Podstawy logiki niemonotonicznej
7. Warunek topologiczny. Pokaż, zgodnie z tym co mówiono w tekście, że warunek Cn(A ∪ B) = Cn(A) ∪ Cn(B) nie zachodzi dla konsekwencji klasycznej.
Problemy Pierwsze trzy problemy dotyczą zagadnienia zwartości logiki klasycznej. Są one przeznaczone dla studentów, którzy mieli do czynienia przynajmniej z jednym dowodem twierdzenia o zwartości. Odświeżą one pamięć oraz dadzą okazję rozszerzenia wiedzy. 1. Udowodnij, że klasyczna konsekwencja jest zwarta, stosując następującą strategię. Załóż, że nie istnieje skończony podzbiór A0 ⊆ A taki, że A0 ` x. Użyj lematu Kuratowskiego-Zorna (lub poindeksowanych liczbami naturalnymi formuł języka, którymi będziesz rozszerzał zbiór A), aby pokazać, że istnieje maksymalny zbiór A+ ⊇ A o tej samej własności co A. Pokaż, że A+ dobrze się zachowuje z uwagi na ∧, ∨, ¬, w sensie podanym w ćwiczeniu 2(e); a na koniec zastosuj wynik tamtego ćwiczenia. 2. Dowiedź, że konsekwencja klasyczna jest zwarta, stosując trochę inną strategię. Zacznij od kilku zabiegów wstępnych. Poindeksuj litery zdaniowe liczbami naturalnymi. Przez n-przyporządkowanie będziemy rozumieli funkcję, która pierwszym n literom zdaniowym przyporządkowuje wartości ze zbioru {0, 1}. Zauważ, że każde n-przyporządkowanie wyznacza w sposób jednoznaczny boolowskie wartościowanie formuł złożonych z elementów zbioru liter zdaniowych, na którym przyporządkowanie jest określone. W celu uproszczenia notacji niech litera v oznacza obydwie funkcje. Teraz załóż, że nie ma skończonego podzbioru A0 ⊆ A takiego, że A0 ` x. Nazwij n-przyporządkowanie v specjalnym wtedy i tylko wtedy, gdy dla każdego m jest takie (n + m)-przyporządkowanie v0 , które spełnia każdą formułę a ∈ A zbudowaną z co najwyżej pierwszych n + m liter, ale nie spełnia formuły x. Na mocy założenia pokaż, że istnieje specjalne 0-przyporządkowanie. Pokaż, że dla każdego n, jeśli istnieje specjalne n-przyporządkowanie, to istnieje również specjalne (n + 1)-przyporządkowanie. Użyj tych dwóch faktów do zdefiniowania na zbiorze liter zdaniowych „przyporządkowania mistrzowskiego”, które spełnia A, lecz falsyfikuje x. Użyj tego przyporządkowania, aby uzyskać wymaganą konkluzję 3. Jeśli jesteś obeznany z podejściem aksjomatycznym do relacji klasycznej konsekwencji oraz z pojęciem mocnej pełności systemu aksjomatycznego względem konsekwencji klasycznej, to pokaż, że zwartość może być uzyskana jako wniosek z mocnego twierdzenia o pełności.
1.3. Nieporozumienia oraz złe przyzwyczajenia
11
Następne dwa problemy są poświęcone bardzo ogólnym pojęciom operacji domknięcia i domkniętych zbiorów. Umożliwiają one generowanie oraz reprezentowanie operacji domknięcia. Problemy te przeznaczone są dla studentów, którzy są obeznani z problematyką zbiorów. 4∗ . Niech X będzie dowolnym zbiorem. O zbiorze X można myśleć jako o zbiorze formuł zdaniowych, ale omawiany problem jest dużo ogólniejszy. Niech F będzie dowolną rodziną podzbiorów zbioru X. Zdefiniujmy operację Cl : 2X → T 2X jak następuje: Cl(A) = {B ∈ F : A ⊆ B}. Pokaż, że Cl jest operacją domknięcia. 5. Odwrotnie, niech teraz Cl będzie pewną operacją domknięcia ustaloną na dowolnym zbiorze X. Zbiór A ⊆ X nazwijmy domkniętym na Cl wtedy, gdy A = Cl(A). Pokaż, że domknięcie dowolnego zbioru A ⊆ X jest identyczne z przecięciem wszystkich domkniętych zbiorów, które go zawierają. Pokaż T więc, że Cl(A) = {B ⊆ X : A ⊆ B oraz B = Cl(B)}. Ostatnie dwa problemy dotyczą relacji pomiędzy pojęciem relacji domknięcia i dość abstrakcyjnym pojęciem dedukcji. Są one przeznaczone dla studentów obeznanych z problematyką zbiorów i dowodami indukcyjnym. 6. Niech R ⊆ 2X × X będzie dowolną relacją pomiędzy podzbiorami X oraz elementami X. Powiemy, że R tworzy łańcuch wtedy i tylko wtedy, gdy dla dowolnego A ⊆ X zachodzi następujący warunek: (A, x) ∈ R, jeśli istnieje skończony ciąg (x1 , . . . , xn ) elementów z X, taki że xn = x oraz dla dowolnego i 6 n, albo xi ∈ A, albo istnieje taki podzbiór A0 ⊆ {x1 , . . . , xi−1 }, że (A0 , xi ) ∈ R. Pokaż, że jeśli R jest relacją domknięcia, to tworzy łańcuch. 7. Ponownie niech R ⊆ 2X × X będzie dowolną relacją pomiędzy podzbiorami X oraz elementami X. Mówimy, że R tworzy drzewo wtedy i tylko wtedy, gdy dla dowolnego A ⊆ X zachodzi następujący warunek: (A, x) ∈ R, jeśli istnieje skończone drzewo elementów z X, którego korzeniem jest element x a liśćmi są wszystkie elementy z A, takie że dla wszystkich węzłów y, które nie są liśćmi w drzewie, (Y, y) ∈ R, gdzie Y jest zbiorem rodziców y w drzewie. Pokaż, że jeśli R jest operacją domknięcia, to tworzy drzewo.
1.3. Nieporozumienia oraz złe przyzwyczajenia Osobie, która pierwszy raz słyszy o logice niemonotonicznej, jest raczej trudno w jasny sposób zrozumieć, o co dokładnie w niej chodzi. Jest to częściowo spowodowane pewnymi nieporozumieniami, które już na początku utrudniają zrozumienie problemu. W bieżącym podrozdziale postaramy się więc usunąć niektóre nieporozumienia, aby czytelnik mógł kontynuować lekturę bez przeszkód.
12
Rozdział 1. Podstawy logiki niemonotonicznej
Słabsza czy silniejsza? Pierwszą rzeczą, którą słyszy się na temat logiki niemonotonicznej, jest to, że nie jest monotoniczna. Inaczej rzecz biorąc, iż nie spełnia ona zasady, że jeśli x wynika z A, to wynika z dowolnego zbioru B ⊇ A. Logika klasyczna — w przeciwieństwie do logiki niemonotonicznej — spełnia tę zasadę, co widzieliśmy w poprzednim podrozdziale. Biorąc pod uwagę tę cechę, przekonanie, że logika niemonotoniczna jest słabsza niż logika klasyczna wydaje się naturalne. I rzeczywiście, w pewnym sensie jest słabsza. Zbiór reguł Horna, które spełnia logika niemonotoniczna jest właściwym podzbiorem reguł spełnianych przez logikę klasyczną. Dla przykładu, dla relacji konsekwencji preferencji (zostanie ona wprowadzona w rozdziale trzecim) zawsze zachodzą warunki zwrotności i kumulatywnej przechodniości, podczas gdy monotoniczność może nie zachodzić. Zatem klasyczna relacja konsekwencji jest granicznym przypadkiem relacji konsekwencji preferencji, bowiem każda reguła Horna spełniana przez dowolną relację preferencji zachodzi też dla konsekwencji klasycznej. W innym, bardziej podstawowym sensie, systemy logik niemonotonicznych, które będziemy studiować, są jednak silniejsze niż ich klasyczny odpowiednik. Przypomnijmy, że konsekwencja klasyczna jest relacją, tj. w standardowym teoriomogościowym rozumieniu jest zbiorem par uporządkowanych. Zatem ` należy rozumieć jako zbiór par uporządkowanych (A, x), gdzie A jest zbiorem formuł boolowskich, a x pewną formułą boolowską. Właśnie na tym poziomie można przeprowadzić najbardziej podstawowe porównanie siły rozważanych logik. Przypuśćmy, że zastanowimy się nad jakąś niemonotoniczną relacją konsekwencji |z (zwykle nazywaną „wężem”). Relacja ta również jest zbiorem par uporządkowanych (A, x). Zgodnie jednak z zasadami jej konstrukcji, które dalej poznamy, jest ona nadzbiorem klasycznej relacji konsekwencji, zdefiniowanym na tym samym zbiorze boolowskich formuł. Zatem: ` ⊆ |z ⊆ 2L × L, gdzie ⊆ jest zwykłą relacją inkluzji. Podobnie rzecz się ma, jeśli weźmiemy pod uwagę jakąś niemonotoniczną operację konsekwencji, zwykle oznaczaną literą C. Wtedy otrzymujemy Cn ≤ C. Relacja ≤ nie jest inkluzją pomiędzy operacjami, lecz inkluzją pomiędzy jej wartościami. To znaczy, że Cn ≤ C, wtedy i tylko wtedy, gdy Cn(A) ⊆ C(A) dla dowolnego zbioru formuł A. W powyższym sensie niemonotoniczne relacje konsekwencji są mocniejsze niż konsekwencja klasyczna. Relacje posiadające tę własność będziemy nazywać nadklasycznymi (supraclassical). Uczciwie rzecz biorąc, w mówieniu o relacjach „słabszych” i „silniejszych” jest mało precyzji. Ktoś może używać tych słów w znaczeniu podanym wcześniej,
1.3. Nieporozumienia oraz złe przyzwyczajenia
13
mówiąc, że relacje typu |z są słabsze niż relacja klasyczna `. W potocznym języku mówimy np. że relacja bycia siostrą jest silniejsza niż relacja pokrewieństwa. Ta pierwsza jest podrelacją, opisaną jako silniejsza, a druga nadrelacją określaną jako słabsza. Ponieważ jednak ` jest podrelacją |z, więc relacja |z powinna być określana jako silniejsza od niej! Wydaje się jednak, że w praktyce tolerujemy te dwa sprzeczne sposoby opisu. Jeden z nich jest zakorzeniony w nieformalnym dyskursie, a drugi w dyskursie bardziej technicznym. Mamy skłonność do mówienia, że relacja bycia siostrą jest silniejsza od relacji pokrewieństwa: w tym wypadku podrelacja jest traktowana jako silniejsza. Z drugiej strony, logicy, bez wyjątku, opisują konsekwencję klasyczną jako silniejszą niż, powiedzmy, konsekwencja intuicjonistyczna czy relewantna. W tym bowiem wypadku — jako nadrelacja — jest ona uważana za silniejszą. Warto na końcu podkreślić, że nie jest ważne, w jaki sposób mówimy, dopóki rozumiemy się, wiemy, co mamy na myśli, i nie dopuszczamy, aby te sposoby opisu powodowały zamieszanie. Terminologia stosowana w tej książce będzie stała. Nadrelacja będzie nazywana silniejszą, a podrelacja — słabszą. Ponadto każdy przypadek, w którym nie będzie zachodzić któraś z reguł Horna, będzie traktowany raczej jako utrata regularności, a nie siły relacji.
Klasyczna czy nieklasyczna? Dopóki warunek niemotoniczności nie jest spełniony, logika wyznaczona przez niemonotoniczną relację konsekwencji różni się od logiki klasycznej. Byłoby jednak czymś mylącym klasyfikowanie jej jako pewnego rodzaju „logiki nieklasycznej” w znaczeniu, w którym termin ten jest zwykle używany, np. do opisu logiki intuicjonistycznej. W przeciwieństwie do przywołanej logiki intuicjonistycznej, nasze relacje konsekwencji nie odrzucają żadnych elementów klasycznej konsekwencji jako niepoprawnych. Jak wzmiankowaliśmy, każda z nich zawiera klasyczną konsekwencję. Nie ma oczywiście niczego złego we własności monotoniczności. Jest ona jak najbardziej odpowiednia dla czysto dedukcyjnych wnioskowań, może jednak zawodzić w innych rodzajach wnioskowania. Jak podkreśliliśmy, logika klasyczna ma swoje właściwe pole zastosowań. Ponadto potrzebujemy jej do zrozumienia i zastosowania w próbach odtworzenia innych rodzajów rozumowań. Pokażemy więc, w jaki sposób „stara dobra relacja konsekwencji” może być pomocna w pewnych sposobach definiowania relacji silniejszych, które mają praktyczną wartość, chociaż nie spełniają warunku monotoniczności. Zamiast więc mówić o logikach nieklasycznych, lepiej mówić o bardziej wyrafinowanych sposobach użycia logiki klasycznej, które prowadzą do zjawiska niemonotoniczności.
14
Rozdział 1. Podstawy logiki niemonotonicznej
Jedna logika czy wiele? Istnieje również trzecie nieporozumienie, dotyczące tego, czym w ogóle jest logika niemonotoniczna. Kontekst logiki klasycznej przyzwyczaił nas do tego, aby sądzić, że — pomijając kwestie notacyjne oraz takie cechy jak wybór pierwotnych stałych logicznych — jest tylko jeden rdzeń logiki. Rdzeniem tym jest logika klasyczna i to właśnie nią posługujemy się w rozważaniach metajęzykowych. Nawet intuicjoniści oraz relewantyści, logicy którzy nie akceptują wszystkich praw logiki klasycznej, mają takie samo przekonanie, chociaż każdy na temat swojego własnego systemu, który jest podsystemem logiki klasycznej. Prowadzi to do pewnych trudności — można by złośliwie dodać — z uzgodnieniem ich przekonania z praktyką metajęzykową, w której używają logiki klasycznej. Jest to jednak inny problem. Mając na uwadze tę jednorodność klasycznej inferencji, studentowi zakłopotanemu wielością różnych rodzajów niemotonicznych konsekwencji naturalne wydają się następujące pytania. Która niemonotoniczna operacja konsekwencji jest prawdziwa bądź podstawowa? Która niemonotoniczna operacja konsekwencji jest poprawna? Którą z nich stosujemy w praktyce, nawet jeśli badamy ich więcej? Odpowiedź na każde z tych pytań brzmi: żadna. Nie ma jednej niemonotonicznej operacji konsekwencji, lecz jest ich nieskończenie wiele. Są nimi wszystkie te relacje, które mogą być generowane z pewnych rodzajów struktur, których elementy mogą różnić się w zakresie granic zakreślonych przez odpowiednie warunki (właśnie to będzie przedmiotem naszych badań). Analogicznie są nimi także relacje spełniające pewne warunki syntaktyczne, które również poznamy. Dodajmy przy tym, że gdyby ktoś chciał uciec przed wielością, szukając części wspólnej tych różnych niemonotonicznych relacji, to doszedłby w końcu do systemu logiki klasycznej. Pozostawiając jednak na boku techniczne detale, nasze główne przesłanie brzmi następująco. Nie spodziewaj się, że znajdziesz jedną niemonotoniczną relację konsekwencji, która zawsze, w każdym kontekście, będzie tą właściwą. Spodziewaj się raczej poznać kilka rodzin takich relacji oraz ciekawe warunki syntaktyczne, czasem przez nie spełniane, a czasami nie, a także ogólne sposoby matematycznego generowania tych relacji z określonych struktur.
Przywyczajenie, którego należy się wyzbyć W kolejnych częściach książki zaprezentujemy systemy, które odgrywają rolę naturalnych pomostów pomiędzy konsekwencją klasyczną i logikami niemotonicznymi. Są one nadklasyczne, choć również i monotoniczne, wyznaczają bowiem operacje domknięcia.
1.3. Nieporozumienia oraz złe przyzwyczajenia
15
„Jeśli są nadklasyczne, to jak jest to możliwe?”, mógłby ktoś zapytać. Konsekwencja klasyczna jest przecież maksymalna, to znaczy, że nie ma operacji silniejszej, określonej na tym samym języku, innej niż operacja trywialna, przypisująca dowolnej formule każdą formułę języka. W jaki zatem sposób „logiki pomostowe” mogą być jednocześnie operacjami domknięcia oraz operacjami nadklasycznymi? Obserwacja dotycząca maksymalności stanowi część standardowej wiedzy logicznej od początku dwudziestego wieku. Powyższe sformułowanie pomija jednak pewien istotny szczegół, który nie zawsze jest bezpośrednio formułowany. Chodzi tutaj o warunek, który teraz wprowadzimy — warunek bycia domkniętym na podstawianie. Przez podstawienie rozumiemy to, co zwykle bywa nazywane jednoznacznym podstawieniem dowolnych formuł za litery zdaniowe w jakiejś formule. Dla przykładu, kiedy a jest formułą p ∧ (q ∨ ¬r), gdzie p, q, r są trzema różnymi literami zdaniowymi, możemy rozpatrzyć podstawienie σ, które zastąpi wszystkie wystąpienia litery p wystąpieniami litery r, wszystkie wystąpienia q formułą ¬p i (jednocześnie, a nie później) wszystkie wystąpienia r formułą ¬(p ∧ s). Operacja ta da nam następujący rezultat: σ(a) = r ∧ (¬p ∨ ¬¬(p ∧ s)). Uproszczenia, takie jak eliminacja podwójnej negacji, nie są częścią podstawiania, ale możliwymi dalszymi działaniami. Podstawienie jest więc funkcją, a nie rodzajem inferencji. Osobom zaznajomionym z algebrą powiemy, że podstawianie jest endomorfizmem określonym na absolutnie wolnej algebrze formuł w nią samą. Nie jest w ogólności więc np. tak, że: a ` σ(a). Wystarczy bowiem wziąć za a literę zdaniową p, a za wynik σ(p) literę q. Z drugiej jednak strony jest prawdą, że kiedy dana formuła boolowska a jest klasyczną tautologią, to również σ(a) jest tautologią dla dowolnego podstawienia σ. Dla przykładu, p ∨ ¬p jest tautologią, tak samo jak jest nią σ(p ∨ ¬p) = σ(p) ∨ ¬σ(p) dla dowolnego σ. Innymi słowy, używając literki T do oznaczenia zbioru wszystkich tautologii i pisząc σ(T ) w celu oznaczenia zbioru {σ(a) : a ∈ T }, dostajemy σ(T ) ⊆ T . Oznacza to, że zbiór tautologii jest domknięty na podstawianie. Również klasyczna operacja konsekwencji jest domknięta na podstawianie. W języku relacyjnym własność tę wypowiemy w następujący sposób: jeśli A ` x, to σ(A) ` σ(x). Z kolei w języku operacji przybierze ona postać: jeśli x ∈ Cn(A), to σ(x) ∈ Cn(σ(A)), lub krócej: σ(Cn(A)) ⊆ Cn(σ(A)). Zauważmy przy okazji, że operacja jednoznacznego podstawiania może być mylona z inną operacją, która czasem posiada tę samą nazwę. Chodzi tu o zastąpienie jednego lub większej ilości wystąpień jakiejś formuły (nie tylko litery zdaniowej) za pomocą innej formuły, z którą jest ona klasycznie równoważna (a więc nie jest dowolną formułą). Oczywiście wynik tej operacji jest klasycznie równoważny formule wyjściowej. W celu uniknięcia pomieszania terminologii ten rodzaj operacji lepiej określać zastępowaniem formułami równoważnymi.
16
Rozdział 1. Podstawy logiki niemonotonicznej
Po powyższych uwagach możemy teraz precyzyjnie wyrazić przysługującą logice klasycznej własność maksymalności. T 1.1. Nie istnieje nadklasyczna relacja domkni¦cia okre±lona na tym samym j¦zyku, co relacja `, która byªaby domkni¦ta na podstawianie, ró»na od `
oraz ró»na od relacji peªnej.
Relacja pełna jest jedyną relacją, która wiąże każdą możliwą przesłankę (albo zbiór przesłanek) z każdą możliwą konkluzją. Jako operacja przypisuje ona każdemu zbiorowi formuł zbiór wszystkich formuł. Dowód tego twierdzenia jest prosty i przypomnimy go tutaj. D´ . Niech `+ będzie dowolną operacją domknięcia określoną na zbiorze formuł, domkniętą na podstawianie oraz nadklasyczną, tj.: ` ⊂ `+ . Chcemy pokazać, że B `+ y, dla dowolnych B, y. Na mocy drugiego założenia, są takie A, x, że A `+ x, ale A 0 x. Stąd wiemy, iż jest takie wartościowanie v, że v(A) = 1, ale v(x) = 0. Weźmy teraz takie podstawienie σ, które podstawia tautologię za każdą elementarną literę, która jest prawdziwa w v, oraz kontrtautologię za każdą literę zdaniową fałszywą w v. Korzystając z prostego indukcyjnego dowodu po złożoności formuł, wykazujemy, że σ(A) jest zbiorem tautologii, podczas gdy σ(x) jest kontrtautologią. Ponieważ z założenia `+ jest domknięta na podstawienia, zatem σ(A) `+ σ(y). Jednakże ponieważ σ(A) jest zbiorem tautologii, więc dla dowolnego B jest tak, że B ` σ(a), gdzie σ(a) ∈ σ(A). Podobnie, ponieważ σ(x) jest kontrtautologią, więc σ(x) ` y dla dowolnej formuły y. Teraz, z uwagi na fakt, iż ` ⊂ `+ , mamy: B `+ σ(a), gdzie σ(a) ∈ σ(A), oraz σ(x) `+ y dla dowolnej formuły y. Składamy te fakty razem z σ(A) `+ σ(x), stosując dwukrotnie kumulatywną przechodniość oraz dwa razy monotoniczność dla `+ , i otrzymujemy B `+ y, co kończy dowód. Morał z tej historii jest taki, że nadklasyczne relacje domknięcia, które będziemy traktować jako pomosty pomiędzy konsekwencją klasyczną i niemotoniczną relacją konsekwencji, nie są domknięte na podstawianie. Dotyczy to także tych niemonotonicznych relacji, które z nich powstaną. Kooliduje to jednak z ugruntowanym przekonaniem. Logiki naucza się bowiem razem z przyzwyczajeniem, że każda porządna relacja konsekwencji powinna mieć czysto formalny i strukturalny charakter, a w konsekwencji spełniać warunek podstawiania. W celu zrozumienia logik niemonotonicznych właśnie tego przyzwyczajenia trzeba się pozbyć.
1.3. Nieporozumienia oraz złe przyzwyczajenia
17
Ćwiczenia 1. Podstawianie Podstawianie opisaliśmy jako jednoczesne zastępowanie liter elementarnych dowolnymi formułami. Bardziej rygorystyczna definicja, umożliwiająca indukcyjne dowodzenie różnych faktów z uwagi na złożoność formuł, ma następującą postać. Podstawienie w języku zdaniowym jest funkcją ze zbioru L wszystkich formuł języka w zbiór L, która zachowuje strukturę formuły z uwagi na spójniki występujące w języku (co w żargonie algebraicznym nazywamy homomorfizmem). W przypadku języka, w którym pracujemy, pierwotnymi spójnikami są: ¬, ∧, ∨. Zatem dla naszego języka podstawieniem jest dowolna funkcja: σ : L → L, która dla dowolnych formuł a, b spełnia warunki: σ(¬a) = ¬σ(a), σ(a ∧ b) = σ(a) ∧ σ(b), σ(a ∨ b) = σ(a) ∨ σ(b). (a)∗ Załóżmy, że pracujemy w języku, w którym jedynymi pierwotnymi spójnikami są ¬ oraz →. Jaka byłaby wtedy prawidłowa definicja podstawiania? (b) Złożenie στ podstawień σ, τ jest zdefiniowane: στ(a) = σ(τ(a)), dla dowolnej formuły a. Pokaż przez indukcję po złożoności formuł, że złożenie podstawień jest również podstawieniem. (c) Podstawienie σ jest nazywane jedno-jednoznacznym (iniekcją) wtedy i tylko wtedy, gdy: jeśli a , b, to σ(a) , σ(b). Podaj przykład podstawienia w naszym boolowskim języku, które nie jest iniekcją. (d) Podstawienie σ jest nazywane na (albo suriekcją) wtedy i tylko wtedy, gdy dla dowolnej formuły x ∈ L jest taka formuła a ∈ L, że x = σ(a). Podaj przykład podstawienia, które jest iniekcją, ale nie jest suriekcją. (e)∗ Przypominając sobie definicję wartościowania z podrozdziału 1.2, pokaż, że złożenie vσ, czyli złożenie podstawienia oraz wartościowania, jest dobrze zdefiniowane oraz samo jest wartościowaniem. (f) Stosując indukcję po złożoności formuł, pokaż że każde podstawienie jest jednoznacznie wyznaczone przez jego wartość na literach zdaniowych. 2. Obrazy oraz domknięcia zbiorów formuł względem funkcji podstawiania Niech A będzie dowolnym zbiorem formuł boolowskich, a σ dowolną funkcją podstawiania. Przez obraz σ(A) zbioru A wyznaczony przez funkcję σ, rozumiemy zbiór {σ(a) : a ∈ A}. Przez domknięcie σ[A] zbioru A wyznaczone przez funkcję σ rozumiemy najmniejszy zbiór, który zawiera A oraz σ(a), gdy a jest elementem A. a)
∗
Sprawdź, że zawsze σ(A) ⊆ σ[A] oraz podaj prosty przykład, w którym A * σ(A).
18
Rozdział 1. Podstawy logiki niemonotonicznej
b) Sprawdź, czy operacja przekształcająca dowolny A w σ[A] jest operacją domknięcia w sensie zdefiniowanym w podrozdziale 1.2. Pokaż, że operacja przekształcająca go w σ(A) nie jest operacją domknięcia. c) Pokaż, że chociaż σ(A) oraz σ[A] nie są tym samym, to dla dowolnego zbioru formuł A oraz dla dowolnego podstawienia σ, jest tak, że: σ(A) ⊆ A wtedy i tylko wtedy, gdy σ[A] = A. 3. Konsekwencja klasyczna Pokaż, że — jak wspomnieliśmy wyżej — relacja klasycznej konsekwencji jest domknięta na podstawianie.
Problemy 1. Niech A będzie dowolnym zbiorem formuł. Rozważmy regułę odrywania (znaną także jako modus ponens). Jej zastosowanie pozwala przejść od pary formuł a, a → x do formuły x. Może więc być ona traktowana jako relacja trójargumentowa. Sformułuj pojęcie zbioru formuł A domkniętego na regułę odrywania. 2. Uogólnij pojęcie obrazu i domknięcia zbioru ze względu na relację o dowolnej ilości argumentów.
Projekt Projekt ten jest przeznaczony dla studentów zaznajomionych z aksjomatyzacją zbioru wszystkich tautologii logiki klasycznej w stylu Hilberta. 1. Niech A będzie dowolnym zbiorem formuł. Rozważmy najmniejszy zbiór, który zawiera A oraz jest domknięty na podstawianie i regułę odrywania. Pokaż, że zbiór ten jest identyczny z domknięciem na regułę odrywania zbioru, który jest domknięciem zbioru A na podstawianie. Z drugiej strony podaj przykład na to, że niekoniecznie jest on identyczny z domknięciem na podstawianie zbioru, który jest domknięciem A na regułę odrywania. Co mówi nam to na temat roli schematów aksjomatów oraz reguły podstawiania w aksjomatyzacjach zbioru wszystkich tautologii? 2. Uogólnij pozytywną część pierwszego zadania w taki sposób, aby dotyczyła nie tylko reguły odrywania, ale również dowolnych innych, odpowiednich reguł dowodzenia.
1.4. Trzy sposoby zwiększania liczby konkluzji
19
1.4. Trzy sposoby zwiększania liczby konkluzji W niniejszym podrozdziale wymienimy trzy różne sposoby uzyskiwania z przesłanek większej ilości wniosków niż pozwala na to konsekwencja klasyczna. Pierwsza metoda opiera się na przyjęciu dodatkowych założeń obecnych w tle naszego wnioskowania, druga polega na zredukowaniu zbioru wartościowań uważanych za możliwe do przyjęcia, wreszcie ostatnia metoda wykorzystuje dodatkowe reguły wnioskowania. Każda z tych metod prowadzi do odpowiedniego rodzaju monotonicznej relacji konsekwencji. Nie są one jednak równoważne, chociaż wszystkie prowadzą do operacji domknięcia, zdefiniowanych w 1.2, oraz wszystkie są nadklasyczne. Relacje konsekwencji, które posiadają te dwie własności będziemy nazywać paraklasycznymi (paraclassical). Innymi słowy, relacja paraklasyczna jest dowolną nadklasyczną relacją domknięcia. Trzy powyższe rodzaje paraklasycznych operacji stanowią konceptualne pomosty prowadzące do odpowiednich rodzin konsekwencji niemonotonicznych, wytworzonych w taki sposób, że umożliwiają zmienianie kluczowych elementów ich konstrukcji w zależności od rozważanych przesłanek. Użyteczna jest tutaj metafora systemu słonecznego. Słońce klasycznej konsekwencji oświetla nieboskłon z jego centrum. Trzy rodzaje paraklasycznych konsekwencji krążą wokół niej jak planety: konsekwencje osiowych założeń, osiowych wartościowań oraz osiowych reguł. Ich istotnymi składnikami są właśnie, odpowiednio: pewien zbiór dodatkowych założeń, zbiór wyróżnionych wartościowań oraz zbiór dodatkowych reguł. Dopuszczając, aby te ostatnie zmieniały się w określony sposób w zależności od przesłanek danego rozumowania, otrzymujemy trzy rodzaje-satelity niemonotonicznych operacji konsekwencji: domyślnych założeń, domyślnych wartościowań, oraz domyślnych reguł. Wszystkie te pojęcia są rozwinięte na czysto zdaniowym języku boolowskim bez zastosowania spójników innych niż spójniki prawdziwościowe.
Ćwiczenia Poniższe ćwiczenia dalej sprawdzają znajomość pojęć z podrozdziału 1.2. 1. Nadklasyczne relacje konsekwencji (a)∗ Pokaż, że dowolna nadklasyczna relacja |z, która spełnia zwykłą przechodniość, spełnia także singletonową koniunkcyjną monotoniczność. ∗ (b) Pokaż, że dowolna nadklasyczna relacja |z, która spełnia kumulatywną przechodniość, spełnia także łączenie konkluzji w koniunkcję.
20
Rozdział 1. Podstawy logiki niemonotonicznej
2. Egzystencjalny wariant konsekwencji klasycznej Zdefiniujmy relację |z logicznej życzliwości (logical friendliness) pomiędzy zbiorami formuł a pojedynczymi formułami x w następujący sposób: A |z x wtedy i tylko wtedy, gdy: dla każdego częściowego wartościowania v liter zdaniowych występujących w formułach z A, jeśli v(A) = 1, to istnieje takie częściowe wartościowanie w liter zdaniowych występujących w A, które zgadza się z v na wspólnych literach oraz dla którego w(x) = 1. Warunek ten sformułowany równoważnie brzmi: każde częściowe wartościowanie v liter zdaniowych występujących w A, takie że v(A) = 1, może być rozszerzone na częściowe wartościowanie v+ wszystkich liter zdaniowych w A ∪ {x}, które zgadza się z v na A oraz dla którego v+ (x) = 1. Opisana tu relacja konsekwencji jest systematycznie badana w pracy: Makinson (2005a). Udowodnij każdy z poniższych faktów dla |z : (a) Jest to relacja nadklasyczna, ale różna od klasycznej relacji konsekwencji oraz relacji pełnej. (b) Nie jest ona domknięta na podstawianie. (c) Spełnia następującą singletonową wersję warunku (CT): jeśli A |z x oraz A ∪ {x} |z y, to A |z y. (d) Nie spełnia żadnej z reguł: (AND), zwykłej przechodniości oraz singletonowego warunku koniunkcyjnej monotoniczności. (e) Nie spełnia pełnej wersji (CT).
1.5. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Niemonotoniczne rozumowania nie są czymś dziwnym i ezoterycznym. W rzeczywistości większość naszych codziennych rozumowań jest niemonotoniczna. Czysto dedukcyjne, monotoniczne inferencje mają miejsce w specjalnych kontekstach, najczęściej tych czysto matematycznych. Mimo tego, zanim zaczniemy stosować sensownie jakikolwiek inny rodzaj rozumowania — monotoniczny czy nie — musimy dobrze zrozumieć działanie konsekwencji klasycznej. Kiedy zaczynamy studiować logikę niemonotoniczną, ważne jest, żeby unikać pewnych nieporozumień. W szczególności nie powinniśmy mylić sensu, w jakim rozumowania niemonotoniczne są słabsze niż ich klasyczne odpowiedniki, z bardziej podstawowym znaczeniem tego słowa, w którym są one typowo silniejsze. Następnie, o ile logikę klasyczną badamy jako pojedynczy system, lub innymi słowy pojedynczą relację konsekwencji, to logikę niemonotoniczną studiujemy
1.5. Powtórzenie materiału i dalsze poszukiwania
21
nie jako jedną, lecz nieskończenie wiele takich relacji. Po trzecie, nie jest dobrze myśleć o logice niemonotonicznej jako o pewnym rodzaju logiki nieklasycznej, w sensie, w którym termin ten jest zwykle rozumiany. Lepiej jest patrzeć na nią jak na szereg sposobów zastosowania klasycznej konsekwencji do uzyskiwania niemonotonicznych rezultatów. Wreszcie, logika klasyczna jest domknięta na podstawianie za litery zdaniowe. Tej własności nie posiadają jednak nadklasyczne relacje konsekwencji — monotoniczne, jak i niemonotoniczne — które będziemy dalej badać. Jest zatem czymś niezwykle istotnym, aby czytelnik nie traktował własności domknięcia jako danej raz na zawsze. W książce opiszemy trzy sposoby uzyskiwania większej ilości wniosków z przesłanek niż pozwala na to konsekwencja klasyczna. Pierwszy polega na zastosowaniu dodatkowych, ukrytych przesłanek; drugi wyróżnia pewne wartościowania; a trzeci opiera się na zastosowaniu dodatkowych reguł wnioskowania. Każdy z tych sposobów prowadzi do jakiegoś rodzaju monotonicznych operacji konsekwencji, stanowiąc konceptualne przejście do korespondującej z nim rodziny konsekwencji niemonotonicznych.
Lista sprawdzająca znajomość pojęć i definicji Podrozdział 1.2. Formuła boolowska, przyporządkowanie wartości, boolowskie wartościowanie, konsekwencja klasyczna, relacja inferencji vs operacja inferencji, operacje domknięcia, reguły Horna, zwartość, specyficzne reguły Horna, które zachodzą dla klasycznej konsekwencji: inkluzja, kumulatywna przechodniość, monotoniczność, łączenie przesłanek w alternatywę, przechodniość, idempotencja. Podrozdział 1.3. Stosunek zawierania pomiędzy relacjami konsekwencji, nadklasyczne operacje konsekwencji, jednoznaczne podstawianie za litery zdaniowe, obraz i domknięcie na podstawienie zbioru lub relacji pomiędzy formułami, sens, w jakim klasyczna logika jest maksymalna. Podrozdział 1.4. Paraklasyczne operacje konsekwencji, intuicje stojące za pojęciami osiowych założeń, wartościowań i reguł, oraz za pojęciem domyślnych założeń, wartościowań i reguł.
Dalsze lektury • Antoniou G., Nonmonotonic Reasoning, MIT Press, Cambridge MA 1997. Podrozdziały 13.1–13.4. • Brewka G., Dix J., Konolige K., Nonmonotonic Reasoning – An Overview, CSLI Publications, Stanford CA 1997. Rozdział 1. • Ginsberg M., AI and nonmonotonic reasoning, w: Handbook of Logic in Artificial Intelligence and Logic Programming. Volume 3: Nonmonotonic Reasoning
22
Rozdział 1. Podstawy logiki niemonotonicznej
and Uncertain Reasoning, red. Gabbay D. M. i inni, Clarendon Press, Oxford 1994, s. 1–33. • Hodges W., Classical logic I: first-order logic, w: The Blackwell Guide to Philosophical Logic, red. Goble L., Blackwell, Oxford 2001, s. 9–32. • Horty J., Nonmonotonic Logic, w: The Blackwell Guide to Philosophical Logic, red. Goble L., Blackwell, Oxford 2001, s. 336–361. • Makinson D., Ways of doing logic: what was different about AGM 1985?, Journal of Logic and Computation, 13, 2003, s. 3–13. • Makinson D., Bridges between classical and nonmonotonic logic, Logic Journal of the IGPL, 11, 2003, s. 69–96. http://www3.oup.co.uk/igpl/Volume_11/Issue_01/. • Wójcicki R., Theory of Logical Calculi: Basic Theory of Consequence Operations, Dordrecht, Kluwer 1988. Rozdział 1, podrozdziały 1.0–1.6.
Rozdział 2
Zastosowanie dodatkowych założeń ukrytych w tle
2.1. Od konsekwencji klasycznej do założeń osiowych Rozpoczniemy od zbadania najprostszego rodzaju paraklasycznej konsekwencji oraz jej transformacji w pewien niemonotoniczny rodzaj wnioskowania, nazywany inferencją na gruncie dodatkowych założeń ukrytych w tle (inference with additional background assumptions). Na co dzień, podczas dokonywania wnioskowań, nie wszystkie założenia naszych rozumowań są równie jawne. Zwykle tylko kilka z nich wyrażamy explicite, ponieważ mają bezpośredni związek z rozważaną sytuacją lub w jakiś inny sposób zasługują na uwagę. Poza nimi jest zazwyczaj jeszcze wiele innych założeń, których eksplikacją w ogóle się nie przejmujemy, ponieważ należą one do ogólnej wiedzy, albo z jakiegoś innego powodu są uważane za oczywiste. Pewną rolę odgrywają również inne założenia, których jesteśmy tylko częściowo świadomi. Opisane zjawisko było już znane antycznym Grekom, którzy używali terminu entymemat do nazywania rozumowań, w których część przesłanek jest ukryta. Właśnie ten pomysł będziemy rozwijać w bieżącym podrozdziale. Pozostaniemy w obrębie tego samego języka zdaniowego, co w logice klasycznej, zbiór jego wszystkich formuł oznaczając literą L. Niech teraz K ⊆ L będzie ustalonym zbiorem formuł. Intuicyjnie K będzie odgrywał rolę zbioru założeń ukrytych w tle lub zbioru „oczekiwań” (expectations), jak jest on nazywany w pracy Gärdenforsa i Makinsona (1994). Niech A będzie dowolnym zbiorem formuł, a x dowolną formułą. D 2.1 (Konsekwencja założeń osiowych).
´ Powiemy, »e x jest konsekwencj¡ zbioru A modulo zbiór zaªo»e« K (co zapiszemy: A `K x lub x ∈ CnK (A)) wtedy i tylko wtedy, gdy nie istnieje warto±ciowanie, takie »e v(K ∪ A) = 1, podczas gdy v(x) = 0. Równowa»nie: wtedy i tylko wtedy, gdy K ∪ A ` x. ´ Dan¡ relacj¦ lub operacj¦ nazywamy konsekwencj¡ zaªo»e« osiowych wtedy i tylko wtedy, gdy jest identyczna z `K (odp. CnK ), dla jakiego± zbioru formuª K .
24
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Nie ma zatem jednej relacji konsekwencji osiowych założeń, lecz wiele — po jednej dla każdej wartości zmiennej K. Z uwagi na to, że konsekwencja klasyczna jest monotoniczna, operacje i relacje konsekwencji osiowych założeń są nadklasyczne w opisanym wcześniej sensie. Zatem dla dowolnego K mamy, że ` ⊆ `K , lub w notacji operacji konsekwencji Cn ≤ CnK . Operacje te dzielą z klasyczną konsekwencją również wiele abstrakcyjnych własności, spełniają np. warunki: inkluzji, kumulatywnej przechodniości i monotoniczności. Są zatem nadklasycznymi operacjami domknięcia, a więc zgodnie z definicją (podrozdział 1.4) są paraklasyczne. Ponadto mają one własność zwartości oraz własność łączenia przesłanek w alternatywę. Te pozytywne cechy łatwo wykazać stosując w prosty sposób odpowiednie definicje. Dla lepszego zobrazowania podsumujemy je w tabeli 2.1. Tabela 2.1. Pewne własności konsekwencji założeń osiowych Nadklasyczna Zwrotna Kumulatywnie przechodnia (CT)
Operacja domknięcia
Paraklasyczna
Monotoniczna Łączy przesłanki w alternatywę (OR) Zwarta
Z drugiej strony, ponieważ relacje `K są nadklasycznymi relacjami domknięcia, więc na mocy twierdzenia 1.1 powinniśmy spodziewać się, że nie są one w ogólności domknięte na podstawianie. Pouczające może być prześledzenie jakiegoś prostego przykładu, pokazującego dlaczego warunek ten nie jest spełniony. Niech K = {p}, gdzie p jest literą zdaniową. Weźmy dowolną inną literę zdaniową q oraz zbiór A = {q} i x = p ∧ q. Wtedy A `K p ∧ q, ponieważ {p, q} ` p ∧ q. Teraz weźmy podstawienie σ, które każdą literę zdaniową zastępuje nią samą, za wyjątkiem litery p, która zostaje zastąpiona przez pewną literę zdaniową r różną od p oraz q. W rezultacie σ(p) = r oraz σ(q) = q. Wtedy σ(A) 0K σ(x), ponieważ K ∪ σ(A) = K ∪ {σ(q)} = K ∪ {q} = {p, q} 0 r ∧ q = σ(x). Analiza tego przykładu uwidacznia następujący mechanizm: podstawienie jest stosowane do wyeksplikowanych przesłanek A oraz do konkluzji x, nie obejmuje jednak założeń w tle K, ponieważ K się nie zmienia.
2.1. Od konsekwencji klasycznej do założeń osiowych
25
Łatwo zauważyć, że gdyby zbiór przesłanek w tle K był również domknięty na podstawianie, to odpowiednia relacja konsekwencji `K również byłaby domknięta na podstawianie. Ten specjalny przypadek ma charakter zdegenerowany. Jak zauważyliśmy, relacja `K jest paraklasyczna (czyli nadklasyczna i domknięta), zatem zgodnie z twierdzeniem 1.1, jeśli jest ona domknięta na podstawianie, to musi być konsekwencją klasyczną (co ma miejsce gdy K = Cn(∅)) albo relacją pełną (w tym wypadku K ⊃ Cn(∅)). Efekt taki możemy osiągnąć w bardziej bezpośredni sposób: gdy K jest domknięte na podstawianie, to albo wszystkie jego elementy są tautologiami, albo dla jednego z jego elementów istnieje przypadek podstawienia, który daje kontrtautologię należącą do K, tak więc K ∪ A jest sprzeczne, a zatem K ∪ A ` x, dla dowolnych A, x. Uderzającą cechą konsekwencji osiowych założeń, która odróżnia ją od następnych systemów pomostowych opisywanych w książce, jest to, że pozytywne własności wymienione w powyższej tabeli wystarczają do jej scharakteryzowania. Mamy tu na myśli „twierdzenie o reprezentacji” dla operacji konsekwencji założeń osiowych (i — odpowiednio — dla korespondujących z nimi relacji). T 2.2. Niech Cn+ b¦dzie dowoln¡ paraklasyczn¡ operacj¡ konsekwen-
cji, która jest zwarta i speªnia warunek ª¡czenia przesªanek w alternatyw¦. Istnieje wówczas taki zbiór formuª K , »e Cn+ = CnK . Ogólne pojęcie twierdzenia o reprezentacji i jego powiązania z pojęciem twierdzenia o pełności przedyskutujemy w dalszych podrozdziałach. Przedstawione wyżej twierdzenie zostało sformułowane przez Rotta (2001, podrozdział 4.4, obserwacja 5), ale wydaje się, że już od dłuższego czasu było częścią ogólnej wiedzy logicznej. Zanim podamy jego dowód, zwrócimy uwagę na trzy ważne własności, które zostaną w nim wykorzystane. • Mówimy, że operacja konsekwencji C spełnia lewostronny, klasyczny warunek równoważności (LCE) wtedy i tylko wtedy, gdy jeśli Cn(A) = Cn(B), to C(A) = C(B). Zwróćmy uwagę na ten wzór: w poprzedniku występuje klasyczna konsekwencja Cn, natomiast w następniku operacja, którą jesteśmy zainteresowani. Zasada ta mówi zatem coś o tych dwóch operacjach. Własność przez nią wyrażana jest często znana pod nazwą „lewostronna, logiczna równoważność” (LLE), co może być nieco mylące, dopóki słowo „logiczny” utożsamiamy ze słowem „klasyczny”. • Powiemy, że dana operacja konsekwencji C spełnia warunek prawostronnego osłabiania (RW), wtedy i tylko wtedy, gdy: jeśli x ∈ C(A) oraz y ∈ Cn(x), to y ∈ C(A). W notacji relacyjnej wygląda to tak: jeśli A |z x ` y, to A |z y. Zwróćmy ponownie uwagę na związek między klasyczną operacją Cn oraz rozważaną właśnie operacją C.
26
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
• Mówimy, że operacja konsekwencji C ma własność uwalniania przesłanek, wtedy i tylko wtedy, gdy: jeśli B ⊆ A, to C(A) = C(C(B) ∪ A). Własność ta nie ma charakteru interakcyjnego, lecz dotyczy tylko C. Warunek ten mówi, że w wypadku, gdy B ⊆ A, formuły z C(B) mogą zostać użyte w sposób niezależny od A, nie wpływając na konsekwencje A. W przypadku, kiedy B jest zbiorem pustym, warunek głosi, iż C(A) = C(C(∅) ∪ A). Inaczej mówiąc, zawartość zbioru C(A) nie ulega zmianie przez dodanie do A konsekwencji zbioru pustego (oczywiście bierzemy tu pod uwagę tę samą operację konsekwencji). Klasyczna konsekwencja posiada wszystkie te trzy własności. Pierwszą spełnia w sposób trywialny, drugą jako konsekwencję przechodniości, zaś trzecia jest prosta do sprawdzenia. W celu przeprowadzenia dowodu poprzedniego twierdzenia, musimy pokazać, że każda konsekwencja paraklasyczna posiada te trzy własności. L 2.3 (do twierdzenia 2.2). Niech Cn+ b¦dzie dowoln¡ operacj¡ paraklasyczn¡. Wtedy Cn+ speªnia lewostronn¡, klasyczn¡ równowa»no±¢, warunek prawo-
stronnego osªabiania oraz warunek uwalniania przesªanek.
Dowód lematu jest oczywisty. Dzięki temu lematowi możemy teraz w następujący sposób dowieść twierdzenie o reprezentacji. D´ 2.2. Niech Cn+ będzie dowolną paraklasyczną operacją, która jest zwarta oraz spełnia warunek łączenia przesłanek w alternatywę. Weźmy K = Cn+ (∅). Chcemy pokazać, że Cn+ = CnK . W tym celu wystarczy pokazać, że CnK ≤ Cn+ oraz Cn+ ≤ CnK . Dla dowodu CnK ≤ Cn+ musimy pokazać, że dla dowolnego A, Cn(Cn+ (∅) ∪ A) ⊆ Cn+ (A). Z nadklasyczności Cn ≤ Cn+ , otrzymujemy: Cn(Cn+ (∅) ∪ A) ⊆ Cn+ (Cn+ (∅)∪A) = Cn+ (A), ponieważ dla konsekwencji paraklasycznych spełniony jest warunek uwalniania przesłanek. Dowód drugiej inkluzji Cn+ ≤ CnK wymaga pokazania, że dla dowolnego A, + Cn (A) ⊆ Cn(Cn+ (∅) ∪ A). W tym właśnie miejscu odwołamy się do własności zwartości oraz łączenia przesłanek w alternatywę. Załóżmy, że x ∈ Cn+ (A). Z uwagi na zwartość Cn+ , istnieje taki skończony podzbiór B ⊆ A, że x ∈ Cn+ (B). Niech b będzie koniunkcją wszystkich skończenie wielu elementów z B. Stosując lewostronną klasyczną równoważność otrzymujemy: x ∈ Cn+ (b), a następnie, po zastosowaniu prawostronnego osłabiania, ¬b ∨ x ∈ Cn+ (b). Ponadto, z uwagi na nadklasyczność Cn+ , wiemy, że ¬b ∨ x ∈ Cn(¬b) ⊆ Cn+ (¬b). Używając teraz łączenia przesłanek w alternatywę oraz ponownie stosując warunek lewostronnej klasycznej równoważności, otrzymujemy: ¬b ∨ x ∈ Cn+ (b ∨ ¬b) = Cn+ (∅). Ponieważ ¬b ∨ x ∈ Cn+ (∅), warunek monotoniczności dla klasycznej konsekwencji pozwala stwierdzić, że dla pokazania, iż x ∈ Cn(Cn+ (∅) ∪ A), wystarczy
2.1. Od konsekwencji klasycznej do założeń osiowych
27
wykazać, że x ∈ Cn({¬b ∨ x} ∪ A). Na mocy konstrukcji b, wiemy jednak, że b ∈ Cn(A). Zatem przez zastosowanie sylogizmu dysjunkcyjnego dla klasycznej konsekwencji, otrzymujemy x ∈ Cn({¬b ∨ x} ∪ A), co kończy dowód. Czytelnik mógłby w tym momencie zapytać: „Chwileczkę, gdzie w tym dowodzie wykorzystano założenie, że Cn+ jest monotoniczna?” Odpowiedź brzmi: monotoniczność nie została wykorzystana bezpośrednio w dowodzie twierdzenia 2.2 w oparciu o lemat 2.3, lecz w dowodzie samego lematu 2.3 oraz w dowodzie własności uwalniania przesłanek. Część tę zakończymy dwoma ogólnymi uwagami. Pierwsza z nich dotyczy istotności warunku zwartości, a druga — różnicy pomiędzy twierdzeniami o reprezentacji a twierdzeniami o pełności. Dlaczego własność zwartości jest tak ważna? Pojęcie zwartości często wprowadza studentów w zakłopotanie. Interesuje ich bowiem zwykle to, czemu jest ono tak ważne i dlaczego powinniśmy brać je pod uwagę? Odpowiedź zależy od tego, czy zajmujemy się skończonymi, czy nieskończonymi systemami. System skończony to taki, w którym jest skończenie wiele wzajemnie nierównoważnych formuł, modulo pojęcie logicznej równoważności, które stosujemy. Oczywiście we wszystkich, nawet najbardziej trywialnych wypadkach, będziemy mieli do czynienia z nieskończoną ilością formuł. Nawet prosta litera zdaniowa, do której sukcesywnie dodajemy negacje, daje w efekcie nieskończenie wiele różnych formuł. Jeśli jednak stosujemy logikę klasyczną, to wśród nich są tylko dwa typy formuł wzajemnie nierównoważnych. Zbiór {p, ¬p, ¬¬p, ¬¬¬p, . . . } z uwagi na klasyczną równoważność można bowiem podzielić tylko na dwie klasy równoważności (formuł z parzystą i nieparzystą ilością negacji). Mówiąc ogólniej, jeśli język zdaniowy zawiera jedynie skończenie wiele liter zdaniowych, wtedy zastosowanie stałych boolowskich daje w efekcie jedynie skończenie wiele wzajemnie nierównoważnych formuł z uwagi na klasyczną równoważność (a zatem także z uwagi na dowolną nadklasyczną równoważność). W tym przypadku powiemy, że system jest skończony. W przypadku systemów skończonych zwartość nie jest własnością interesującą, jest ona bowiem spełniona automatycznie. Załóżmy, że dla pewnego skończonego systemu i pewnej relacji konsekwencji: A |z x. Skoro cały system jest skończony, to A posiada pewien skończony podzbiór A0 , z którym jest równoważny, czyli A0 |z a, dla dowolnego a ∈ A, oraz odwrotnie A |z a, dla dowolnego a ∈ A0 . Zatem, zakładając, że relacja |z spełnia (CT), otrzymujemy A0 |z x.
28
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Zainteresowanie zwartością pojawia się dopiero wtedy, gdy system jest nieskończony. Ma to miejsce w klasycznej logice zdań, kiedy to w alfabecie dopuścimy nieskończenie wiele liter zdaniowych. Może to mieć miejsce także w logice pierwszego rzędu (predykatów lub kwantyfikatorów), nawet jeśli „alfabet” jest skończony, a w szczególności, gdy występują w nim tylko dwa predykaty. Rzecz może podobnie wyglądać w pewnych nieklasycznych logikach zdaniowych, nawet jeśli liczba liter zdaniowych jest skończona (jest tak na przykład w bardzo słabych podlogikach logiki klasycznej, które nie dają możliwości wykazania odpowiednich równoważności, a także w rozszerzeniach logiki klasycznej, gdzie język został wzbogacony o dalsze, nieprawdziwościowe funktory, jak w odpowiednich logikach modalnych). W niniejszej książce zajmujemy się jednak tylko językiem klasycznym, boolowskim, bez dodatkowych stałych, a wszystkie badane logiki zawierają konsekwencję klasyczną. Z naszego punktu widzenia zwartość jest więc istotna tylko wtedy, gdy rozpatrujemy nieskończone zbiory przesłanek. W rezultacie własność zwartości gwarantuje nam, że nawet kiedy zbiór formuł jest faktycznie nieskończony (tzn. nie jest równoważny z żadnym ze swoich podzbiorów), to zachowuje się tak, jak zbiór skończony, a więc formuła, która z niego wynika, wynika też z pewnego jego skończonego podzbioru. Zwartość dostarcza zatem konceptualnego przejścia pomiędzy zbiorami skończonymi i nieskończonymi. Z tego też powodu, poprzez wykorzystanie dowodów dla skończonych przypadków, wygodnie dowodzi się wielu własności systemów nieskończonych. Należy jednak zauważyć, że pojawiają są tutaj pewne ograniczenia. Różne konsekwencje zbioru A mogą wymagać odniesienia do różnych jego skończonych podzbiorów, lecz jednocześnie może nie być żadnego skończonego ograniczenia górnego rozmiaru podzbiorów, które za te wszystkie konsekwencje odpowiadają. Ten sposób zastosowania zwartości jest wykorzystywany przez matematyków, którzy dążą do opisania nieskończonych przypadków na podstawie przypadków skończonych. Postrzegają oni zwartość jako cenne narzędzie w logice, podobnie jak w abstrakcyjnej algebrze czy topologii. Logicy filozoficzni, którzy próbują lepiej zrozumieć przejście od przypadków skończonych do nieskończonych, również potrzebują zwartości jako konceptualnego narzędzia. Z kolei przedstawiciele tzw. nauk komputerowych (computer science), pracując ze skończonymi przypadkami, ignorują zwartość. Choć i oni, wcześniej lub później, będą mogli również potrzebować systemów nieskończonych, a wtedy zwartość będzie najlepszym, gotowym narzędziem do zastosowania. Twierdzenia o reprezentacji a twierdzenia o pełności Dla osób zaznajomionych z algebrą abstrakcyjną użycie terminu „twierdzenie o reprezentacji” w opisie twierdzenia 2.2 jest czymś zwyczajnym. Podobnych twier-
2.1. Od konsekwencji klasycznej do założeń osiowych
29
dzeń jest bowiem w algebrze mnóstwo, na przykład twierdzenie o reprezentacji algebr Boole’a jako ciał zbiorów, czy grup za pomocą przekształceń. Jednak dla tych osób, które wcześniej interesowały się logiką klasyczną (lub jej podsystemami, np. logiką intuicjonistyczną) użycie tego terminu może stanowić pewien problem. W logice jesteśmy bowiem przyzwyczajeni do „twierdzeń o pełności”. Dlaczego więc — chociaż obydwa te rodzaje twierdzeń mogą w praktyce wydawać się czymś podobnym — wprowadzamy tutaj odmienną terminologię? Powodem jest fakt akcentowany w podrozdziale 1.3. Konsekwencja klasyczna jest bowiem jedną relacją, a niemonotonicznych konsekwencji, które tu studiujemy jest wiele: różne konsekwencje są wytwarzane przez wybór różnych parametrów w ramach danego aparatu je generującego (tak jak w wypadku wyboru zbioru założeń ukrytych w tle K). Twierdzenie o pełności dla klasycznej logiki mówi nam, że jeśli x jest konsekwencją A, gdzie relacja ta jest zdefiniowana semantycznie, w terminach wartościowania, to x można również otrzymać z A przez zastosowanie pewnych reguł. Inaczej mówiąc, jeśli A ` x, to x należy do najmniejszego nadzbioru A, który jest domknięty na pewne reguły syntaktyczne. Reguły te muszą być dobrane w taki sposób, aby pojęcie „najmniejszego nadzbioru” miało sens. Przecięcie dowolnej rodziny spełniających je nadzbiorów A musi również spełniać te reguły. Są to zazwyczaj reguły Horna. Z drugiej strony twierdzenie o reprezentacji mówi, że każda struktura spełniająca pewne warunki syntaktyczne jest identyczna (lub w pewnym szerszym sensie równoważna) z pewną strukturą semantyczną określonego rodzaju. Dla przykładu, twierdzenie o reprezentacji dla algebr Boole’a mówi, że każda algebra Boole’a (zdefiniowana przez, powiedzmy, równości) jest izomorficzna z pewnym ciałem zbiorów. Wracając do naszego kontekstu, twierdzenie o reprezentacji dla konsekwencji osiowych założeń (twierdzenie 2.2) mówi, że każda relacja spełniająca pewne warunki syntaktyczne (paraklasyczność, zwartość, łączenie przesłanek w alternatywę) jest identyczna z pewną semantycznie zdefiniowaną relacją (jedną z rodzaju `K ). W wypadku twierdzeń o reprezentacji warunki syntaktyczne mogą przyjmować większą różnorodność niż w przypadku twierdzeń o pełności. Kiedy bowiem nie domykamy zbiorów na określone warunki, mogą one nie przyjmować postaci reguł Horna. Przyjrzymy się potem kilku przykładom z warunkami racjonalnej monotoniczności oraz dysjunkcyjnej monotoniczności, które nie są regułami Horna. Co się jednak stanie, jeśli postaramy się uzyskać twierdzenie o pełności z twierdzenia 2.2, dokonując przecięcia wszystkich relacji spełniających specyficzne warunki syntaktyczne, czyli weźmiemy najmniejszą taką relację? Nie jest trudno sprawdzić, że otrzymamy wtedy ponownie konsekwencję klasyczną!
30
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Podsumowując, kiedy mamy do czynienia z nadklasyczną relacją inferencji, powtarza się następujący wzorzec: można udowodnić odpowiednie twierdzenie o reprezentacji, ale próba uzyskania twierdzenia o pełności za pomocą najmniejszej relacji spełniającej dane warunki Horna prowadzi do trywializacji.
Ćwiczenia 1∗ . Sprawdź prawdziwość poczynionego wyżej stwierdzenia, że konsekwencja założeń osiowych spełnia warunki inkluzji, kumulatywnej przechodniości i monotoniczności, a zatem że jest operacją domknięcia. Wskazówka: Przypomnij sobie fakt z rozdziału 1, mówiący, że operacja klasyczna spełnia te warunki, a następnie pokaż, że dziedziczą je również operacje konsekwencji założeń osiowych. 2. Pokaż, że konsekwencja założeń osiowych spełnia także warunek łączenia przesłanek w alternatywę. Wskazówka: Postępuj analogicznie jak w poprzednim ćwiczeniu. 3∗ . Pokaż, że konsekwencja założeń osiowych jest zwarta. Wskazówka: Postępuj analogicznie jak w poprzednim ćwiczeniu. 4. Weź po uwagę przykład podany w tekście, który miał ilustrować fakt, iż konsekwencja założeń osiowych nie jest w ogólności domknięta na podstawianie, a następnie zmodyfikuj go, używając innego zbioru przesłanek, innej konkluzji oraz innego podstawienia w tak sposób, aby nadal był kontrprzykładem. 5∗ . Uzasadnij lemat 2.3.
Problem Uzasadnij poczynione w tym podrozdziale stwierdzenie, mówiące, że najmniejsza operacja Cn+ spełniająca warunki twierdzenia 2.2 jest operacją klasyczną. Wskazówka: Podziel dowód na dwie części, pokazując najpierw, że Cn ≤ Cn+ , a następnie iż Cn+ ≤ Cn.
2.2. Od założeń osiowych do założeń domyślnych Co wspólnego ma to, co do tej pory powiedzieliśmy, z inferencją niemonotoniczną? Relacje konsekwencji założeń osiowych `K są, jak widzieliśmy, wzorcowo monotoniczne. Niemonotoniczność będzie jednak wynikiem tego, że dopuścimy,
2.2. Od założeń osiowych do założeń domyślnych
31
aby przesłanki ukryte w tle ze zbioru K zmieniały się w zależności od przesłanek ze zbioru A. Mówiąc bardziej precyzyjnie, będzie tak, jeśli pozwolimy, aby ta część przesłanek ze zbioru K, którą aktualnie używamy, zmieniała się w określony sposób w zależności od przesłanek ze zbioru A. Stanie się tak, jeśli założymy warunek niesprzeczności i dopuścimy zmniejszanie ilości używanych przesłanek z K w przypadku, gdy są one w konflikcie z przesłankami ze zbioru A. Niemonotoniczność uzyskamy w szczególności wtedy, gdy użyjemy maksymalnych podzbiorów K 0 zbioru K, które są niesprzeczne z A i zaakceptujemy jako konsekwencje te formuły, które są konsekwencjami wszystkich poszczególnych podzbiorów. Tak określoną relację będziemy nazywać konsekwencją założeń domyślnych (default-assumption consequence), uwypuklając w ten sposób bliski związek z jej poprzedniczką, konsekwencją osiowych założeń. Podamy teraz bardziej formalną definicję. Niech K ⊆ L będzie zbiorem formuł, które odgrywają rolę założeń w tle. Niech A będzie dowolnym zbiorem formuł, a x pojedynczą formułą. Powiemy, że podzbiór K 0 zbioru K jest niesprzeczny z A (krócej: jest A-niesprzeczny) wtedy i tylko wtedy, gdy istnieje klasyczne wartościowanie v takie, że v(K 0 ∪ A) = 1. Podzbiór K 0 zbioru K jest maksymalnie niesprzeczny z A (lub w skrócie: maksymalnie A-niesprzeczny) wtedy i tylko wtedy, gdy jest niesprzeczny z A, oraz nie jest właściwym podzbiorem żadnego podzbioru K 00 ⊆ K, który jest niesprzeczny z A. Teraz możemy sformułować główną definicję. D 2.4 (Konsekwencja założeń domyślnych).
´ De niujemy relacj¦ |zK modulo zbiór domy±lnych zaªo»e« K jak nast¦puje: A |zK x wtedy i tylko wtedy, gdy K 0 ∪ A ` x, dla dowolnego podzbioru K 0 ⊆ K , który jest maksymalnie niesprzeczny z A. T ´ Zapisuj¡c to w j¦zyku operacji C K mamy: C K (A) = {Cn(K 0 ∪ A): K 0 ⊆ K oraz K 0 jest maksymalnie niesprzeczny z A}. ´ Dan¡ relacj¦ lub operacj¦ nazywamy konsekwencj¡ domy±lnych zaªo»e« wtedy i tylko wtedy, gdy jest identyczna z pewn¡ konsekwencj¡ |zK (odp. C K ), dla pewnego zbioru formuª K . Notacja, której tutaj używamy, jest zbieżna z tą, którą używaliśmy w przypadku konsekwencji osiowych założeń. Znak relacji klasycznej konsekwencji staje się „wężem”, a więc `K zamienia się w |zK , i podobnie CnK zamienia się w C K . Zauważmy ponownie, że nie ma jednej konsekwencji domyślnych założeń, lecz wiele, po jednej dla każdej wartości zmiennej K. P 2.5. W celu zilustrowania tej de nicji, rozwa»my nast¦puj¡cy przykªad, który mo»e by¢ nazwany ÿwst¦g¡ Möbiusa". We¹my K = {p → q, q → r, r → ¬p}
32
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
oraz zbiór przesªanek A = {p}. Wtedy oczywi±cie K jest sprzeczny z A, zatem na mocy konsekwencji osiowych zaªo»e« mamy: CnK (A) = L. Dla wnioskowania przy u»yciu konsekwencji domy±lnych zaªo»e« musimy jednak wzi¡¢ pod uwag¦ te maksymalne podzbiory K 0 ⊆ K , które s¡ niesprzeczne z A. ´ Krótka analiza pokazuje, »e s¡ to trzy dwuelementowe zbiory, nazwijmy je K1 = {p → q, q → r}, K2 = {p → q, r → ¬p}, oraz K3 = {q → r, r → ¬p}. Zatem formuªa x jest konsekwencj¡ domy±lnych zaªo»e« zbioru A modulo zbiór zaªo»e« w tle K ; x ∈ C K (A) wtedy i tylko wtedy, gdy x ∈ Cn(Ki ∪ {p}), dla i = 1, 2, 3. ´ Dokªadniejsza analiza przykªadu pokazuje, »e Cn(K1 ∪ {p}) = Cn({p, q, r}), Cn(K2 ∪{p}) = Cn({p, q, ¬r}) a Cn(K3 ∪{p}) = Cn({p, ¬q, ¬r}). Zatem x ∈ C K (A) wtedy i tylko wtedy, gdy x nale»y do ka»dego z tych trzech zbiorów, tj. gdy x jest klasyczn¡ konsekwencj¡ alternatywy (p∧q∧r)∨(p∧q∧¬r)∨(p∧¬q∧¬r). ´ Alternatywa ta jest klasycznie równowa»na formule (p ∧ q) ∨ (p ∧ ¬r), czyli p ∧ (q ∨ ¬r), zatem C K (A) jest równe Cn(p ∧ (q ∨ ¬r)). ´ Zatem ani q ani r nie nale»¡ do C K (A). Z drugiej strony C K (A) jest wi¦ksze od klasycznej konsekwencji Cn(A) = Cn(p), poniewa» zawiera jeszcze q ∨ ¬r. W odróżnieniu od swojego osiowego odpowiednika relacje/operacje konsekwencji domyślnych założeń są niemonotoniczne. Zatem może być tak, że A |zK x, ale jednocześnie A ∪ B |z 6 K x, gdzie A, B są zbiorami zdań. Podobnie możemy mieć a |zK x, ale nie a∧b |zK x, gdzie a, b są pojedynczymi formułami. Ponieważ monotoniczność niekiedy nie zachodzi, więc operacje konsekwencji domyślnych założeń nie są na ogół operacjami domknięcia. W celu pokazania, że monotoniczność nie musi zachodzić weźmy K = {p → q, q → r}, gdzie p, q, r są różnymi literami zdaniowymi, a → jest prawdziwościowym spójnikiem implikacji materialnej. Otrzymujemy p |zK r, ponieważ przesłanka p jest niesprzeczna z K i oczywiście {p} ∪ K ` r. Jednak {p, ¬q} |z 6 K r, ponieważ zbiór przesłanek {p, ¬q} nie jest niesprzeczny z K. Istnieje jednak jeden maksymalny podzbiór K 0 ⊆ K, który jest niesprzeczny z {p, ¬q}: jest to singleton K = {q → r}. Oczywiście jest tak, że {p, ¬q} ∪ K 0 0 r, co uzasadnia następujące wartościowanie v: v(p) = 1, v(q) = v(r) = 0. Mówiąc ogólnie, przechodząc od p do p i ¬q uzyskaliśmy przesłankę, ale — z uwagi na wymaganie niesprzeczności — straciliśmy założenie ukryte w tle. Jasne jest, że gdybyśmy w celu zwiększenia zbioru przesłanek zamiast zbioru {p, ¬q} wzięli pod uwagę formułę p ∧ ¬q, to otrzymalibyśmy podobny efekt. Przykład ten ilustruje fakt, że nie zachodzi tutaj też singletonowa, koniunkcyjna monotoniczność. Do pozytywnych własności relacji konsekwencji założeń domyślnych należy zaliczyć to, że są nadklasyczne, co wprost wynika z definicji. Spełniają one rów-
2.2. Od założeń osiowych do założeń domyślnych
33
nież warunek kumulatywnej przechodniości i łączenia przesłanek w alternatywę, chociaż sprawdzenie tego wymaga już pewnego wysiłku. Jest jeszcze jedna ważna własność relacji konsekwencji domyślnych założeń. Mimo, że nie spełniają warunku monotoniczności, spełniają one jej osłabioną wersję zwaną ostrożną monotonicznością (cautious monotony) (CM). Ta osłabiona lub bardziej restrykcyjna forma monotoniczności wynika z warunku monotoniczności, ale nie jest mu równoważna. W formie singletonowej ostrożna monotoniczność może być przedstawiona następująco: jeśli A |zK x oraz A |zK y, wtedy A ∪ {x} |zK y. W formie ogólnej ma ona postać następującą: jeśli dla dowolnego x ∈ B, A |zK x oraz A |zK y, wtedy A ∪ B |zK y. Z kolei w bardziej zwięzłej notacji operacji konsekwencji, warunek ostrożnej monotoniczności mówi, że: jeśli A ⊆ B ⊆ C K (A), to C K (A) ⊆ C K (B). Warto zauważyć, że konsekwencja założeń domyślnych w dość radykalny sposób nie spełnia również warunku zwartości. Zilustrujemy to przykładem, który podczas prywatnej rozmowy zakomunikował mi David Gabelaia. Otóż weźmy K = K1 ∪ K2 , gdzie K1 = {pi ∧ q : i < ω} a K2 = {¬pi ∧ ¬q : i < ω}. Niech przy tym A = {pi : i < ω}. Otrzymujemy wtedy, że A |zK q, podczas gdy B |z 6 K q, gdzie B jest dowolnym właściwym podzbiorem A (skończonym bądź nieskończonym). Zaraz to uzasadnimy. W celu zrozumienia szczegółów pomocne mogłoby być narysowanie tabeli z trzema kolumnami dla K1 , K2 i A, oraz rozważenie przypadku, gdy B = A − {p1 }. • Pozytywna konsekwencja przykładu, czyli A |zK q, zachodzi, ponieważ K1 ∪A ` q oraz K1 jest w oczywisty sposób jedynym maksymalnym, A-niesprzecznym podzbiorem K. • Negatywna konsekwencja naszego przykładu, tj. B |z 6 K q może zostać sprawdzona w następujący sposób. Rozważmy zbiór K ∗ = {¬pn ∧ ¬q : pn < B}. Ponieważ B ⊂ A, więc istnieje takie n, że pn < B i ¬pn ∧ ¬q ∈ K ∗ . Również zbiór K ∗ jest niesprzeczny z B oraz K ∗ ∪ B 0 q — rozważmy bowiem wartościowanie v, w którym v(pn ) = 1 wtedy i tylko wtedy, gdy pn ∈ B, oraz v(q) = 0. Pozostaje teraz tylko sprawdzić, czy K ∗ jest faktycznie maksymalnym B-niesprzecznym podzbiorem K. Załóżmy, że K ∗ ⊂ J ⊆ K. Wtedy istnieje takie i, że albo pi ∧ q ∈ J, albo ¬pi ∧ ¬q ∈ J i pi ∈ B. W pierwszym przypadku, skoro J zawiera pewne ¬pn ∧ ¬q (weź pod uwagę q), więc jest on sprzeczny z B. W drugim zaś przypadku J jest również sprzeczny z B (z uwagi na pi ). Sposób, w jaki nie jest spełniona zwartość, można nazwać radykalnym, ponieważ nie ma właściwego podzbioru B zbioru A, skończonego czy też nieskończonego, takiego że B |zK q. Zatem konsekwencja założeń domyślnych nie spełnia także następującej osłabionej formy warunku zwartości, którą można by nazwać
34
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
własnością redundancji (redundancy property): jeśli A |z x oraz A jest zbiorem nieskończonym, to istnieje właściwy podzbiór B ⊂ A, taki że: B |z x. Przechodząc na bardziej ogólny poziom rozważań, odnotujemy teraz pewne interesujące związki pomiędzy logiką klasyczną, konsekwencją założeń osiowych oraz konsekwencją założeń domyślnych. • Konsekwencje domyślnych założeń C K skonstruowane zostały przez dodanie warunku niesprzeczności do definicji monotonicznych konsekwencji osiowych założeń. Te z kolei powstały przez dodanie zbioru założeń w tle do definicji klasycznej konsekwencji. Porządek konstrukcji lub porządek konceptualny jest więc następujący: Cn, następnie CnK , a w końcu C K . Pojęcie monotonicznych konsekwencji nadklasycznych może być zatem traktowane jako medium lub stopień pomiędzy konsekwencją klasyczną i konsekwencjami niemonotonicznymi. • Porządek konstrukcji nie jest jednak identyczny z porządkiem zawierania się tych trzech rodzajów konsekwencji. Mamy bowiem następujący związek: Cn ≤ C K ≤ CnK , co uzasadnia monotoniczność konsekwencji klasycznej: Cn(A) ⊆ Cn(K 0 ∪ A) ⊆ Cn(K ∪ A), o ile K 0 ⊆ K. Innymi słowy, możemy myśleć o klasycznej konsekwencji jako — jak określił to w naszej rozmowie João Marcos — o dolnym ograniczeniu wszystkich operacji C K , natomiast każdy wybór zbioru osiowych założeń K określa operację CnK , która stanowi ograniczenie górne dla konsekwencji C K . Ujmując problem jeszcze inaczej, niemonotoniczna operacja konsekwencji założeń domyślnych C K jest interpolowana pomiędzy klasyczną konsekwencją oraz konsekwencją założeń osiowych. Później, kiedy przejdziemy do pozostałych sposobów otrzymywania niemonotonicznych operacji inferencji, zauważymy że ten wzorzec różnicy pomiędzy porządkiem konstrukcji i porządkiem inkluzji będzie się stale powtarzał. • W przypadku, gdy dany zbiór przesłanek A jest niesprzeczny ze zbiorem K przesłanek w tle, podane definicje mówią jasno, że: C K (A) = CnK (A) = Cn(K ∪ A), co znaczy, że obydwie nadklasyczne operacje przyjmują tę samą wartość dla argumentu A. Z punktu widzenia konsekwencji osiowych założeń jest to przypadek standardowy. Jednak z punktu widzenia konsekwencji domyślnych założeń jest to przypadek graniczny, ponieważ operacja domyślnych założeń staje się interesująca właśnie wtedy, gdy A jest sprzeczny z K.
Dylemat Pomimo tego, że pojęcie konsekwencji domyślnych założeń jest dość naturalne, natrafia ono na pewien problem o charakterze pragmatycznym. Problem ten pojawia się wtedy, gdy postawimy sobie pytanie o rodzaje założeń użytecznych do wytwarzania odpowiednich operacji. Przyjrzyjmy się poniższym możliwościom.
2.2. Od założeń osiowych do założeń domyślnych
35
• Kiedy zbiór K nie jest domknięty na klasyczną konsekwencję, czyli K , Cn(K), wtedy C K (A) może być zależny od sposobu utworzenia elementów zbioru K, inaczej — jest ona zależna od kwestii syntaktycznych. • Kiedy zbiór K jest domknięty na klasyczną konsekwencję, czyli K = Cn(K), wtedy operacja C K przestaje być interesująca, ponieważ w standardowych przypadkach zaczyna zachowywać się jak konsekwencja klasyczna. Powyższe spostrzeżenia opiszemy bardziej formalnie, dowodząc ich, a następnie dyskutując ich istotność. Zacznijmy od sytuacji, kiedy K , Cn(K). O 2.6. Klasycznie równowa»ne zbiory zaªo»e« ukrytych w tle K , K 0 mog¡ prowadzi¢ do ró»nych operacji konsekwencji C K oraz C K 0 . D´ . Podamy prosty przykład. Niech K = {p → (q ∧ r), r → ¬p}, gdzie → jest oczywiście implikacją materialną, i niech K 0 = {p → q, p → r, r → ¬p}. Obydwa te zbiory są z klasycznego punktu widzenia równoważne, co jest dość oczywiste biorąc pod uwagę własności koniunkcji. Rozważamy teraz zbiór A = {p}. Zbiór A jest sprzeczny z K, a jedynymi podzbiorami maksymalnie niesprzecznymi z A są singletony {p → (q ∧ r)} oraz {r → ¬p}. Oczywiście, q < Cn({p, r → ¬p}), zatem q < C K (A). W odróżnieniu od K, maksymalnie p-niesprzecznymi podzbiorami zbioru K 0 są dwie pary: {p → q, p → r} oraz {p → q, r → ¬p}. Ostatnia para {p → r, r → ¬p} jest bowiem sprzeczna z p. Ponieważ q ∈ Cn(K 00 ∪ {p}), dla obydwu tych par z K 0 , więc q ∈ C K 0 (A). Krótko mówiąc, kiedy wnioskowaliśmy, korzystając ze zbioru K, q zaginęło. Pojawiło się natomiast w konsekwencjach, gdy użyliśmy różnego, ale w nieskomplikowany sposób równoważnego zbioru K 0 . Zbiór K jest bowiem bardziej „skondensowany”, przez co musimy — by osiągnąć niesprzeczność z aktualnie przyjętymi przesłankami — odrzucić więcej przesłanek. Podobna zależność syntaktyczna jest często postrzegana jako przecząca intuicji oraz niepożądana, bowiem konsekwencje zbioru A na danym gruncie założeń K powinny zależeć wyłącznie od treści elementów zbioru K, a nie od sposobu ich sformułowania. Rozpatrzymy teraz drugą stronę wyjściowego dylematu — sytuację, w której zbiór K jest domknięty na klasyczną konsekwencję, czyli K = Cn(K). Niepożądany wynik sformułujemy w kolejnym twierdzeniu. Jak zawsze słowo „niesprzeczność” znaczy klasyczna niesprzeczność. T 2.7. Je±li K = Cn(K) i A jest sprzeczne z K , to C K (A) = Cn(A). Jak już zauważyliśmy, w sytuacjach, gdy A jest niesprzeczne z K, to C K (A) = Cn(K ∪ A), bez względu na to, czy K jest, czy też nie jest domknięte na klasyczną konsekwencję. Nie ma w tym wypadku niczego nieprzewidywalnego. W twierdzeniu mowa jest jednak o istotnym przypadku, w którym A jest sprzeczne z
36
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
K. Wtedy właśnie, gdy K jest domknięte na klasyczną konsekwencję, niemonotoniczna konsekwencja traci prawie całą swoją siłę. Przesłanki w tle ze zbioru K nie wnoszą w tym wypadku niczego i nie otrzymujemy niczego więcej niż w wypadku zastosowania klasycznej konsekwencji do A. D´ . Załóżmy, że K = Cn(K) oraz, że A jest sprzeczne z K. Chcemy pokazać, że C K (A) = Cn(A). Inkluzja z prawej do lewej jest prawdziwa na mocy nadklasyczności C K . Musimy więc pokazać, że C K (A) ⊆ Cn(A). Załóżmy, że x < Cn(A). Powinniśmy pokazać, że x < C K (A). Z definicji C K wystarczy wskazać jakiś maksymalny, niesprzeczny z A podzbiór K 0 zbioru K taki, że x < Cn(K 0 ∪ A). Do jego konstrukcji w dowodzie zastosujemy własność zwartości konsekwencji klasycznej oraz lemat Kuratowskiego-Zorna. Kluczowy krok dowodu będzie w miejscu, gdzie odwołamy się do założenia, że K = Cn(K). Nasza prezentacja dowodu będzie dla wygody na zmianę wykorzystywać notację relacyjną i operacyjną. Z założenia, na mocy własności zwartości wiemy, że istnieje taki skończony podzbiór A0 ⊆ A, który jest sprzeczny ze zbiorem K. Niech a będzie koniunkcją wszystkich, skończenie wielu jego elementów. Wtedy a jest również sprzeczne z K. W celu przeprowadzenia dowodu znajdziemy pewien maksymalnie A-niesprzeczny podzbiór K 0 zbioru K, taki że ¬a∨¬x ∈ K 0 . Będzie to wystarczyło, mając bowiem ¬a∨¬x ∈ K 0 , otrzymujemy także K 0 ∪A ` a∧(¬a∨¬x) ` ¬x, zatem, ponieważ K 0 ∪ A jest niesprzeczne, więc x < Cn(K 0 ∪ A), do czego zmierzaliśmy. Szukając zbioru K 0 , zauważmy po pierwsze, że ¬a ∨ ¬x jest niesprzeczne z A. W przeciwnym razie A ` ¬(¬a ∨ ¬x) ` a ∧ x ` x, co przeczyłoby założeniu, że x < Cn(A). Następnie zauważmy, że ¬a ∨ ¬x ∈ K. Ponieważ wiemy, że a jest sprzeczne z K, zatem K ` ¬a ` ¬a ∨ ¬x. Korzystając z kluczowego założenia, że K = Cn(K), otrzymujemy: ¬a ∨ ¬x ∈ K. Składając te dwa fakty razem, uzyskujemy jednoelementowy podzbiór {¬a ∨ ¬x} zbioru K, który jest niesprzeczny z A. Ponieważ klasyczna konsekwencja jest zwarta, możemy zastosować lemat Kuratowskiego-Zorna, dochodząc do wniosku, że istnieje maksymalny A-niesprzeczny podzbiór K 0 zbioru K taki, że {¬a ∨ ¬x} ⊆ K 0 , co kończy nasz dowód.
Rozwiązania dylematu W jaki sposób powinniśmy rozwiązać powyższy dylemat? Czy konsekwencja domyślnych założeń posiada nieusuwalną wadę, czy też istnieje jakiś sposób jej usunięcia? Zastanówmy się najpierw nad przypadkiem, gdy zbiór K nie jest domknięty na klasyczną konsekwencję. Jedną z reakcji jest stwierdzenie, że w tym przypadku syntaktyczna forma założeń z K w sposób istotny powinna mieć wpływ na wycią-
2.2. Od założeń osiowych do założeń domyślnych
37
gane konkluzje, nawet jeśli syntaktyczna forma jawnych przesłanek ze zbioru A nie powinna mieć takiego wpływu. Jest to odpowiedź odważna, ale raczej trudno ją zaakceptować. Inną reakcją jest redukcja rozmiaru wspomnianej syntaktycznej zależności przez ograniczenie elementów zbioru założeń ukrytych w tle do formuł o pewnej kanonicznej postaci. Moglibyśmy dla przykładu akceptować w zbiorze K wyłącznie formuły, które są alternatywami liter zdaniowych albo negacji liter zdaniowych. W ogólności, prosta formuła (np. p ∧ q) byłaby wtedy wyrażona przez zbiór zawierający kilka takich alternatyw (np. p ∨ q, p ∨ ¬q, ¬p ∨ q), co powodowałoby, że zbiór K byłby mniej „skondensowany”. Na mocy logiki klasycznej wiemy, że każda formuła może być wyrażona przez zbiór takich alternatyw (pamiętajmy o koniunkcyjnych postaciach normalnych i oddzielmy je jako osobne rodzaje obiektów). Taka restrykcja nie zmniejsza więc siły ekspresji języka, choć zmniejsza poziom syntaktycznej zależności. Ostatecznie więc, w przypadku języka skończenie generowanego, jeśli ograniczymy zbiór K jedynie do alternatyw, które składają się ze wszystkich liter zdaniowych tego języka, to problem syntaktycznej zależności znika. Dlatego, gdy K i J są klasycznie równoważnymi zbiorami, których wszystkie elementy mają kanoniczną postać, wtedy K = J, a stąd C K (A) = C J (A). W przypadku, gdy K = Cn(K), wymagane jest nieco inne rozwiązanie. Musimy tutaj zmodyfikować definicję konsekwencji domyślnych założeń w taki sposób, aby uniknąć jej zamiany w konsekwencję klasyczną. Istnieje wiele sposobów w jakie można to zrobić. Skoncentrujemy się na nich w kolejnym podrozdziale. Zanim jednak do niego przejdziemy, poczynimy kilka uwag dotyczących terminologii i pojęcia maksymalności.
Terminologia: konsekwencja czy inferencja? Mówiąc o monotonicznych operacjach, takich jak Cn i CnK , oraz niemonotonicznych C K , używamy stale terminu „operacja konsekwencji”. Czyniąc to, kierujemy się jego użyciem stosowanym przez wielu badaczy, np. Krausa, Lehmanna i Magidora (1990). Jednocześnie jednak inni autorzy, np. Lindström (1991), Makinson (1994), Rott (2001) oraz Bochman (2001) rezerwują ten termin dla operacji monotonicznych, operacje niemonotoniczne nazywając inferencjami. Takie terminologiczne oddzielenie „konsekwencji” oraz „inferencji” wydaje się w zasadzie atrakcyjne, w praktyce jednak okazuje się raczej nieefektywne. Częściowo bierze się to z tego, że ten werbalny kontrast nie jest zakorzeniony w zwykłym użyciu języka, a częściowo z tego, że czasami chcielibyśmy mówić o operacjach generowanych w określony sposób, zanim dowiemy się, czy są one monotoniczne, lub o takich rodzinach operacji, których część jest, a część nie jest
38
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
monotoniczna. W naszych rozważaniach zarówno dla monotonicznych, jak i niemonotonicznych przypadków będziemy zatem używać terminu „konsekwencja”. Pomimo tego, jak już powiedziano, zaznaczamy różnicę w notacji, stosując `, Cn (z odpowiednim indeksem) dla monotonicznych przypadków, oraz |z, C dla operacji, o których nie wiadomo, czy są monotoniczne.
Uwaga o użyciu terminu „maksymalny” Osobom, które nie są przyzwyczajone do matematycznej pracy z pojęciem maksymalności, przydać się może kilka słów przestrogi. Mówiąc, że podzbiór K 0 zbioru K jest maksymalny (pośród jego podzbiorów o pewnej cesze), oraz że posiada także pewną inną cechę, nie wypowiadamy tego samego, co wtedy, gdy mówimy, że jest maksymalny (wśród jego podzbiorów posiadających obydwie te cechy). Te dwie kwestie trzeba uważnie rozdzielić. Wcześniejsza wypowiedź pociąga jednak późniejszą. Załóżmy, że K 0 jest maksymalnym zbiorem spełniającym warunek φ, oraz spełnia warunek ψ. Rozważmy jego nadzbiór K 00 ⊇ K 0 , który spełnia zarówno warunek φ oraz ψ. Wtedy K 00 spełnia warunek φ, a zatem z założenia jest identyczny z K 0 . Jednakże drugi przypadek nie implikuje w ogólności pierwszego. Załóżmy, że 0 K jest maksymalnym zbiorem spełniającym warunek φ oraz ψ. Wtedy oczywiście nie ma takiego K 00 ⊃ K 0 , który spełnia zarówno warunek φ oraz ψ. Może istnieć jednak zbiór K 00 ⊃ K 0 , który spełnia warunek φ, nie spełniając jednocześnie warunku ψ. Zatem K 0 nie jest maksymalnym zbiorem spełniającym warunek φ. Problem ten można by również przedstawić, używając języka bardziej teoriomnogościowego, pisząc max⊆ (X) na oznaczenie zbioru wszystkich obiektów maksymalnych z uwagi na relację inkluzji pośród elementów zbioru X. Powinno to być jednak dostatecznie jasne bez takiej formalnej precyzji. Ważną rzeczą jest znajomość intencji wypowiedzi w danym kontekście oraz wyrażanie jej w sposób jednoznaczny. Może to wymagać ostrożnego użycia języka, przy czym mogą tu być również pomocne odpowiednia składania oraz nawiasy. W celu ilustracji tej różnicy, załóżmy, że K 0 jest zbiorem maksymalnym wśród właściwych podzbiorów zbioru K, oraz że jest on niesprzeczny z A. Wynika stąd, że zbiór K 0 jest maksymalny wśród tych właściwych podzbiorów K, które są niesprzeczne z A. Jest jednak łatwo podać przykład, w którym zbiór K 0 jest maksymalny pośród właściwych podzbiorów K, niesprzecznych z A, ale nie jest on maksymalny wśród właściwych podzbiorów K. Niech K = {a, b, (a ∨ b) → c} oraz A = {¬c}. Wtedy K ma dwa maksymalne, właściwe podzbiory wśród podzbiorów niesprzecznych z A: K1 = {a, b} oraz K2 = {(a ∨ b) → c}. Widać jednak, że K1 jest maksymalnym, właściwym podzbiorem K, a K2 nie jest.
2.2. Od założeń osiowych do założeń domyślnych
39
Pomimo tego, w przypadku gdy K = Cn(K), mamy do czynienia ze wyjątkową sytuacją. Niech A będzie zbiorem przesłanek sprzecznych z K. Jest dość łatwo pokazać, że każdy maksymalny A-niesprzeczny podzbiór K jest domknięty, ponieważ zbiór K jest domknięty na klasyczną konsekwencję. Mamy zatem kolejny ważny fakt, który jest blisko związany z twierdzeniem 2.7 oraz twierdzeniem 2.9 z następnego podrozdziału. Krótko mówiąc, głosi on, że w sytuacji, gdy K = Cn(K), przypadki opisywane w poprzednim paragrafie są wykluczone. O 2.8. Zaªó»my, »e K = Cn(K) oraz A jest zbiorem formuª sprzecznym z K . Wtedy dla dowolnego K 0 ⊆ K nast¦puj¡ce trzy warunki s¡ równowa»ne: a. K 0 jest zbiorem maksymalnym w±ród tych podzbiorów K , które s¡ niesprzeczne z A. b. K 0 jest zbiorem maksymalnym w±ród klasycznie domkni¦tych, wªa±ciwych podzbiorów K , które s¡ niesprzeczne z A. c. K 0 jest zbiorem maksymalnym w±ród klasycznie domkni¦tych, wªa±ciwych podzbiorów K , oraz K 0 jest równie» niesprzeczny z A.
Uwagi historyczne Konsekwencja domyślnych założeń ma długą i skomplikowaną historię. Veltman (1976; 1985) oraz Kratzer (1981) używali podobnych konstrukcji w logice kontrfaktycznych okresów warunkowych. Alchourrón oraz Makinson (1982) zdefiniowali tę operację w badaniach nad zmianą przekonań w danym zbiorze K przez dodanie nowego przekonania a, t.j. przez wprowadzenie nowej informacji, przy jednoczesnym zachowaniu niesprzeczności. Wszyscy ci autorzy zauważyli także, że w wypadku gdy K = Cn(K) (w różnych formach, dla jednoelementowego zbioru przesłanek), dochodzi do uklasycznienia definiowanej operacji. Rodzina wszystkich podzbiorów K maksymalnie niesprzecznych z danym A była natomiast przedmiotem studiów Poole’a (1988) jako część formalnego ujęcia abdukcji, tzn. formowania hipotez wyjaśniających dane.
Ćwiczenia 1∗ . Niech K = {p → q, q → p, p ∨ q}, zaś A = {¬p ∨ ¬q}, gdzie p, q są literami zdaniowymi. Które podzbiory K są maksymalnie niesprzeczne z A? Niech teraz K = {p ↔ q, p ∨ q}. Odpowiedz na poprzednie pytanie, zakładając ten sam zbiór A. 2. Niech K1 = {p, q}, K2 = {p ∧ q}, K3 = {p ∧ q, p, q}, K4 = {p ∧ q, p, q, p ∨ q}. Niech A = {¬p}. Które podzbiory Ki (dla poszczególnych i) są maksymalnie niesprzeczne z A?
40
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
3∗ . Rozważ boolowski język, który powstał przy użyciu tylko dwóch liter zdaniowych p, q. Niech K = Cn({p, q}) oraz niech A = {¬p}. Które podzbiory K są maksymalnie niesprzeczne z A? Wskazówka: Wypisz wszystkie elementy ze zbioru Cn({p, q}) (aż do klasycznej równoważności). 4. Pokaż, że relacje konsekwencji założeń domyślnych są nadklasyczne, spełniają lewostronną, klasyczną równoważność (LCE) oraz prawostronne osłabianie (RW). 5. Pokaż, że pomimo wskazanej w tekście syntaktycznej zależności konsekwencji założeń domyślnych, występuje co najmniej następujący poziom syntaktycznej niezależności. Niech K, K 0 będą zbiorami założeń ukrytych w tle, takimi że istnieje między nimi jedno-jednoznaczna odpowiedniość Cn(a) = Cn(a0 ), dla dowolnego a ∈ K, gdzie a0 oznacza element K 0 odpowiadający elementowi a ∈ K. Wtedy dla dowolnego zbioru przesłanek A jest tak, że C K (A) = C K 0 (A). 6∗ . W przypadku, gdy operacja konsekwencji spełnia zarówno kumulatywną przechodniość oraz ostrożną monotoniczność jest ona nazywana kumulatywną. Podaj zarówno w relacyjnej, jak i operacyjnej notacji prostą regułę Horna, która wyrazi ten warunek. 7∗ . Sprawdź prawdziwość stwierdzenia poczynionego w tekście, że dla dowolnego maksymalnego, A-niesprzecznego podzbioru K, jeżeli K = Cn(K) oraz A jest sprzeczne z K, to K 0 = Cn(K 0 ). 8. Pokaż, że własność zwartości implikuje własność redundancji. 9. Sprawdź następujący kontrprzykład dla twierdzenia, że konsekwencja domyślnych założeń jest zwarta, wymyślony (w trochę innym celu) przez A. Brodsky’ego oraz R. Brofmana — jak podają Freud i Lehmann (1994). Niech K = {¬p1 ∧ · · · ∧ ¬pi−1 ∧ pi : 1 6 i 6 ω} oraz A = {pi → q : i < ω}.
Problemy 1. Sprawdź prawdziwość stwierdzenia z tekstu, które mówi, że relacje konsekwencji domyślnych założeń spełniają warunek kumulatywnej przechodniości (CT), ostrożnej monotoniczności (CM) oraz łączenia przesłanek w alternatywę.
2.3. Uszczegółowienia, warianty i uogólnienia
41
2∗ . Udowodnij obserwację 2.8. Wskazówka: Pracuj w obrębie trzech warunków. Implikacje od (a) do (b) oraz od (c) do (a) są oczywiste, od nich więc zacznij. W dowodzie implikacji od (b) do (c) należy skorzystać ze zwartości dla klasycznej konsekwencji. Istotne jest, żeby na każdym kroku dowodu mieć jasność, co zostało założone oraz co jest dowodzone. 3. Pokaż, że relacje konsekwencji założeń domyślnych spełniają warunek zachowania niesprzeczności: jeśli Cn(A) , L, to C K (A) , L. Wskazówka: Skorzystaj z własności zwartości logiki klasycznej, na przykład w formie generalnej zasady maksymalizacji podanej w podrozdziale 1.2. 4. Podaj przykład operacji domknięcia, pokazujący, że własność redundancji nie pociąga w ogólności zwartości. Wskazówka: Nie bierz pod uwagę logiki, rozważ to na przykładzie bardziej abstrakcyjnym.
2.3. Uszczegółowienia, warianty i uogólnienia Ten podrozdział rozpoczniemy od opisania specjalnego przypadku pojęcia konsekwencji założeń domyślnych, który ma zarówno historyczne, jak i praktyczne znaczenie. Mamy tu na myśli założenie domknięcia świata (the closed world assumption) (CWA). Później zarysujemy niektóre z wielu wariantów i uogólnień, jakie można znaleźć w literaturze — jest ich ogółem około tuzina, w zależności od tego, jak będziemy je liczyć — zaczynając od najbardziej przypominających przyjęty przez nas w poprzednim podrozdziale prosty paradygmat, a następnie przechodząc do innych, mniej z nim powiązanych. Przypadek specjalny: założenie domknięcia świata Konsekwencja założeń domyślnych, tak jak ją zdefiniowaliśmy w poprzednim podrozdziale, została wyabstrahowana z bardziej szczegółowego pojęcia, znanego jako inferencja stosująca założenie domknięcia świata (w skrócie CWA). Wprowadził je Reiter (1978) w jednym z najwcześniejszych formalnych badań nad niemonotonicznymi rozumowaniami w kontekście jakościowym. W celu wyjaśnienia tego rodzaju inferencji potrzebujemy pojęcia formuły Horna dla języka logiki klasycznej. W podrozdziale 1.2 wprowadziliśmy już pojęcie reguły Horna, rozumianej jako specjalny rodzaj reguły sformułowanej w metajęzyku, w którym mówimy o relacjach inferencji. Teraz jednak, aby opisać pewną klasę boolowskich formuł, potrzebujemy korespondującego z nim pojęcia formu-
42
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
ły w języku przedmiotowym. Formułą Horna jest każda formuła o następującej postaci: (p1 ∧ · · · ∧ pn ) → q, gdzie p1 , …, pn , q są literami zdaniowymi, a n > 0. Równoważnie, używając tylko pierwotnych stałych ¬, ∧, ∨, jest to formuła postaci: ¬p1 ∨ · · · ∨ ¬pn ∨ q, o tych samych składnikach, czyli alternatywa liter zdaniowych lub negacji liter, z których tylko jedna jest pozytywna. Załóżmy, że obecnie nasz zbiór przesłanek A zawiera jedynie formuły Horna. Załóżmy także, że zbiór przesłanek ukrytych w tle K zawiera negacje ¬p wszystkich liter zdaniowych języka. Innymi słowy, tak dalece, jak jest to niesprzeczne z obecnymi przesłankami, zakładamy, że wszystkie litery zdaniowe są fałszywe. Zbiór K nie jest oczywiście domknięty na klasyczną konsekwencję, jednak dyskutowany wcześniej problem syntaktycznej zależności nie pojawia się, kiedy dopuszczamy tylko jeden wariant K: jest on stały we wszystkich zastosowaniach. W tym specjalnym przypadku nietrudno jest pokazać, że jest tylko jeden maksymalny podzbiór K 0 zbioru K, niesprzeczny z danym zbiorem A. Zatem T definicja konsekwencji domyślnych założeń: C K (A) = {Cn(K 0 ∪ A) : K 0 ⊆ K, gdzie K 0 jest maksymalnie niesprzeczny z A} może być uproszczona do postaci: C K (A) = Cn(K 0 ∪ A), gdzie K 0 jest jedynym maksymalnym podzbiorem K, niesprzecznym z A. Dokładnie ta sama sytuacja zachodzi, gdy zamiast liter elementarnych pi stosujemy w naszym języku formuły elementarne postaci: Pt, gdzie P jest predykatem bądź symbolem relacyjnym, a t = t1 , . . . , tn jest uporządkowaną n-tką nazw indywiduowych. Te proste formuły są składane w bardziej skomplikowane formuły jedynie za pomocą operacji boolowskich (bez zmiennych indywiduowych oraz kwantyfikatorów). Załóżmy, że K zawiera jedynie negacje ¬Pt wszystkich elementarnych formuł, a zbiór przesłanek A zawiera jedynie formuły postaci (P1 t1 ∧ · · · ∧ Pn tn ) → Qs, gdzie P1 t1 , …, Pn tn , Qs są elementarnymi formułami. Wtedy definicja konsekwencji domyślnych założeń ponownie daje się uprościć do postaci C K (A) = Cn(K 0 ∪ A), gdzie K 0 jest jedynym maksymalnym podzbiorem K, niesprzecznym z A. Konstrukcję tę motywuje fakt możliwości pracy z bazą danych dotyczących pewnej dziedziny. Taka baza danych może być pomyślana jako zbiór A formuł Horna (P1 t1 ∧· · ·∧ Pn tn ) → Qs (przy czym n > 0), gdzie stałe indywiduowe w n-tkach t1 , . . . , tn , s desygnują wyznaczone elementy z dziedziny, a symbole P1 , …, Pn , Q oznaczają określone własności i relacje zdefiniowane w dziedzinie. Inferencja domkniętego świata sprowadza się do założenia, w granicach niesprzeczności z bazą danych, że wyznaczone własności i relacje P1 , …, Pn , Q są tak małe, jak to możliwe. W podrozdziale 3.4 zobaczymy, że ten szczególny rodzaj konsekwencji założeń domyślnych może być również sformułowany w terminach semantycznych i uogólniony na rodzaj inferencji zwany cyrkumskrypcją (circumscription).
2.3. Uszczegółowienia, warianty i uogólnienia
43
Wariacje i uogólnienia: trzy ogólne rodzaje Konsekwencja założeń domyślnych ma wiele wariantów i może być na różne sposoby uogólniana. W każdym z nich pojęcie niesprzeczności wciąż odgrywa ważną i zwykle dość widoczną rolę. Próbując uporządkować te możliwości, dla wygody pogrupujemy je na trzy główne rodzaje: 1. Operacje częściowego przecięcia (partial meet operations), tj. operacje, których wyniki stanowią przecięcia rezultatów uzyskanych za pomocą tylko niektórych maksymalnych podzbiorów K, niesprzecznych z aktualnymi przesłankami. 2. Operacje podmaksymalne, tj. operacje, których wyniki stanowią przecięcie rezultatów uzyskanych za pomocą podzbiorów K, niesprzecznych z aktualnymi przesłankami, lecz niekoniecznie maksymalnych. 3. Operacje wolne od przecięcia, tj. operacje, które wyróżniają pojedyncze rezultaty bez potrzeby szukania części wspólnej. Wszystkie powyższe operacje mają pewną przewagę w stosunku do prostego wzorca zaprezentowanego w poprzednim podrozdziale, dopuszczają bowiem domknięcie zbioru założeń w tle K na klasyczną konsekwencję, ale jednocześnie nie powodują uklasycznienia niemonotonicznej operacji w sposób opisany w twierdzeniu 2.7. Każdy z tych rodzajów zilustrujemy przykładem z literatury. Podejścia w ramach częściowego przecięcia Tego typu podejścia nadal opierają się na pracy z maksymalnymi podzbiorami wyjściowego zbioru założeń K, które są niesprzeczne z aktualnym zbiorem przesłanek A. Wyróżnia je jednak to, że interesują nas tylko pewne tego typu zbiory, a nie wszystkie. Inaczej rzecz biorąc definiują one C(A) jako przecięcie zbiorów C(K 0 ∪ A) dla pewnych K 0 ⊆ K, które są maksymalnie niesprzeczne z A. Poszczególne z tych podejść różnią się sposobem wyboru zbiorów K 0 . Rozważymy cztery z nich, w porządku ich ogólności. Po kolei weźmiemy pod uwagę: konsekwencję chroniącą (screened consequence) (traktującą pewne elementy K jako nienaruszalne), konsekwencję warstwową (layered consequence) (preferującą pewne elementy K), relacyjną konsekwencję częściowego przecięcia (relational partial meet consequence) (biorącą pod uwagę pewne maksymalne, niesprzeczne z A podzbiory K, jako podzbiory bardziej preferowane niż pozostałe), oraz konsekwencję z funkcjami selekcji (via selection functions) (jest to najbardziej ogólna postać, która obejmuje wszystkie trzy pozostałe, a także wzór konsekwencji domyślnych założeń zdefiniowany w poprzednim podrozdziale).
44
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Konsekwencja chroniąca
Bez względu na przyjmowane przesłanki moglibyśmy chcieć zachować niektóre z naszych założeń ukrytych w tle. W celu wyrażenia tego zamiaru w sposób matematyczny bierzemy zbiór przesłanek w tle i ustalamy pewien podzbiór K0 ⊆ K całkowicie chronionych przesłanek. Następnie definiujemy interesującą nas operaT cję C KK0 (A) za pomocą równości: C KK0 (A) = {Cn(K 0 ∪ A) : K0 ⊆ K 0 ⊆ K, gdzie K 0 jest maksymalny i niesprzeczny z A}. W ten sposób wyróżnione przesłanki z K0 są wykorzystywane bez względu na pozostałe formuły, które mogą być odrzucane, jeżeli wprowadzają sprzeczność. Ten rodzaj konsekwencji został wprowadzony przez Makinsona (1997) w kontekście logiki zmiany przekonań (logic of belief contraction and revision). W tamtym kontekście wzięto dodatkowo pod uwagę graniczny przypadek, gdy K0 , zbiór chronionych przesłanek w tle, jest sprzeczny z aktualnym zbiorem założeń. Oczywiście w takim przypadku nie ma maksymalnych zbiorów niesprzecznych z A, które zawierają K0 , a zatem każda formuła naszego języka staje się z definicji konsekwencją zbioru A. Ma to sens, kiedy myślimy o inferencji, jednak wydaje się mniej sensowne w wypadku logiki zmiany przekonań, gdzie moglibyśmy zaniechać rewizji przekonań ze zbioru K, kiedy przychodzące informacje są w konflikcie z jego chronionym jądrem. Z tego też powodu, w kontekście logiki zmiany przekonań, w pracy Makinsona (1997) dane wyjściowe dla tego szczególnego przypadku były zdefiniowane po prostu jako samo K. Zauważmy, że ciąg inkluzji Cn ≤ C K ≤ CnK , o którym wspominaliśmy przy omawianiu konsekwencji założeń domyślnych, staje się w przypadku konsekwencji chroniącej bogatszy: Cn ≤ CnK0 ≤ C KK0 ≤ CnK . Innymi słowy, operacja osiowych założeń wciąż służy jako ograniczenie górne dla opisanej tu niemonotonicznej operacji, podczas gdy ograniczenie dolne przesuwa się od klasycznej operacji Cn do operacji osiowych założeń CnK0 . Kiedy ograniczeniem dolnym nie jest już dalej klasyczna konsekwencja Cn, wtedy w przypadku, gdy K = Cn(K) i K jest sprzeczne ze zbiorem A nie dochodzi do opisanego w poprzednim podrozdziale zjawiska uklasycznienia. Mamy natomiast do czynienia ze „słabszym uklasycznieniem”. Przy powyższych dwóch założeniach, otrzymujemy C KK0 (A) = CnK0 (A), co również nie jest pożądane, bowiem jedynymi wnioskami, które mogą być otrzymane, są wnioski ze zbioru A oraz ze zbioru wyróżnionych założeń ukrytych w tle. Dowód tej obserwacji jest prostym powtórzeniem dowodu twierdzenia 2.7. Możemy zatem powiedzieć, że bez dalszych udoskonaleń konstrukcja ta wciąż nie jest odpowiednia do zastosowań w przypadku zbiorów założeń domkniętych na klasyczną konsekwencję.
2.3. Uszczegółowienia, warianty i uogólnienia
45
Konsekwencja warstwowa Kolejny pomysł opiera się na podzieleniu zbioru domyślnych założeń K na poziomy K1 , …, Kn , na których szukamy w poszczególnych krokach zbiorów maksymalnych, preferując wcześniejsze poziomy od późniejszych. Opisując tę procedurę inaczej, przy ustalonym zbiorze przesłanek A bierzemy najpierw maksymalne podzbiory K1 niesprzeczne z A, a następnie rozszerzamy każdy z nich do maksymalnego podzbioru K1 ∪ K2 niesprzecznego z A, i tak dalej. Formalnie rzecz ujmując, preferowanym podzbiorem K z uwagi na A (modulo operacja warstwowa) jest zbiór J1 ∪ · · · ∪ Jn ⊆ K taki, że dla każdego i 6 n, J1 ∪ · · · ∪ Ji jest maksymalnym A-niesprzecznym podzbiorem K1 ∪ · · · ∪ Ki . Jest jasne, że każdy preferowany podzbiór K jest maksymalnym, A-niesprzecznym podzbiorem K, ale nie odwrotnie. Nasze uwaga jest zatem skierowana na pewną podrodzinę tych ostatnich zbiorów. Opisana konstrukcja została zaproponowana przez Brewkę (1989), gdzie nazwano ją „konsekwencją via teorie domyślnych poziomów” (consequence via level default theories). Pewien jej wariant, w którym maksymalna moc zbioru zastępuje maksymalność względem relacji inkluzji, został wprowadzony przez Beneferhata oraz innych autorów (1993). Podejście to zostało wymyślone dla zbiorów założeń ukrytych w tle, które nie są domknięte na klasyczną konsekwencję. Ponadto zwykle zakłada się, że poziomy tworzą partycje K, tzn. że wyczerpują K i są rozłączne. Kiedy jednak K jest domknięte na klasyczną konsekwencję, wymagana jest ostrożność. Jeśli bowiem konstrukcja ta ma zachowywać się w intuicyjnie akceptowalny sposób, to poziomy K1 , …, Kn powinny być rozłączne, a wtedy nie mogą być równocześnie domknięte na klasyczną konsekwencję.
Relacyjna konsekwencja częściowego przecięcia Alternatywną procedurą wybierania podrodziny maksymalnych A-niesprzecznych podzbiorów K jest ustalenie relacji < pomiędzy podzbiorami K 0 zbioru K i wybranie spośród maksymalnie A-niesprzecznych podzbiorów K, tych które są minimalne względem tej relacji. Nakładanie dodatkowych warunków na relację < (takich np. jak modularność), może zagwarantować większą regularność w zachowaniu się definiowanej relacji konsekwencji. Podejście to zastosowane do zbiorów domkniętych na klasyczną konsekwencję unika zjawiska uklasycznienia zarówno w pełnym, jak i w ograniczonym zakresie, wzmiankowanym przy wcześniejszych wariantach konsekwencji domyślnych założeń.
46
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Przedstawiona konstrukcja jest w istocie taka sama, jak w podejściu AGM do zmiany przekonań rozwiniętym przez Alchourróna, Gärdenforsa i Makinsona (1985), gdzie była nazywana „relacyjnym, częściowym przecięciem kontrakcji i rewizji” (relational partial meet contraction and revision). Jest ona również blisko spokrewniona z semantycznym podejściem do niemonotonicznych rozumowań, nazywanym inferencją preferencji, które przebadamy bardziej szczegółowo w następnym rozdziale.
Konsekwencja określona za pomocą funkcji selekcji Bardziej ogólną procedurą, niż przedstawione wyżej, jest zastosowanie funkcji selekcji. Polega to na powiązaniu każdej rodziny K podzbiorów zbioru K z podrodziną δ(K) ⊆ K „wyróżnionych” elementów rodziny K. Funkcja selekcji może być zdefiniowana dowolnie lub ograniczana na różne sposoby. Zazwyczaj wymagamy jednak, żeby rodzina δ(K) była niepusta, jeśli tylko rodzina K jest niepusta. T Za pomocą tego pojęcia definiujemy Cδ (A) = {Cn(K 0 ∪ A) : K 0 ∈ δ(KA )}, gdzie KA jest rodziną wszystkich maksymalnie A-niesprzecznych podzbiorów K 0 ⊆ K, a δ jest funkcją selekcji. Podobnie jak K, także δ jest ustalana niezależnie od zbioru przesłanek A. Zarówno różne wybory δ, jak i różne wybory K prowadzą oczywiście do różnych operacji konsekwencji. W granicznym przypadku, w którym funkcja selekcji nie ma rzeczywistego wpływu, to jest kiedy δ(KA ) = KA (jest tak w przypadku funkcji identyczności), powracamy do podstawowego pojęcia konsekwencji domyślnych założeń zdefiniowanego w poprzednim podrozdziale. Widzieliśmy już, że prowadzi to do nieintuicyjnych rezultatów w przypadku, gdy K jest domknięte na klasyczną konsekwencję, tj. K = Cn(K). Na przeciwnym końcu spektrum mamy inny graniczny przypadek, gdzie funkcja selekcji zawsze daje singleton, to jest δ(KA ) = {K 0 } dla pewnego K 0 ∈ KA , gdy jest ona niepusta. Taka funkcja selekcji jest zwykle nazywana funkcją wyboru, a operacja konsekwencji Cδ zdefiniowana przy jej pomocy jest nazywana konsekwencją domyślnych założeń maksymalnego wyboru. W tym przypadku, dla każdego zbioru przesłanek A sprzecznego z K istnieje taki podzbiór K 0 ⊆ K, który jest maksymalnie niesprzeczny z A oraz Cδ (A) = Cn(K 0 ∪ A). Ten graniczny przypadek również prowadzi do nieintuicyjnych konsekwencji w wypadku domknięcia zbioru K na klasyczną konsekwencję. Gdy K = Cn(K), operacja konsekwencji maksymalnego wyboru zawsze daje zbiory konsekwencji, które są w tym sensie zupełne, że zawierają co najmniej jedną z formuł x lub ¬x, gdzie x jest dowolną formułą rozważanego języka. Jest to pewnego rodzaju dziwna i niepożądana nadmiarowość. Fakt ten po raz pierwszy został dowiedziony przez
2.3. Uszczegółowienia, warianty i uogólnienia
47
Alchourróna i Makinsona (1982) w kontekście logiki zmiany przekonań (logic of belief change). T 2.9. Niech K = Cn(K) oraz niech zbiór A b¦dzie sprzeczny z K . Wtedy dla dowolnego maksymalnego A-niesprzecznego podzbioru K 0 zbioru K , Cn(K 0 ∪ A) jest zupeªny. D´ . Niech K = Cn(K) oraz niech A będzie dowolnym sprzecznym z K zbiorem przesłanek. Niech K 0 będzie dowolnym maksymalnym A-niesprzecznym podzbiorem K. Niech x będzie dowolną formułą. Zamierzamy pokazać, że x ∈ Cn(K 0 ∪ A) lub ¬x ∈ Cn(K 0 ∪ A). Nasza argumentacja ma pewne wspólne cechy z dowodem twierdzenia 2.7. Ponieważ A jest sprzeczny z K, więc na mocy zwartości logiki klasycznej, istnieje pewien skończony podzbiór A0 ⊆ A, który jest sprzeczny z K. Niech a będzie koniunkcją skończenie wielu elementów z A0 . Wtedy a ∈ Cn(A). Aby skończyć dowód wystarczy pokazać, że ¬a ∨ x ∈ K 0 lub ¬a ∨ ¬x ∈ K 0 , wtedy bowiem K 0 ∪ A ` a ∧ (¬a ∨ x) ` x lub K 0 ∪ A ` a ∧ (¬a ∨ ¬x) ` ¬x. Załóżmy nie wprost, że zarówno ¬a ∨ x < K 0 oraz ¬a ∨ ¬x < K 0 . Ponieważ A0 jest sprzeczne z K, wiemy więc, że a jest również sprzeczne z K. Zatem ¬a ∈ Cn(K), a następnie, stosując kluczowe założenie, że K jest domknięte na klasyczną konsekwencję, ¬a ∨ x, ¬a ∨ ¬x ∈ Cn(K) = K. Z drugiej strony, na mocy założenia, K 0 jest maksymalny pośród podzbiorów K niesprzecznych z A. Zatem obydwa zbiory K 0 ∪ {¬a ∨ x} oraz K 0 ∪ {¬a ∨ ¬x} są sprzeczne z A. Na mocy własności monotoniczności dla klasycznej konsekwencji wynika stąd, że K 0 ∪ {x} oraz K 0 ∪{¬x} są sprzeczne z A. Zatem K 0 jest sprzeczny z A, co daje poszukiwaną sprzeczność. Morał z tej opowieści brzmi następująco. Gdy zbiory przesłanek ukrytych w tle są domknięte na klasyczną konsekwencję, funkcje selekcji nie powinny być ekstremalne. Jedną z niepożądanych konsekwencji otrzymujemy wtedy, gdy funkcja selekcji jest identycznością. Taka sytuacja cofa nas do podstawowej formy konsekwencji domyślnych założeń, co — jak widzieliśmy w twierdzeniu 2.7 — uklasycznia ją w przypadku, gdy K = Cn(K). Inny niepożądany rezultat otrzymujemy, kiedy wybierzemy pojedynczy maksymalny podzbiór: zwiększa to zbiory konsekwencji, powodując, że są zupełne. Funkcje selekcji powinny być więc gdzieś pośrodku tych ekstremów, zgodnie z zasadą złotego środka. Podejście wykorzystujące funkcje selekcji jest bardzo ogólne i obejmuje trzy poprzednie podejścia jako swoje specjalne przypadki. Na szczególną uwagę zasługuje jego powiązanie z ostatnim z nich. Mając dowolną, dobrze ufundowaną relację < pomiędzy podzbiorami K, funkcja przypisująca każdej rodzinie K podzbiorów zbioru K jego <-minimalne elementy jest niewątpliwie funkcją selekcji.
48
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
I odwrotnie, jeśli nałożymy wystarczająco silne warunki na funkcję selekcji δ, wtedy może ona być reprezentowana w ten właśnie sposób, to jest możemy znaleźć taką relację < pomiędzy podzbiorami K, iż δ(K) zawiera <-minimalne elementy K 0 ∈ K. Tak przedstawiona relacja jest niekiedy nazywana „ujawnioną preferencją” (revealed preference), czyli za pomocą terminu zaczerpniętego z teorii wyboru dóbr z ekonomii, gdzie powiązania pomiędzy relacjami preferencji oraz funkcjami selekcji były badane po raz pierwszy. Systematyczne badania nad związkami pomiędzy warunkami nałożonymi na funkcje selekcji oraz możliwością reprezentowania ich przez relacje preferencji można znaleźć w pracach Rotta (1993; 2001). Podejścia podmaksymalne Wszystkie warianty rozważane powyżej stosują maksymalnie niesprzeczne zbiory założeń ukrytych w tle K. Różnią się one jedynie sposobem wyboru tych zbiorów. Kolejne uogólnienie zezwala nam jednak rozważać pewne niemaksymalne podzbiory K. Dodatkowe warunki ukryte w tle Jednym z pomysłów, rozważanym już przez Poole’a (1988), jest dodanie do zbioru założeń w tle K kolejnego zbioru „warunków” J. W najlepszym wypadku jest on niesprzeczny z eksponowanymi przesłankami rozumowania. Nie uczestniczy on jednak pozytywnie w generowaniu konkluzji, ale kiedy pojawia się sprzeczność, nie jest on zmniejszany. W efekcie, to on dalej redukuje założenia w tle ze zbioru K, które mogą być w sposób usankcjonowany użyte przy wnioskowaniu wraz ze zbiorem A. Bardziej precyzyjnie rzecz ujmując, definicja konsekwencji domyślnych założeń będzie miała teraz następującą postać. Niech K, J ⊆ L będą zbiorami formuł, które pełnią rolę przesłanek ukrytych w tle oraz dodatkowych warunków. Relację konsekwencji domyślnych założeń z dodatkowymi warunkami (default-assumption consequence with constraints) |zKJ definiujemy: A |zKJ x wtedy i tylko wtedy, gdy K 0 ∪ A ` x, dla każdego zbioru K 0 ⊆ K, gdzie K 0 jest zbiorem maksymalnym pośród podzbiorów K niesprzecznych z A ∪ J. Pisząc CKJ na oznaczenie koreT spondującej operacji, mamy: CKJ (A) = {Cn(K 0 ∪ A) : K 0 ⊆ K, gdzie K 0 jest maksymalnie niesprzeczny z A ∪ J}. Jeśli nie ma takich zbiorów jak K 0 w definicji, otrzymujemy równość: CKJ (A) = L. Oczywiście dzieje się to, kiedy samo J jest sprzeczne z A, wtedy też K 0 jest sprzeczne z A ∪ J nawet dla K 0 = ∅. Jest również możliwe pokazanie odwrot-
2.3. Uszczegółowienia, warianty i uogólnienia
49
nej zależności, przy użyciu własności zwartości klasycznej konsekwencji. Zatem CKJ (A) = L wtedy i tylko wtedy, gdy J jest sprzeczne z A. Jak można było oczekiwać, ten rodzaj operacji jest mniej regularny pod względem zachowania się niż operacje bez dodatkowych warunków. Dla przykładu, nie spełnia on łączenia przesłanek w alternatywę. Spełnia natomiast zarówno kumulatywną przechodniość oraz ostrożną monotoniczność. Warto zapytać, jaka jest w tej konstrukcji istotna różnica pomiędzy założeniem a dodatkowym warunkiem? Obydwa są ustalane niezależnie od zbioru przesłanek. Jednakże warunki są w pewnym sensie „bardziej chronione” niż założenia ukryte w tle. W wypadku konfliktu ze zbiorem przesłanek, założenia mogą być modyfikowane, a warunki nie. Istotnie, obecność dodatkowych warunków ma na celu tworzenie sprzeczności tam, gdzie nie istnieje ona pomiędzy przesłankami a założeniami, i zmusza do odrzucenia większej ilości założeń, niż miałoby to miejsce we wcześniejszych przypadkach. Dodatkowe warunki odgrywają zatem silnie negatywną rolę. Z drugiej strony nie odgrywają one żadnej pozytywnej roli, nie są bowiem nigdy łączone z rozważanymi przesłankami w celu otrzymania nowych konkluzji. Stąd wniosek, że relacja konsekwencji zdefiniowana za pomocą założeń w tle oraz dodatkowych warunków jest zawsze słabsza niż zdefiniowana tylko za pomocą tych pierwszych (jest ona zatem zawsze podrelacją). Jeśli jednak przypiszemy dodatkowym warunkom także pozytywną rolę, definiując konsekwencję: T CKJ (A) = {Cn(K 0 ∪ J ∪ A) : K 0 ⊆ K, gdzie K 0 jest maksymalnie niesprzeczny z A ∪ J}, wtedy taka operacja może być postrzegana jako jedna z operacji zdefiniowanych wcześniej, tzn. chroniąca operacja konsekwencji, w której K 0 ∪ J służy jako wykorzystywany podzbiór założeń ukrytych w tle K ∪ J, a zbiór J jest zbiorem wyróżnionym i chronionym. Podzbiory maksymalnie bogate informacyjnie Istnieje również inny sposób osłabienia podanego warunku maksymalności. Moglibyśmy rozważać nie największe, ale najbogatsze informacyjnie podzbiory zbioru K, które są niesprzeczne z przesłankami. Naturalne wydaje się założenie, że wszystkie maksymalnie duże podzbiory będą również maksymalnie bogate informacyjnie. Jednakże pewne niemaksymalne zbiory mogą być tak samo bogate informacyjnie, jak ich maksymalne nadzbiory. W tym wypadku także one powinny być uwzględnione w rodzinie zbiorów, których konsekwencje przecinamy. Za takim właśnie podejściem, sformułowanym w kontekście logiki rewizji przekonań z wyraźną jednak analogią do inferencji, argumentował Isaac Levi (1996). Formalne własności takich relacji konsekwencji badali z kolei Rott oraz Pagnucco (1999).
50
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Konstrukcja ta może być wciąż postrzegana jako przypadek konsekwencji opisanej za pomocą podzbiorów K, które sa maksymalne i niesprzeczne z rozważanymi przesłankami. Maksymalność jest teraz jednak definiowana przez relację <, zwiększania stopnia informacyjności, a nie relację inkluzji. Kiedy < jest podrelacją ⊂, wtedy każdy ⊂-maksymalny A-niesprzeczny podzbiór K jest także <-maksymalnym A-niesprzecznym podzbiorem K. Jednakże w przypadku, gdy K = Cn(K), przecięcie wszystkich tych zbiorów ponownie prowadzi do kolapsu w klasyczną konsekwencję. Aby tego uniknąć, moglibyśmy powiązać ten pomysł z jednym z rozważanych już podejść, nazywanym podejściem częściowego przecięcia (partial meet approach), lub bardziej je uogólnić, słabiej wiążąc relację < z relacją inkluzji. Taka generalizacja byłaby odpowiednia, jeśli zinterpretowalibyśmy relację < jako reprezentującą „względną epistemiczną wartość” podzbiorów zbioru K, która jest obliczana w taki sposób, że uwzględnia kilka konkurujących czynników, przy czym nie wszystkie są pozytywnie skorelowane z wielkością zbiorów. Dla przykładu, mogłaby ona być wypadkową wielkości, informacyjności, prostoty sformułowania, prostoty zastosowania, bogactwa powiązań itd. A zatem nie wszystkie maksymalne podzbiory K, które są niesprzeczne z badanymi przesłankami musiałyby mieć maksymalną wartość. Nie musi również zachodzić zależność odwrotna.
Stany epistemicznie najlepsze „Ostateczny” poziom abstrakcji w ramach podejść nazywanych tutaj podejściami częściowego przęcięcia (meet approaches) uzyskał w swoich badaniach Bochman (2001). U podstaw jego konstrukcji leżą dwa pomysły. Jednym z nich jest porównywanie podzbiorów zbioru K za pomocą dowolnej relacji, abstrahującej zupełnie od relacji inkluzji lub relacji względnej wartości epistemicznej. Drugi natomiast polega na dopuszczeniu pomijania z zakresu rozważań niektórych podzbiorów K. Wyznaczając zatem pewien zbiór K, bierzemy pod uwagę także jakąś rodzinę jego podzbiorów K ⊆ 2K . Możemy o niej myśleć jako o reprezentującej zakres wszystkich przyjętych stanów przekonań w ramach K, nazywanych przez Bochmana stanami epistemicznymi. Definiujemy teraz relację konsekwencji: A |z K x wtedy i tylko wtedy, gdy K 0 ∪ A ` x, dla każdego epistemicznego stanu K 0 (czyli elementu rodziny K), który jest A-niesprzeczny oraz <-maksymalny. Dokładniej mówiąc Bochman nakłada na tę konstrukcję pewne warunki. W szczególności elementy K 0 ze zbioru K mają być domknięte na klasyczną konsekwencję, a relacja < ma być przechodnia i przeciwzwrotna. Ponadto, dla wielu celów, dodaje się również warunek zakorkowania (stoppering) lub warunek gładkości (smoothness) (wyjaśnimy je w podrozdziale 3.2). Ogólna definicja
2.3. Uszczegółowienia, warianty i uogólnienia
51
pozostaje jednak abstrakcyjna. Bochman zauważa, że kiedy rodzina K ⊆ 2K jest ustalona, to nie mamy już żadnych wymagań względem K. Opisując to podejście, wyraz „ostateczny” wzięliśmy w cudzysłów, ponieważ tak naprawdę nie ma takiej rzeczy jak najbardziej ogólny poziom abstrakcji w tej kwestii. Dla przykładu, jak zauważa Bochman (2001), relacje konsekwencji zdefiniowane przez Makinsona (1989) są pod pewnymi względami bardziej abstrakcyjne, a pod innymi względami mniej. Podejścia nie wymagające przecięcia Wszystkie dotąd przedstawione warianty biorą pod uwagę pewne podzbiory K 0 zbioru K, które są niesprzeczne z danymi przesłankami A, a następnie, postępując zgodnie ze „sceptyczną strategią”, prowadzą do przecięcia ich odpowiednich konsekwencji Cn(K 0 ∪ A). Teraz jednak przedstawimy podejścia, które dają jeden zbiór konsekwencji bez operacji przecięcia. Łańcuchy epistemiczne Załóżmy, że weźmiemy nakreśloną powyżej, bardzo abstrakcyjną konstrukcję Bochmana, ale — w stylu rycin Eschera — stopnie generalizacji poprowadzimy w nowym kierunku. Zachowamy pomysł Bochmana dotyczący rodziny K ⊆ 2K , ale powrócimy do zwykłej relacji inkluzji jako relacji służącej do porównywania jej elementów. A zatem A |zK x zdefiniujemy teraz warunkiem: K 0 ∪ A ` x, dla każdego epistemicznego stanu K 0 ∈ K, który jest niesprzeczny z A i maksymalny pośród elementów rodziny K. To podejście jest bliższe naszemu paradygmatycznemu pojęciu konsekwencji domyślnych założeń z podrozdziału 2.2. Jedyna różnica polega na tym, że bierzemy zbiory maksymalne K 0 ∈ K, a nie zaś K 0 ⊆ K. Ta mała zmiana może jednak mieć konsekwencje godne rozważenia. W zbiorze K może nie być pewnego maksymalnie A-niesprzecznego zbioru K 0 ⊆ K. I odwrotnie, A-niesprzeczny podzbiór K 0 zbioru K może być maksymalny wśród elementów K, ale nie musi być maksymalny wśród podzbiorów K, bowiem może istnieć inny podzbiór K 00 , również A-niesprzeczny, taki że K 0 ⊂ K 00 ⊆ K, ale K 00 < K. Spróbujmy bardziej uszczegółowić to podejście. Załóżmy, że zbiór epistemicznych stanów K zawiera zbiór pusty jako najmniejszy element, oraz że jest łańcuchem względem relacji inkluzji, czyli dla dowolnych K 0 i K 00 z K, albo K 0 ⊆ K 00 , albo K 00 ⊆ K 0 . Załóżmy następnie, że rozważany język jest skończony, a więc jest skończenie wiele nierównoważnych formuł z uwagi na klasyczną równoważność. Bez utraty ogólności możemy także założyć, że K jest zbiorem
52
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
formuł k1 , …, kn , liniowo uporządkowanym przez klasyczną konsekwencję, gdzie najsłabszy element jest tautologią. Nazwiemy go łańcuchem epistemicznym. W tym kontekście definicja Bochmana A |z K x redukuje się do następującej: A |z K x wtedy i tylko wtedy, gdy A jest sprzeczne, lub — w przypadku gdy A jest niesprzeczne — {ki } ∪ A ` x, gdzie ki jest najsilniejszą formułą w K, która jest niesprzeczna z A. Równoważnie: jest tak, gdy albo A jest sprzeczne, albo A jest niesprzeczne i {ki } ∪ A ` x, dla pewnej formuły w K, która jest niesprzeczna z A. Ten rodzaj relacji konsekwencji został wprowadzony i był intensywnie badany przez Michaela Freunda (1998). Definicja stosująca epistemiczne łańcuchy jest — jak pokazał ten autor — (w skończonych przypadkach) syntaktycznym odpowiednikiem podejścia semantycznego (nazywanego modularną konsekwencją preferencji (ranked preferential consequence)), które będzie dyskutowane w następnym rozdziale. Interesującą rzeczą jest porównanie tej konstrukcji z „konsekwencją warstwową” Brewki, o której mówiliśmy w jednym z poprzednich podrozdziałów. Obydwie one stosują rodzinę K1 , …, Kn podzbiorów K. Podejście Freunda wymaga, aby była ona łańcuchem względem relacji inkluzji, podczas gdy podejście Brewki zakłada, że jest ona pewną formą partycji zbioru K, czyli zbiorem rozłącznych i niepustych podzbiorów, których sumą jest K. Przy bliższym przyjrzeniu okazuje się jednak, że mamy tam w dużej mierze do czynienia z różnicą w prezentacji. Bardziej znaczący jest fakt, że Brewka bierze pod uwagę maksymalne, A-niesprzeczne podzbiory każdego Ki , podczas gdy Freund traktuje każdy zbiór Ki jako niepodzielny i szuka największego zbioru A-niesprzecznego. Kiedy K nie jest domknięty na klasyczną konsekwencję, różnica ta wpływa oczywiście na wynik. Kiedy jednak K i wszystkie Ki są domknięte na klasyczną konsekwencję, wtedy Ki również w podejściu Brewki staje się niepodzielny, co w tym przypadku redukuje je do systemu epistemicznego łańcucha Freunda. Konsekwencja bezpieczna Pewną interesującą cechą konstrukcji Freunda jest to, że pozwala nam ona wyznaczyć specjalny A-niesprzeczny podzbiór K, bez brania pod uwagę przecięcia maksymalnych zbiorów. Koszt, który ponosimy, to liniowo uporządkowana relacją inkluzji rodzina możliwych stanów epistemicznych. Opiszemy teraz kolejne podejście, które nie wymaga przecięcia, a jedynie acyklicznej relacji < określonej na K, to jest relacji takiej, że nie ma w K zdań a1 , …, an takich, iż a1 < a2 < · · · < an < a1 . Podstawa tego pomysłu sprowadza się tutaj do wzięcia pod uwagę tych elementów K, które nie mogą być rozsądnie „oskarżone” o powodowanie sprzeczności K z A. Załóżmy, że mamy określoną relację < na zbiorze założeń ukrytych w tle
2.3. Uszczegółowienia, warianty i uogólnienia
53
K, która reprezentuje pojęcie podatności (vulnerability), w ten sposób, że k < k0 znaczy, iż k jest bardziej podatne niż k0 . Niech A będzie zbiorem przesłanek. Powiemy, że zdanie a ∈ K jest bezpieczne z uwagi na A (modulo <) wtedy i tylko wtedy, gdy a nie jest minimalnym elementem żadnego minimalnego podzbioru K 0 zbioru K, który jest sprzeczny z A. Dla ostrożności podkreślmy, że mamy tutaj dwa wymiary minimalności. Pierwszy jest związany z relacją < pomiędzy elementami K, a drugi dotyczy relacji inkluzji na podzbiorach K. Nie jest trudno zauważyć, że zbiór wszystkich bezpiecznych elementów zasługuje na swoje imię: O 2.10. Niech K b¦dzie zbiorem zaªo»e« ukrytych w tle, a < acykliczn¡ relacj¡ okre±lon¡ na K . Niech A b¦dzie niesprzecznym zbiorem przesªanek. Wtedy zbiór S A wszystkich bezpiecznych elementów K z uwagi na A (modulo <) jest niesprzeczny z A. D´ . Dowód tej obserwacji jest bardzo elegancki i przypomina diagonalne rozumowania z teorii mnogości. Załóżmy nie wprost, że A jest niesprzeczny, lecz S A jest sprzeczny z A. Wtedy z uwagi na zwartość klasycznej konsekwencji istnieje taki skończony S 1 ⊆ S A , który jest sprzeczny z A. Istnieje zatem taki minimalny i skończony zbiór S 0 ⊆ S 1 ⊆ S A , który jest sprzeczny z A. Ponieważ A jest niesprzeczny, więc S 0 nie jest pusty. Ponieważ jest również skończony, a relacja < jest acykliczna, zatem musi być co najmniej jeden <-minimalny element s w zbiorze S 0 . Stąd, na mocy konstrukcji, s jest <-minimalnym elementem pewnego ⊆-minimalnego A-sprzecznego podzbioru K i z definicji nie jest bezpieczny z uwagi na A. Z drugiej strony s ∈ S A , jest więc bezpieczny z uwagi na A. Prowadzi to jednak do sprzeczności, co kończy dowód. Relacja bezpiecznej konsekwencji jest zdefiniowana następującym warunkiem: A |z x wtedy i tylko wtedy, gdy A∪S A ` x. Stanowi ona ewidentnie pewien rodzaj konsekwencji domyślnych założeń. Ze zbioru założeń K wybiera bowiem specjalny podzbiór elementów bezpiecznych S A , których tożsamość zależy w umotywowany sposób od badanych przesłanek ze zbioru A (podobnie jak acykliczna relacja < określona na K), a następnie przyłącza do przesłanek specjalne założenia ukryte w tle. Jedną z zalet bezpiecznej inferencji, podobnie jak innych obecnie prezentowanych inferencji, jest to, że aby otrzymać pożądany rezultat, nie wymaga ona operacji przecięcia określonej rodziny zbiorów wyjściowych. Kolejną jej zaletą jest to, że wymaga jedynie słabego warunku acykliczności nałożonego na relację <. Bezpieczna inferencja została szczegółowo przebadana przez Alchourróna oraz Makinsona (1985; 1986) jako forma logiki rewizji przekonań.
54
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Inferencja porównywanych oczekiwań Pojęcie założeń ukrytych w tle może również być opracowane w nieco inny sposób. Rezygnując z reprezentowania go za pomocą zbioru, można by uznać, że faktycznie chodzi tu o kwestię stopnia. Dowolne niekontratutologiczne zdanie języka może służyć jako dodatkowe założenie w stopniu, w jakim wydaje się prawdopodobne. Ten stopień wzbudzania zaufania można reprezentować jako relację < określoną na formułach języka. Zatem wyrażenie x < y czytamy: y jest ściśle bardziej prawdopodobne (lub mniej nieoczekiwane) niż x. Mając taką relację prawdopodobieństwa, możemy teraz zdefiniować odpowiednie pojęcie konsekwencji, która pozwala stosować wystarczająco prawdopodobne zdania jako dodatkowe przesłanki. Jeden ze sposobów pochodzi z pracy Rotta (1991) i wygląda następująco: a |z< x wtedy i tylko wtedy, gdy x ∈ Cn({a} ∪ {y : ¬a < y}). Mówiąc nieformalnie, inferencja a |z< x ma miejsce wtedy, gdy x jest klasyczną konsekwencją przesłanki a wzbogaconej o wszystkie te zdania, które są bardziej prawdopodobne niż ¬a. Zatem, kiedy przesłanką jest formuła a, wtedy wszystkie formuły y takie, że ¬a < y mogą służyć jako założenia ukryte w tle. Taką konsekwencję nazywamy inferencją porównywanych oczekiwań (comparative expectation inference). Jeśli na relację < nałożymy odpowiednie warunki, to można pokazać, że zbiór Ka = {y : ¬a < y} wszystkich założeń ukrytych w tle (w kontekście formuły a) jest klasycznie niesprzeczny z formułą a, jeżeli oczywiście a nie jest kontrtautologią. Przedstawiona konstrukcja ma wiele zalet. Jedną z nich jest to, że nie musimy przecinać różnych konsekwencji. Do przesłanki a dodajemy po prostu jeden zbiór Ka = {y : ¬a < y} i domykamy go na klasyczną konsekwencję. Kolejną korzystną cechą jest to, że wygenerowana w ten sposób niemonotoniczna relacja inferencji |z< ma bardzo regularne własności. Spełnia nie tylko kumulatywną przechodniość i ostrożną monotoniczność, ale również warunek, który nie ma charakteru reguły Horna, tzn. racjonalną monotoniczność (rational monotony): jeśli a |z x i a |z 6 ¬b, to a ∧ b |z x. Należy jednak dodać, że ma ona również swoje wady, bowiem wymagania, które musimy nałożyć na relację < są dość silne. W szczególności, aby pokazać, że dodatkowe założenia są niesprzeczne z przesłankami, potrzebujemy mocnego założenia, że ¬a < y1 oraz ¬a < y2 łącznie implikują ¬a < y1 ∧ y2 . Ponadto, żeby definiowana relacja konsekwencji dobrze się zachowywała, potrzebujemy nie tylko przechodniości i przeciwzwrotności relacji <, ale także warunku modularności: jeśli a < x i y ≮ x, to a < y. Inferencja porównywanych oczekiwań może być jednak zdefiniowana w inny sposób: a |z< x wtedy i tylko wtedy, gdy ¬a < ¬a ∨ x lub ¬a ∈ Cn(∅), gdzie Cn jest klasyczną konsekwencją. Ta definicja jest równoważna z wcześniejszą, jeśli
2.3. Uszczegółowienia, warianty i uogólnienia
55
nałożymy na relację < dostatecznie dużo warunków. Stosując ją, nie potrzebujemy dodatkowych warunków dla relacji <, aby pokazać, że badane przesłanki są niesprzeczne z założeniami w tle, ponieważ nie używamy już przesłanek w tle! Ta oszczędność jest jednak złudna. Tak samo mocne założenia są wciąż potrzebne dla zagwarantowania, że |z< dobrze się zachowuje, ale konceptualnie tracimy pouczający Gestalt domyślnych założeń, który jest widoczny w definicji Rotta. Inferencja porównywanych oczekiwań jest szczegółowo badana w pracach Gärdenforsa i Makinsona (1988; 1994), z krótkim opisem w pracy Makinsona (1994), w podrozdziale 4.2. Wspomniane prezentacje bazują na pierwotnej relacji ≤, definiując x < y jako y x. Podstawowy pomysł idzie jednak daleko dalej i pojawia się w szerokim spektrum różnych prezentacji, czasami w formie dualnej, we wcześniejszych badaniach zmiany przekonań, w badaniach nad logiką okresów warunkowych oraz generalizacją teorii prawdopodobieństwa. Cała ta historia jest zarysowana w dodatku A w pracy Gärdenforsa i Makinsona (1994). Związki z prawdopodobieństwem nakreślimy jeszcze w podrozdziale 5.4. Zainteresowanych szczegółowymi studiami nad inferencją porównywanych oczekiwań oraz uogólnieniem do nieskończonych zbiorów przesłanek odsyłamy do pracy Rotta (2001; 2003). Uwagi końcowe W bieżącym podrozdziale celowo nie wzięliśmy pod uwagę wielu problemów o charakterze technicznym. Dla przykładu, jedynie wzmiankowaliśmy, że główne warunki Horna (i nie-Hornowski warunek racjonalnej monotoniczności) są spełnione przez różne rodzaje relacji konsekwencji. Ta kwestia jest jednak systematycznie zbadana w pracy Makinson (1994). Przechodząc na poziom bardziej zaawansowany, nie dyskutowaliśmy także problemu twierdzeń o reprezentacji, które mogą być dowiedzione dla pewnych relacji konsekwencji, ani przekształceń, które pozwoliłyby zanurzyć jedne konstrukcje w drugich. Problemy te zostały zbadane w literaturze i otrzymano wiele — w tym pewne głębokie i skomplikowane — rezultatów. Niektóre z nich zostały zebrane w książkach Bochmana (2001), Rotta (2001) i Schlechty (2004). Przykład twierdzenia o reprezentacji dla jednego z rodzajów konsekwencji domyślnych założeń jest również dowodzony dalej, w podrozdziale 6.3 niniejszej książki. Ponadto, oprócz podstawowej formy konsekwencji domyślnych założeń zbadanej w poprzednim podrozdziale, zarysowaliśmy prawie tuzin innych jej postaci znanych z literatury, które powstają w procesie partykularyzacji, wariacji, abstrakcji i innych szczegółowych sformułowań. Oczywiście istnieje jeszcze wiele innych sposobów posłużenia się pojęciem założeń ukrytych w tle i zastosowania do niego założenia o niesprzeczności, zasady porządkującej lub innych narzędzi.
56
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
Równie oczywiste jest to, że można składać różne podejścia w złożone wariacje. Nie ma jednak żadnego sensu w systematyzacji tych możliwości. Wystarczy, przynajmniej dla celów tego przeglądu, wskazać prosty paradygmat oraz pewne z głównych pomysłów godnych dalszych badań. W tym miejscu czytelnik może czuć się skonsternowany napotkaną wielością. Który, jeśli w ogóle któryś z rodzajów domyślnych założeń, jest tym poprawnym? Albo, jeśli takiego nie ma, to który z nich jest najlepszy w użyciu? Chcielibyśmy zasugerować, że żaden z nich nie jest tym jedynym poprawnym, i że żaden z nich nie jest zawsze najlepszy do zastosowania. Z perspektywy teoretycznej wszystkie one są interesującymi sposobami generowania niemonotonicznych operacji konsekwencji, bowiem wszystkie zachowują się dość stabilnie. W szczególności wszystkie są nadklasyczne i spełniają warunek klasycznej, lewostronnej równoważności, prawostronnego osłabiania oraz kumulatywnej przechodniości. Gdy zastosujemy jako zbiory założeń ukrytych w tle zbiory domknięte na klasyczną logikę, nie przeistaczają się one w klasyczną konsekwencję tak jak prosta konsekwencja domyślnych założeń z podrozdziału 2.2 — chociaż dwie z nich (chroniąca i warstwowa konsekwencja) częściowo ujawniają w tym kontekście tę własność. Z perspektywy praktycznej wszystkie te operacje powinny być traktowane jako elementy skrzynki z narzędziami, które stosujemy kiedy jest to odpowiednie i wygodne. Pewne z nich mogą być w jednym celu bardziej odpowiednie niż drugie, a w innym zaś może być odwrotnie. Czasami wybór ma znaczenia. Innym razem żadne z nich może nie być tym narzędziem, którego szukamy.
Ćwiczenia 1∗ . Założenie domknięcia świata Załóżmy, że nasz język bazuje na następujących literach zdaniowych: p, q, r, s, t, u. Niech A = {p, q, (p ∧ q) → r, (p ∧ r) → s, (s ∧ t) → u}. Które litery oraz negacje liter zdaniowych mogą być wyprowadzone z A przy użyciu założenia domknięcia świata, tzn. które należą do C K (A), gdzie K jest zbiorem wszystkich negacji liter zdaniowych? 2. Konsekwencja chroniąca (a)∗ Niech K = {p → q, q → r, r → s, s → ¬p} i niech A = {p} będzie zbiorem przesłanek. Niech K0 = {p → q}. Określ maksymalne podzbiory K 0 , gdzie K0 ⊆ K 0 ⊆ K, które są niesprzeczne z A. Zidentyfikuj w najbardziej ścisły sposób, w jaki potrafisz, konsekwencje A przy danych K0 , K. (b) Sprawdź szczegóły opisanego w tekście zjawiska „mniejszego kolapsu” dla konsekwencji chroniącej, gdy K = Cn(K)
2.3. Uszczegółowienia, warianty i uogólnienia
57
Wskazówka: Weź pod uwagę dowód twierdzenia 2.7 i przepisz go z odpowiednimi zmianami. 3. Konsekwencja warstwowa Niech K, A będą takie same jak w ćwiczeniu 2(a). Podziel K na dwa poziomy, z formułami p → q, q → r na pierwszym, oraz r → s, s → ¬p na drugim. Określ preferowane podzbiory K z uwagi na A (modulo warstwy). 4. Relacyjna konsekwencja częściowego przecięcia Niech K i A będą określone tak jak w ćwiczeniu 2(a). Zdefiniuj własny porządek (liniowy lub inny) na wszystkich podzbiorach K, przy założeniu, że uwzględnia on relację zawierania zbiorów. Określ rodzinę KA maksymalnych podzbiorów K 0 zbioru K, które są niesprzeczne z A. Wskaż te elementy KA , które są maksymalne w tym porządku. Opisz relacyjną konsekwencję częściowego przecięcia zbioru A przy wybranym porządku. 5. Warunki w tle (a) Niech K, A będą jak w ćwiczeniu 2(a) i załóżmy, że zbiór J = {r ∨ s}. Opisz maksymalne podzbiory K, które są niesprzeczne z A ∪ J. Opisz także CKJ (A). (b) Podaj przykład pokazujący, że konsekwencja domyślnych założeń z dodatkowymi warunkami w tle nie spełnia warunku łączenia przesłanek w alternatywę. Wskazówka: Zastosuj taki dwuelementowy zbiór przesłanek, żeby jedna z nich była sprzeczna z założeniami. 6. Łańcuchy epistemiczne (a) Sprawdź równoważność dwóch podanych w tekście definicji konsekwencji łańcuchów epistemicznych A |zK x. (b) Niech K i A będą jak w ćwiczeniu 2(a). Niech K będzie ciągiem (t, a, b, c, d), gdzie t jest tautologią, a jest ostatnim elementem K, b koniunkcją dwóch ostatnich itd. Która formuła z K jest najmocniejszą formułą, niesprzeczną z A? Opisz zbiór CK (A). 7. Konsekwencja bezpieczna Niech K = {p → q, p, r, r → q} i niech A = {¬q}. Określ minimalne podzbiory K 0 zbioru K, które są sprzeczne z A (tj. takie, które klasycznie implikują q). Niech < będzie relacją określoną na zbiorze K zdefiniowaną przez porządek, w którym powyżej wypisaliśmy jego elementy. Opisz <-minimalne elementy każdego z minimalnych K 0 . Określ bezpieczne elementy K. Opisz CS (A).
58
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
8. Inferencja porównywanych oczekiwań Pokaż równoważność obydwu definicji inferencji porównywanych oczekiwań. Wskazówka: Wykorzystaj wszystkie wymagania nakładane na relację oczekiwań <, które opisano w tekście. 9. Własności relacji konsekwencji (a) Pokaż, że każdy z rodzajów konsekwencji domyślnych założeń zdefiniowany w podrozdziale 2.3 jest nadklasyczny. Wskazówka: W większości z przypadków dowód uzyskamy bezpośrednio z definicji. (b) Pokaż, że każdy z rodzajów konsekwencji domyślnych założeń zdefiniowanych w podrozdziale 2.3 spełnia zasady klasycznej, lewostronnej równoważności (LCE) oraz prawostronnego osłabiania (RW).
Problemy 1∗ . Założenie domknięcia świata Dowiedź własności jedyności dla inferencji domkniętego świata, zakładając, że zbiór przesłanek A zawiera tylko formuły Horna, a zbiór założeń ukrytych w tle K zawiera negacje wszystkich elementarnych liter. Wskazówka: Wykorzystaj obydwa założenia. Są one nieodzowne w dowodzie. 2. Konsekwencja domyślnych założeń (a) Pokaż, że jeśli CKJ (A) = L, to J jest sprzeczny z A. Wskazówka: Dowiedź kontrapozycji, zakładając, że J jest niesprzeczny z A i zastosuj zwartość klasycznej konsekwencji, aby skonstruować odpowiedni maksymalny zbiór. (b) Pokaż, że konsekwencja domyślnych założeń z dodatkowymi warunkami spełnia kumulatywną przechodniość oraz ostrożną monotoniczność. (c) Niech K będzie jak w ćwiczeniu 2(a). Podaj przykład funkcji selekcji na podzbiorach K, która nie jest określona przez żadną relację na K.
Projekt Wybierz jedno z uogólnień konsekwencji domyślnych założeń, które w tym podrozdziale nakreśliliśmy. Zapoznaj się z podstawowymi odniesieniami wskazanymi w tekście i w części powtórkowej. Pomogą one zdobyć dodatkową wiedzę o istotnych własnościach wybranego uogólnienia. Na końcu napisz o nim raport.
2.4. Powtórzenie materiału i dalsze poszukiwania
59
2.4. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Elementem wyróżniającym konsekwencje osiowych założeń jest użycie ustalonego zbioru K założeń ukrytych w tle w celu wzmocnienia siły inferencji. Operacja, którą otrzymujemy, jest zawsze monotoniczna, a więc i paraklasyczna. Niemonotoniczne konsekwencje powstają, kiedy dopuścimy, aby zbiór K, a raczej jego podzbiory, które aktualnie używamy, zmieniały się w określony sposób w zależności od przesłanek. Najprostszy sposób polega na nałożeniu wymogu, aby w przypadku, gdy zbiór przesłanek A jest sprzeczny z K, do wyprowadzenia konkluzji zamiast całego K używać tylko maksymalnie A-niesprzecznych podzbiorów K. W przypadku, gdy takich zbiorów jest więcej niż jeden, przecinamy ich konsekwencje. W ten sposób monotoniczne pojęcie konsekwencji osiowych założeń służy jako stopień prowadzący do niemonotonicznych konsekwencji domyślnych założeń. Ostatecznie obydwa rodzaje konsekwencji ucieleśniają starożytne pojęcie entymematu. Jednakże najprostsza postać konsekwencji domyślnych założeń napotyka dylemat. Kiedy zbiór domyślnych założeń K nie jest domknięty na klasyczną konsekwencję, jest on syntaktycznie zależny. Kiedy zaś jest domknięty, a więc K = Cn(K), to w kluczowych sytuacjach przeistacza tę operację w konsekwencję klasyczną. Podstawowe pojęcie konsekwencji domyślnych założeń może być różnicowane i generalizowane na wiele sposobów. Wyróżniamy tu trzy szerokie kategorie: gdy konkluzje stanowią przecięcie konsekwencji tylko pewnych maksymalnych, niesprzecznych z przesłankami podzbiorów K; gdy są one przecięciem konsekwencji pewnych niemaksymalnych, niesprzecznych z przesłankami podzbiorów K; gdy stanowią one konsekwencję uzyskaną bez dokonywania przecięcia. W każdej z tych kategorii zarówno pojęcie założeń ukrytych w tle, jak i decyzja o nałożeniu pewnego rodzaju warunków niesprzeczności na ich zastosowanie wciąż odgrywa istotną rolę. Lista sprawdzająca znajomość pojęć i definicji Podrozdział 2.1. Entymemat, konsekwencja osiowych założeń, prawostronne osłabianie, uwalnianie przesłanek, zwartość, twierdzenia o reprezentacji versus twierdzenia o pełności. Podrozdział 2.2. Konsekwencja założeń domyślnych, maksymalna niesprzeczność, ostrożna monotoniczność. Podrozdział 2.3. Formuły Horna, założenie domknięcia świata (CWA), konsekwencja chroniąca, konsekwencja war-
60
Rozdział 2. Zastosowanie dodatkowych założeń ukrytych w tle
stwowa, relacyjna konsekwencja częściowego przecięcia, konsekwencja określona za pomocą funkcji selekcji, dodatkowe warunki w tle, podzbiory maksymalnie informacyjne, epistemiczne stany Bochmana, łańcuchy epistemiczne Freunda, bezpieczna konsekwencja, inferencja porównywanych oczekiwań.
Dalsze lektury • Brewka G., Dix J., Konolige K., Nonmonotonic Reasoning — An Overview, CSLI Publications, Stanford CA 1997. Podrozdział 4.3. • Makinson D., General theory of cumulative inference, w: Nonmonotonic reasoning, red. Reinfrank M. i inni, Tom 346, Lecture Notes on Artificial Intelligence, Springer-Verlag, 1989, s. 1–17. • Makinson D., General Patterns in Nonmonotonic Reasoning, w: Handbook of Logic in Artificial Inteligence and Logic, Vol. 3 Programming, red. Gabbay, Hogger, Robinson, Oxford University Press, 1994, s. 35–110. W szczególności rozdziały 1, 2 i 3.3. • Poole D., A logical framework for default reasoning, Artificial Intelligence, 36, 1988, s. 27–47. W kwestii zagadnień dotyczących poszczególnych uogólnienień i wariantów, warto zapoznać się z lekturami podanymi w odpowiednich paragrafach głównego tekstu.
Rozdział 3
Ograniczenie zbioru wartościowań
3.1. Od konsekwencji klasycznej do wartościowań osiowych Do tej pory opisaliśmy jeden ze sposobów definiowania nadklasycznych relacji konsekwencji. Podstawową ideą, na której się on opierał, było wzmocnienie wyjściowych przesłanek A o zbiór K dodatkowych przesłanek w tle. Zbiór K mógł być niezależny od A i w tym przypadku wytworzona nadklasyczna relacja konsekwencji była monotoniczna. Mógł on jednak zmieniać się w określony sposób ze względu na A, prowadząc w efekcie do niemonotonicznej relacji konsekwencji. Definicja i podstawowe własności Pomysł dodania dodatkowych przesłanek może być traktowany jako manewr „syntaktyczny”. Obecnie postąpimy podobnie, jednak na poziomie semantycznym. Wyjściowy pomysł będzie opierał się na ograniczeniu zbioru wartościowań, które bierzemy pod uwagę. Weźmiemy więc pewien podzbiór W całego zbioru V boolowskich wartościowań i po prostu przedefiniujemy konsekwencję modulo W, a nie jak poprzednio modulo V. Okazuje się, że operacje konsekwencji powstałe na tej drodze są prawie takie same, jak operacje otrzymane przez zastosowanie założeń w tle. Ściśle rzecz biorąc są one dokładnie takie same w skończonych przypadkach. Jednakże ten sposób postępowania wymaga trochę innych metod dopuszczania elementów ze zbioru W do procesu wnioskowania w zależności od przesłanek A niż w przypadku zbioru K. Prowadzi to do istotnie różnych dróg wytwarzania relacji niemonotonicznych. W tym podejściu mała zmiana na poziomie monotonicznym otwiera nowe perspektywy generowania konsekwencji niemonotonicznych. D 3.1 (Konsekwencja wartościowań osiowych). Niech W ⊆ V b¦dzie zbiorem boolowskich warto±ciowa« j¦zyka L. Niech A b¦dzie dowolnym zbiorem formuª, a x dowoln¡ pojedyncz¡ formuª¡.
62
Rozdział 3. Ograniczenie zbioru wartościowań
´ Mówimy, »e x jest konsekwencj¡ A modulo zbiór warto±ciowa« W , co zapisujemy: A `W x lub x ∈ CnW (A), wtedy i tylko wtedy, gdy nie ma takiego warto±ciowania v ∈ W , »e v(A) = 1 i v(x) = 0. ´ Dan¡ relacj¦ lub operacj¦ konsekwencji nazywamy konsekwencj¡ warto±ciowa« osiowych wtedy i tylko wtedy, gdy pokrywa si¦ z pewn¡ relacj¡ `W (lub odpowiednio operacj¡ CnW ) dla jakiego± zbioru warto±ciowa« W . Zauwa»my ponownie, »e nie ma jednej konsekwencji warto±ciowa« osiowych, lecz wiele | po jednej dla ka»dego zbioru W . Z powyższej definicji bezpośrednio wynika, że relacje i operacje konsekwencji osiowych założeń są nadklasyczne, czyli Cn ≤ CnW , dla dowolnego W. Spełniają one również warunki inkluzji, kumulatywnej przechodniości oraz monotoniczności, a w rezultacie są operacjami domknięcia. Cały czas pozostajemy więc w dziedzinie inferencji paraklasycznych. Relacje konsekwencji wartościowań osiowych posiadają również własność łączenia przesłanek w alternatywę. Zachodzenie wszystkich tych własności można łatwo sprawdzić. Z drugiej strony, jak można się spodziewać, relacje konsekwencji osiowych wartościowań nie są domknięte na podstawianie. Ponadto nie zawsze są one zwarte, co jest nową cechą w porównaniu do konsekwencji założeń osiowych. Następujący, prosty i obiegowy przykład pokazuje, że rozważane relacje mogą nie spełniać własności zwartości, nawet w osłabionej wersji, którą nazwaliśmy własnością redundancji (podrozdział 2.2). Rozważmy język utworzony z przeliczalnego zbioru P liter zdaniowych. Niech v1 będzie jedynym takim wartościowaniem, które przypisuje każdej literze wartość logiczną prawdy. Niech W będzie zbiorem wszystkich wartościowań oprócz v1 . Wtedy jest tak, że P `W p ∧ ¬p, ponieważ w zbiorze W nie ma wartościowania, które weryfikuje P. Zatem żadne wartościowanie, które przypisuje literom w P wartość logiczną prawdy, nie falsyfikuje jednocześnie p ∧ ¬p. Z drugiej jednak strony, ponieważ W zawiera wartościowania weryfikujące Q, które falsyfikują formułę p ∧ ¬p, więc dla żadnego właściwego podzbioru Q ⊂ P nie jest tak, że Q `W p ∧ ¬p. Wszystkie powyższe obserwacje zostały zebrane w tabeli 3.1. Niezachodzenie warunku zwartości pokazuje, że nie każda konsekwencja wartościowań osiowych stanowi jakąś konsekwencją założeń osiowych, jak bowiem widzieliśmy, te ostatnie wszystkie są zwarte. Z drugiej strony zachodzi odwrotna zależność. Jest to wniosek z poniższego prostego lematu, w którym V oznacza zbiór wszystkich boolowskich wartościowań. L 3.2. Niech K b¦dzie zbiorem boolowskich formuª. Wtedy CnK = CnW , gdzie W = {v ∈ V : v(K) = 1}.
63
3.1. Od konsekwencji klasycznej do wartościowań osiowych Tabela 3.1. Pewne własności konsekwencji wartościowań osiowych Nadklasyczna Zwrotna Kumulatywnie przechodnia (CT)
Operacja domknięcia
Paraklasyczna
Monotoniczna Łączy przesłanki w alternatywę (OR) (Nie zawsze jest zwarta)
D´ . Wystarczy pokazać, że dla dowolnego wartościowania v i dowolnego zbioru przesłanek A, v(K ∪ A) = 1 wtedy i tylko wtedy, gdy v ∈ W oraz v(A) = 1. Jednak v(K ∪ A) = 1 wtedy i tylko wtedy, gdy v(K) = 1 oraz v(A) = 1, a z definicji W zachodzi to wtedy i tylko wtedy, gdy v ∈ W oraz v(A) = 1. Zbiór W ⊆ V nazwiemy definiowalnym wtedy, gdy istnieje zbiór formuł K taki, że W = {v ∈ V : v(K) = 1}. Wówczas: T 3.3. Ka»da operacja konsekwencji zaªo»e« osiowych jest pewn¡ ope-
racj¡ konsekwencji osiowych warto±ciowa«. Istotnie, operacje zaªo»e« osiowych s¡ dokªadnie tymi operacjami warto±ciowa« osiowych, które s¡ okre±lone przez jaki± de niowalny podzbiór W zbioru V . D´ . Inkluzja z „lewej do prawej” wynika z poprzedniego lematu. Dla dowodu inkluzji odwrotnej założymy, że CnW jest dowolną operacją konsekwencji wartościowań osiowych, gdzie W jest definiowalnym podzbiorem V. Oznacza to, że jest taki zbiór formuł K, że W = {v ∈ V : v(K) = 1}, możemy zatem ponownie zastosować poprzedni lemat. Wiemy więc, że rodzina operacji konsekwencji założeń osiowych jest ściśle węższa niż rodzina operacji osiowych wartościowań. Czy możemy jednak powiedzieć coś więcej o łączących je relacjach? Czy spełnianie własności zwartości wystarczy, aby dana operacja konsekwencji wartościowań osiowych była operacją osiowych założeń? Odpowiedź na te pytania jest pozytywna. T 3.4. Operacje konsekwencji zaªo»e« osiowych s¡ dokªadnie tymi
operacjami warto±ciowa« osiowych, które s¡ zwarte.
D´ . Dla dowodu implikacji z „lewej do prawej” wykorzystujemy twierdzenie 3.3, które mówi, że każda operacja konsekwencji założeń osiowych jest pewną operacją wartościowań osiowych. Dodatkowo, w podrozdziale 2.1 zauważyliśmy, że operacje konsekwencji osiowych założeń są zawsze zwarte.
64
Rozdział 3. Ograniczenie zbioru wartościowań
W dowodzie implikacji odwrotnej wykorzystujemy zauważony wcześniej fakt, że dowolna operacja wartościowań osiowych jest nadklasyczną konsekwencją spełniającą własność łączenia przesłanek w alternatywę. Z twierdzenia o reprezentacji 2.2 wiemy jednak, że jeśli jest ona również zwarta, to jest konsekwencją osiowych założeń. Mówiąc o skończenie generowanym języku boolowskim (lub krócej: języku skończonym) będziemy mieli na myśli język generowany za pomocą stałych boolowskich ze skończonego zbioru liter zdaniowych. Wiemy już dobrze, że w takim języku jest tylko skończenie wiele rodzajów formuł, które są wzajemnie nierównoważne z uwagi na klasyczną konsekwencję. To samo dotyczy więc nadklasycznych operacji konsekwencji. Wynika stąd, że dowolna paraklasyczna operacja określona na skończonym języku jest zwarta. Łatwo jest również pokazać, że dowolny zbiór wartościowań tego języka jest definiowalny, nawet przez pojedynczą formułę — wystarczy wziąć odpowiednią formułę o alternatywnej postaci normalnej. W ten sposób otrzymujemy następujący wniosek z twierdzeń 3.3 oraz 3.4. W 3.5. Dla sko«czonych boolowskich j¦zyków operacje konsekwencji za-
ªo»e« osiowych s¡ dokªadnie operacjami konsekwencji osiowych warto±ciowa«.
Konsekwencje osiowych założeń oraz osiowych wartościowań są zatem równoważne dla używających skończenie generowanych języków w obrębie nauk komputerowych. Nie są zaś takie dla logików, którzy odczuwają perwersyjną przyjemność w obcowaniu z subtelnościami nieskończoności. Do końca niniejszego podrozdziału będziemy jednak brać pod uwagę także przypadki nieskończone. Oznacza to, że osoby, które nie wychodzą poza języki skończone muszą to przecierpieć bądź od razu pójść dalej. Zagadnienie twierdzenia o reprezentacji dla konsekwencji wartościowań osiowych Kolejnym ciekawym zagadnieniem jest pytanie o możliwość scharakteryzowana operacji wartościowań osiowych, określonych na przeliczalnym boolowskim języku (tzn. posiadającym przeliczalnie wiele liter zdaniowych) przez odwołanie się do własności, które te operacje spełniają. Pozytywna odpowiedź dałaby nam twierdzenie o reprezentacji dla tej rodziny, korespondujące z twierdzeniem 2.2, które dotyczyło operacji konsekwencji założeń osiowych. Chcielibyśmy powiedzieć, że rodzina ta jest całkowicie scharakteryzowana przez własność domknięcia, nadklasyczności oraz spełniania warunku łączenia przesłanek w alternatywę. Jednakże bliższa analiza dowodu twierdzenia 2.2 powinna zmusić nas do ostrożności, jeśli chodzi o tę kwestię. Połowa tego dowodu
3.1. Od konsekwencji klasycznej do wartościowań osiowych
65
opiera się bowiem na zastosowaniu własności zwartości, która w tym przypadku nie zachodzi. Wykorzystaliśmy ją tam do konstrukcji formuły utworzonej ze skończonego podzbioru B zbioru A, z którego wynikała rozważana formuła x. I rzeczywiście, bardzo elegancki kontrprzykład pochodzi od Karla Schlechty. Skonstruował on pewną nadklasyczną operację domknięcia, spełniającą łączenie przesłanek w alternatywę (a nawet bardziej nieskończoną wersję niż tutaj rozważana), która nie jest operacją konsekwencji wartościowań osiowych. Wyrafinowana konstrukcja Schelchty pokazuje nawet więcej, nie jest ona bowiem przykładem ani operacji konsekwencji preferencji (operację tę zdefiniujemy w następnym podrozdziale), ani przecięcia żadnej rodziny operacji konsekwencji preferencji (zobacz: Schlechta (1992) lub alternatywne ujęcie Makinson (1994, obserwacja 3.4.10)). Dalszą analizę tej kwestii można znaleźć w podrozdziale 3.5 pracy Schlechty (2004). Cechami tymi nie zajmujemy się jednak obecnie. Wszystko, co powinniśmy wiedzieć, to fakt, że przykład Schlechty jest przykładem nadklasycznej operacji domknięcia, spełniającej (OR), ale różnej od każdej operacji CnW , dla dowolnego W ⊆ V. Z drugiej jednak strony twierdzenie o reprezentacji zachodzi dla przypadków skończonych. T 3.6. Niech Cn+ b¦dzie dowoln¡ nadklasyczn¡ operacj¡ domkni¦cia speªniaj¡c¡ (OR). Istnieje wówczas taka operacja zaªo»e« osiowych CnW , która zgadza si¦ z Cn+ na zbiorach sko«czonych, tj. taka, »e CnW (A) = Cn+ (A), dla dowolnego sko«czonego A. D´ . Dowód tego twierdzenia jest prosty, jeśli dysponuje się tym, czego do tej pory się już dowiedzieliśmy. Definiujemy pewną operację Cn∗ w oparciu o Cn+ za pomocą następującego warunku: x ∈ Cn∗ (A) wtedy i tylko wtedy, gdy x ∈ Cn+ (B), dla pewnego skończonego B ⊆ A. Z uwagi na monotoniczność, bezpośrednio wynika stąd, że Cn∗ ≤ Cn+ . Ponadto operacja Cn∗ pokrywa się z Cn+ na skończonych zbiorach oraz jest zwarta. Z tego powodu możemy ją nazwać zwartą wersją (compactification) Cn+ . Można również łatwo sprawdzić, że Cn∗ dziedziczy po Cn+ własności nadklasyczności, bycia operacją domknięcia oraz spełnia (OR). Zatem z uwagi na twierdzenie o reprezentacji 2.2, Cn∗ jest rzeczywiście operacją założeń osiowych CnK , dla pewnego K ⊆ L, a więc na mocy twierdzenia 3.3 jest ona operacją osiowych wartościowań CnW , dla pewnego W ⊆ V. Wyjściowe pytanie jest jednak nadal aktualne. Czy istnieje jakieś „silniejsze” twierdzenie o reprezentacji, tzn. takie, które obejmuje również przypadek nieskończonych zbiorów przesłanek? Inaczej mówiąc, czy możemy dodać dalsze syntaktyczne warunki wciąż spełniane przez wszystkie operacje konsekwencji osiowych wartościowań, takie że każda operacja spełniająca ten większy zbiór warunków
66
Rozdział 3. Ograniczenie zbioru wartościowań
jest identyczna z pewną konsekwencją wartościowań osiowych? Według wiedzy autora kwestia ta nie została jeszcze rozwiązana ani pozytywnie, ani negatywnie. Biorąc pod uwagę wynik dla skończonych przypadków zawarty w twierdzeniu 3.6, jakiekolwiek warunki tego typu byłyby przypuszczalnie nieskończone. Uwzględniając subtelność przykładu Schlechty, musiałyby one być raczej również dość złożone. Warto zauważyć, że jest pewna epistemologiczna asymetria pomiędzy dwoma stronami tego otwartego zagadnienia. Dla pozytywnej odpowiedzi nie potrzebujemy precyzyjnej i formalnej definicji tego, czym jest twierdzenie o reprezentacji, aby rozpoznać pozytywny wynik, wystarczy jedynie, że dość dobrze rozumiemy to pojęcie. W celu uzyskania negatywnego wyniku potrzebna jest nam jednak jego precyzyjna definicja. Uogólnienie do ideałów Obecnie zajmiemy się opisaniem innego, bardziej abstrakcyjnego sposobu ograniczenia zbioru wszystkich wartościowań, który jednak również nie doprowadzi do utraty monotoniczności. Otrzymana na tej drodze operacja konsekwencji jest dla skończenie generowanych języków równoważna konsekwencji wartościowań osiowych (a zatem także odpowiadającej jej konsekwencji założeń osiowych). Jest ona jednak bardziej ogólna w nieskończonych przypadkach. Kolejne uwagi będą bardziej zrozumiałe dla czytelników obeznanych z algebrą abstrakcyjną lub teorią krat, gdzie występuje pojęcie ideału. Pozostałe osoby mogą je pominąć. Pojęcie ideału jest dualne względem pojęcia filtru, które z kolei jest bardziej rozpowszechnione w badaniach logicznych. Dlatego poniższe definicje mogłyby być sformułowane równoważnie, choć mniej intuicyjnie, za pomocą filtrów. Przypomnijmy, że relację A `W x zdefiniowaliśmy w następujący sposób: • Nie ma takiego wartościowania v ∈ W, że v(A) = 1 i v(x) = 0. Warunek ten jest oczywiście równoważny każdemu z następujących warunków: • Każde wartościowanie v ∈ V takie, że v(A) = 1 i v(x) = 0 należy do V − W • {v ∈ V : v(A) = 1, v(x) = 0} ⊆ V − W • {v ∈ V : v(A) = 1, v(x) = 0} ∈ 2V−W . Zauważmy teraz, że dla każdego zbioru U ⊆ V, jego zbiór potęgowy 2U ma pewne specjalne własności. W szczególności: zawiera zbiór pusty, a także wszystkie podzbiory dowolnych jego elementów oraz jest domknięty na sumę dowolnych jego dwóch elementów (a nawet dowolnego ich zbioru). Możemy podejść do problemu bardziej ogólnie, wprowadzając abstrakcyjne pojęcie ideału
3.1. Od konsekwencji klasycznej do wartościowań osiowych
67
określonego na V. Ideał jest to taka rodzina ∆ podzbiorów V, że ∅ ∈ ∆, S ∈ ∆, o ile S ⊆ T ∈ ∆, oraz S ∪ T ∈ ∆, o ile S , T ∈ ∆. Ideał jest więc jakby rodziną „małych” podzbiorów, zawierającą zbiór pusty oraz wszystkie podzbiory jego elementów. Z dwóch powodów nie jest on jednak rodziną małych podzbiorów w sensie numerycznym. Po pierwsze, ideał określony na V nie musi zawierać wszystkich podzbiorów V, które są numerycznie tak małe, jak jeden z jego elementów. Dla przykładu, może on zawierać tylko pewne singletony, lecz nie wszystkie. Po drugie, przez nieokreślenie długą iterację ostatniego warunku z definicji, ideał zawiera sumę dowolnej skończonej liczby swoich elementów, a zatem może zawierać elementy dowolnego, skończonego rozmiaru, dopóki są jeszcze mniejsze elementy, które można sumować. Niech ∆ będzie dowolnym ideałem określonym na zbiorze wartościowań V języka L. Niech A będzie dowolnym zbiorem formuł, a x dowolną pojedynczą formułą. Powiemy, że x jest konsekwencją A modulo ideał ∆ i napiszemy: A `∆ x (lub x ∈ Cn∆ (A)) wtedy i tylko wtedy, gdy zbiór wartościowań weryfikujących A i zarazem falsyfikujących x jest „∆-mały”. Inaczej mówiąc, wtedy, gdy {v ∈ V : v(A) = 1 oraz v(x) = 0} ∈ ∆. Relację lub operację nazwiemy konsekwencją osiowych wyjątków (pivotal-exception consequence) wtedy i tylko wtedy, gdy pokrywa się z `∆ (odpowiednio Cn∆ ), dla pewnego ideału ∆ określonego na V. Zauważmy ponownie, że nie ma jednej konsekwencji osiowych wyjątków, lecz wiele — po jednej dla każdej wartości ∆. Każda operacja konsekwencji wartościowań osiowych jest niewątpliwie pewną operacją osiowych wyjątków. Mając CnW wystarczy wziąć ∆ = 2V−W , co da ideał ∆ określony na V, taki że Cn∆ = CnW . Jeśli natomiast ∆ jest głównym ideałem, tzn. istnieje taki U ⊆ V, że ∆ = 2U , to zachodzi także zależność odwrotna. Wynika stąd następujące twierdzenie: T 3.7. Operacje konsekwencji osiowych warto±ciowa« s¡ dokªadnie
operacjami konsekwencji osiowych wyj¡tków wygenerowanymi przez jaki± gªówny ideaª okre±lony na V . Konsekwencje wyjątków osiowych zachowują się bardzo podobnie jak konsekwencje osiowych wartościowań. Do ich pozytywnych cech należy to, że są one zawsze operacjami domknięcia i spełniają warunek łączenia przesłanek w alternatywę. Ich cechą negatywną jest z kolei to, że nie zawsze są zwarte, co łatwo sprawdzić stosując kontrprzykład z wcześniejszego podrozdziału. Kiedy jednak jakaś operacja osiowych wyjątków jest zwarta, wtedy jest ona także operacją wartościowań osiowych. Z uwagi na twierdzenie 2.2 taka operacja będzie operacją konsekwencji założeń osiowych, a zatem przez twierdzenie 3.3 także konsekwencją osiowych wartościowań.
68
Rozdział 3. Ograniczenie zbioru wartościowań
W tym przypadku również pojawia się pytanie o twierdzenie o reprezentacji. Tak samo, jak dla mniej ogólnej klasy wszystkich konsekwencji wartościowań osiowych, kwestia ta pozostaje otwarta. Dalszej generalizacji można by dokonać stosując zamiast pojęcia ideału pojęcie dolnych segmentów (downsets). Dolne segmenty to rodziny ∆ podzbiorów V takie, że ∅ ∈ ∆ oraz S ∈ ∆, jeśli S ⊆ T ∈ ∆. W pojęciu tym nie występuje więc warunek domknięcia na sumę elementów. Operacje osiowych wyjątków generowane przez dolne segmenty będą zachowywały się mniej regularnie niż te generowane przez ideały. W szczególności nie będą one ogólnie operacjami domknięcia (nie będzie zachodziła kumulatywna przechodniość) oraz może nie zachodzić własność łączenie przesłanek w koniunkcję.
Ćwiczenia 1∗ . Niech p1 , p2 , p3 , … będą literami zdaniowymi naszego języka. Niech W będzie zbiorem zawierającym jedynie cztery następujące wartościowania v1 , v0 , ve , v10 , gdzie: v1 weryfikuje wszystkie litery zdaniowe v0 falsyfikuje wszystkie litery zdaniowe ve weryfikuje tylko litery zdaniowe z parzystym indeksem v10 weryfikuje tylko litery zdaniowe p1 , …, p10 . Weźmy teraz zbiór A = {¬p1 ∧ p2 }. Która z poniższych możliwości zachodzi? A ` p2
A `W p2
A ` p3 ∨ ¬p4
A `W p3 ∨ ¬p4
A ` p11 ∨ p12
A `W p11 ∨ p12
2∗ . Dlaczego bezpośrednim wnioskiem z definicji konsekwencji wartościowań osiowych jest stwierdzenie, że są one nadklasyczne, tzn. Cn ≤ CnW , dla dowolnego W? 3. Pokaż, że relacje konsekwencji osiowych wartościowań spełniają warunki inkluzji, kumulatywnej przechodniości i monotoniczności, a więc że są operacjami domknięcia. 4∗ . Pokaż, że relacje konsekwencji osiowych wartościowań spełniają warunek łączenia przesłanek w alternatywę. 5. Istnieje możliwość podania bardziej ogólnej wersji warunku łączenia przesłanek w alternatywę: C(A) ∩ C(B) ⊆ C(Cn(A) ∩ Cn(B)). Zauważmy, że warunek
3.2. Od wartościowań osiowych do wartościowań domyślnych
69
ten wiąże każdą z rozważanych operacji C z konsekwencją klasyczną Cn. Nie ma tu jednak bezpośrednio mowy o alternatywie. Pomimo tego obejmuje on alternatywę pośrednio, ponieważ jeśli a ∈ A oraz b ∈ B, wtedy a ∨ b ∈ Cn(A) ∩ Cn(B). Mając to na uwadze, pokaż, że: (a) (OR) jest specjalnym przypadkiem tej generalnej zasady, (b) warunek ten spełnia konsekwencja klasyczna, tzn. zachodzi on, gdy C = Cn, (c) warunek ten spełnia każda operacja konsekwencji osiowych wartościowań CnW . 6. Stwierdzono wyżej, że w skończenie generowanym boolowskim języku jest tylko skończenie wiele rodzajów formuł, które są wzajemnie nierównoważne z punktu widzenia konsekwencji klasycznej. Jak wiele ich jest? W konsekwencji stwierdzono tam również, że dowolna paraklasyczna operacja określona na skończenie generowanym języku jest zwarta. Dowiedź tego stosując definicję zwartości. Wskaż miejsce, w którym dowód zawodzi, jeśli zamiast paraklasyczności założylibyśmy jedynie nadklasyczność. 7. Uzupełnij o detale dowód twierdzenia 3.6. 8. Sprawdź prawdziwość uwag na temat dolnych segmentów, które poczyniono w końcowej części tego podrozdziału.
3.2. Od wartościowań osiowych do wartościowań domyślnych Jak przejść od konsekwencji wartościowań osiowych do jej odpowiednika, który nazwalibyśmy konsekwencją domyślnych wartościowań? Podstawowa idea polega na dopuszczeniu, aby wyznaczony zbiór wartościowań W, lub dokładniej rzecz biorąc jego część, którą aktualnie używamy, zmieniała się w określony sposób w zależności od zbioru A. Efekt taki można by właściwie osiągnąć biorąc różne maksymalnie niesprzeczne konstrukcje i tłumacząc je na język wartościowań boolowskich (a ściślej, przypisując im zbiór wszystkich wartościowań, które je spełniają). Wtedy formuły i zbiory formuł przeszłyby w zbiory wartościowań, a przecięcia odpowiednich zbiorów formuł stałyby się sumami odpowiadających im zbiorów wartościowań i tak dalej. Nie jest to jednak sposób, w jaki problem ten jest rozwijany, ani w jaki należy go zaprezentować. Paradygmat systemu domyślnych wartościowań nie jest tłumaczeniem prostego systemu domyślnych założeń z podrozdziału 2.2. Jego opis jest bowiem bardziej skomplikowany i zawiera nie tylko zbiór wartościowań, lecz także określoną na wartościowaniach relację. Podstawowa konstrukcja wartościowań domyślnych pochodzi od Shohama (1988). Jego główna idea polega na skoncentrowaniu się na tych wartościowa-
70
Rozdział 3. Ograniczenie zbioru wartościowań
niach, które spełniając zbiór przesłanek A, są jednocześnie minimalne z uwagi na pewien ustalony porządek na zbiorze wartościowań. D 3.8 (Model preferencji i konsekwencja preferencji). Model preferencji jest rozumiany jako para hW,
´ Niech dany b¦dzie model preferencji (preferential model) hW,
3.2. Od wartościowań osiowych do wartościowań domyślnych
71
Podaną definicję wygodnie jest niekiedy wyrazić w sposób bardziej zwięzły. W logice klasycznej często przyjmuje się zapis v |= A, który mówi, że v spełnia A, czyli v(A) = 1, a więc, że v(a) = 1, dla każdego a ∈ A. Będziemy również pisać: v |=< A, mówiąc, że v preferencyjnie spełnia A, co znaczy, że v(A) = 1, v ∈ W, oraz nie ma takiego v0 ∈ W, że v0 < v i v0 |= A. W tym wypadku symbol |=< określający konsekwencję preferencji również powinien mieć dodatkowy indeks, ponieważ zależy ona od zbioru W. Zwykle jednak się go opuszcza. W przyjętej tutaj notacji, definicja konsekwencji preferencji głosi, że A |z< x wtedy i tylko wtedy, gdy v |= x, jeśli v |=< A. Taki sposób opisu jest poręczny podczas sprawdzania przykładów. Inny, bardziej zwięzły sposób opisu pojęcia konsekwencji preferencji polega na pisaniu symbolu |A|W , dla oznaczenia zbioru wszystkich wartościowań W, które spełniają A, tzn. |A|W = {v ∈ W : v(A) = 1}. Z kolei, za pomocą min< |A|W oznaczamy zbiór wszystkich minimalnych elementów |A|W . W ten notacji mamy: A |z< x wtedy i tylko wtedy, gdy v ∈ |x|W , jeśli v ∈ min< |A|W . Można to ująć jeszcze krócej: min< |A|W ⊆ |x|W . Takie zapisy nie pozostawiają żadnych wątpliwości i są użyteczne, kiedy dowodzimy ogólnych obserwacji na temat modeli preferencji. Relacje/operacje konsekwencji preferencji są niemonotoniczne. Oto prosty przykład. Rozważmy język z trzema literami zdaniowymi p, q, r. Weźmy W = {v1 , v2 }, gdzie v1 (p) = v2 (p) = 1, v1 (q) = 0, v2 (q) = 1, v1 (r) = 1, v2 (r) = 0. Ustalmy teraz następujący porządek: v1 < v2 . Ten model preferencji możemy nieformalnie opisać następująco: niech p będzie prawdziwe w obydwu wartościowaniach, q prawdziwe tylko w górnym, a r prawdziwe tylko w dolnym. Można to również reprezentować za pomocą diagramu z poziomami: • v2 : p, q • v1 : p, r Przyjęliśmy tu konwencję, że wszystkie punkty z niższego poziomu są mniejsze niż punkty z wyższego poziomu, a jednocześnie są ze sobą nieporównywalne (tzn. żaden nie jest mniejszy niż inny). Możemy również narysować diagram, w którym linie reprezentują relacje pomiędzy wartościowaniami. Jest to potencjalnie bardziej ogólne podejście, pozwalające reprezentować mniej regularne relacje. • v2 : p, q
• v1 : p, r Przyjęta w obydwu typach diagramów konwencja mówi, że w każdym punkcie, tzn. w każdym elemencie v ∈ W, zapisujemy tylko te litery zdaniowe, które v spełnia, pomijając pozostałe. Redukuje to nieczytelność, ale czytelnicy, którzy
72
Rozdział 3. Ograniczenie zbioru wartościowań
uważają to za utrudnienie, mogą po prostu dodać do każdego punktu negacje pominiętych tam liter. W opisanym modelu preferencji mamy p |z< r, ponieważ najmniejszym wartościowaniem, w którym prawdziwe są p oraz r jest v1 . Nie jest jednak tak, że p ∧ q |z< r, ponieważ najmniejsze wartościowanie, w którym p ∧ q jest prawdziwe to v2 , wtedy jednak r jest fałszywe. Przykład ten pokazuje, że konsekwencja preferencji |z< może nie spełniać przechodniości nawet wtedy, gdy relacja < w modelu jest przechodnia. Mamy bowiem: p ∧ q |z< p oraz p |z< r, ale p ∧ q |z 6 < r. Ważne jest więc, aby nie pomylić własności relacji < w modelu z własnościami relacji konsekwencji |z< , która na jej gruncie powstaje. Oczywiście nakładanie dodatkowych warunków na relację < da dodatkowe własności relacji |z< , nie będą to jednak te same własności. Przykład ten jest raczej wyjątkowy, z uwagi na to, że relacja < jest nie tylko przechodnia i przeciwzwrotna, ale również zupełna, w tym sensie, że dla dowolnych v, v0 ∈ W, v < v0 lub v0 < v lub v = v0 . Krótko mówiąc jest więc ona liniowa. W rezultacie dowolny minimalny element u zbioru U ⊆ W jest najmniejszym elementem U, czyli że u < u0 dla dowolnego u0 ∈ U, gdzie u , u0 . Ponieważ relacja ta jest również asymetryczna, więc każdy minimalny element U jest jedynym najmniejszym elementem U. Ogólnie jednak, kiedy relacja nie jest zupełna, w U może być więcej niż jeden element minimalny. Rozważmy dla przykładu język z czterema literami zdaniowymi p, q, r, s oraz model preferencji opisany na poniższym diagramie: • v21 : p, q • v22 : p, q, r • v11 : p, r • v12 : q, s • v13 : p, r, s W korespondującym diagramie z liniami każdy element na dole jest powiązany ze wszystkimi elementami z góry. Mamy tutaj dwa minimalne wartościowania spełniające p (v11 oraz v13 ). Ponieważ obydwa spełniają r, więc w modelu zachodzi: p |z< r. Mamy tu również dwa minimalne wartościowania spełniające p ∧ q (v21 oraz v22 ). Jedno z nich falsyfikuje jednak r, więc p ∧ q |z 6 < r. Relacja w podanym przykładzie jest dość regularna: ma własność modularności, w sensie zdefiniowanym w podrozdziale 2.3, jeśli v < v0 oraz v00 ≮ v0 , to v < v00 . Poza niespełnianiem warunku monotoniczności, relacje konsekwencji preferencji zachowują się dobrze. Są one nadklasyczne i spełniają warunek łączenia przesłanek w alternatywę. Spełniają one również kumulatywną przechodniość oraz inkluzję (ostatnia własność wynika zresztą z nadklasyczności), a ponadto są również idempotentne. Nie spełniają one jednak pewnych własności, które posiadają analogiczne do nich relacje oparte na założeniach. Dla przykładu, nie zawsze spełniają one waru-
3.2. Od wartościowań osiowych do wartościowań domyślnych
73
nek ostrożnej monotoniczności, który jest właściwie odwrotnością kumulatywnej przechodniości. Przypomnijmy jego definicję z podrozdziału 2.2. W języku operacji konsekwencji głosi on, że: jeśli A ⊆ B ⊆ C(A), to C(A) ⊆ C(B), natomiast w odniesieniu do relacji: jeśli A |z b dla dowolnego b ∈ B oraz A |z x, wtedy A ∪ B |z x. W przypadku, kiedy A, B są singletonami, otrzymujemy warunek: jeśli a |z b oraz a |z x, to {a, b} |z x, co w koniunkcyjnym odpowiedniku oznacza, że jeśli a |z b oraz a |z x, to a ∧ b |z x. Chociaż własność ta czasami nie zachodzi, to jednak zawsze posiadają ją skończone modele preferencji. Bardziej ogólnie, zachodzi ona, jeśli w modelu preferencji nie ma nieskończonych, zstępujących w dół łańcuchów. Jeszcze bardziej ogólnie, zachodzi ona kiedy model posiada własność zwaną zakorkowaniem (lub gładkością). Własność ta mówi, że jeśli v ∈ |A|W , to v ∈ min< |A|W lub istnieje taki u < v, że u ∈ min< |A|W . Kolejną własnością, której relacje konsekwencji preferencji mogą nie posiadać, jest zachowanie niesprzeczności. Ta własność z kolei mówi, że jeśli A |z f , to A ` f . W zapisie tym f oznacza klasyczną kontrtautologią. Równoważnie: jeśli C(A) jest klasycznie sprzeczne, to A również jest sprzeczne. Własność tę posiadają konsekwencje domyślnych założeń |zK . Może jednak ona nie zachodzić dla konsekwencji preferencji |z< , ponieważ pewne klasyczne wartościowania mogą nie występować w modelu. Kiedy bowiem wartościowania spełniające zdanie a nie należą do W, nawet jeśli a nie jest klasyczną kontrtautologią, to v(a) = 0, dla dowolnego v ∈ W, zatem min< |a|W = ∅ i stąd a |z< f . Mimo tego dla modeli posiadających własność zakorkowania niesprzeczność jest zachowana z uwagi na odpowiednią operację paraklasyczną. W szczególności możemy określić tę operację jako konsekwencję wartościowań osiowych `W zdefiniowaną przez zbiór W wszystkich wartościowań w modelu preferencji. Innymi słowy, dla zakorkowanych modeli preferencji mamy: jeśli A |z< f , to A `W f . Relacje konsekwencji preferencji są dość intensywnie badane. Nie chcąc pozostawiać czytelnika bez wiedzy o detalach, odsyłamy do pracy Makinsona (1994). Główna idea niniejszego podrozdziału jest jednak zawarta w stwierdzeniu, że monotoniczne konsekwencje wartościowań osiowych CnW służą jako naturalne pomosty pomiędzy klasyczną operacją Cn oraz niemonotonicznymi operacjami C< , znanymi jako operacje konsekwencji preferencji. Definicje CnW oraz C< ograniczają zbiór wartościowań, zaś operacje C< dodatkowo pozwalają, aby zmieniał się on w zależności od przesłanek. Patrząc na relację inkluzji pomiędzy operacjami, widzimy że wzorzec konsekwencji preferencji przypomina wzorzec zaobserwowany w przypadku konsekwencji chroniącej (opisany w podrozdziale 2.3). Dla konsekwencji preferencji mamy następujące inkluzje: Cn ≤ CnW ≤ C< ≤ Cnmin(W) . Dolne ograniczenie niemonotonicznej operacji C< przesuwa się w górę od klasycznej operacji Cn
74
Rozdział 3. Ograniczenie zbioru wartościowań
do operacji osiowych wartościowań CnW , podczas gdy operacja wartościowań osiowych Cnmin(W) służy jako ograniczenie górne. W efekcie odpowiednio mały zbiór min(W) wartościowań jest semantycznym odpowiednikiem dużego zbioru K założeń ukrytych w tle, podczas gdy duży zbiór wartościowań W odpowiada małemu zbiorowi K0 chronionych założeń w tle. Jeśli chcemy skonstruować formalne przyporządkowania między nimi, definiujemy K = {x : v(x) = 1, dla wszystkich v ∈ min(W)}, czyli bierzemy takie K, które zawiera formuły prawdziwe w zwykłym podejściu, podczas gdy K0 = {x : v(x) = 1, dla wszystkich v ∈ W}, a więc nie bierzemy pod uwagę formuł, które są fałszywe w W. Ten rodzaj opozycji mały-duży jest typowy dla dualności pomiędzy podejściem syntaktycznym za pomocą zbiorów formuł i podejściem semantycznym za pomocą zbiorów wartościowań. Przeciwstawienie to może być jednak mylące, zanim przyzwyczaimy się do niego. Jeśli ktoś chciałby porównać konsekwencje preferencji z jakimiś relacjami domyślnych założeń z poprzedniego podrozdziału, powinien pamiętać, że nie należy tego zrobić w zestawieniu z podstawowymi wzorcami z podrozdziału 2.2, lecz raczej z kombinacjami konsekwencji chroniącej oraz relacyjnej częściowego przecięcia z podrozdziału 2.3. Zbiory W oraz min(W) stanowią podstawę odpowiednio dolnego i górnego ograniczenia, tak jak dla konsekwencji chroniącej są nimi zbiory K0 oraz K, podczas gdy relacje konsekwencji pomiędzy tymi ograniczeniami są określone przez zastosowanie zasady minimum, podobnie jak w przypadku konsekwencji częściowego przecięcia.
Ćwiczenia 1∗ . Wyjaśnij, dlaczego każda przeciwzwrotna i przechodnia relacja jest asymetryczna (tzn. nigdy nie jest zarazem tak, że v < v0 oraz v0 < v), oraz ogólniej, nie jest acykliczna (nigdy nie jest tak, że v1 < v2 < · · · < vn < v1 , dla n > 1). 2∗ . Narysuj diagram dla modelu preferencji zawierający nieskończony, zstępujący łańcuch, etykietując poszczególne punkty wartościowaniami w taki sposób, że model nie jest zakorkowany, a jednocześnie nie spełnia warunków ostrożnej monotoniczności i zachowania niesprzeczności. 3. Narysuj diagram dla modelu preferencji, który zawiera nieskończony, zstępujący łańcuch, a mimo tego jest zakorkowany. 4∗ . Pokaż, że każda operacja konsekwencji preferencji jest nadklasyczna oraz spełnia kumulatywną przechodniość.
3.3. Konkretyzacje i uogólnienia
75
5. Pokaż, że każda operacja konsekwencji preferencji spełnia warunek łączenia przesłanek w alternatywę. 6. Wyjaśnij, dlaczego każdy skończony model preferencji jest zakorkowany. Wskazówka: Udowodnij twierdzenie ogólniejsze, mówiące, że każdy niezakorkowany model preferencji zawiera nieskończony, zstępujący łańcuch różnych elementów. 7. Pokaż, że operacje konsekwencji zdefiniowane przez dowolne zakorkowane modele preferencji spełniają ostrożną monotoniczność. 8. Podaliśmy, że relacja < jest modularna wtedy i tylko wtedy, gdy spełnia warunek: jeśli v < v0 i v00 ≮ v0 , to v < v00 . Pokaż, że przy założeniu przechodniości i przeciwzwrotności, warunek ten jest równoważny następującym warunkom, gdzie # oznacza nieporównywalność elementów w relacji <: (a) jeśli v < v0 i v0 # v00 , to v < v00 (b) jeśli v # v0 i v0 < v00 , to v < v00 . 9. Pokaż, że jeśli model preferencji jest modularny, to spełnia nie-Hornowy warunek racjonalnej monotoniczności (rational monotony) zdefiniowany w rozdziale 2: jeśli A |z x i A |z 6 ¬b, to A ∪ {b} |z x. 10. Rozważ dowolny zakorkowany model preferencji określony na zbiorze wartościowań W. Pokaż, że jest tak jak twierdzono w tekście, tzn. jeśli A |z< f , to A `W f . 11. Pokaż, że każda konsekwencja preferencji |z< spełnia warunek: jeśli A ∪ {x} |z< y, to A |z< x → y. Skonstruuj mały, skończony model, który posłuży za kontrprzykład dla zależności odwrotnej. 12∗ . Pokaż, że dla modularnych modeli preferencji jest tak, że jeśli |A|min(W) , ∅, to C< (A) = Cnmin(W) (A).
3.3. Konkretyzacje i uogólnienia W niniejszym rozdziale będziemy kontynuować opis konsekwencji wartościowań domyślnych, omawiając krótko pewne dobrze znane uogólnienia wyjściowej wersji konsekwencji preferencji. Opiszemy także wersję, która uzyskała pozycję „wypracowanego standardu”. W pierwszej kolejności przedstawimy jednak pewien szczególnie ważny przypadek.
76
Rozdział 3. Ograniczenie zbioru wartościowań
Cyrkumskrypcja Operację cyrkumskrypcji zaproponował John McCarthy (1980). Może ona być postrzegana jako rezultat przepisania na semantyczny poziom, ze znaczącym rozszerzeniem, założenia domknięcia świata, które przedstawiliśmy w podrozdziale 2.3 jako specjalny typ rozumowań opartych o założenia domyślne. Cyrkumskrypcja jest zwykle stosowana w kontekście logiki pierwszego rzędu, gdzie występują predykaty, symbole relacyjne, stałe indywiduowe, zmienne, wiążące je kwantyfikatory oraz przyjęte stałe boolowskie. Podstawowy pomysł, na którym się opiera, polega na tym, iż w wypadku danego zbioru A, przesłanek logiki pierwszego rzędu, nie bierzemy pod uwagę wszystkich jego modeli, lecz tylko te, których rozszerzenia o pewne wyróżnione predykaty są zminimalizowane, podczas gdy rozszerzenia o pewne inne predykaty są stałe, zaś reszta może się dowolnie zmieniać. Konsekwencjami przesłanek A są dokładnie te formuły, które są prawdziwe we wszystkich modelach minimalnych. Na przesłanki z A nie nakłada się żadnych szczególnych warunków. W szczególności mogą one nie być formułami Horna. Operacje cyrkumskrypcji mogą być zdefiniowane precyzyjnie jako specjalne rodzaje konsekwencji wartościowań domyślnych, określone jednak na bogatszym języku niż język logiki zdaniowej. „Wartościowania” nie odpowiadają wówczas przyporządkowaniom wartości logicznych literom zdaniowym, lecz modelom języka pierwszego rzędu. Pewne formy cyrkumskrypcji udoskonalają powyższą definicję minimalności, na przykład przez wprowadzenie porządku na predykatach, które mają być minimalizowane, ustalając minimalizacje leksykograficznie. Wiele miejsca w literaturze dotyczącej cyrkumskrypcji poświęca się zagadnieniu najlepszej definicji minimalności z uwagi na łatwość jej implementacji i pomijanie niepożądanych konsekwencji. Pozostała część literatury opisuje badania nad rozszerzeniem semantycznych definicji minimalności do definicji syntaktycznych, czyli w naszej terminologii do relacji założeń domyślnych. W celu uzyskania takiego rozszerzenia, które nie utraci wyjściowego stopnia ogólności, założenia w tle formułuje się w języku drugiego rzędu. Rezultat jest więc wysoce skomplikowany. Nie będziemy jednak wkraczać do labiryntu tych dociekań, kierując czytelnika do przeglądowych części pracy Brewki, Dixa, Konolige’a (1997, podrozdzial 2.2) i Antoniou’a (1997, rozdział 12) oraz do szerszego przeglądu w pracy Lifschitza (1994). W celu opisania stosunku cyrkumskrypcji do podejścia w ramach założenia domknięcia świata z jednej strony i do wynikania preferencyjnego z drugiej, opiszemy jej aspekt boolowski. Załóżmy, że w semantyce naszego języka pierwszego rzędu ograniczymy uwagę do specjalnej dziedziny, być może nieskończonej, a ponadto nasz język wypo-
3.3. Konkretyzacje i uogólnienia
77
sażymy w taką ilość stałych indywiduowych, że każdy element tej dziedziny może być nazwany. Model tego języka może być wtedy rozumiany jako przyporządkowanie wartości logicznych elementarnym formułom o postaci Pt, gdzie P jest predykatem lub symbolem relacyjnym, a t = ht1 , . . . , t2 i jest uporządkowaną n-tką stałych indywiduowych. Formuły takie mogą być skojarzone z elementarnymi literami pt , które równie dobrze możemy zapisywać bez dolnych indeksów. Na poziomie boolowskim model cyrkumskrypcji można rozumieć jako model preferencji (V, <), gdzie V jest zbiorem boolowskich wartościowań, a < jest relacją określoną w specjalny sposób. Zbiór wszystkich liter zdaniowych S dzielimy na trzy rozłączne podzbiory S 1 , S 2 , S 3 . Dla wartościowań v i v0 bierzemy: v ≤ v0 wtedy i tylko wtedy, gdy v(p) ≤ v0 (p) dla każdego p ∈ S 1 , podczas gdy v(p) = v0 (p) dla każdego p ∈ S 2 . Żadnych warunków nie nakładamy natomiast na wartościowania liter z ostatniego zbioru S 3 . Mówimy, że v < v0 , wtedy i tylko wtedy, gdy v ≤ v0 , ale nie odwrotnie (a więc v(p) < v0 (p) dla jakiegoś p ∈ S 1 ). Każdy wybór zbiorów S 1 , S 2 określa zdefiniowaną w ten sposób relację cyrkumskrypcji <, a więc także model cyrkumskrypcji. Każdy model cyrkumskrypcji definiuje operację konsekwencji |z< przy użyciu tej samej zasady, co dla modelu preferencji: A |z< x wtedy i tylko wtedy, gdy v(x) = 1 dla każdego wartościowania v, które jest <-minimalne pośród wartościowań spełniających A. Kiedy dopuścimy, żeby zbiór przesłanek A był dowolny (tj. nie zawierał tylko formuł Horna), wtedy nie musi w ogólnym przypadku istnieć tylko jedno takie wartościowanie. W sytuacji, gdy S 1 = S (a więc S 2 = S 3 = ∅) i zbiór przesłanek A zawiera tylko formuły Horna, będzie istniało tylko jedno <-minimalne wartościowanie i powyższa konstrukcja w prosty sposób wygeneruje tę samą operację inferencji, co założenie domknięcia świata. W obydwu przypadkach ograniczamy uwagę do wartościowań, które spełniają tak mało liter zdaniowych, jak to możliwe. Inferencja cyrkumskrypcji w czysto boolowskim kontekście jest więc specjalnym przypadkiem inferencji preferencji, a także uogólnieniem inferencji z założeniem domknięcia świata. Wiele kopii wartościowań Przejdziemy teraz do uogólnień. Jest oczywiste, że nie wszystkie możliwości mogą być w pełni opisane w dość skromnym boolowskim języku, stąd naturalnym jest dążenie do sytuacji, w której różne możliwe światy spełniają dokładnie te same boolowskie formuły. Innymi słowy, możemy dopuścić tyle „kopii” vi wartościowania v, ile w modelu preferencji chcemy ich mieć. Technicznie rzecz biorąc można to wykonać indeksując wartościowania v za pomocą elementów s z dowolnego zbioru indeksów S . Równoważnie można przyjąć, że wartościowania są funkcjami v(a, s) od dwóch argumentów, a nie tylko
78
Rozdział 3. Ograniczenie zbioru wartościowań
jednego, gdzie zakresem a jest jak poprzednio zbiór formuł L, a nowy argument s pochodzi ze zbioru S . Oczywiście zabieg taki mógłby być wykonany już w monotonicznym przypadku dla semantyki wartościowań osiowych. Nic by to jednak nie zmieniło, gdyż jak wynika to prawie bezpośrednio z definicji, zostałyby wygenerowane te same relacje konsekwencji, jednak przy pomocy bardziej złożonego aparatu. W niemonotonicznym przypadku zmiana taka wywołuje znaczącą różnicę, nawet dla języków skończenie generowanych. Dzieje się tak, ponieważ dwie kopie jednego wartościowania mogą mieć dość różne pozycje w porządku. Zilustrujemy to prostym przykładem, zaraz po tym, jak podamy precyzyjną definicję. Rozważmy zbiór dowolnych przedmiotów S , którego elementy nazwiemy stanami. Rozważmy także dowolną relację określoną na S , oznaczaną przez <. Z każdym stanem s ∈ S kojarzymy wartościowanie v s określone na formułach rozważanego języka. Funkcja, która przyporządkowuje stan s wartościowaniu v s , jest często nazywana funkcją etykietowania. Nie musi być ona funkcją określoną na całym zbiorze V (mogą więc być takie v ∈ V, że v , v s dla dowolnych s ∈ S ). Pozwala ona zatem pracować na właściwym podzbiorze wartościowań. Nie jest także konieczne, aby była ona funkcją różnowartościową (możemy więc mieć v s = v s0 , chociaż s , s0 ), co dopuszcza pożądaną możliwość wielu kopii danego wartościowania. Zaznaczmy przy okazji, że terminologia jest tutaj dość zmienna i różni się znacznie w różnych pracach, nawet tego samego autorstwa. Elementy zbioru S są jednak zazwyczaj — tak jak w niniejszym przypadku — nazywane „stanami”, choć czasem nazywa się je „światami”. Inni autorzy rezerwują termin „światy” dla skojarzonych wartościowań v s (lub dla zbiorów formuł, które są przez nie spełniane). W sytuacjach, gdy funkcja etykietowania jest iniekcją, powyższa wieloznaczność nie ma na nic wpływu, bowiem elementy S mogą być wtedy identyfikowane ze swoimi obrazami względem funkcji etykietowania. Łatwo jednak o pomyłkę, kiedy funkcja etykietowania nie jest iniekcją i kilka elementów S może korespondować z jednym wartościowaniem. Kiedy dopuścimy wiele kopii, model preferencji definiujemy jako strukturę utworzoną z opisanych powyżej elementów: zbioru S , relacji < określonej na S , oraz funkcji etykietującej, która każdemu s ∈ S przypisuje klasyczne wartościowanie v s . Operacja konsekwencji jest zdefiniowana przez regułę: A |z< x wtedy i tylko wtedy, gdy v s (x) = 1, dla dowolnego stanu s, który jest minimalny pośród tych, które spełniają A, a więc tych, dla których v s (A) = 1. Posiłkując się notacją wprowadzoną w podrozdziale 3.2 możemy wyrazić to jako: s |= x, ilekroć s |=< A, lub: min< |A|S ⊆ |x|S , gdzie |A|S oznacza tym razem {s ∈ S : v s (A) = 1}.
79
3.3. Konkretyzacje i uogólnienia
Czy wprowadzone wyżej pojęcie „kopii” cokolwiek zmienia? Różnicę ujawnia elegancki przykład modelu preferencji z czterema tylko stanami, z których dwa są etykietowane przez to samo wartościowanie, podany przez Krausa, Lehmanna i Magidora (1990). Pokażemy, że nie istnieje model preferencji bez kopii, który określa tę samą relację konsekwencji. P 3.9. Rozwa» j¦zyk boolowski z dwoma elementarnymi literami p, q (a zatem z czterema mo»liwymi warto±ciowaniami). We¹ model preferencji zde niowany przez nast¦puj¡cy diagram, w którym stosujemy te same konwencje, co w podrozdziale 3.2, dodaj¡c ponadto dla jasno±ci negatywne oraz pozytywne cz¦±ci ka»dego warto±ciowania. Zauważmy, że poniższy model nie jest modularny. Dla przykładu, s1 < s3 oraz s3 nie jest porównywalny z s4 , ale s1 ≮ s4 . Zauważmy także, że nie jest on różnowartościowy: stany s3 oraz s4 są etykietowane przez to samo wartościowanie. Dowolny model preferencji zdefiniowany dla tego samego języka z elementarnymi literami p, q, który generuje tę samą relację konsekwencji jak podany, musi zawierać dwa różne stany etykietowane przez to samo boolowskie wartościowanie. • s3 : p, q
• s4 : p, q
• s1 : p, ¬q
• s2 : ¬p, ¬q
S. Dla uproszczenia notacji opuścimy dolny indeks < przy znaku inferencji. Zauważmy po pierwsze, że w podanym modelu preferencji mamy p∧q |z 6 f (gdzie f jest kontrtautologią), t |z ¬q (gdzie t jest tautologią), p |z 6 ¬q oraz p ↔ q |z 6 ¬p ∧ ¬q (gdzie ↔ jest równoważnością materialną). Rozważmy teraz dowolny model preferencji, który generuje taką samą relację konsekwencji, co powyższa. Chcemy pokazać, że zawiera on dwa różne stany etykietowane przez to samo wartościowanie boolowskie. Naszą argumentację rozłożymy na dwa przypadki. Przypadek 1. Załóżmy, że poszukiwany model preferencji ma więcej niż cztery stany. Ponieważ w naszym skromnym dwuliterowym języku są możliwe tylko cztery wartościowania, więc co najmniej dwa stany są etykietowane przez to samo wartościowanie. Przypadek 2. Załóżmy, że model preferencji ma co najwyżej cztery stany. Wtedy ma on skończoną ilość stanów i jest zakorkowany. Ponieważ p ∧ q |z 6 f , więc
80
Rozdział 3. Ograniczenie zbioru wartościowań
istnieje taki stan s, że s |=< p ∧ q, a zatem s |= p ∧ q. Oczywiście, także s |= t. Z uwagi jednak na to, że t |z ¬q, wiemy, że s nie jest minimalnym t-stanem. Zatem, z własności zakorkowania wynika, że musi istnieć minimalny t-stan s0 taki, że s0 < s. Ponieważ t |z< ¬q, otrzymujemy s0 |= ¬q. Wiemy także, że s0 |= p lub s0 |= ¬p. Obydwa podprzypadki rozważymy oddzielnie. Podprzypadek 2.1. Załóżmy, że s0 |= p. Wtedy s0 |= p, ¬q. Wiemy jednak, że p |z 6 ¬q. Zatem istnieje również minimalny p-stan s00 taki, że s00 |= q i s00 |= p, q. Sytuację tę możemy zobrazować w następujący sposób: • s : p, q
• s00 : p, q
• s0 : p, ¬q Stąd s i s00 są etykietowane przez to samo wartościowanie, dlatego, że spełniają one te same litery naszego ubogiego języka. Stany te muszą być jednak różne. Z jednej bowiem strony s00 jest minimalnym p-stanem, zaś z drugiej s nie jest, ponieważ s0 < s oraz z założenia podprzypadku s0 |= p. Podprzypadek 2.2. Załóżmy, że s0 |= ¬p. Wtedy s0 |= ¬p, ¬q, więc również s0 |= p ↔ q. Wiemy jednak, że p ↔ q |z 6 ¬p ∧ ¬q, zatem istnieje taki minimalny (p ↔ q)-stan s00 , że s00 |= ¬(¬p ∧ ¬q). Wynika stąd, iż s00 |= p, q. Sytuacja ta może być zobrazowana następująco: • s : p, q
• s00 : p, q
• s0 : ¬p, ¬q A zatem s, s00 są ponownie etykietowane przez to samo wartościowanie, ponieważ spełniają te same litery naszego ubogiego języka. Stany te znów jednak muszą być różne. Z jednej bowiem strony s0 < s, zaś z drugiej nie jest tak, że s0 < s00 , ponieważ s00 jest (p ↔ q)-minimalnym stanem i s0 |= p ↔ q. Biorąc pod uwagę istnienie takich przykładów jak powyższy, wersja konsekwencji preferencji z wieloma kopiami wartościowań staje się „wypracowanym
3.3. Konkretyzacje i uogólnienia
81
standardem”. Jest ona często nazywana konsekwencją KLM, z uwagi na jedną z istotnych dla problematyki prac Krausa, Lehmanna oraz Magidora (1990). Czytelnik może podejrzewać, że istnieje jeszcze inny sposób traktowania tych przykładów, mianowicie przy użyciu metody syntaktycznej. Zamiast dopuszczać wiele kopii wartościowania, moglibyśmy bowiem zwiększyć ilość liter w języku tak, aby otrzymać taki sam różnowartościowy model dla poszerzonego języka. W przykładzie 3.9 moglibyśmy dodać trzecią literę r, przypisać dwóm górnym punktom wartościowania p, q, r oraz p, q, ¬r, a r przyporządkować dowolnie dolnym punktom. Podobnie można by postąpić w pozostałych przykładach. Jeśli istnieje co najwyżej n kopii danego wartościowania w modelu preferencji, aby wykonać taki zabieg potrzebujemy co najwyżej plog2 nq nowych liter. Jeżeli nie ma skończonego górnego ograniczenia liczby kopii, możemy zawsze to zrobić, używając przeliczalnie wielu nowych zmiennych. Relacja konsekwencji, którą na poszerzonym języku wyznacza model preferencji, zgadza się oczywiście po powrocie do starego języka z relacją wyjściową. Jednakże w praktyce, pracując z konsekwencją preferencji, łatwiej jest utrzymywać stały język i dopuszczać kopie wartościowań niż rozszerzać język i etykietować wartościowaniami w modelu z jednoczesnym ograniczeniem uwagi do wyjściowego języka. Załóżmy teraz, że chcemy pracować wyłącznie z relacją konsekwencji generowaną przez różnowartościowe modele preferencji, ale jednocześnie utrzymywać w języku stałą liczbę liter elementarnych. Czy otrzymane operacje konsekwencji spełniają jakieś specjalne syntaktyczne własności? Czy możemy dowieść dla nich twierdzenie o reprezentacji? Odpowiedź nie jest jednoznaczna, dotyczy bowiem zawiłej sprawy. Do czasu napisania tej książki rzeczy wyglądały następująco: • Lehmann and Magidor (1992) pokazali, że kiedy ograniczymy się do modularnych modeli preferencji, to generowane operacje konsekwencji zawsze są określone przez modele różnowartościowe. • Freund (1993) wzmocnił ten wynik. Pokazał bowiem, że zachodzi on dla wszystkich „filtrowanych” (filtered) modeli preferencji, tzn. wszystkich takich, które posiadają następującą własność: dla dowolnych dwóch nieminimalnych stanów spełniających daną formułę, istnieje taki stan mniejszy od nich obydwu, który także ją spełnia. Modele modularne są zawsze filtrowane, ale nie odwrotnie. Jak wspomnieliśmy wcześniej, modularne modele zawsze spełniają nie-Hornową regułę racjonalnej monotoniczności. Natomiast filtrowane modele zawsze spełniają słabszy warunek dysjunkcyjnej racjonalności. Jest to również warunek nie-Hornowy. Mówi on, że jeśli a∨b |z x, to a |z x lub b |z x. Warunek ten wyrażony w języku operacji przyjmuje postać: C(a ∨ b) ⊆ C(a) ∪ C(b).
82
Rozdział 3. Ograniczenie zbioru wartościowań
• W tej samej pracy (1993) Freund pokazał, że kiedy język jest skończony, to modele preferencji zawsze spełniają nie-Hornowy warunek: C(a ∨ b) ⊆ Cn(C(a)∪C(b)). Jest on oczywiście słabszy niż dysjunkcyjna racjonalność. Nazywamy go warunkiem Freunda. Freund pokazał również zależność odwrotną, mianowicie dla skończonego języka mamy następujące twierdzenie o reprezentacji: każda relacja konsekwencji preferencji spełniająca powyższy warunek jest generowana przez pewien różnowartościowy model preferencji. • Ograniczenie twierdzenia Freunda do skończonego języka zostało usunięte przez Pino Péreza oraz Uzcátegui (2000), a także przez Zhu i innych (2002). Stosując dwie odmienne konstrukcje, prowadzące do różnych reprezentacji, obydwie prace wykazały, że niezależnie od tego, czy język jest skończony czy nie, każda inferencja spełniająca warunek Freunda może być reprezentowana przez różnowartościowy model preferencji. • Pewien problem jest jednak wciąż aktualny. Twierdzenie o poprawności może nie zachodzić dla nieskończonych języków. Jak pokazali Pino Pérez oraz Uzcátegui — podając przykład dla nieskończonych języków — istnieją różnowartościowe modele preferencji, których operacje konsekwencji nie spełniają warunku Freunda. Problem różnowartościowości jest więc bardziej zawiły i razem z pewną ilością technicznych detali wciąż czeka na odpowiedź w kontekście języka nieskończonego. Pozostawiając na boku te techniczne problemy, można by zapytać o to, która rama dla prezentacji modeli preferencji jest najlepsza? Uważa się powszechnie, że najbardziej wygodny — biorąc pod uwagę zastosowanie — jest sposób zaproponowany przez Krausa, Lehmanna i Magidora. Dopuszcza on bowiem wiele kopii wartościowań w modelach preferencji. Jednocześnie uwaga jest raczej zwykle skierowana na pojedyncze formuły pełniące rolę przesłanek niż na zbiory formuł. Bierze się to stąd, że kiedy rozważa się nieskończone zbiory przesłanek, brak własności zwartości powoduje trudności w dowodzie twierdzenia o reprezentacji. Funkcje selekcji zamiast relacji Kolejny sposób generalizacji abstrahuje od relacji preferencji określonej na W (lub na S , jeśli dopuścimy kopie) i wykorzystuje funkcję selekcji γ określoną na zbiorze potęgowym, z warunkiem γ(U) ⊆ U, dla każdego U ⊆ W. Funkcja selekcji można dodatkowo opisać za pomocą odpowiednich warunków. Jeśli są one wystarczająco silne, wtedy z funkcji selekcji można odczytać relację preferencji. Realizacja tej strategii przebiega oczywiście w sposób analogiczny do strategii stosowanej w częściowym przecięciu założeń domyślnych, które rozważaliśmy w podrozdziale 2.3. W tamtym przypadku mogliśmy pracować albo z relacjami
3.3. Konkretyzacje i uogólnienia
83
pomiędzy podzbiorami zbioru K założeń ukrytych w tle, albo z funkcjami selekcji określonymi na ich rodzinach. Identyczne problemy pojawiają się na abstrakcyjnym, matematycznym poziomie. Lindström (1991), Rott (2001) oraz Lehmann (2001) badali szczegółowo podejście stosujące funkcje selekcji. Natomiast, jak wspomnieliśmy w podrozdziale 2.3, Rott (1993; 2001) intensywnie przebadał abstrakcyjne powiązanie pomiędzy funkcjami selekcji a relacjami preferencji. Wartościowania nieklasyczne We wszystkich opisanych w tym podrozdziale konstrukcjach operowaliśmy klasycznymi wartościowaniami, tzn. funkcjami ze zbioru formuł w zbiór {0, 1}, które zachowują warunki boolowskie. Istnieje jednak możliwość osłabienia tych warunków w sposób całkowity lub częściowy. Kraus, Lehmann oraz Magidor (1990) badali ich częściowe odrzucenie. Bardziej radykalne podejście, poprzez przyjęcie za wartościowania dowolnych funkcji ze zbioru formuł w zbiór {0, 1}, było przedmiotem badań Makinsona (1989) oraz następnie Lehmanna (2002). Zastosowanie ideałów W podrozdziale 3.1 przybliżyliśmy pewien wariant konsekwencji wartościowań osiowych, zwany „konsekwencją osiowych wyjątków”. W konstrukcji tej zbiór wszystkich boolowskich wartościowań zawężamy do ideału. Dzieje się tak na poziomie monotonicznym. Możemy jednak przejść na poziom niemonotoniczny dopuszczając, żeby ideał zmieniał się w zależności od zbioru przesłanek. Zamiast ideału ∆ określonego na V, możemy uwzględnić ideał określony na zbiorze takich wartościowań |A|, które spełniają zbiór przesłanek A. Rozważmy funkcję γ, która przyporządkowuje każdemu zbiorowi |A| ideał określony na |A|. Powiemy, że x jest konsekwencją domyślnych wyjątków A modulo γ i napiszemy A |zγ x lub x ∈ Cnγ (A) wtedy i tylko wtedy, gdy zbiór wartościowań, które spełniają A, lecz nie spełniają x jest elementem ideału γ(|A|) określonego na |A|, tzn. wtedy, gdy {v ∈ V : v(A) = 1 oraz v(x) = 0} ∈ γ(|A|). Zdefiniowana w ten sposób relacja |zγ wciąż jest nadklasyczna, ale jednocześnie staje się niemonotoniczna. Ponieważ jednak ideały przyporządkowane różnym zbiorom γ(|A|) nie muszą pozostawać ze sobą w związku, więc relacja |zγ może nie posiadać takich własności, jak (CT) oraz (OR). W celu zachowania wszystkich lub niektórych z nich, nakłada się zwykle pewne warunki na związki pomiędzy ideałami γ(|A|), dla różnych wartości A. Nie wchodząc w szczegóły, odsyłamy czytelnika do prac wspomnianych niżej.
84
Rozdział 3. Ograniczenie zbioru wartościowań
Omawiane podejście, w wielu wersjach i pod różnymi nazwami, zostało rozwinięte przez Ben-Davida oraz Ben-Eliyahu-Zohary’ego (2000), Schlechtę (1997) oraz Friedmana i Halperna (2001). Lehmann (2001) dokonał jego szczegółowego porównania z podejściem w ramach wartościowań domyślnych (w wersji stosującej funkcje selekcji oraz wiele kopii wartościowań).
Ćwiczenia 1∗ . Weź pod uwagę model preferencji (z kopiami) z przykładu 3.9 (przykład Krausa, Lehmanna i Magidora) i rozważ następujące porządki: (a) taki jak ten w 3.9, ale z dodatkowym warunkiem: s1 < s4 (b) taki jak ten w 3.9, ale z dodatkowym warunkiem: s1 < s4 oraz s2 < s3 (c) podobny do tego z punktu 3.9, lecz z odwrotnym porządkiem (d) z przechodnim porządkiem: s1 < s2 < s3 < s4 (e) z przechodnim, ale i cyklicznym porządkiem: s1 < s2 < s3 < s4 < s1 . (i) Który z nich jest modularny? Który zawiera nieskończone, zstępujące łańcuchy? (ii) Dla każdego z tych pięciu modeli preferencji (z kopiami) określ status następujących konsekwencji (sprawdzaliśmy je w tekście w przykładzie 3.9): p ∧ q |z f (gdzie f jest kontrtautologią), t |z ¬q (gdzie t jest tautologią), p |z ¬q oraz p ↔ q |z ¬p ∧ ¬q. 2. Sprawdź, czy dopuszczenie kopii wartościowań w wypadku semantyki wartościowań osiowych spowodowałoby jakąś zmianę. W szczególności pokaż, że dla każdego zbioru W wartościowań z kopiami, zbiór U, otrzymany przez proste odrzucenie kopii, określa tę samą relację konsekwencji, a więc że `W = `U . 3. Pokaż, że jeżeli model preferencji jest filtrowany, to spełnia (nie-Hornowy) warunek dysjunkcyjnej monotoniczności: jeśli A ∪ {x ∨ y} |z z, to A ∪ {x} |z z lub A ∪ {y} |z z.
Problemy 1. Sprawdź prawdziwość stwierdzenia z tekstu, że w szczególnym przypadku, kiedy S 1 = S oraz zbiór przesłanek A zawiera tylko formuły Horna, to inferencja cyrkumskrypcji oraz inferencja oparta o założenie domknięcia świata są identyczne. 2. Pokaż, że przykłady takie jak 3.9 nie mogą pojawić się w kontekście modularnych relacji preferencji. Inaczej rzecz biorąc, pokaż, że dla dowolnego
3.4. Powtórzenie materiału i dalsze poszukiwania
85
modularnego modelu preferencji z kopiami, istnieje modularny model preferencji bez kopii, który definiuje dokładnie tę samą operację konsekwencji. 3. Pokaż, że relacje konsekwencji domyślnych wyjątków są nadklasyczne. Czy spełniają one warunek klasycznej, lewostronnej równoważności (LCE) oraz prawostronnego osłabiania (RW)? Podaj przykład falsyfikujący warunek kumulatywnej przechodniości (CT).
Projekt Przestudiuj szczegółowo, biorąc pod uwagę podaną bibliografię, jedną z partykularyzacji lub generalizacji konsekwencji preferencji opisaną w niniejszym rozdziale.
3.4. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Głównym celem tego rozdziału było pokazanie, że syntaktyczna strategia wdrożona w rozdziale 2 do wygenerowania nadklasycznych relacji konsekwencji ma swój odpowiednik na poziomie semantycznym. Zamiast dodawania przesłanek ukrytych w tle, ograniczamy zbiór wartościowań. Jeśli redukcja ta jest stała i nie zależy od przesłanek, to w skończonych przypadkach otrzymujemy dokładną analogię konsekwencji osiowych przesłanek. W nieskończonych przypadkach konstrukcje te są niezależne, a operacje konsekwencji wartościowań osiowych formują szerszą klasę niż ich osiowo-założeniowe odpowiedniki. Różnica między tymi klasami jest spowodowana tym, że relacje osiowych wartościowań nie są zwarte. Pomimo tej bliskiej analogii, przejście z poziomu syntaktycznego na poziom semantyczny nie jest jedynie ćwiczeniem technicznym w opisywaniu tej samej rzeczy na dwa sposoby. Jest ono użyteczne, ponieważ stwarza nowy sposób otrzymywania konsekwencji niemonotonicznych. W przypadku założeń ukrytych w tle wzorzec generowania opierał się na maksymalnej niesprzeczności, zaś w przypadku redukcji zbioru wartościowań bazuje on na pojęciu minimalności ze względu na pewną relację. Najprostszy sposób generowania, historycznie zresztą pierwszy, daje operację konsekwencji preferencji. Duża liczba innych konstrukcji opisanych w literaturze udoskonala lub urozmaica ten wzorzec, prowadząc do innych konsekwencji wartościowań domyślnych, z których każda ma swoje własne cele i specyficzne własności. Wersją najbardziej rozpowszechnioną jest KLM, w której modele preferencji dopuszczają kopie wartościowań.
86
Rozdział 3. Ograniczenie zbioru wartościowań
Lista sprawdzająca znajomość pojęć i definicji Podrozdział 3.1. Konsekwencja osiowych wartościowań, definiowalne zbiory wartościowań, skończenie generowany język boolowski, słaba reprezentacja, uzyskiwanie zwartości (compactification), ideały, konsekwencja osiowych wyjątków, główne ideały. Podrozdział 3.2. Model preferencji, elementy minimalne, elementy najmniejsze, operacja konsekwencji preferencji, relacja pełna, modularne modele preferencji, warunek zakorkowania (lub gładkości), ostrożna monotoniczność, zachowanie niesprzeczności, racjonalna monotoniczność. Podrozdział 3.3. Model cyrkumskrypcji, wiele kopii wartościowań, różnowartościowe modele preferencji, stany, funkcja etykietowania, nieklasyczne wartościowania, konsekwencja domyślnych wyjątków, dysjunkcyjna monotoniczność.
Dalsze lektury • Antoniou G., Nonmonotonic Reasoning, MIT Press, Cambridge MA 1997. Rozdział 13.5. • Brewka G., Dix J., Konolige K., Nonmonotonic Reasoning – An Overview, CSLI Publications, Stanford CA 1997. Rozdział 2. • Kraus S., Lehmann D., Magidor M., Nonmonotonic reasoning, preferential models and cumulative logics, Artificial Intelligence, 44, 1990, s. 167–207. • Makinson D., General Patterns in Nonmonotonic Reasoning, w: Handbook of Logic in Artificial Intelligence and Logic Programming, Tom 3, red. Gabbay, Hogger, Robinson, Oxford University Press, 1994, s. 35–110. Podrozdział 3.4. • Shoham Y., Reasoning About Change, MIT Press, Cambridge MA 1988. Rozdział 3. Osoby zainteresowane pracami dotyczącymi poszczególnych uogólnień powinny zapoznać się z pozycjami wymienionymi w odpowiednich paragrafach tekstu. Bardziej matematycznie zaawansowane podejście do przedstawionych zagadnień znajduje się w pracy Schlechty (2004).
Rozdział 4
Zastosowanie dodatkowych reguł
4.1. Od konsekwencji klasycznej do reguł osiowych Przejdziemy teraz do trzeciego sposobu wytwarzania nadklasycznej konsekwencji monotonicznej, a z niej niemonotonicznej. Wyjściowy pomysł jest podobny do pomysłu z dodawaniem dodatkowych przesłanek, jednakże zamiast dodawania zdań dodawać będziemy reguły. Ta pozornie mała zmiana przynosi ze sobą znaczną rozbieżność w efektach, które ujawniają się już w kontekście monotonicznym — nawet w skończonych przypadkach, gdzie podejścia za pomocą założeń osiowych i wartościowań osiowych są równoważne. Mówiąc skrótowo, jest to rezultatem tego, że reguły przekształcania zdań nie zachowują się jak zdania. Przez regułę przekształcania zdań (lub krótko regułę) będziemy rozumieć dowolną uporządkowaną parę (a, x) zdań rozważanego języka. Zbiór reguł jest więc po prostu binarną relacją R określoną na naszym języku, tzn. zbiorem R ⊆ L2 . Chociaż terminologia ta jest standardowa w dziedzinie, którą omawiamy, to należy przyznać, że jest jednak trochę dziwna. Bardziej naturalnie byłoby bowiem mówić o parach (a, x) po prostu jako o parach, rezerwując jednocześnie termin „reguła” dla zbioru R takich par. Będziemy jednak podążać za terminologią przyjętą w literaturze, co nie będzie mieć żadnego wpływu na treść. Przy danym zbiorze zdań X i zbiorze reguł R, definiujemy, w standardowy, teoriomnogościowy sposób, obraz X ze względu na R: y ∈ R(X) wtedy i tylko wtedy, gdy istnieje taki x ∈ X, że (x, y) ∈ R. Zbiór X nazywamy domkniętym ze względu na R wtedy i tylko wtedy, gdy R(X) ⊆ X, a więc jeśli x ∈ X oraz (x, y) ∈ R, to y ∈ X. Niech R ⊆ L2 będzie zbiorem reguł. Intuicyjnie rzecz biorąc, będzie on pełnił rolę zbioru domyślnych „biletów inferencyjnych”, gotowych do „rozpoczęcia podróży” z dowolnego zbioru przesłanek. Niech teraz A będzie potencjalnym zbiorem przesłanek, a x potencjalną konkluzją. D 4.1 (Konsekwencja reguł osiowych).
´ Powiemy, »e x jest konsekwencj¡ A modulo zbiór reguª R, pisz¡c A `R x lub x ∈ CnR (A), wtedy i tylko wtedy, gdy x jest elementem ka»dego nadzbioru A,
88
Rozdział 4. Zastosowanie dodatkowych reguł
który jest domkni¦ty ze wzgl¦du na Cn oraz na zbiór reguª R. Innymi sªowy, jest tak wtedy i tylko wtedy, gdy x jest elementem ka»dego zbioru X ⊇ A, takiego, »e Cn(X) ⊆ X oraz R(X) ⊆ X . ´ Powiemy, »e dana operacja jest konsekwencj¡ reguª osiowych wtedy i tylko wtedy, gdy jest identyczna z CnR , dla pewnego zbioru reguª R. Definicja A `R x wymaga, aby x był elementem każdego nadzbioru A domkniętego na Cn oraz R. Oczywiście istnieje zawsze co najmniej jeden taki zbiór — jest to cały język L. Ponadto, przecięcie dowolnej niepustej rodziny zbiorów, której każdy element jest domknięty ze względu na Cn (bądź R), jest również domknięte ze względu na Cn (bądź R). Wynika stąd, że zawsze istnieje najmniejszy taki zbiór, mianowicie przecięcie wszystkich rozważanych zbiorów. Podana definicja mogłaby zatem mieć następującą postać: CnR (A) jest najmniejszym nadzbiorem X zbioru A, takim że Cn(X) ⊆ X oraz R(X) ⊆ X. Z podanej definicji bezpośrednio wynika, że Cn ≤ CnR . Każda konsekwencja reguł osiowych jest więc także konsekwencją nadklasyczną. Nie jest trudno sprawdzić, że jest ona również monotoniczna oraz spełnia kumulatywną przechodniość — czyli warunki operacji domknięcia. Wciąż zatem jesteśmy w dziedzinie inferencji paraklasycznych. Można także pokazać, że konsekwencja reguł osiowych, podobnie jak jej założeniowy odpowiednik, jest zwarta, co odróżnia ją od konsekwencji bazującej na wybranych wartościowaniach. Nie spełnia ona jednak pewnej ważnej własności, którą spełniały dwie poprzednie konsekwencje. Mowa tu o łączeniu przesłanek w alternatywę. Dla przykładu, jeśli R = {(a, x), (b, x)}, to x ∈ CnR (a) oraz x ∈ CnR (b), ale x < CnR (a ∨ b) = Cn(a ∨ b). Jest tak, gdyż ostatni ze zbiorów jest pusto domknięty na R; R(Cn(a ∨ b)) = ∅ ⊆ Cn(a ∨ b), ponieważ a, b < Cn(a ∨ b). Obserwacje te obrazuje tabela 4.1. Tabela 4.1. Pewne własności konsekwencji reguł osiowych Nadklasyczna Zwrotna Kumulatywnie przechodnia (CT)
Operacja domknięcia
Paraklasyczna
Monotoniczna (Nie zawsze spełnia łączenie przesłanek w alternatywę (OR)) Zwarta
Konsekwencja reguł osiowych nie spełnia także warunku kontrapozycji. Wynika to z niespełniania warunku łączenia przesłanek w alternatywę, ponieważ
4.1. Od konsekwencji klasycznej do reguł osiowych
89
każda paraklasyczna operacja konsekwencji spełniająca pierwszy warunek musi spełniać też warunek drugi. Posłużymy się kontrprzykładem. Niech A = {a} oraz R = {(a, x)}. Wtedy x ∈ CnR (a), ale ¬a < CnR (¬x) = Cn(¬x), gdyż ostatni ze zbiorów jest pusto domknięty na R; R(Cn(¬x)) = ∅ ⊆ Cn(¬x), ponieważ a < Cn(¬x). Spostrzeżenie to kontrastuje z obserwacjami dotyczącymi konsekwencji założeń i wartościowań osiowych, które spełniają warunek kontrapozycji. Dodajmy jednocześnie, unikając ewentualnych nieporozumień, że ich domyślne odpowiedniki nie spełniają tego warunku. Jaki związek łączy operacje konsekwencji reguł osiowych i założeń osiowych? Jak można oczekiwać, ma on następujący charakter: T 4.2. Konsekwencje osiowych zaªo»e« s¡ dokªadnie tymi konsekwen-
cjami osiowych reguª, które speªniaj¡ ª¡czenie przesªanek w alternatyw¦.
D´ . Z jednej strony każda operacja konsekwencji osiowych założeń sama jest pewną konsekwencją osiowych reguł. Mając CnK , bierzemy po prostu R = {(t, k) : k ∈ K}, gdzie t jest tautologią. Łatwo jest sprawdzić, że CnK = CnR . Odwrotnie, gdy CnR jest pewną konsekwencją osiowych reguł, wtedy — jak wspominaliśmy — jest ona zwartą, nadklasyczną operacją domknięcia. Zatem, jeśli spełnia ona w dodatku warunek łączenia przesłanek w alternatywę, to na mocy twierdzenia o reprezentacji 2.2 jest ona także operacją konsekwencji założeń osiowych. Łącząc powyższe z wynikami przedstawionymi w poprzednich podrozdziałach, otrzymujemy w efekcie następującą ciekawą relację pomiędzy trzema typami osiowych inferencji: W 4.3 (z twierdzenia 4.2). Zbiór operacji konsekwencji osiowych zaªo»e«
jest przeci¦ciem zbiorów operacji konsekwencji osiowych warto±ciowa« i osiowych reguª. D´ . Pokazaliśmy już, że zbiór opisany po lewej stronie jest zawarty w każdym ze zbiorów opisanych po prawej stronie (twierdzenie 3.3 oraz 4.2). Dla dowodu zależności odwrotnej bierzemy dowolną operację zawartą w obydwu zbiorach. Jest ona paraklasyczna i spełnia zarówno warunek łączenia przesłanek w alternatywę oraz warunek zwartości (twierdzenie 3.4 oraz 4.2), możemy zatem ponownie zastosować twierdzenie o reprezentacji 2.2. Co się stanie, gdy spróbujemy odzyskać warunek łączenia przesłanek w alternatywę? Co będzie, jeśli zdefiniujemy CnR∨ (A) jako najmniejszy nadzbiór A, który jest domknięty na Cn, R oraz łączenie przesłanek w alternatywę? Jak czytelnik może podejrzewać, poprowadzi to z powrotem do konsekwencji założeń osiowych. Dokładniej rzecz biorąc, mamy następującą identyczność, dostrzeżoną w bardziej ogólnym kontekście przez Makinsona i van der Torre’a (2000, rozdział 6).
90
Rozdział 4. Zastosowanie dodatkowych reguł
T 4.4. CnR∨ (A) = Cn(A ∪ m(R))), gdzie m(R) jest zbiorem wszystkich materialnych implikacji powstaªych z reguª R, tzn. m(R) = {a → x : (a, x) ∈ R}. S . Oczywiście CnR∨ (A) ⊆ Cn(A ∪ m(R)), ponieważ prawa strona zawiera A oraz jest domknięta ze względu na Cn, R oraz (OR), podczas gdy lewa strona jest z definicji najmniejszym takim zbiorem. Interesujący jest jednak dowód zależności odwrotnej. Może on być przeprowadzony na wiele różnych sposobów, z których każdy jest pouczający. Jeden z dowodów opiera się na obserwacji, że operacja CnR∨ jest z definicji nadklasyczna oraz spełnia (OR), a następnie polega na sprawdzeniu, że operacja ta jest zwartą operacją domknięcia. Możemy więc zastosować konstrukcję, której użyliśmy w dowodzie twierdzenia 2.2, aby otrzymać CnR∨ (A) = Cn(A ∪ CnR∨ (∅)). Następnie sprawdzamy, że CnR∨ (∅) = Cn(m(R)), a więc ostatecznie CnR∨ (A) = Cn(A ∪ Cn(m(R))) = Cn(A ∪ m(R)). Inna metoda dowodu opiera się na wykorzystaniu bardziej podstawowych środków. Stosujemy lemat Kuratowskiego-Zorna, aby pokazać, że jeśli x < CnR∨ (A), to istnieje taki maksymalny B ⊇ A, że x < CnR∨ (B), a następnie wykazujemy, iż zbiór B musi być maksymalnie niesprzecznym zbiorem, takim że m(R) ⊆ B, a także, że jego funkcją charakterystyczną jest boolowskie wartościowanie spełniające A ∪ m(R), ale nie spełniające x. Argumentacja ta przypomina w konsekwencji dowód twierdzenia 2.2. Kolejny dowód może zostać skonstruowany przez założenie, że x ∈ Cn(A ∪ m(R)) oraz zastosowanie zwartości klasycznej konsekwencji do wyprowadzenia wniosku, że x ∈ Cn(A ∪ m(R0 )), dla pewnego skończonego R0 ⊆ R, a następnie przeprowadzenie indukcji po elementach R0 . Twierdzenia 4.2 oraz 4.4 łącznie rzucają światło na subtelne związki pomiędzy regułami oraz założonymi zdaniami. • Nie są one tym samym. W ogólności dodanie założeń zdaniowych daje więcej niż dodanie reguł. Innymi słowy: CnR (A) ⊆ Cn(A ∪ m(R)), przy czym inkulzja ta będzie zwykle właściwa. Zachodzi ona nie tylko dla operacji klasycznej Cn, lecz dla każdej operacji domknięcia, która spełnia modus ponens. • Kiedy jednak wprowadzimy również warunek domknięcia ze względu na (OR), obydwa rodzaje założeń będą miały tę samą siłę, bowiem reguły przeistoczą się w odpowiednie implikacje materialne; CnR∨ (A) = Cn(A ∪ m(R)). Twierdzenie o reprezentacji zachodzi również dla konsekwencji reguł osiowych. T 4.5. Dla ka»dej zwartej, nadklasycznej operacji domkni¦cia Cn+ , istnieje taka relacja R, »e dla dowolnego A, Cn+ (A) = CnR (A).
4.1. Od konsekwencji klasycznej do reguł osiowych
91
D´ . Konstrukcja dowodu jest prosta. Załóżmy, że R jest Cn+ obciętym do singletonów, a więc niech R = {(a, x) : x ∈ Cn+ (a)}. Dowód składa się z dwóch części. Po pierwsze, pokazujemy, że Cn+ (A) jest nadzbiorem A oraz jest domknięty zarówno na klasyczną operację Cn oraz R. Następnie pokazujemy, że jest to najmniejszy taki nadzbiór. W części pierwszej mamy A ⊆ Cn+ (A), ponieważ Cn+ jest operacją domknięcia. Ponadto Cn(Cn+ (A)) ⊆ Cn+ (A), ponieważ z nadklasyczności i idempotencji Cn+ otrzymujemy Cn(Cn+ (A)) ⊆ Cn+ (Cn+ (A)) ⊆ Cn+ (A). Z kolei z definicji R oraz monotoniczności i idempotencji Cn+ mamy R(Cn+ (A)) ⊆ Cn+ (A). Pokazuje to, że Cn+ (A) jest nadzbiorem A, który jest domknięty zarówno na konsekwencję klasyczną Cn oraz R. W celu pokazania, że jest on najmniejszym takim nadzbiorem, przyjmijmy, że X jest drugim zbiorem spełniającym powyższe warunki. Musimy pokazać, że Cn+ (A) ⊆ X. Załóżmy, że x ∈ Cn+ (A). Z uwagi na zwartość Cn+ , istnieje taki skończony B ⊆ A, że x ∈ Cn+ (B). Wiemy również, że Cn+ (B) = Cn+ (b), gdzie b jest koniunkcją skończenie wielu elementów B, ponieważ Cn+ jest z założenia nadklasyczną operacją domknięcia. Skoro x ∈ Cn+ (b), więc z definicji R otrzymujemy, że (b, x) ∈ R, a zatem x ∈ R({b}) ⊆ R(Cn(b)) = R(Cn(B)) ⊆ R(Cn(A)) ⊆ R(Cn(X)) = R(X) = X, gdyż na mocy założenia X zawiera A oraz jest domknięty zarówno na R oraz klasyczną operację Cn. Nie należy jednak zbyt mocno odczytywać tego twierdzenia. Jest ono znacznie mniej ważne niż twierdzenie 2.2 dla konsekwencji osiowych założeń. Jego dowód daje się przeprowadzić, ponieważ definicja relacji konsekwencji reguł osiowych nie wymaga nakładania żadnych warunków na relację R. Pozwala to wykonać pewną sztuczkę, polegającą na potraktowaniu R jako konsekwencji, której poszukujemy do reprezentowania, poprzez obcięcie jej do singletonów. Nasze twierdzenie byłoby bardziej interesujące, gdyby zostało wyrażone w terminach relacji R, która została zdefiniowana w sposób naturalny, jest to jednak dziedzina badań, która wydaje się nie być eksplorowana. Kończąc niniejszy podrozdział, wskażemy kwestię, która będzie istotna w dalszych rozważaniach poświęconych konsekwencji reguł domyślnych. Istnieje możliwość przeformułowania definicji konsekwencji reguł osiowych w sposób indukcyjny. Mamy następującą identyczność, której sprawdzenie wymaga odwołania się do zwartości operacji klasycznej Cn. S O 4.6. CnR (A) = {An : n < ω}, gdzie A0 = Cn(A) oraz An+1 = Cn(An ∪ R(An )). Zakładając, że nasz język ma co najwyżej przeliczalnie wiele formuł, a więc zbiór R jest również skończony lub przeliczalny, możemy pójść jeszcze dalej
92
Rozdział 4. Zastosowanie dodatkowych reguł
i przeformułować tę indukcyjną definicję w taki sposób, że w kroku indukcyjnym będzie ona miała jedynie dodatkowy singleton. Zdefiniujmy uporządkowany zbiór hRi reguł R, indeksując reguły liczbami naturalnymi 0, 1, 2, …. Mówiąc precyzyjniej, ustalmy porządek ri = (ai , xi )i<α wszystkich reguł ze zbioru R bez powtórzeń, gdzie α jest liczbą naturalną, jeśli R jest skończone, lub równa się ω, jeśli R jest przeliczalne. D 4.7 (Zwiększanie o singletony przy ustalonym porządku).
´ Maj¡c ustalony S porz¡dek hRi na zbiorze reguª R, de niujemy operacj¦ CnhRi , kªad¡c CnhRi = {An : n < ω}, gdzie A0 = Cn(A) i An+1 = Cn(An ∪ {x}), przy czym (a, x) jest pierwsz¡ reguª¡ w hRi tak¡, »e a ∈ An , ale x < An . W wypadku, gdy nie ma takiej reguªy, An+1 = An . W celu uniknięcia nadmiernie rozbudowanej notacji, dla elementów definiowanego ciągu używamy tutaj tego samego zapisu An , co w poprzedniej sekwencji podczas definiowania CnR (A). Jest to jednak oczywiście coś innego, co prowadzi do zwiększania zbioru jedynie o singletony. Kilka cech tej definicji zasługuje na specjalną uwagę. • Ciąg A0 , A1 , … jest rosnący, tzn. An ⊆ An+1 dla dowolnego n. • Konstrukcja ta nie wymaga stosowania reguł w kolejności, w której występują w hRi. Tworząc An+1 , możemy zastosować regułę (a, x), która występuje w ciągu hRi wcześniej niż pewne już zastosowane reguły, ponieważ przesłanka a mogła być dostępna dopiero w An . • Przechodząc ponownie przez ciąg hRi od początku, na każdym jego etapie upewniamy się, że żadna reguła (a, x) nie została pominięta w czasie, gdy jej przesłanka była dostępna. • Definicja ta gwarantuje, że raz użyta reguła (a, x) nie jest stosowana nigdy więcej, ponieważ jej wniosek x jest elementem wszystkich nadzbiorów An+k . Chroni to ciąg przed wiecznym powtarzaniem stosowania tej samej reguły, bez możliwości przejścia do następnych reguł. Chociaż elementy An ciągu definiującego CnhRi (A) nie są takie same jak te, które definiują CnR (A), to ich suma jest identyczna: O 4.8. CnhRi (A) = CnR (A). To z kolei implikuje również, że wybór porządku hRi zbioru R nie ma znaczenia dla ostatecznego rezultatu, który zawsze jest równy CnR (A). Indukcyjne definicje konsekwencji osiowych reguł mogą wydawać się długimi sposobami wypowiedzenia czegoś, o czym wyjściowa definicja mówi krótko.
4.1. Od konsekwencji klasycznej do reguł osiowych
93
I rzeczywiście tak jest! W kolejnym podrozdziale zobaczymy jednak, że pozwalają one — w szczególności omówiona definicja powiększania o singletony — na klarowne przejścia do operacji konsekwencji reguł domyślnych.
Uwagi historyczne Pomysł zastosowania monotonicznych operacji CnR jako stopnia prowadzącego do konsekwencji reguł domyślnych jest implicite obecny w wielu pracach, rzadko jednak w sposób wyraźny. Jedna z prac, która go akcentuje, została napisana przez Sandewalla (1985). Sandewall opisuje system pomostowy, który jest czterowartościową logiką. System ten może być jednak przetłumaczony na używany tu język. Jednakże sposób, w który przechodzi on od systemu pomostowego do domyślnego, jest trochę inny od tego, który opiszemy w kolejnym podrozdziale, jest on bowiem bliższy podejściu Reitera, zwanego podejściem w ramach punktu stałego (fixed point account).
Ćwiczenia 1∗ . Niech R będzie zbiorem następujących reguł: (p, r), (p ∧ q, s), (r, u), (w, v). Niech A = {p, q, ¬v}. Opisz każdy ze zbiorów: R(A), R(R(A)), R(A ∪ R(A)), R(Cn(A ∪ R(A))) i wskaż między nimi różnice. 2∗ . Niech R będzie dowolnym zbiorem reguł, rozumianych tak jak w tekście. Wyjaśnij, dlaczego R(∅) = ∅. Wyjaśnij również, dlaczego dla dowolnego zbioru jest tak, że jeśli x ∈ R(A), to istnieje taki element a ∈ A, że x ∈ R({a}). 3. Wyjaśnij, dlaczego cały język L jest — jak twierdzono w tekście — domknięty zarówno na klasyczną konsekwencję, jak i dowolny zbiór reguł R. 4∗ . Niech R będzie zbiorem następujących reguł: (p, u), (p ∧ q, v), (s, w), (¬y, w), (r ∧ q, ¬w). Niech A zawiera trzy formuły p ∧ q, r ∧ q, s ∨ ¬y. Wyznacz ciągi A0 , A1 , A2 , … oraz ich sumę, biorąc pod uwagę pierwszą z podanych w tym podrozdziale definicji indukcyjnych. Następnie, przyjmując porządek w zbiorze R zgodny z kolejnością wypisania reguł, wyznacz A0 , A1 , A2 , … oraz ich sumę, posługując się drugą z podanych definicji indukcyjnych. Na końcu skomentuj różnice. 5. Pokaż, że przecięcie dowolnej, niepustej rodziny zbiorów boolowskich formuł, z których każdy jest domknięty na zbiór reguł R, jest również domknięte na R. Pokaż to samo dla domknięcia ze względu na Cn. 6. Wyjaśnij, dlaczego z definicji CnR bezpośrednio wynika, że Cn ≤ CnR .
94
Rozdział 4. Zastosowanie dodatkowych reguł
7. Pokaż, że konsekwencja osiowych reguł jest — jak stwierdzono w tekście — monotoniczna i spełnia kumulatywną przechodniość. 8. Pokaż, że dowolna paraklasyczna operacja (a więc nadklasyczne domknięcie), spełniająca warunek kontrapozycji, spełnia również — jak stwierdzono — warunek łączenia przesłanek w alternatywę. Wskazówka: Wykorzystaj fakt mówiący, że dowolna taka operacja spełnia lewostronną, klasyczną równoważność oraz prawostronne osłabianie, który uzasadniono w lemacie do twierdzenia 2.2. 9. Sprawdź stwierdzenie, które pojawiło się w dowodzie twierdzenia 3.4, że CnK = CnR , gdzie R = {(t, k) : k ∈ K}.
Problemy 1. Dowiedź twierdzenia 4.4 stosując jedną ze strategii zarysowanych w tekście. 2. Dowiedź obserwacji 4.6. Wskazówka: Pokaż obydwie inkluzje oddzielnie. Dowodząc inkluzji „z prawej do lewej” zastosuj indukcję z uwagi na n, pokazując, iż każdy An jest zawarty S w CnR (A). Inkluzję odwrotną udowodnij, pokazując, że zbiór {An : n > ω} zawiera A oraz jest domknięty zarówno na klasyczną konsekwencję (tutaj wykorzystasz zwartość klasycznej konsekwencji) i na zbiór reguł R. Następnie skonkluduj stosując definicję CnR (A). 3. Dowiedź obserwacji 4.8. Wskazówka: Możliwe są dwie strategie — dowód z wykorzystaniem środków podstawowych, podobny do tego z poprzedniego ćwiczenia, oraz dowód pokazujący, że zbiór opisany po prawej stronie tej zależności jest identyczny ze zbiorem opisanym po prawej stronie zależności z poprzedniego ćwiczenia. Jeśli chcesz wykorzystać drugą strategię, przeetykietuj zbiory An na Bn , żeby uniknąć zamieszania i pokaż zachodzenie każdej z obydwu inkluzji przez indukcję po n. 4∗ . Pokaż, że konsekwencja reguł osiowych jest — jak stwierdzono w tekście — zwarta. Wskazówka: Zastosuj charakterystykę konsekwencji reguł osiowych podaną w obserwacji 4.6.
4.2. Od reguł osiowych do reguł domyślnych
95
4.2. Od reguł osiowych do reguł domyślnych Operacje konsekwencji CnR , zdefiniowane w poprzednim podrozdziale za pomocą reguł osiowych, są, jak widzieliśmy, monotoniczne. Podobnie jak wcześniej, niemonotoniczność możemy teraz otrzymać, dopuszczając, żeby zbiór reguł R — lub dokładniej te z nich, które mogą być zastosowane — zmieniał się w zależności od zbioru przesłanek A. Ponieważ nasze rozważania prowadzone są obecnie raczej na poziomie syntaktycznym niż semantycznym, nie powinno nas dziwić, że przejście do operacji niemonotonicznych będzie polegało na wykorzystaniu warunków gwarantujących niesprzeczność. Istnieje tutaj wiele takich możliwości. W zasadzie można wyróżnić ich dwa rodzaje: pierwszy polega na nałożeniu warunku niesprzeczności na same reguły, natomiast drugi na ich kolejne zastosowania. Podział ten został sformułowany w sposób ogólny i może wydawać się dość mglisty oraz trudny do zastosowania w praktyce. Wyznacza on jednak rzeczywistą różnicę i prowadzi do różnych operacji konsekwencji, które odmiennie się zachowują. Literatura przedmiotu poświęcona jest głównie drugiemu podejściu, w którym reguły nie podlegają ograniczeniu, ale ich aplikacja jest obwarowana warunkami. Obierzemy tę samą drogę. Rozpoczniemy od opisu jednego z najbardziej znanych podejść, pochodzącego od Reitera (1980) i związanego z jego systemem „normalnych reguł domyślnych” (normal deafults). W kolejnym podrozdziale wyjaśnimy, jak może ono być uogólnione, aby objąć również „nienormalne reguły domyślne” (non-normal defaults), oraz zarysujemy podejście, które ogranicza same reguły. Na początku scharakteryzujemy indukcyjnie konsekwencje reguł osiowych, stosując pojęcie powiększania o singletony z uwagi na porządek hRi zbioru reguł R, które opisaliśmy w definicji 4.7. Przypomnijmy, że zdefiniowaliśmy tam: S CnR (A) = {An : n < ω}, gdzie A0 = Cn(A) oraz An+1 = Cn(An ∪ {x}), przy czym (a, x) jest pierwszą regułą w hRi, taką że a ∈ An , ale x < An . W przypadku granicznym, gdy nie ma takiej reguły, An+1 = An . Podstawową ideą, którą będziemy teraz wykorzystywać, jest kontrolowanie dodawanych singletonów i dopuszczanie stosowania reguł tylko wtedy, gdy nie powodują sprzeczności. D 4.9 (Konsekwencja uporządkowanych reguł domyślnych z normalnymi regułami).
´ Jak wcze±niej, ustalamy sko«czony lub S ω-porz¡dek hRi danego zbioru reguª R. Jak poprzednio, de niujemy ChRi (A) = {An : n < ω} oraz A0 = Cn(A). ´ Jak poprzednio, rozkªadamy de nicj¦ An+1 na dwie cz¦±ci. Teraz jednak uzyskane przypadki wymagaj¡ sprawdzenia niesprzeczno±ci.
96
Rozdział 4. Zastosowanie dodatkowych reguł
Przypadek 1. Zaªó»my, »e istnieje taka reguªa (a, x) w R, »e a ∈ An , ale x < An i x jest niesprzeczna z An . Wtedy wybieramy pierwsz¡ reguª¦ tego typu i de niujemy An+1 = Cn(An ∪ {x}). Przypadek 2. Zaªó»my, »e nie ma takiej reguªy. Wtedy, jak przedtem, przyjmujemy An+1 = An . Jedyną zatem zmianą w tej definicji, w porównaniu z konsekwencją założeń osiowych przedstawioną w definicji 4.7, jest dołączenie wymogu sprawdzania niesprzeczności w kroku indukcyjnym. Wniosek reguły musi być niesprzeczny z uzyskanym do tej pory wynikiem. Ten mały dodatek prowadzi jednak do znacznych różnic. • Jedną z nich jest to, że wybór porządku zaczyna mieć znaczenie. Zawartość ChRi (A) zmienia się bowiem z uwagi na poszczególne porządki hRi zbioru reguł R. Jest tak, ponieważ zastosowanie wcześniejszej reguły może wprowadzić formułę, która powoduje odrzucenie kolejnej reguły z uwagi na możliwą sprzeczność. Na przykład, jeśli A = {a} i R = {(a, x), (a, ¬x)}, a R uporządkujemy zgodnie z porządkiem wypisania reguł, to otrzymamy ChRi (A) = Cn({a, x}). Odwracając porządek otrzymujemy ChRi (A) = Cn({a, ¬x}). Uzasadnienie: w przypadku pierwszym mamy A1 = Cn(A0 ∪{x}), ponieważ x jest niesprzeczna z A0 , podczas gdy A2 = A1 , ponieważ ¬x jest sprzeczna z A1 . W przypadku drugim jest zaś odwrotnie. • Oznacza to, że nawet kiedy zbiór R reguł ukrytych w tle jest ustalony, nie ma jednej, ale wiele operacji konsekwencji ChRi (A). Dla każdego porządku hRi będzie bowiem jedna, chociaż różne porządki mogą dać tę samą operację. • Innym efektem wprowadzenia warunku niesprzeczności jest to, że operacje ChRi (A) są niemonotoniczne. Wynika on z tego, że zwiększenie ilości przesłanek może doprowadzić do pojawienia się takich, które uniemożliwiają zastosowanie pewnych reguł po sprawdzeniu warunku niesprzeczności. Przykład. Jeśli A = {a} i R = {(a, x)}, to ChRi (A) = Cn({a, x}), ale kiedy A wzmocnimy do B = {a, ¬x}, wtedy ChRi (B) = Cn(B) = Cn({a, ¬x}). Uzasadnienie: w przypadku, gdy A = {a} ponownie mamy A1 = Cn(A0 ∪ {x}) = Cn({a, x}), ponieważ x jest niesprzeczna z A0 = {a}, podczas gdy A2 = A1 , bo x ∈ A1 . W przypadku jednak, gdy B = {a, ¬x}, mamy B1 = B0 = Cn(B) = Cn({a, ¬x}), ponieważ x jest sprzeczna z B, więc także z B0 . Podana tu indukcyjna definicja zbiorów ChRi (A) została po raz pierwszy sformułowana przez Brewkę (1994), chociaż już po fakcie można przypuszczać, że jest
4.2. Od reguł osiowych do reguł domyślnych
97
ona efektem dyskusji, którą Reiter przeprowadził w swojej istotnej dla tej problematyki pracy (1980), a dotyczącej wyprowadzania w systemach normalnych reguł domyślnych. Definicja ta jest bowiem równoważna oryginalnej definicji Reitera, ponieważ zbiory ChRi (A) dla różnych porządków hRi zbioru R są identyczne z tym, co Reiter nazywa „rozszerzeniami” A po zastosowaniu reguł normalnych R. Zbiór formuł E jest rozszerzeniem zbioru A z zastosowaniem reguł R w sensie Reitera, wtedy gdy E = ChRi (A), dla pewnego dobrego porządku hRi zbioru R. Rezultat ten jest szczególnym przypadkiem bardziej ogólnego twierdzenia, które dotyczy również reguł nienormalnych. Twierdzenie to jest wypowiedziane i dowiedzione w kolejnym podrozdziale jako twierdzenie 4.12. Zastosowana tutaj notacja jest trochę prostsza niż notacja Reitera. Podczas gdy Reiter zapisuje normalną regułę domyślną jako a : Mx/x, my piszemy po prostu parę uporządkowaną (a, x). Zatem w naszej prezentacji normalne reguły domyślne są po prostu tym samym co reguły, różnica leży jedynie w sposobie ich stosowania. Jest jednak również pewna zmiana w terminologii. W kontekście normalnych reguł domyślnych (a, x) (lub a : Mx/x), a jest nazywane przez Reitera warunkiem wstępnym (prerequisite) reguły, natomiast x jej konkluzją. My jednak będziemy używać tych samych terminów, które stosujemy do zwykłych reguł, odpowiednio założenie reguły (body) oraz wniosek reguły (head). Bardziej interesujące od tych detali jest to, że powyższa definicja różni się swoją strukturą od definicji Reitera. W oryginalnej pracy Reitera (1980) zbiór E jest nazywany rozszerzeniem A w odniesieniu do R wtedy i tylko wtedy, gdy jest on punktem stałym danej operacji Γ, co znaczy, że stanowi on wartość tej operacji dla siebie samego jako argumentu, a więc E = Γ(E). Istotną sprawą, którą należy sobie uświadomić jest to, że definicje oparte na pojęciu punktu stałego nie gwarantują ani jedyności, ani nawet istnienia definiowanego obiektu. W szczególnym przypadku normalnych reguł domyślnych, definicje z punktem stałym Reitera gwarantują istnienie, lecz nie gwarantują jedyności definiowanego obiektu. Choć więc dany zbiór przesłanek A ma co najmniej jedno rozszerzenie przy danym zbiorze R, to może mieć ich więcej. Dla nienormalnych reguł domyślnych nie jest zapewnione ani jego istnienie, ani jedyność. Reiter (1980) pokazał również, że jego rozszerzenia mogą być zdefiniowane przy użyciu pojęcia funkcjonującego czasem pod nazwą quasi-indukcji lub, w terminologii Makinsona (1994), indukcji z regulowanym wyjściem (end-regulated induction). Definicja ta wygląda jak zwykła definicja indukcyjna, z tą tylko różnicą, że krok indukcyjny odnosi się do obiektu definiowanego — definicja An+1 opisuje nie tylko wartość Am dla m ≤ n, ale również wartość ostatecznego rezulS tatu {An : n < ω}. Chociaż więc indukcje z regulowanym wyjściem są z wyglądu podobne do właściwych definicji indukcyjnych, to z logicznego punktu widzenia zachowują się jak definicje z punktem stałym.
98
Rozdział 4. Zastosowanie dodatkowych reguł
Z wielu powodów będziemy kontynuować podejście indukcyjne. Definicje indukcyjne ułatwiają bowiem intuicyjne zrozumienie problemu. W praktyce, kiedy nauczyciele próbują podczas zajęć przekazać ogólne idee rozumowań opartych na regułach domyślnych, zanim przejdą do ich formalnych definicji opartych na punkcie stałym, używają pewnego rodzaju niejasnego, niby indukcyjnego języka. W naszej prezentacji pokazujemy, że taki indukcyjny język może być używany w sposób ścisły i z czystym sumieniem. Jednocześnie staje się jasne, że operacje reguł domyślnych mogą być postrzegane jako naturalnie rozwinięcia idealnie monotonicznych operacji z poprzedniego podrozdziału. Czytelnik może być jednak zdziwiony słysząc, że indukcyjne definicje dają ten sam rezultat, co definicje z punktem stałym, skoro pierwsze dają jeden wynik, a drugie mogą dostarczać ich wiele. Odpowiedź jest zawarta w porządkach hRi reguł. Indukcyjne definicje przekształcają wiele rozszerzeń w jedno, modulo wybrany porządek hRi, stąd różne porządki dadzą w ogólności różne rozszerzenia. Kiedy w następnym podrozdziale uogólnimy nasze podejście do reguł nienormalnych i stracimy gwarancję nie tylko jedyności, ale również istnienia rozszerzenia, definicja indukcyjna wymagać będzie kolejnej zmiany. Operacje ChRi same w sobie są jednak interesujące. Jeśli jesteśmy wyposażeni w preferowany porządek hRi zbioru R, możemy nie potrzebować niczego więcej niż operacja ChRi zdefiniowana modulo ten wybrany porządek. Moglibyśmy jednak również zdefiniować operację konsekwencji CR , która jest niezależna od jakiegokolwiek porządku, formułując strategię łączenia (lub „zrównywania” (flattening) jak się to również czasem nazywa) wszystkich operacji ChRi dla różnych wartości hRi. Jeśli weźmiemy pod uwagę strategię równego traktowania wszystkich porządków, wtedy tylko dwa rozwiązania wydają się możliwe: suma lub przecięcie ich wartości. Suma wartości jest raczej nie do zaakceptowania, jeśli bowiem mamy więcej niż jedno rozszerzenie do zbadania, da ona sprzeczny wynik. Dzieje się tak, ponieważ — jak dobrze wiadomo — suma dwóch różnych rozszerzeń Reitera zbioru A w odniesieniu do R jest sprzeczna. Zwykle więc stosuje się przecięcie. Jest to strategia podobna, jak w przypadku analogicznego problemu w kontekście konsekwencji założeń domyślnych, a w rezultacie także w kontekście wartościowań domyślnych, w którym rozważaliśmy zdania prawdziwe we wszystkich minimalnych wartościowaniach spełniających przesłanki. Taka strategia łączenia wielu wyjść jest zwykle nazywana strategią sceptyczną. Wyraża ją następująca definicja: D 4.10 (Sceptyczna konsekwencja reguł domyślnych). Konsekwencj¦ reguª domy±lnych (z uwagi na sceptyczn¡ strategi¦ ª¡czenia ró»nych wyj±¢) de T niujemy w nast¦puj¡cy sposób: CR (A) = {ChRi (A) : hRi jest sko«czonym lub
4.2. Od reguł osiowych do reguł domyślnych
99
ω-porz¡dkiem R}. W notacji relacyjnej mamy: A |zR x wtedy i tylko wtedy, gdy A |zhRi x, dla dowolnego porz¡dku hRi. Jak już wspominaliśmy, podejście to pokrywa się z tym, co jest powszechnie znane jako „konsekwencja zastosowania normalnych reguł domyślnych Reitera ze sceptyczną strategią w stosunku do rozszerzeń”. Ponieważ operacje reguł domyślnych ChRi są ogólnie rzecz biorąc niemonotoniczne, wynika więc stąd, że sceptyczne operacje CR ogólnie są również niemonotoniczne. Prosty przykład podany wcześniej może być użyty także i tutaj: gdy R jest singletonem, otrzymujemy ChRi = CR . Omawiając dalej własności negatywne, zauważmy, że operacje domyślnych reguł CR mogą również nie spełniać ostrożnej monotoniczności. Pierwszy zauważył to Makinson (1989), wskazując na prosty kontrprzykład. Po fakcie można w tym samym celu użyć przykładu 6.1 Reitera (1980). Następujący, nawet prostszy przykład, pochodzi z pracy Makinsona (1994, podrozdział 3.2). Niech R zawiera trzy reguły: (t, a), (a, b), (b, ¬a), gdzie t jest tautologią. Łatwo sprawdzić, że porządek w R nie ma znaczenia — zbiór przesłanek {t} ma to samo rozszerzenie Cn({a, b}) we wszystkich porządkach. Z drugiej strony {b} ma dwa rozszerzenia: Cn({a, b}), w porządku, w którym wypisaliśmy reguły, oraz Cn({¬a, b}), w porządku odwrotnym. Zatem t |zhRi a oraz t |zhRi b, ale b |z 6 hRi a, gdzie hRi jest porządkiem odwrotnym. Ten sam wzorzec powtarza się w przypadku sceptycznej relacji |zR . Zatem obydwie one nie spełniają warunku ostrożnej monotoniczności. Komentując nadal negatywne własności, operacje reguł domyślnych mogą również nie spełniać — tak jak operacje reguł osiowych — warunku łączenia przesłanek w alternatywę (OR). Na potwierdzenie tego można wskazać na ten sam prosty kontrprzykład. Dodajmy, że operacje domyślnych reguł CR mogą nie być zwarte. Można to pokazać, rozważając przykład z podrozdziału 2.2, wykorzystany do pokazania, że konsekwencje założeń domyślnych również nie są w ogólności zwarte. Przykład ten należy wyrazić w języku reguł, zastępując zbiór przesłanek ukrytych w tle K odpowiednim zbiorem reguł, które w poprzedniku mają tautologię, tzn. definiując R = {(t, k) : k ∈ K}. Przechodząc do pozytywnych własności, operacje reguł domyślnych ChRi oraz ich wersje oparte na przecięciu CR są oczywiście nadklasyczne i — jak łatwo sprawdzić — spełniają warunki prawostronnego osłabiania (RW) oraz lewostronnej, klasycznej równoważności (LCE). Spełniają one również kumulatywną przechodniość, co wynika z dowodu Reitera (1980), a bezpośrednio zostało pokazane przez Makinsona (1989; 1994). Przyglądając się teraz związkom pomiędzy konsekwencjami: klasyczną, reguł osiowych oraz reguł domyślnych, dostrzegamy znany już nam schemat. W porząd-
100
Rozdział 4. Zastosowanie dodatkowych reguł
ku konstrukcji wyszliśmy od klasycznej konsekwencji Cn i poprzez konsekwencje reguł osiowych CnR doszliśmy do konsekwencji reguł domyślnych ChRi . Monotoniczna operacja CnR jest więc konceptualnym pomostem pomiędzy operacją klasyczną i operacjami niemonotonicznymi. Jednakże porządek inkluzji jest odwrotny: Cn ≤ CR ≤ ChRi ≤ CnhRi = CnR . W skrócie, uwzględniając kluczowe operacje, daje to nierówności: Cn ≤ ChRi ≤ CnR . Innymi słowy Cn jest ograniczeniem dolnym dla operacji domyślnych ChRi , podczas gdy konsekwencja reguł osiowych CnR jest ograniczeniem górnym, zaś pomiędzy nimi mamy konsekwencje niemonotoniczne. W przypadku, kiedy zbiór heads(R) — wniosków reguł z R — jest niesprzeczny ze zbiorem przesłanek A, otrzymujemy CR (A) = CnR (A), w ten sposób osiągając ograniczenie górne. W tej sytuacji sprawdzanie niesprzeczności w indukcyjnym kroku jest zawsze pozytywne, więc jedyne rozszerzenie zbioru A z uwagi na R jest takim najmniejszym nadzbiorem X zbioru A, że Cn(X) ⊆ X oraz R(X) ⊆ X, tzn. CnR (A). Na przeciwnym zaś końcu, gdy wniosek dowolnej reguły z R jest sprzeczny z A, jako ograniczenie dolne mamy CR (A) = A0 = Cn(A).
Ćwiczenia 1∗ . Załóżmy, że p, q, r są jedynymi literami w badanym języku. Rozważ zbiór reguł R = {(p, q), (q, r), (q, ¬r)} oraz zbiór przesłanek A = {p}. Wypisz wszystkie możliwe porządki hRi zbioru R. Dla każdego porządku określ ChRi (A). Na końcu zaś określ CR (A). 2∗ . Rozważ zbiór reguł R = {(p, q), (q, r), (r, s), (s, ¬p)} oraz zbiór przesłanek A = {p}. Pokaż, że ChRi (A) = Cn({p, q, r, s}) bez względu na porządek hRi zbioru T R, a w konsekwencji, że CR (A) = {ChRi (A)} = Cn({p, q, r, s}). Przykład ten jest regułowym odpowiednikiem wstęgi Möbiusa (z czterema elementami) rozważanej już w formie zdaniowej (trzyelementowej) w podrozdziale 2.2. 3∗ . (a) Wyjaśnij, dlaczego zbiór ChRi (A) jest dobrze zdefiniowany dla dowolnego zbioru formuł A, tzn. dlaczego jego definicja gwarantuje jego istnienie? (b) Pokaż, że operacje ChRi zachowują niesprzeczność lub, inaczej mówiąc, ChRi (A) jest niesprzeczny, o ile A jest niesprzeczny. (c) Wyjaśnij, dlaczego sceptyczna operacja CR również zachowuje niesprzeczność. 4. Niech R i S będą zbiorami reguł. Załóżmy, że R jest skończony. Pokaż, że dla każdego porządku hRi zbioru R istnieje pewien porządek hR ∪ S i zbioru R ∪ S taki, że ChRi (A) ⊆ ChR∪S i (A).
4.3. Uogólnienia i warianty
101
5. Wiemy z poprzedniego podrozdziału, że konsekwencja osiowych reguł może nie spełniać warunku łączenia przesłanek w alternatywę (OR). Sprawdź, że ten sam przykład wskazuje na niezachodzenie (OR) w przypadku konsekwencji reguł domyślnych z normalnymi regułami. 6. Udowodnij, że konsekwencja reguł domyślnych z regułami normalnymi spełnia prawostronne osłabianie oraz lewostronną, klasyczną równoważność. 7. W podanym przez Makinsona (1989) kontrprzykładzie dla ostrożnej monotoniczności R zawierało tylko dwie reguły (t, b) oraz (a ∨ b, ¬b). Sprawdź jego zasadność! 8. Pokaż, że konsekwencja założeń domyślnych może być w następujący sposób potraktowana jako specjalny przypadek konsekwencji reguł domyślnych: dla dowolnego zbioru K ukrytych założeń istnieje taki zbiór R normalnych reguł, że dla dowolnego zbioru przesłanek A, {Cn(A ∪ K 0 ) : K 0 jest maksymalnie A-niesprzecznym podzbiorem K} = {CnhRi (K) : hRi jest porządkiem R}. Wskazówka: Wykorzystaj pomysł zastosowany do konsekwencji reguł osiowych w jednym z ćwiczeń z poprzedniego podrozdziału. 9. Uzupełnij zarysowany w tekście dowód twierdzenia, że konsekwencja reguł domyślnych nie jest zwarta.
Problemy 1. Pokaż, że Cn ≤ CR ≤ ChRi ≤ CnhRi = CnR . 2. Niech R będzie zbiorem reguł domyślnych a hRi porządkiem na R. Niech A będzie wyjściowym zbiorem przesłanek. Przy tych ustalonych elementach przejście od An do An+1 może być traktowane jako taka operacja F, że An+1 = S F(An ). Pokaż, że X = {An : n < ω} jest punktem stałym operacji F w tym sensie, iż X = F(X). 3. Pokaż, że konsekwencja domyślnych reguł z normalnymi regułami spełnia kumulatywną przechodniość (CT).
4.3. Uogólnienia i warianty Rozpoczniemy od najbardziej znanego uogólnienia zdefiniowanej w poprzednim podrozdziale konsekwencji domyślnych reguł normalnych. Jej rozszerzenie służy ujęciu tego, co jest nazywane „nienormalnymi” regułami domyślnymi.
102
Rozdział 4. Zastosowanie dodatkowych reguł
Nienormalne reguły domyślne W pracy z 1980 roku Reiter rozważał reguły ogólniejszego rodzaju zwane „nienormalnymi”. Nie są one parami (a, x), ale trójkami (a, P, x), gdzie a oraz x są formułami boolowskimi, a P jest skończonym, możliwie pustym zbiorem formuł. Jak już wzmiankowano w poprzednim podrozdziale, a nazywa Reiter warunkiem wstępnym reguły, natomiast x jego konkluzją. W dalszym ciągu jednak będziemy je nazywać odpowiednio założeniem oraz wnioskiem. Nowym składnikiem jest zbiór P. Jego elementy Reiter nazywa uzasadnieniami reguły. Lepiej byłoby nazywać je warunkami, ponieważ ich jedyna rola ujawnia się w procesie sprawdzania niesprzeczności. Przez wzgląd na tradycję będziemy jednak używać terminologii Reitera. Reguły normalne, o których mowa była w podrozdziale poprzednim, mogą być rozumiane jako trójki (a, P, x), gdzie P zawiera wyłącznie wniosek x. Natomiast zwykłe reguły, nie wymagające sprawdzania niesprzeczności, którymi zajmowaliśmy w podrozdziale 4.1, mogą być rozumiane jako trójki (a, P, x), gdzie P jest puste. Dopuszczając sytuację, w której zbiór uzasadnień P jest pusty, przyjmujemy pewną umowną konwencję. W podejściu Reitera wszystkie reguły posiadały niepusty zbiór uzasadnień. Dopuszczamy jednak możliwość zbioru pustego jako przypadku granicznego. Podstawowa idea związana z zastosowaniem nienormalnych reguł domyślnych r = (a, P, x) polega na przejściu od a do x, kiedy nie koliduje to z elementami z P. Pomysł ten okazuje się w praktyce dość skomplikowany i prowadzi do wielu wariantów. Skupimy się na wersji Reitera, dalej korzystając raczej z podejścia indukcyjnego niż podejścia opartego na punkcie stałym. Przy konstrukcji definicji indukcyjnej napotykamy w konsekwencji na dwa problemy: w jaki sposób należy ująć możliwą wielość rozszerzeń, która pojawia się w kontekście reguł nienormalnych, oraz jak poradzić sobie z możliwością nieistnienia rozszerzeń. Z pierwszym problemem można poradzić sobie za pomocą pojęcia dobrego porządku dla zbioru reguł, tak jak w przypadku reguł normalnych. Towarzyszył będzie temu pomocniczy zbiór Rn , którego rola polega na znakowaniu stosowanych w porządku indukcji reguł. Narzędzie to zostało zastosowane w różnych celach przez wielu autorów, np. Łukaszewicza (1984/8) oraz (1990), Brewkę (1991), a także — jak wskazują Marek i Truszczyński (1993) — Remmela, w tym samym celu zostało ono również zaangażowane przez Antoniou (1997). Jeśli chodzi o drugi problem, to rozwiążemy go wprowadzając w odpowiednim miejscu definicji klazulę przerwania (abort clause). Pomysł ten polega na umieszczeniu w konstrukcji zbioru An+1 podklauzuli, która informuje, że w pewnych sytuacjach An+1 nie istnieje i konstrukcja jest anulowana. Aby nasza definicja
4.3. Uogólnienia i warianty
103
była poprawną definicją indukcyjną, klauzula przerwania nie może odnosić się do elementu konstruowanego, lecz do tego, którym już dysponujemy. D 4.11 (Konsekwencja uporządkowanych reguł domyślnych z nienormalnymi regułami).
´ Jak poprzednio, ustalamy dobry porz¡dek hRi zbioru R, porz¡dek ten jest co najwy»ej typu ω. S ´ Jak poprzednio, de niujemy ChRi (A) = {An : n < ω} i ustalamy A0 = Cn(A). ´ Wraz ze zbiorami An de niujemy ci¡g zbiorów Rn , aby zapisywa¢ reguªy stosowane w czasie indukcji. De niujemy R0 = ∅. ´ W kroku indukcyjnym, de niuj¡c An+1 oraz Rn+1 , post¦pujemy w nast¦puj¡cy sposób. Niech just(Rn ) oznacza wszystkie uzasadnienia reguª z Rn : Przypadek 1. Zaªó»my, »e w R istnieje reguªa r = (a, P, x) taka, »e a ∈ An , r < Rn oraz An jest niesprzeczny z ka»dym poszczególnym p ∈ P. We¹ pierwsz¡ tak¡ reguª¦ i rozwa» dwa podprzypadki. Podprzypadek 1.1: Zaªó»my, »e równie» An ∪ {x} jest niesprzeczny z ka»dym poszczególnym p ∈ just(Rn ) ∪ P. Wtedy kªadziemy An+1 = Cn(An ∪ {x}) oraz Rn+1 = Rn ∪ {r}. Podprzypadek 1.2: Zaªó»my sytuacj¦ odwrotn¡. Wtedy konstrukcja jest usuwana w tym sensie, »e An+1 oraz Rn+1 s¡ niezde niowane i jej proces zostaje S zatrzymany. Wszystkie podci¡gi Am oraz suma {An : n < ω} (lub ChRi (A)) pozostaj¡ równie» niezde niowane. Przypadek 2. Zaªó»my, »e nie ma reguªy wymaganej w przypadku 1. Wtedy de niujemy An+1 = An oraz Rn+1 = Rn . Podążając za terminologią Reitera, w sytuacji, gdy zbiór ChRi (A) istnieje, często będziemy odnosić się do niego, mówiąc o rozszerzeniu lub — mniej lakonicznie — o rozszerzeniu A wygenerowanym przez uporządkowany zbiór reguł hRi. Warunek początkowy w przypadku 1 stwierdza, że jeśli dysponujemy odpowiednimi regułami w porządku, to po porównaniu części rozszerzenia dotąd skonstruowanego z uzasadnieniami aktualnie rozpatrywanej reguły, jesteśmy zmuszeni spróbować ją zastosować. Jeśli jednak dalszy test na wejściu w podprzypadku 1.1 nie przebiegnie pomyślnie, wtedy procedura zostaje zatrzymana, przechodzimy do podprzypadku 1.2 i konstrukcja zawiesza się. Drugi test bierze pod uwagę wniosek rozpatrywanej reguły, część rozszerzenia dotąd skonstruowanego oraz wcześniejsze i obecne uzasadnienia. Jak wspomniano w poprzednim podrozdziale, pierwsza indukcyjna definicja normalnych rozszerzeń Reitera została podana przez Brewkę (1994). Dla systemów nienormalnych jest ona implicite zawarta w „semantyce operacyjnej”
104
Rozdział 4. Zastosowanie dodatkowych reguł
(operational semantics) dla logiki domyślania stworzonej przez Antoniou (1997). Chociaż Antoniou przedstawia problem w perspektywie proceduralnej, używając odmiennych terminów, jego konstrukcja jest w rezultacie indukcyjna i — jak pokazuje — równoważna definicji Reitera opartej na punkcie stałym. Prezentowane sformułowanie zostało podane (z drobnym błędem) w pracy Makinsona (2003a). Przykłady W celu uproszczenia notacji w poniższych przykładach, tam gdzie P jest singletonem {p}, regułę (a, {p}, x) będziemy zapisywali jako (a, p, x). 1. Rozważmy prosty przykład, w którym A = {a} oraz R zawiera tylko jedną trójkę: (a, ¬x, x). Mamy zatem tylko jeden dobry porządek R. Jak zwykle A0 = Cn(a). Aby wyznaczyć A1 , zauważmy, że przesłanka a reguły należy do zbioru A0 , nasza reguła nie należy do R0 = ∅, a jej uzasadnienie jest niesprzeczne z A0 . Jesteśmy więc w przypadku 1. Z drugiej strony konkluzja x rozważanej reguły jest sprzeczna z uzasadnieniem ¬x, przechodzimy więc do Podprzypadku 1.2. Zatem A1 jest niezdefiniowany i konstrukcja zostaje przerwana. Ponieważ R zawiera tylko jedną regułę, wyłącznie z jednym możliwym porządkiem, oznacza to, iż ten przykład nie ma rozszerzeń. 2. Pouczające jest porównanie tego z przykładem, w którym A = {a} i R zawiera jedną trójkę r = (a, ¬a, x), a więc tym razem uzasadnienie jest sprzeczne z przesłanką reguły, a nie z jej konkluzją. Ponownie A0 = Cn(a). Dla wyznaczenia A1 zauważamy, że przesłanka a reguły r należy do A0 i r < R0 = ∅, ale uzasadnienie ¬a z r jest sprzeczne z A0 . Zatem jesteśmy w przypadku 2 i A1 = A0 = Cn(a). 3. Na końcu rozważmy przykład, w którym A = ∅ a R zawiera dwie reguły r1 = (t, q, x∧¬p) oraz r2 = (t, p, x), gdzie t jest tautologią. Jeśli uporządkujemy reguły zgodnie z numerami, wtedy otrzymamy rozszerzenie Cn(x ∧ ¬p). Jeśli zaś odwrócimy porządek, to konstrukcja zostanie przerwana. Jeśli ktoś ceni sobie lakoniczność, to może podaną definicję trochę okroić. Bezpośrednia indukcja mówi, że zbiory An są w pełni określone przez odpowiednie zbiory Rn , w szczególności An = Cn(A ∪ heads(Rn )), gdzie heads(Rn ) jest zbiorem wniosków uzyskanych z reguł należących do Rn . Można zatem zdefiniować ciąg Rn w sposób indukcyjny, a następnie zastosować tę równość, aby otrzymać odpowiednie An . Tak jak w przypadku reguł normalnych, definicja indukcyjna daje rozszerzenia dokładnie w sensie Reitera. Formułując to inaczej, mamy:
4.3. Uogólnienia i warianty
105
T 4.12. Niech R b¦dzie dowolnym zbiorem (normalnych lub nienormalnych) reguª domy±lnych, za± A dowolnym zbiorem przesªanek. Wtedy rozszerzenia Reitera z punktem staªym zbioru A za pomoc¡ R s¡ dokªadnie zbiorami ChRi (A) dla dobrych porz¡dków hRi zbioru R o typie porz¡dkowym co najwy»ej ω. To
znaczy:
1. Dla dowolnego dobrego porz¡dku hRi zbioru R o typie porz¡dkowym 6 ω, je±li zbiór ChRi (A) jest dobrze zde niowany, to jest on rozszerzeniem Reitera zbioru A za pomoc¡ R. 2. Dowolne rozszerzenie Reitera zbioru A za pomoc¡ R jest dobrze zde niowanym zbiorem ChRi (A), dla pewnego dobrego porz¡dku hRi zbioru R o typie porz¡dkowym 6 ω. Ponieważ dowód tego twierdzenia jest dość zawiły i wyrwałby nas z głównego nurtu rozważań, więc zamieszczamy go w dodatku A. Inne warianty w tradycji Reitera W literaturze przestudiowano wiele wariantów systemów domyślania Reitera. Wspomnimy o kilku najważniejszych. Niektóre warianty różnią się strategią składania wielokrotnych rozszerzeń. Jednym z pomysłów, wykorzystywanym podczas pracy z wielokrotnymi rozszerzeniami, jest przecięcie częściowe zamiast pełnego. Przypomnijmy, że mając zbiór reguł R, „sceptyczna” operacja CR została zdefiniowana jako przecięcie wartości operacji reguł domyślnych ChRi , dla wszystkich możliwych dobrych porządków hRi T zbioru R. To znaczy CR (A) = {ChRi(A) : hRi jest porządkiem na R}. Podobnie, jak w analogicznym przypadku domyślnych założeń oraz konsekwencji domyślnych wartościowań, pełne przecięcie można zastąpić przecięciem częściowym, uwzględniając tylko wybrany podzbiór zbiorów ChRi (A). Można, dla przykładu, dopuścić tylko te porządki hRi, które są wyznaczone w zbiorze R przez określoną przechodnią i przeciwzwrotną relację. W ten sposób otrzymamy logikę priorytetowego domyślania (prioritized default logic) (akronim PDL), opisaną przez Brewkę (1994). Inne podejście mogłoby wprowadzać relację preferencji pomiędzy porządkami i wymagać przecięcia tylko takich zbiorów ChRi (A), że hRi jest minimalnym porządkiem zbioru R z uwagi na relację preferencji. Stosowane są również inne narzędzia, zob. np. Tan i Treur (1992). Pewne inne warianty są motywowane przykładami, które przypuszczalnie nie zachowują się dobrze w systemach Reitera. Dwa z nich są szczególnie dobrze znane. Poole (1989) sugerował, że kiedy tworzymy rozszerzenie, powinniśmy wymagać wspólnej niesprzeczności uzasadnień z pozostałymi formułami, a nie wy-
106
Rozdział 4. Zastosowanie dodatkowych reguł
łącznie oddzielnej. Łatwo dostrzec jak podane wyżej definicje ChRi (A) (zarówno dla normalnych, jak i nienormalnych reguł) mogą być zmodyfikowane w ten sposób — po prostu przez zastąpienie zwrotu „każdym poszczególnym” zwrotem „ich koniunkcją”. Inny sposób polega na zastąpieniu skończonych zbiorów uzasadnień każdej reguły przez ich koniunkcję i stosowaniu definicji bez modyfikacji. Łukaszewicz (1984/8; 1990) krytykował z kolei działanie konstrukcji Reitera w kontekście reguł nienormalnych, kiedy to nie otrzymujemy rozszerzeń. Dlatego zaproponował on przeformułowanie definicji Reitera z punktem stałym w taki sposób, iż gwarantuje ona, że rozszerzenia zawsze istnieją, nawet gdy reguły domyślne nie są normalne. Pomysł ten można także zaprezentować w terminach naszego podejścia indukcyjnego. Kiedy indukcyjnie generowane rozszerzenia Reitera zbioru A względem hRi udaje się, wtedy jest ono również rozszerzeniem w sensie Łukaszewicza. Jeśli z drugiej strony jest ono przerwane, powiedzmy w przejściu od An do An+1 , wtedy jako rozszerzenie Łukaszewicza przyjmujemy An . Rozszerzenia Łukaszewicza możemy otrzymać przez odpowiednie uproszczenie indukcyjnej klauzuli w podanej definicji. W kroku indukcyjnym opuszczamy podprzypadki, natomiast przypadek 1 przeformułowujemy w następujący sposób: „Załóżmy, że istnieje taka reguła r = (a, P, x) należąca do R, że a ∈ An , r < Rn oraz An ∪{x} jest niesprzeczny z każdym p ∈ just(Rn ) ∪ P. Wtedy bierzemy pierwszą taką regułę i kładziemy An+1 = Cn(An ∪ {x}) oraz Rn+1 = Rn ∪ {r}”. Pytanie brzmi: która z tych definicji — definicja Reitera, Poole’a, Łukaszewicza czy innych autorów — pozwala poradzić sobie dobrze z problematycznymi przykładami? W przekonaniu autora usilne obstawanie przy tym pytaniu byłoby błędem, ponieważ nie ma tutaj odpowiedzi. Intuicje dotyczące problemu są niejasne i zbyt pogmatwane, aby wydać jednoznaczny werdykt. Dlatego nie istnieje „poprawne” rozwiązanie przykładu Poole’a (tzw. „broken arm”) ani przykładów Łukaszewicza (tzw. „fishing”) oraz innych im podobnych. Należy ponadto powiedzieć, że zastosowanie potocznego języka w przykładach może zniekształcać obraz, ponieważ zwykle wnosi to niespodziewane, ukryte założenia, które wpływają na nasz intuicyjny pogląd. Z drugiej strony w specyficznych kontekstach możemy uznać za wygodniejsze użycie jednego z wariantów niż użycie pozostałych, nie troszcząc się zbytnio o wykorzystywanie tego wyboru do uzasadniania poprawności. W podrozdziale 4.2 wzmiankowaliśmy, że chociaż systemy Reitera inferencji reguł domyślnych spełniają kumulatywną przechodniość, to mogą one, nawet w przypadku reguł normalnych, nie spełniać odwrotnej ostrożnej monotoniczności. To samo dotyczy systemów Poole’a oraz Łukaszewicza, i wydaje się być powszechną cechą systemów, w których na użycie reguł derywacji nałożono warunki niesprzeczności. Jednakże poprzez zastosowanie techniki „wzbogacania ontologii”
4.3. Uogólnienia i warianty
107
(upping the ontology) wprowadzono systemy, które spełniają ostrożną monotoniczność. Podstawowy pomysł opiera się na tym, że przesłanki i wnioski, które pojawiają się w derywacjach nie są zwykłymi formułami boolowskimi, lecz są indeksowane przez ślady uzasadnień zastosowanych w ich derywacjach. Systemy tego typu zostały wprowadzone przez Brewkę (1991) dla rozumowań opartych na regułach domyślnych oraz przez Brewkę, Makinsona i Schlechtę (1991) dla logiki programowania. Obliczeniowe aspekty definicji opartych na punkcie stałym oraz definicji indukcyjnych W poprzednim podrozdziale wyjaśniliśmy dlaczego preferujemy indukcyjne podejście zamiast podejścia przez punkty stałe: łatwiej jest je zrozumieć, pracować z nim oraz je opisywać. Z drugiej strony można jednak argumentować, że z obliczeniowego punktu widzenia przejście od punktu stałego do indukcji jest krokiem wstecz, a nie pójściem do przodu. Każde rozszerzenie A za pomocą zbioru reguł R posiada formę Cn(A ∪ heads(S )) dla pewnego S ⊆ R. Jeśli zatem zbiór reguł domyślnych jest skończony, np. n-elementowy, to aby dowiedzieć się czy Cn(A ∪ heads(S )) jest punktem stałym operatora Γ użytego do definiowania rozszerzeń przy opisie rodziny rozszerzeń A względem R, wystarczy wziąć 2n podzbiorów S zbioru R i sprawdzić je po kolei. Jeśli robi się to niesystematycznie, to wynik zależy od szczęścia. Jedyna droga do odpowiedzi pewnej, to sprawdzanie systematyczne. W przeciwieństwie do tego jest n! dobrych porządków n elementowego zbioru R. Aby więc określić indukcyjnie rozszerzenia musimy rozważać te porządki po kolei, stosując indukcję, i obserwować, który zatrzyma się przed finalizacją, zachowując przy tym przetrwałe konstrukcje. Jak jednak wiadomo n! > 2n , dla n > 4. Wartość funkcji n! rośnie szybciej niż 2n , w tym sensie, że limn→∞ (2n /n!) = 0; w przyjętym skrócie: 2n = o(n!) (zob. dla przykładu Hein (2002, paragraf 5.5.2)). Prima facie, sugeruje to, że zastosowanie indukcyjnej definicji do policzenia zbioru wszystkich rozszerzeń danego skończonego systemu (A, R) jest mniej efektywne niż zastosowanie definicji z punktem stałym. Nie jest to jednak wcale takie jasne, ponieważ można tu wskazać jeszcze na kilka innych istotnych czynników. • Najbardziej istotne jest to, że w praktyce możemy nie chcieć opisać zbioru wszystkich rozszerzeń. Jak wskazał Brewka (1994), problem może być określony przez relatywnie mały podzbiór możliwych dobrych porządków — dla przykładu, wszystkie takie, które są prawie-kompletnymi porządkami — wtedy możemy być zainteresowami wyłącznie tymi rozszerzeniami, które z nich wynikają.
108
Rozdział 4. Zastosowanie dodatkowych reguł
• Nawet jeśli chcemy określić zbiór wszystkich możliwych rozszerzeń, mogą pojawić się pewne okoliczności łagodzące. W szczególności, jeśli zbiór wszystkich dobrych porządków R jest dobrze uporządkowany, to informacja dotycząca konstrukcji przy użyciu wcześniejszego porządku może być wykorzystana do konstrukcji bazującej na późniejszym porządku. Nie będziemy próbować rozwiązywać tutaj tych obliczeniowych problemów. Indukcja versus punkt stały Nasza prezentacja Reitera inferencji domyślania się i pewnych jej wariantów sugeruje ogólne problemy dotyczące relacji pomiędzy definicją bazującą na punkcie stałym oraz na zwykłej matematycznej indukcji. Prowadzi to do pytania: kiedy ta pierwsza może zostać sprowadzona do drugiej? Widzieliśmy już jak przezwyciężyć dwie podstawowe trudności w przypadku logiki domyślania Reitera. Problem wielości rozszerzeń jest usuwany za pomocą porządku hRi zbioru R jako dodatkowego parametru (i — w kontekście reguł nienormalnych — zaznaczania reguł już użytych). Z kolei brak istnienia zostaje rozwiązany przez wprowadzenie w indukcyjnym kroku odpowiedniej klauzuli wyjścia. Podobne środki, jak wspomnieliśmy, stosuje się w wariantach Poole’a i Łukaszewicza. Gdzie jednak pojawiają się ograniczenia? Nie próbując odpowiedzieć na to pytanie w sposób ogólny, przedstawimy trzy przypadki: pozytywny, przypuszczalnie pozytywny oraz przypadek, który wydaje się negatywny. Konstrukcja twierdzenia 4.12 może być użyta do opisania logiki programowania (logic programs) z negacją rozumianą jako niepowodzenie w tzw. „semantyce zbioru odpowiedzi” (answer-set semantics). Takim programem jest zbiór wyrażeń o postaci: x ← a1 ,…, an , not(an+1 ),…, not(an+m ), gdzie x i wszystkie ai są literami zdaniowymi lub negacjami liter zdaniowych. Wyrażenia te mogą być traktowane jako reguły dotyczące klasycznego, ale ograniczonego języka przedmiotowego. Mogą one być odczytywane jako nienormalne reguły domyślne, gdzie x jest konkluzją, koniunkcja liter a1 ,…, an jest w terminologii Reitera założeniem wstępnym, a zanegowane wyrażenia not(an+1 ),…, not(an+m ) odpowiadają uzasadnieniom ¬an+ j reguły. Twierdzenie 4.12 może zatem być zastosowane do takich logicznych programów. Logiczne programy zostały uogólnione, dopuszczając w konkluzji alternatywy wyrażeń. Nie są one rozumiane w prosty, prawdziwościowy sposób. Reprezentują bowiem otwarte na wybór alternatywne, możliwe konkluzje. Wolno przypuszczać, że programy te dają się zredukować do rodzin programów bez alternatyw we wnioskach, tym samym umożliwiając indukcyjną definicję ich zbioru odpowiedzi. W obrębie logiki domyślania warto wskazać na „słabe rozszerzenia” Marka i Truszczyńskiego (1989; 1993). Zwłaszcza, że autorzy tego pomysłu pokazali, iż
4.3. Uogólnienia i warianty
109
odpowiadają one rozszerzeniom logik autoepistemicznych. Podanie indukcyjnej definicji opisującej te rozszerzenia zamiast definicji z punktem stałym wydaje się trudne. Nie są one bowiem ugruntowane w zbiorach przesłanek. Z matematycznego punktu widzenia mogą one przekraczać swoje nieograniczone odpowiedniki. Przypomnijmy, że w systemach Reitera jest tak, że cokolwiek może być otrzymane przez zastosowanie reguły z warunkiem niesprzeczności, może być otrzymane za pomocą tej samej reguły bez warunku niesprzeczności. Inaczej mówiąc, kiedy E jest dowolnym domyślnym rozszerzeniem Reitera zbioru przesłanek A z uwagi na zbiór reguł R, wtedy E ⊆ CnR (A), gdzie CnR (A) jest jedynym domknięciem A na klasyczną konsekwencję i wszystkie zwykłe reguły otrzymane przez pominięcie zbiorów warunków w regułach z R. Inkluzja ta nie zachodzi dla słabych rozszerzeń. Pokażemy prosty przykład. Kiedy R = {(p, p, p)} i A = ∅, to zarówno Cn(∅) oraz Cn(p) są słabymi rozszerzeniami E zbioru A w oparciu o R, podczas gdy CnR (A) = Cn(∅). Zatem dla E = Cn(p) inkluzja E ⊆ CnR (A) nie zachodzi. Jednakże żadne z tych dwóch rozważań nie jest konkluzywne. Pierwsze jest czymś więcej niż niejasnym przeczuciem, podczas gdy drugie stanowi matematyczny fakt, ale nie rozstrzyga problemu. Jest jednak pewien trywialny sposób, za pomocą którego słabe rozszerzenia mogą być zdefiniowane w sposób indukcyjny. Zamiast podawać definicję modulo dobre porządki reguł z R, można zrobić to modulo jego podzbiory. Dla danego S ⊆ R łatwo jest podać dwuetapową definicję indukcyjną, zgodnie z którą: A0 = Cn(A); A1 = S , jeśli S punktem stałym funkcji Γ Marka i Truszczyńskiego, w przeciwnym przypadku procedura zostaje przerwana; jeśli zaś zbiór A1 jest dobrze zdefiniowany, to każdy następny An = A1 . Formalnie jest to definicja indukcyjna, ale oczywiście nie jest ona interesująca. Problem zatem musi zostać przeformułowany: czy istnieje nietrywialny i interesujący sposób indukcyjnego zdefiniowania słabych rozszerzeń? Pytanie to nie jest oczywiście zbyt precyzyjne. Maksymalne rodziny reguł Inne podejście do reguł domyślnych polega na zastosowaniu warunków niesprzeczności do samego zbioru reguł R, a nie do ich kolejnych aplikacji. Idąc śladem wzorca dla konsekwencji założeń domyślnych z rozdziału 2, można i tutaj wyznaczać rodziny odpowiednio maksymalnych podzbiorów R. Weźmy dowolny zbiór R normalnych reguł domyślnych (a, x). Dla każdego zbioru przesłanek A rozważamy taką rodzinę wszystkich maksymalnych podzbiorów S ⊆ R, że konsekwencja reguł osiowych CnS (A) jest niesprzeczna. Nazwiemy ją maksymalną rodziną A ze względu na R (maxfamily). Definiujemy CR (A) (podkreślając indeks) jako przecięcie zbiorów CnS (A), dla każdego S w maksymalnej rodzinie A.
110
Rozdział 4. Zastosowanie dodatkowych reguł
Operacje te nie są takie same, jak konsekwencje reguł domyślnych CR dla reguł normalnych, opisane w podrozdziale 4.2. Różnicę tę można zilustrować biorąc pod uwagę przykład w stylu wstęgi Möbiusa, gdzie R = {(p, q), (q, r), (r, ¬p)}. Z jednej strony zbiór przesłanek {p} prowadzi do dokładnie jednego rozszerzenia ze względu na konsekwencję reguł domyślnych, tj. Cn({p, q, r}). Z drugiej strony mamy trzy maksymalne podzbiory S — trzy dwuelementowe podzbiory R. W efekcie dają one trzy zbiory CnS (A): Cn(p), Cn({p, q}) oraz Cn({p, q, r}), które tworzą łańcuch w relacji inkluzji. Rezultatem ich przecięcia jest Cn(p). Ogólnie rzecz biorąc, w maksymalnej rodzinie istnieje więcej maksymalnych podzbiorów niż rozszerzeń, a więc przecięcie maksymalnych zbiorów będzie mniejsze niż przecięcie rozszerzeń. Należy jednakże zauważyć, iż otrzymane wyjście wciąż różni się od tego, co zaobserwujemy, kiedy zastosujemy maksymalne podzbiory przesłanek ukrytych w tle K. Jeśli przetłumaczymy reguły z R na implikacje materialne w zbiorze K, to możliwość zastosowania do nich modus tollens oraz modus ponens da większe rozszerzenia z większymi przecięciami. Można to zaobserwować porównując podany tutaj przykład z jego odpowiednikiem z podrozdziału 2.2. Podsumowując, chociaż różnica pomiędzy operacjami konsekwencji reguł domyślnych CR i operacjami konsekwencji CR opartymi na maksymalnych rodzinach jest subtelna, to jednak prowadzi ona do znacząco różnych rezultatów. W efekcie otrzymujemy dwie różne strategie eliminowania sprzeczności w czasie stosowania reguł do przesłanek. Jedna ogranicza proces generowania, określając operacje ChRi dla dobrych porządków hRi zbioru R. Druga obwarowuje warunkiem aparat do generowania, skutkując operacjami CnS (A) dla zbiorów S ⊆ R w maksymalnej rodzinie A. Operacje maksymalnych rodzin w pracy Makinsona i van der Torre (2000) zostały zbadane w szerszym kontekście, gdzie wejścia (przesłanki) nie muszą być koniecznie autoryzowane, aby pojawić się jako wyjścia (konkluzje).
Ćwiczenia W celu uproszczenia notacji, kiedy P jest singletonem {p}, analogicznie jak w tekście, regułę (a, {p}, x) będziemy zapisywali jako (a, p, x). 1∗ . Niech A = {a}. W przykładach poniżej określ dla każdego możliwego porządku reguł z R, czy ChRi (A) istnieje. Jeśli ChRi (A) nie istnieje, zidentyfikuj dokładnie krok w konstrukcji, w którym następuje przerwanie i wyjaśnij, dlaczego tak jest. Jeśli natomiast zbiór ChRi (A) istnieje, opisz go. (a) R = {(a, t, ¬a)} (b) R = {(a, x, x), (x, t, ¬a)}
4.4. Powtórzenie materiału i dalsze poszukiwania
111
(c) R = {(a, x, x), (x ∨ y, t, y), (y, t, ¬x)} (d) R = {(t, x ∧ y, ¬x)} (e) R = {(a, x, y), (y, t, ¬x)} 2∗ . Czym jest ChRi (A), gdy wyjściowy zbiór przesłanek A jest sprzeczny i każda reguła ma niepusty zbiór uzasadnień? Odpowiedź zilustruj prostym przykładem. 3∗ . Czym jest ChRi (A), gdy każda reguła ma sprzeczny zbiór uzasadnień? Opowiedź zilustruj prostym przykładem. 4. Uzasadnij stwierdzenie z tekstu, że normalne reguły mogą być rozumiane jako trójki (a, {x}, x). Uzasadnij także, że zwykłe reguły — rozważane w podrozdziale 4.1 — mogą być utożsamione z trójkami (a, ∅, x). 5. Czym jest rozszerzenie A ze względu na R, kiedy A = {a} i R jest singletonem zawierającym tylko trójkę (a, b, c ∧ ¬c)? 6. Czym są rozszerzenia A ze względu na R, kiedy A = {a} i R = {r1 , r2 }, gdzie r1 = (t, b, a) oraz r2 = (t, c, ¬b)? 7. W podrozdziale 4.1 zaobserwowaliśmy, że konsekwencje osiowych reguł mogą nie spełniać (OR), a w podrozdziale 4.2 to samo stwierdziliśmy o sceptycznej konsekwencji reguł domyślnych Reitera, nawet kiedy wykorzystuje ona reguły normalne. Pokaż, że w przypadku reguł nienormalnych może zachodzić nawet następująca dziwna sytuacja: a |zR x, b |zR x, ale a ∨ b |zR ¬x. Wskazówka: Weź R zawierający kolejne trzy reguły: (a, t, x), (b, t, x), (a ∨ b, {¬a, ¬b}, ¬x).
Problemy 1. Niech A będzie zbiorem przesłanek a hRi dobrze uporządkowanym zbiorem reguł. Pokaż, że An = Cn(A ∪ heads(Rn )). 2. Pokaż, że konsekwencja reguł domyślnych określona przez reguły nienormalne spełnia kumulatywną przechodniość (CT).
4.4. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Pracując z pewnym ustalonym zbiorem reguł możemy zdefiniować naturalną, nadklasyczną operację konsekwencji, która jest monotoniczną operacją domknięcia,
112
Rozdział 4. Zastosowanie dodatkowych reguł
nazywaną konsekwencją reguł osiowych. W przeciwieństwie do operacji konsekwencji osiowych założeń i osiowych wartościowań, nie spełnia ona reguły łączenia przesłanek w alternatywę. Podobnie jednak jak w ich przypadku, można traktować ją jako stopień prowadzący do operacji niemonotonicznych. W szczególności ustalając dobry porządek reguł z R oraz umieszczając odpowiedni warunek niesprzeczności na ich zastosowanie, możemy w indukcyjny sposób zdefiniować pewne dość naturalne niemonotoniczne operacje konsekwencji. Pokrywają się one z rozszerzeniami Reitera dla reguł normalnych, oryginalnie (i częściej) definiowanymi jako punkty stałe. Definicja indukcyjna może być uogólniona, aby objąć rozszerzenia przez tzw. „nienormalne” reguły domyślne. Zawierają one zbiór warunków (lub „uzasadnień”) oraz założenie i wniosek. Wprowadzając do indukcyjnego kroku odpowiedni warunek przerwania, możemy dać sobie radę z przypadkami, kiedy rozszerzenie nie istnieje i ponownie otrzymać dokładnie rozszerzenia Reitera definiowane jako punkty stałe. Można także zastosować warunki niesprzeczności w trochę inny sposób, ograniczając nie proces stosowania reguł, ale aparat generujący. Podejście to prowadzi do operacji konsekwencji maksymalnych rodzin, które dają znacząco inne konsekwencje we wnioskach. Lista sprawdzająca znajomość pojęć i definicji Podrozdział 4.1. Domknięcie zbioru ze względu na regułę, konsekwencja osiowych reguł, materializacja reguły, uporządkowany zbiór reguł, powiększanie o singletony. Podrozdział 4.2. Warunki niesprzeczności nakładane na zastosowanie reguł, normalne reguły domyślne, konsekwencja uporządkowanych reguł domyślnych, zasada równego traktowania, konsekwencja sceptycznych reguł domyślnych, definicje oparte o punkt stały, indukcja z regulowanym wyjściem, zwykła matematyczna indukcja. Podrozdział 4.3. Nienormalne reguły domyślne, warunki (uzasadnienia) w regułach, zbiory służące do księgowania zastosowanych reguł, klauzula przerwania, rozszerzenia Poole’a, rozszerzenia Łukaszewicza, „słabe” rozszerzenia Marka, maksymalne rodziny, ograniczanie procesu generowania wniosków versus ograniczanie aparatu wnioskowania.
Dalsze lektury • Antoniou G., Nonmonotonic Reasoning, MIT Press, Cambridge MA 1997. Rozdziały 3–8. • Brewka G., Dix J., Konolige K., Nonmonotonic Reasoning – An Overview, CSLI Publications, Stanford CA, 1997. Podrozdział 4.1.
4.4. Powtórzenie materiału i dalsze poszukiwania
113
• Łukaszewicz W., Non-Monotonic Reasoning – Formalization of Commonsense Reasoning, Ellis Horwood, 1990. Rozdział 5. • Makinson D., General Patterns in Nonmonotonic Reasoning. w: Handbook of Logic in Artificial Intelligence and Logic Programming, Tom 3, red. Gabbay, Hogger, Robinson, Oxford University Press, 1994, s. 35–110. Podrozdział 3.2 • Marek V. W., Truszczyński M., Nonmonotonic Logic: Context Dependent Reasoning., Springer, Berlin 1993. Podrozdział 2.8, rozdział 3, paragrafy 4.1–2. • Reiter R., A logic for default reasoning, Artificial Intelligence, 13, 1980, s. 81–132. Rozdziały 1–3.
Rozdział 5
Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
Koncentrując się na jasnym przedstawieniu trzech jakościowych pomostów prowadzących do niemonotonicznych operacji konsekwencji, nic do tej pory nie wspomnieliśmy o zagadnieniu prawdopodobieństwa. Jest jednak jasne, że pomiędzy tymi zagadnieniami istnieją pewne powiązania, i właśnie nimi zamierzamy się zająć w niniejszym rozdziale. Z jednej strony w niemonotonicznej inferencji tkwi pewien element niepewności: nadklasyczność powoduje bowiem, że prawdziwe przesłanki mogą prowadzić do fałszywego wniosku. Z drugiej strony we wnioskowaniach probabilistycznych tkwi coś niemonotonicznego. Wiadomo, że prawdopodobieństwo warunkowe zdania x z uwagi na dane zdanie a może maleć bądź wzrastać, w zależności od dodatkowej informacji b dołączonej do a. Może się więc zdarzyć, że: pa∧b (x) < pa (x), gdzie pa jest funkcją prawdopodobieństwa p, ustaloną ze względu na warunek a. Jaka zatem relacja łączy prawdopodobieństwo i logikę niemonotoniczną? Właśnie tej zasadniczej kwestii będą poświęcone następne strony naszej książki. Odpowiedź na nią wiąże się jednak z rozważeniem serii następujących problemów: • Jaka relacja łączy prawdopodobieństwo z konsekwencją klasyczną? • W jaki sposób rozważania nad prawdopodobieństwem prowadzą do nadklasycznych relacji inferencji oraz jak prezentują się one w porównaniu z inferencjami, które w sposób jakościowy zdefiniowaliśmy do tej pory? • Czy wszystkie probabilistyczne relacje konsekwencji są niemonotoniczne, czy też są jakieś naturalne probabilistyczne systemy pomostowe pokrewne systemom wcześniej zarysowanym? W podrozdziale 5.1 przypomnimy i skomentujemy podstawowe pojęcia i zasady teorii prawdopodobieństwa. W podrozdziale 5.2 zbadamy związek pomiędzy prawdopodobieństwem i logiką klasyczną, pokazując w szczególności, że konsekwencja klasyczna może być scharakteryzowana w terminach probabilistycznych — nawet na wiele różnych, ale równoważnych sposobów. W podrozdziale 5.3 pokażemy, jak te równoważne charakterystyki prowadzą do różnych konsekwencji, gdy stosujemy je do generowania nadklasycznych operacji konsekwencji, włącza-
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty
115
jąc w to najbardziej z nich interesującą, prowadzącą do zjawiska niemonotoniczności. We wszystkich tych przypadkach owe nadklasyczne operacje różnią się jednak od operacji, które do tej pory rozpatrywaliśmy. W szczególności nie spełniają one warunku łączenia wniosków w koniunkcję. W podrozdziale 5.4 przedyskutujemy ten fakt oraz przyjrzymy się sposobom takiego przekonstruowania podejścia probabilistycznego, żeby przypominało ono podejścia z poprzednich podrozdziałów.
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty Postulaty Kołmogorowa Podobnie jak większość gałęzi matematyki, teoria prawdopodobieństwa była stosowana i badana długo przed tym, zanim ją zaksjomatyzowano. Standardowa aksjomatyzacja, opublikowana w Niemczech w 1933 roku, pochodzi od rosyjskiego matematyka Kołmogorowa (najczęściej korzysta się jednak z tłumaczenia tej pracy; Kołmogorow (1950)). Jej celem jest zdefiniowanie pojęcia (skończenie addytywnej) funkcji prawdopodobieństwa, zwanej często miarą prawdopodobieństwa. Jak wszystkie funkcje, funkcje prawdopodobieństwa mają swoją dziedzinę i przeciwdziedzinę. Przeciwdziedziną jest zamknięty przedział liczb rzeczywistych [0, 1]: każda funkcja prawdopodobieństwa przyjmuje wartości ze zbioru liczb rzeczywistych od 0 do 1 włącznie. Natomiast ich dziedzina może być wyrażona na wiele różnych sposobów. Na gruncie teorii prawdopodobieństwa zwykle za dziedzinę bierze się pewne ciało zbiorów, a więc niepustą rodzinę podzbiorów ustalonego zbioru X, która spełnia następujące warunki: jeśli A, B należą do rodziny, to A ∩ B, A ∪ B oraz X \ A również należą. Za dziedzinę można równoważnie wziąć dowolną algebrę Boole’a, gdyż ciało zbiorów jest algebrą Boole’a, a przez twierdzenie Stone’a każda algebra Boole’a jest izomorficzna z jakimś ciałem zbiorów. Mniej popularne stanowisko, które tutaj przyjmiemy, aby uczynić dalsze porównania bardziej przejrzystymi, bierze za dziedzinę zbiór wszystkich boolowskich formuł języka zdaniowego. Możemy tak zrobić, gdyż odpowiednia struktura podziału tego języka z uwagi na klasyczną równoważność jest algebrą Boole’a, oraz odwrotnie, każda algebra Boole’a jest homomorficznym obrazem takiej struktury podziału dla pewnego zdaniowego języka z dostateczną liczbą liter. Istnieje wiele mniej znaczących wariantów w sformułowaniu aksjomatów teorii prawdopodobieństwa. Kiedy rozpatrujemy aksjomaty razem, wszystkie one są równoważne. Nie jest tak jednak, kiedy rozważamy je osobno. Dla naszych celów wygodnie będzie posłużyć się następującą aksjomatyką.
116
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
D 5.1 (Funkcja prawdopodobieństwa). Funkcj¡ prawdopodobie«stwa jest
dowolna funkcja ze zbioru formuª j¦zyka domkni¦tego na spójniki boolowskie w zbiór liczb rzeczywistych, która speªnia poni»sze warunki: (K1) (K2) (K3) (K4)
0 6 p(x) 6 1 p(x) = 1, dla pewnej formuªy x p(x) 6 p(y), o ile x ` y p(x ∨ y) = p(x) + p(y), o ile x ` ¬y.
W powyższej definicji Cn lub ` jest, jak zwykle, konsekwencją klasyczną. Postulat (K1) głosi, że zakresem funkcji prawdopodobieństwa jest podzbiór odcinka liczb rzeczywistych [0, 1]. (K2) stwierdza, że do owego zakresu należy 1. (K3) mówi, że p(x) 6 p(y), o ile z x klasycznie wynika y; natomiast (K4), iż p(x ∨ y) = p(x) + p(y), jeśli x jest klasycznie sprzeczne z y. Ściśle mówiąc postulaty te — znane jako aksjomaty Kołmogorowa — definiują pojęcie skończenie addytywnej funkcji prawdopodobieństwa. Mogą one zostać rozszerzone przez wzmocnienie (K4) w taki sposób, aby mówił nam on coś o nieskończonej sumie prawdopodobieństw. Wymaga to wzbogacenia wyjściowej dziedziny, poprzez zastosowanie ciała zbiorów domkniętego na nieskończone sumy, algebry Boole’a domkniętej na nieskończone operacje kresu górnego lub języka zdaniowego z nieskończonymi alternatywami. Tego typu rozszerzenie jest nawet konieczne w wielu rozwinięciach teorii prawdopodobieństwa, nie jest jednak potrzebne dla naszych celów. Pewne dalsze uwagi na temat postulatów Kołmogorowa pomogą nam w zrozumieniu związków pomiędzy prawdopodobieństwem a logiką. • Podane sformułowanie aksjomatów zakłada pojęcie logiki klasycznej — dwa z nich odwołują się ostatecznie do pojęcia konsekwencji klasycznej. Ta zależność oczywiście znika, lub raczej przyjmuje odmienną formę, gdy teorię prawdopodobieństwa sformułujemy w terminach algebr Boole’a lub ciał zbiorów. Wtedy w aksjomatach pojawia się relacja ⊆ pomiędzy zbiorami lub odpowiednia relacja ≤ w danej algebrze Boole’a. Nawet kiedy zostawimy jako dziedzinę formuły boolowskie, możemy wyeliminować bezpośrednie odniesienie do konsekwencji klasycznej używając bardziej obszernej listy aksjomatów, zaproponowanych przez Stalnakera (1970). Nie mamy tutaj jednak żadnych obiekcji dotyczących logiki klasycznej. Będziemy więc stosować powyższą aksjomatykę zawsze, gdy będzie to dla nas wygodne. • Przedział liczb rzeczywistych [0, 1] jest nieskończenie większy i subtelniej ustrukturyzowany niż dwuelementowy zbiór {0, 1}. Funkcja prawdopodobieństwa p : L → [0, 1] może być zatem informacyjnie bogatsza niż wartościowanie
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty
117
boolowskie v : L → {0, 1}. W związku z tym teoria prawdopodobieństwa jest o wiele bardziej złożona niż logika dwuwartościowa. • Pomimo tego, boolowskie waluacje logiki klasycznej są granicznym przypadkiem funkcji prawdopodobieństwa, ponieważ, co można łatwo sprawdzić, spełniają one wszystkie cztery aksjomaty. • I na odwrót, każda funkcja prawdopodobieństwa, która przyjmuje wartości wyłącznie ze zbioru {0, 1} jest wartościowaniem boolowskim. Jest to także łatwe do sprawdzenia. • Ostatnie dwa postulaty są warunkowe, nie są jednak równoważnościami. Ich konwersy nie wynikają z pozostałych postulatów, każdy z nich dopuszcza bowiem pewne wyjątki dla odpowiednio skonstruowanych funkcji prawdopodobieństwa. • Z pierwszych trzech aksjomatów wynika, że p(x) = 1, o ile x ∈ Cn(∅). Także tutaj odwrotna zależność nie zachodzi. Jest ona czasami dodawana jako dalszy warunek definiujący pewną specjalną klasę funkcji prawdopodobieństwa, którymi jednak zajmować się nie będziemy. Własność jedynego rozszerzenia dla logiki i prawdopodobieństwa Pomimo tych bliskich powiązań, pomiędzy logiką i teorią prawdopodobieństwa są także ważne różnice. Biorąc za punkt wyjścia logikę, musimy porzucić pewne przyzwyczajenia, powszechne wśród logików. Wiemy, że w klasycznej logice zdaniowej każde przyporządkowanie wartości logicznych literom elementarnym może być rozszerzone dokładnie w jeden sposób do boolowskiego wartościowania formuł. Nie jest tak jednak w kontekście prawdopodobieństwa. Istnieją bowiem takie przyporządkowania liczb rzeczywistych z przedziału [0, 1] literom zdaniowym, które mogą być rozszerzone na więcej niż jeden sposób do funkcji p z całego zbioru formuł języka boolowskiego do [0, 1], spełniających aksjomaty Kołmogorowa. Rozważmy dla przykładu język z dwoma literami. W celu uniknięcia pomyłki litery p będziemy używali w tym podrozdziale do oznaczania dowolnej funkcji prawdopodobieństwa, a nie jako litery zdaniowej boolowskiego języka. Weźmy zatem litery q, r. Rozpatrzmy przyporządkowanie f , takie że f (q) = f (r) = 0,5. Jest wiele sposobów rozszerzenia f do funkcji prawdopodobieństwa: p : L → [0, 1]. Dla jednej z nich, powiedzmy p1 , mamy p1 (q ∧ r) = p1 (¬q ∧ ¬r) = 0,5 oraz p1 (q ∧ ¬r) = p1 (¬q ∧ r) = 0, podczas gdy dla innej, powiedzmy p2 , otrzymujemy p2 (q ∧ r) = p2 (q ∧ ¬r) = p2 (¬q ∧ r) = p2 (¬q ∧ ¬r) = 0,25. Ten sam problem można przedstawić w inny sposób. Podany przykład pokazuje, że funkcje prawdopodobieństwa nie mają cechy kompozycyjności, tzn. że nie
118
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
istnieje taka funkcja ∗ : [0, 1]2 → [0, 1], że dla każdej funkcji prawdopodobieństwa p oraz dowolnych dwóch formuł a i b zachodzi równość: p(a ∧ b) = p(a) ∗ p(b). W rozważanym przypadku mamy p1 (q) = p2 (q) oraz p1 (r) = p2 (r) = 0,5. Dla dowolnej funkcji ∗ otrzymujemy więc równość: p1 (q) ∗ p1 (r) = p2 (q) ∗ p2 (r). Gdyby jednak kompozycyjność zachodziła, powinniśmy otrzymać też równość: p1 (q ∧ r) = p1 (q) ∗ p1 (r) = p2 (q) ∗ p2 (r) = p2 (q ∧ r). Jest jednak inaczej: p1 (q ∧ r) = 0,5 , 0,25 = p2 (q ∧ r). Funkcje prawdopodobieństwa nie są więc wielowartościowymi funkcjami prawdziwościowymi, powstającymi przez rozszerzenie zbioru wartości logicznych {0, 1}, nawet jeśli jako wartości logiczne weźmiemy nieprzeliczalnie wiele elementów z przedziału [0, 1]. Jakakolwiek jest bowiem liczba wartości logicznych oraz interpretacja stałych logicznych, to wielowartościowe funkcje prawdziwościowe przypisują złożonym formułom wartości logiczne, które są jednoznacznie wyznaczone przez wartości ich komponentów. Nie uwzględnianie tych różnić może prowadzić do wielu problemów. Mimo tego, jeśli funkcja prawdopodobieństwa jest zdefiniowana na skończenie generowanym języku boolowskim, to posiada trochę odmienną „własność jedynego rozszerzenia”. Najprostszy sposób zdefiniowania tej własności jest oparty o skończone algebry Boole’a. Aby jednak nie wychodzić poza ramy naszej prezentacji, wyjaśnimy ją na gruncie logicznym. Rozważmy klasyczną logikę zdaniową wyrażoną w języku powstałym z n elementarnych liter q1 , …, qn . Przez opis stanu dla tego języka będziemy rozumieć dowolną koniunkcję n wyrażeń w ustalonym porządku, gdzie i-ty element jest albo qi albo negacją ¬qi . Dla przykładu w języku z dwoma literami zdaniowymi q i r, opisami stanu są cztery formuły q ∧ r, q ∧ ¬r, ¬q ∧ r, ¬q ∧ ¬r. Ogólnie rzecz biorąc, dla n elementarnych liter, będzie więc zawsze 2n opisów stanu. Każda niesprzeczna formuła x jest klasycznie równoważna z alternatywą pewnego niepustego zbioru opisów stanu. Opisy stanu odpowiadają na poziomie formuł atomom na poziomie algebr Boole’a. Weźmy teraz dowolną funkcję f z 2n opisów stanu języka L w zbiór [0, 1], taką że ich wartości sumują się do 1. Funkcję tę często nazywa się dystrybucją prawdopodobieństwa. „Własność jedynego rozszerzenia” możemy wówczas określić następująco: f może być jednoznacznie rozszerzona do funkcji prawdopodobieństwa p : L → [0, 1], spełniającej aksjomaty Kołmogorowa. Dowód tego faktu jest prosty. Dla każdej niesprzecznej formuły x bierzemy alternatywę s1 ∨ · · · ∨ sk wszystkich jej opisów stanu, które klasycznie ją implikują i definiujemy p(x) = f (s1 )+· · ·+ f (sk ). Kiedy x jest sprzeczne, bierzemy p(x) = 0. Łatwo teraz sprawdzić, że p jest funkcją prawdopodobieństwa, oraz że każda funkcja prawdopodobieństwa określona na L i zgadzająca się z f na opisach stanu jest identyczna z p.
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty
119
Omawiana cecha jest bardzo ważną własnością prawdopodobieństwa w językach skończenie generowanych i bywa używana w wielu dowodach oraz obliczeniach. Jest jednak czymś bardzo ważnym jasne zrozumienie różnicy pomiędzy własnością jedynego rozszerzenia, a własnością kompozycyjności dla boolowskich wartościowań. Pierwsza bazuje na opisach stanu, druga na literach zdaniowych. Niestety łatwo jest tu ulec pomyłce z uwagi na terminologiczny konflikt pomiędzy różnymi środowiskami. Algebraicy używają terminu atom dla minimalnych, różnych od zera elementów algebry Boole’a, a także dla opisów stanu (a ściślej, dla klas abstrakcji opisów stanu wyznaczonych przez relację klasycznej równoważności). Z algebraicznego punktu widzenia elementarne litery (a ściślej, ich klasy abstrakcji wyznaczone przez klasyczną konsekwencję) stanowią wolne generatory wolnych algebr Boole’a. Z drugiej strony wiele osób związanych z naukami komputerowymi oraz niektórzy logicy, w szczególności związani z logikami programowania, „formułami atomowymi” lub nawet „atomami” nazywa litery elementarne logiki zdaniowej, ponieważ są one syntaktycznie niepodzielnymi jednostkami języka. Nie powinno się mieszać obydwu tych terminologii. Zawsze będziemy używać terminu atom w algebraicznym sensie, natomiast termin „litera elementarna” zarezerwujemy dla syntaktycznie prostych jednostek języka zdaniowego. Czytelnicy będą ostatecznie używać tych terminów zgodnie ze swoją „grupową przynależnością”. Powinni jednak zwrócić uwagę na możliwość ich pomieszania. Prawdopodobieństwo warunkowe Jednym z najbardziej podstawowych, a zarazem użytecznych pojęć teorii prawdopodobieństwa jest prawdopodobieństwo warunkowe (conditional probability) lub uwarunkowanie funkcji prawdopodobieństwa (conditionalization). Będzie ono odgrywało istotną rolę w naszym wykładzie, stanowiąc pewnego rodzaju ograniczenie. Jeśli p jest funkcją prawdopodobieństwa przypisującą zdaniu a pewną wartość z przedziału [0, 1] i dowiadujemy się, że a jest rzeczywiście prawdziwe, to jak powinniśmy zgodnie z tą informacją zmodyfikować p? Tradycyjna odpowiedź brzmi, że w wypadku gdy p(a) , 0, powinniśmy przejść od p do funkcji pa zdefiniowanej następująco pa (x) = p(a ∧ x)/p(a). Funkcję pa nazywamy uwarunkowaniem p ze względu na a. We właściwym zrozumieniu tego pojęcia pomogą poniższe komentarze. Po pierwsze, zwrócimy uwagę na jego trzy istotne własności matematyczne: • Przy danej funkcji prawdopodobieństwa p, gdzie p(a) , 0, pa jest oczywiście również funkcją określoną na tym samym boolowskim języku z przeciwdziedziną [0, 1]. Co ważniejsze, funkcja ta również jest funkcją prawdopodobieństwa,
120
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
tzn. spełnia aksjomaty Kołmogorowa. Łatwo to sprawdzić na podstawie definicji, wykonując proste, arytmetyczne przekształcenia. • Przejście od p do pa jest w pewnym sensie najbardziej konserwatywną możliwą zmianą, która sprowadza prawodopodobieństwo a do wartości 1 (zaś przez aksjomaty (K3) oraz (K1) czyni to samo dla wszystkich b, o ile a ` b): nie wpływa ona bowiem na prawdopodobieństwo wszystkich takich zdań b, że b ` a. Ujmując rzecz precyzyjniej, jeśli p jest funkcją prawdopodobieństwa oraz p(a) , 0, wtedy nie trudno pokazać, że pa jest jedyną funkcją prawdopodobieństwa spełniającą następujące dwa warunki: (1) pa (a) = 1, (2) dla dowolnych b, b0 , jeśli b ` a oraz b0 ` a, to p(b)a /pa (b0 ) = p(b)/p(b0 ). • Uwarunkowanie jest konserwatywne również w innym sensie. Nigdy nie zmniejsza zbioru „pewnych przekonań” (full belief ), to jest zbioru B p = {x : p(x) = 1} określonego funkcją prawdopodobieństwa, zatem gdy pa jest dobrze zdefiniowana, wówczas dla dowolnej formuły x, jeśli p(x) = 1, to pa (x) = 1. Korzystając z terminologii używanej w logice zmiany przekonań, uwarunkowanie służy raczej ekspansji zbioru pełnych przekonań B p niż jego rewizji, mimo że stanowi rewizję samej funkcji p. Z drugiej strony, jeśli zdefiniujemy zbiór „progowych” lub „częściowych” przekonań („treshold” lub „partial”) B p,k = {x : p(x) > k}, gdzie k jest ustaloną liczbą rzeczywistą mniejszą niż 1, to zbiór ten może tracić bądź zyskiwać elementy, kiedy warunkujemy p. Pewne pomysły na to, aby także B p zmieniało się po uwarunkowaniu, zostały omówione w rozdziale 5 pracy Gärdenforsa (1988). Na uwagę zasługuje również ograniczony zakres tej definicji. Uwarunkowanie pa funkcji p jest określone, tylko gdy p(a) , 0, tzn. pa jest nieokreślone, jeśli p(a) = 0. Nie można obejść tego ograniczenia nie zmieniając warunku definicyjnego, ponieważ dzielenie przez zero jest w arytmetyce niezdefiniowane. Może to utrudniać konstruowanie dowodów. Ilekroć chcemy bowiem zdefiniować funkcję prawdopodobieństwa warunkowego, musimy zagwarantować, że warunek ten jest spełniony, aby upewnić się, że jest ona dobrze określona. Również intuicyjnie nie jest to przekonujące. Powinniśmy mieć także możliwość korekty funkcji prawdopodobieństwa na podstawie wiedzy o nowych faktach, nawet takich, które w radykalny sposób są niezgodne z daną funkcją. Chcielibyśmy więc móc dokonać korekty p na podstawie a, nawet jeśli p(a) = 0. Z tych powodów proponowano rozszerzenie powyższej definicji, które gwarantowałoby, że pa jest określone we wszystkich przypadkach, jednocześnie pokrywając się z zasadniczym przypadkiem, gdy p(a) , 0. Prostym zabiegiem tego typu jest wprowadzenie absurdalnej funkcji prawdopodobieństwa (absurd probability function) p⊥ , zdefiniowanej przez p⊥ (x) = 1, dla wszystkich zdań x. Kiedy tak zrobimy, to pa — w granicznym przypadku, gdy p(a) = 0 — może stanowić część
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty
121
p⊥ . Kosztem tego posunięcia jest jednak osłabienie (K4) przez obwarowanie go warunkiem, że p , p⊥ . Jednakże problem sprawdzenia, czy p(a) , 0 wcale nie znika. Wciąż trzeba go rozwiązać, kiedy definiujemy funkcję warunkową. Nie chodzi tym razem o jej dobre zdefiniowanie, lecz o to, czy jest funkcją zachowującą się w zwykły sposób, czy też funkcję absurdalną, zachowującą się inaczej. Proponowano tu również definicje bardziej wyrafinowane, dopuszczające różne wartości pa (x), gdy p(a) = 0. W tej kwestii odsyłamy czytelnika na przykład do rozdziału 5 pracy Gärdenforsa (1988). W dalszej części nie będziemy się zajmowali wspomnianymi rozszerzeniami, stosując definicję klasyczną. Możliwy jest jeszcze inny sposób uogólnienia. Uwarunkowanie uznamy za odpowiednie, kiedy chcemy określić prawdopodobieństwo zdania a jako 1, dowiadując się, że jest ono prawdziwe. Widać jednak, że jest to szczególny przypadek bardziej ogólnego problemu: jak powinniśmy skorygować funkcję prawdopodobieństwa p otrzymując nową funkcję pa=t , która przypisuje prawdopodobieństwo t danemu zdaniu a, gdzie t jest dowolnym elementem interwału [0, 1]? Jedną z dobrze znanych odpowiedzi na to pytanie jest propozycja Jeffreya (1965), nazwana uwarunkowaniem Jeffreya. Funkcja ta może być zdefiniowana przez równość: pa=t (x) = t · pa (x) + (1 − t) · p¬a (x), gdzie pa oraz p¬a są dobrze określonymi, prostymi warunkowymi funkcjami prawdopodobieństwa. Aby uwidocznić różnicę, prostsza wersja jest nazywana czasami uwarunkowaniem Bayesa. Jest ona granicznym przypadkiem podejścia Jeffreya, gdy t = 1. Podobnie jak w poprzednim przypadku, nie będziemy zajmować się tym rodzajem generalizacji, koncentrując się na wyjściowym podejściu Bayesa.
Prawdopodobieństwo warunkowe vs prawdopodobieństwo okresów warunkowych Niniejszy podrozdział zakończymy uwagą dotyczącą notacji, która ujawnia jednocześnie pewne problemy merytoryczne. Pisaliśmy pa (x), oznaczając w ten sposób funkcję zdefiniowaną przez p(a ∧ x)/p(a). Niekiedy do oznaczenia tej samej funkcji przyjmuje się również zapis: p(x\a). Taka notacja bywa jednakże wysoce myląca. Jeśli wyjdziemy od funkcji prawdopodobieństwa p : L → [0, 1], wtedy oczywiście jej warunkowa postać zdefiniowana powyżej jest funkcją prawdopodobieństwa określoną na tej samej dziedzinie L, nie jest to bowiem rozszerzenie wyjściowej funkcji prawdopodobieństwa p do szerszej dziedziny zawierającej formuły z L oraz dodatkowe „warunkowe obiekty” x\a dla formuł x, a z L. Tymczasem to właśnie sugeruje zapis p(x\a). Jeśli więc omawiane wyrażenie funkcyjne czytamy w zwykły sposób, to mówi ono, że p(x\a) posiada formę p(y). Inaczej rzecz ujmu-
122
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
jąc, warunkowa funkcja prawdopodobieństwa wygląda jak zastosowanie funkcji p do nowego, „warunkowego argumentu” x\a. Kiedy notacja ta jest używana, wywołuje niemalże nieodparcie odczucie, że owe „warunkowe obiekty” posiadają pewnego rodzaju niezależną egzystencję i właściwie są zdaniami warunkowymi. Wydaje się, że istnieje pewnego rodzaju warunkowy spójnik ⇒ taki, iż dla dowolnej funkcji prawdopodobieństwa p zdefiniowanej na naszym języku, gdzie p(a) , 0, warunkowe prawdopodobieństwo zdania x: pa (x) lub p(x\a), przy danym a, jest równoważne prawdopodobieństwu p(a ⇒ x) zdania warunkowego a ⇒ x. To, o czym tu mowa, jest czasami nazywane własnością CP = PC, gdzie podany akronim jest skrótem zwrotów „conditional probability = probability of a conditional” („warunkowe prawdopodobieństwo = prawdopodobieństwo zdania o postaci okresu warunkowego”). Siła poznawcza złej notacji bywa tak duża, że opisywane odczucie stało się przyczyną sporu pomiędzy pewnymi badaczami zainteresowanymi teorią prawdopodobieństwa. Problem ten sprowadzał się według nich do opisania tego warunkowego spójnika. Jest oczywiste, że nie może to być zwykła implikacja materialna, ponieważ jej zachowanie wyklucza pożądane tu własności. Stąd też poszukiwania poprowadziły do nieklasycznych spójników warunkowych. Projekt ten napotkał na poważny kryzys związany z wynikami Davida Lewisa (1976). Lewis pokazał bowiem, że zdefiniowanie lub wprowadzenie spójnika spełniającego własność CP = PC w języku, który zawiera klasyczne prawdziwościowe funktory ¬, ∧, ∨ jest niemożliwe. Po pracy Lewisa pojawiły się kolejne prace, ugruntowujące to stanowisko w odmienny sposób. Niektóre z nich formułują trochę mocniejsze stanowiska — warto w tej sprawie sięgnąć do przeglądu Hájka (2001). Dla wielu badaczy „twierdzenie Lewisa o niemożliwości” zakończyło ostatecznie sen o okresie warunkowym spełniającym własność CP = PC. Nie wszyscy jednak zaakceptowali porażkę. Podążając za wcześniejszym pomysłem Finetti’ego (1936), zaproponowano zastąpienie logiki dwuwartościowej logiką trójwartościową, na gruncie której można szukać definicji okresu warunkowego z własnością CP = PC. W logice trójwartościowej pewne ze znanych własności spójników ¬, ∧, ∨ w sposób konieczny nie będą zachodziły. Program ten realizowany jest w Europie przez Duboisa, Prade’a oraz innych badaczy, a także przez Calabrese’a w USA. W tej sprawie warto zajrzeć do Dubois i Prade (1994) oraz Calabrese (2003). Według poglądu autora, jeśli nawet program ten może być prowadzony bez technicznych problemów, to porzucenie prostoty dwuwartościowej logiki dla funktorów ¬, ∧, ∨ na rzecz słabszej logiki trójwartościowej nie jest właściwą ceną za wątpliwe osiągniecie. W najlepszym razie będziemy w stanie utożsamić prawdopodobieństwo okresu warunkowego z warunkowym prawdopodobieństwem, po-
5.1. Prawdopodobieństwo: podstawowe pojęcia i aksjomaty
123
rzucimy jednak prostotę klasycznej logiki zdaniowej i utracimy pewne z jej podstawowych praw. Niewielu logików chciałoby podążać tą kosztowną drogą. W opinii autora ilustruje to pewien ogólny, metodologiczny problem. Być może jest czymś błędnym stawianie takich kwestii jak powyższa w sposób doktrynalny, argumentując jednocześnie, że jedno ze stanowisk jest poprawne, a drugie nie. Problem ten może być przedmiotem poznawczej wygody: moglibyśmy myśleć oraz mówić koherentnie na różne sposoby, jednak niektóre z tych sposobów są zawsze dużo bardziej skomplikowane i trudniejsze niż pozostałe.
Ćwiczenia 1∗ . Uzasadnij stwierdzenie z tekstu, że boolowskie wartościowania logiki klasycznej spełniają cztery aksjomaty Kołmogorowa dla funkcji prawdopodobieństwa. 2∗ . Uzasadnij stwierdzenie poczynione w tekście, że z (K1), (K2) oraz (K3) możemy wyprowadzić wniosek: p(x) = 1, jeśli x ∈ Cn(∅). 3∗ . Uzasadnij na podstawie aksjomatów Kołmogorowa każde z poniższych stwierdzeń (przydadzą się one w kolejnym podrozdziale). Wskazówka: W razie potrzeby zastosuj wniosek z ćwiczenia 2. (a) p(a) = p(b), o ile a i b są klasycznie równoważne (b) p(¬a) = 1 − p(a) (c) p(a ∧ ¬a) = 0 (d) p(a ∧ b) 6 p(a) 6 p(a ∨ b) (e) p(a) > p(b) wtedy i tylko wtedy, gdy p(¬b) > p(¬a) (f) p(a) = p(a ∧ b) + p(a ∧ ¬b) (g) p(a ∨ b) = p(a) + p(b) − p(a ∧ b) (h) p(a) + p(b) = p(a ∨ b) + p(a ∧ b). 4. Udowodnij stwierdzenie z tekstu, że dowolna funkcja prawdopodobieństwa, której zbiór wartości jest równy {0, 1}, jest wartościowaniem boolowskim. Wskazówka: Przydadzą się tutaj pewne wnioski z ćwiczenia 3. 5. Pokaż, że jeśli p(a) , 0, to pa (a) = 1 i pa (¬a) = 0. 6. Pokaż, że p(a ∧ b) = p(a) · pa (b). Na podstawie tego pokaż, że p(a) · pa (b) = p(b) · pb (a). 7. Uzasadnij stwierdzenie z tekstu, że jeśli p(x) = 1, to pa (x) = 1. 8. Zbadaj, czy uwarunkowanie Bayesa pokrywa się z uwarunkowaniem Jeffreya pa=t w granicznym przypadku, gdy t = 1.
124
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
Wskazówka: Rozważ niezależnie następujące trzy przypadki: p(a) < {0, 1}, p(a) = 0, p(a) = 1.
Problemy 1. Modyfikowanie układu aksjomatów: (a) Pokaż, że w aksjomatach Kołmogorowa, tak jak je tu sformułowaliśmy, (K3) można osłabić do zasady (K3’) : p(x) = p(y), jeśli Cn(x) = Cn(y), bez zmiany siły dedukcyjnej wszystkich aksjomatów. Wskazówka: Łatwiejsza część odpowiedzi jest zawarta w ćwiczeniu 3(a). (b) Załóżmy, że wzmocnimy postulat (K2) do (K2’) : p(x) = 1, jeśli x ∈ Cn(∅). Wiemy na podstawie ćwiczenia 2, że nie zmieni to siły systemu aksjomatów jako całości. Pokaż, że zmiana ta uczyniłaby zbędnym zarówno aksjomat (K3), jak i 1 jako górną granicę w aksjomacie (K1). 2. Dowiedź własności jedynego rozszerzenia dla funkcji prawdopodobieństwa. Pokaż więc — jak stwierdzono w tekście — że jeśli p jest zdefiniowana na podstawie f , to spełnia aksjomaty Kołmogorowa, a ponadto dowolna funkcja p0 : L → [0, 1], która spełnia aksjomaty Kołmogorowa i pokrywa się z f na opisach stanu, jest identyczna z p. 3∗ . W tekście podano przykład funkcji f ze zbioru elementarnych liter w zbiór [0, 1], która może być rozszerzona do funkcji prawdopodobieństwa p : L → [0, 1] przynajmniej na dwa sposoby, zatem dla funkcji ze zbioru liter jedyność rozszerzenia może nie zachodzić. Pokaż mimo tego, że dla skończonych języków takie rozszerzenia zawsze istnieją. Pokaż więc, że każda funkcja f ze skończonego zbioru liter alfabetu danego języka w zbiór [0, 1] ma co najmniej jedno rozszerzenie do funkcji prawdopodobieństwa p : L → [0, 1]. Wskazówka: Na mocy własności jedynego rozszerzenia z uwagi na opisy stanu wystarczy znaleźć funkcję g określoną na opisach stanu z przeciwdziedziną w [0, 1], sumującą się do jedności, taką że dla dowolnej litery elementarnej P qi , f (qi ) = (g(s) : s jest opisem stanu takim, że: s ` qi ). 4. Uzasadnij stwierdzenie z tekstu, że jeśli p : L → [0, 1] jest funkcją prawdopodobieństwa, gdzie p(a) , 0, to pa jest również funkcją prawdopodobieństwa. Pokaż w tym celu, że pa spełnia aksjomaty Kołmogorowa. Pokaż nawet więcej, a więc że spełnia ona następujące cztery warunki (te z literką a w dolnym indeksie są oczywiście mocniejsze niż wyjściowe postulaty Kołmogorowa): (K1) 0 6 pa 6 1 pa (x) = 1 dla pewnej formuły x (K2)
5.2. Probabilistyczne charakterystyki konsekwencji klasycznej
(K3a ) (K4a )
125
pa (x) 6 pa (y), jeśli a ∧ x ` y pa (x ∨ y) = pa (x) + pa (y), jeśli a ∧ x ` ¬y.
5∗ . Uzasadnij stwierdzenie z tekstu, że jeśli p jest funkcją prawdopodobieństwa i a jest formułą taką, że: p(a) , 0, to pa jest jedyną funkcją prawdopodobieństwa spełniającą następujące dwa warunki: (1) pa (a) = 1, (2) dla dowolnych b, b0 , jeśli zarówno b ` a oraz b0 ` a, to p(b)/p(b0 ) = pa (b)/pa (b0 ). 6. Podaj przykład ilustrujący stwierdzenie z tekstu, iż pa (x) nie może być utożsamione z p(a → x), gdzie → jest implikacją materialną.
Projekty 1. Przestudiuj prace Lewisa (1976), Hájka (2001), Duboisa i Prade (1994), Calabrese (2003) oraz inne wzmiankowane źródła, pod kątem problemu reprezentowania warunkowego prawdopodobieństwa jako prawdopodobieństwa okresu warunkowego i sporządź raport. Uwaga: Ten problem dość szybko staje się bardzo techniczny, zbadaj go więc tylko wtedy, jeśli jesteś silnie zmotywowany. 2. Sporządź raport dotyczący prac Adamsa (1998) oraz Edgingtona (2001), który będzie się koncentrował na stanowisku Adamsa mówiącym, że zwrot „jeśli…, to…” w zwykłym, niematematycznym języku nie powinien być w ogóle rozumiany jako zdanie warunkowe, lecz jako stwierdzenie o wysokim warunkowym prawdopodobieństwie następnika przy prawdziwości poprzednika. Uwaga: Wymaga to znacznej wrażliwości na subtelności języka naturalnego.
5.2. Probabilistyczne charakterystyki konsekwencji klasycznej Jak klasyczna konsekwencja wygląda z perspektywy probabilistycznej? Czy może być ona scharakteryzowana przez funkcje prawdopodobieństwa? Mówimy „scharakteryzowana” zamiast „zdefiniowana” ponieważ, jak zauważyliśmy w poprzednim podrozdziale, definicja funkcji prawdopodobieństwa przez aksjomaty Kołmogorowa wykorzystuje klasyczną konsekwencję. Stąd też możliwa definicja miałaby kolisty charakter. Chociaż więc redukcja nie jest możliwa, to nadal nie wyklucza to charakterystyki oraz pytania, jak klasyczną konsekwencję opisać w terminach probabilistycznych. Zabieg ten nie tylko pozwoli nam spojrzeć w nowy sposób na konsekwencję klasyczną, ale pomoże także przygotować podłoże do analizy związków pomiędzy konsekwencją probabilistyczną i niemonotoniczną, którą przeprowadzimy w kolejnych podrozdziałach.
126
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
Jak już podkreślaliśmy, przedział [0, 1] jest nieskończenie większy i ma dużo bardziej subtelną strukturę niż dwuelementowy zbiór {0, 1}. Zatem funkcja prawdopodobieństwa p : L → [0, 1] jest bogatsza w treść niż boolowskie wartościowanie v : L → {0, 1} i odpowiednio teoria prawdopodobieństwa jest bardziej złożona niż logika dwuwartościowa. Jedną z konsekwencji tego jest możliwość wielu sposobów opisywania konsekwencji klasycznej za pomocą prawdopodobieństwa. W podrozdziale tym zaprezentujemy tylko niektóre, najbardziej znane. Pierwsza charakterystyka jest niemalże bezpośrednią konsekwencją aksjomatów Kołmogorowa. Zawiera jednakże pewne subtelności, których nie należy pomijać. O 5.2. Niech a, x b¦d¡ boolowskimi formuªami. Wówczas, a ` x wtedy i tylko wtedy, gdy dla dowolnej funkcji prawdopodobie«stwa p : L → [0, 1], p(a) 6 p(x). D´ . Implikacja „z lewej do prawej” wynika z aksjomatu Kołmogorowa (K3). Załóżmy, że a 0 x. Wtedy istnieje takie boolowskie wartościowanie v : L → {0, 1}, że v(a) = 1, v(x) = 0. Zgodnie z uwagą poczynioną w podrozdziale 5.1, v jest również funkcją prawdopodobieństwa, więc oczywiście v(a) > v(x). Obserwacja 5.2 nie powinna zaskakiwać, ma ona bowiem swój odpowiednik w sferze jakościowej. Kwantyfikacja po wszystkich funkcjach prawdopodobieństwa przypomina kwantyfikację po modelach preferencji. Nic nie pozwala uzyskać więcej niż logika klasyczna, ponieważ klasyczne wartościowanie może być postrzegane jako graniczny przypadek wartościowania w modelu preferencji, podobnie jak jest granicznym przypadkiem wartościowania probabilistycznego. Zwróćmy uwagę na pozycję ogólnego kwantyfikatora w obserwacji 5.2: „dla każdej funkcji prawdopodobieństwa p”. Nie dowiedliśmy tego, że dla dowolnej funkcji prawdopodobieństwa p : L → [0, 1]: a ` x wtedy i tylko wtedy, gdy p(a) 6 p(x), gdzie cała równoważność jest w zasięgu dużego kwantyfikatora. Ostatnie twierdzenie jest fałszywe. Zachodzi jego część z „lewej do prawej”, ponownie na mocy aksjomatu (K3). Implikacja odwrotna jest jednak fałszywa. Dla przykładu, niech q, r będą różnymi literami. Rozważmy boolowskie wartościowanie, przy którym v(q) = 1 oraz v(r) = 0. Funkcja v ponownie sama jest funkcją prawdopodobieństwa i v(q) > v(r). Nie jest jednak oczywiście prawdą, że r ` q, ponieważ q, r są różnymi literami. Ten rodzaj wzorca będzie powtarzał się jeszcze wiele razy. Musimy więc ostrożnie rozróżnić dwie różne relacje, w których dziedziną kwantyfikacji ∀p jest zbiór wszystkich funkcji prawdopodobieństwa.
5.2. Probabilistyczne charakterystyki konsekwencji klasycznej
127
• Jeśli każda funkcja prawdopodobieństwa p : L → [0, 1] spełnia pewien warunek, to zachodzi taka a taka własność. Schematycznie: (∀pφ(p)) → ψ, gdzie p nie należy do zmiennych wolnych w ψ. • Dla każdej funkcji prawdopodobieństwa p : L → [0, 1], jeśli p spełnia pewien warunek, to zachodzi taka a taka własność. Schematycznie: ∀p(φ(p) → ψ), gdzie p nie należy do zmiennych wolnych w ψ. Różnica dotyczy zatem zakresu działania kwantyfikatora ogólnego. Drugie stwierdzenie implikuje pierwsze, ale nie odwrotnie. Cześć obserwacji 5.2 „z prawej do lewej” ma postać (∀pφ(p)) → ψ, a nie ∀p(φ(p) → ψ). Jak pokazaliśmy, to ostatnie jest fałszywe. Oprócz probabilistycznej charakterystyki konsekwencji klasycznej z obserwacji 5.2, istnieją jeszcze inne, godne uwagi podejścia. Poniższa tabela dodaje do warunków wyjściowych cztery dodatkowe, dające ten sam efekt. Nie ma niczego zagadkowego w ich liczbie — łatwo można sformułować kolejne. Te cztery są jednak wyjątkowo proste i dobrze znane. Numer
Warunek
1
p(a) 6 p(x)
2t
jeśli p(a) > t, to p(x) > t
3t
p(a → x) > t
4t
pa (x) > t lub p(a) = 0
5
p(¬x) 6 Σ(p(¬ai ) : i 6 n)
W warunkach (2t)–(4t), t jest dowolną liczbą rzeczywistą należącą do zakresu [0, 1], różną od zera. Jest ona nazywana progiem (treshold) warunku. Ściśle mówiąc, nie są to zwykłe warunki, ale rodziny warunków, z których każda ma nieskończenie wiele elementów, po jednym dla każdej niezerowej wartości t. Istotnym przypadkiem jest przypadek, gdy t = 1. Wtedy, na przykład, warunek (2t) mówi, że jeśli p(a) = 1, to p(x) = 1. Warunki (1) oraz (2t) są oczywiste. Warunek (3t) mógłby rzecz jasna być sformułowany w sposób równoważny jako p(¬a ∨ x) > t, lub jako p(a ∧ ¬x) 6 1 − t, a w przypadku granicznym, gdy t = 1, jako p(¬a ∨ x) = 1 lub p(a ∧ ¬x) = 0. Warunek (4t) wykorzystuje pojęcie uwarunkowania (Bayesa), zdefiniowane i przedyskutowane w poprzednim podrozdziale. Warunek (5) wymaga jednak dodatkowego wyjaśnienia. Dotyczy on sytuacji, kiedy mamy do czynienia ze skończenie wieloma przesłankami a1 , …, an . Oczywiście moglibyśmy po prostu wziąć pod uwagę koniunkcję wszystkich przesłanek V a = ai , żeby uwzględnić cały zbiór. Kiedy jednak n jest dużą liczbą, może-
128
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
my mieć informację o poszczególnych prawdopodobieństwach p(an ), ale żadnej bezpośredniej wiedzy na temat prawdopodobieństwa ich koniunkcji p(a). Właśnie w tej sytuacji warunek (5) może być użyteczny. Mówiąc nieformalnie, głosi on, że nieprawdopodobieństwo konkluzji x jest nie większe niż suma nieprawdopodobieństw poszczególnych przesłanek. Na warunek ten zwrócił uwagę Ernest Adams (1975; 1998). Czytelnik powinien jednak być ostrożny, jeśli chodzi o terminologię. Adams parafrazuje ten warunek jako mówiący, że niepewność konkluzji x nie powinna być większa niż suma niepewności poszczególnych przesłanek. Użycie terminu „niepewność” w teorii prawdopodobieństwa może być jednak mylące. Bardziej współczesne prezentacje jego pomysłu, takie jak Edgingtona (2001), używają więc terminu „nieprawdopodobieństwo”. T 5.3. Ka»dy z warunków po skwanty kowaniu: ∀p(1) do ∀p(5), gdzie p przyjmuje warto±ci ze zbioru wszystkich funkcji prawdopodobie«stwa, charak-
teryzuje konsekwencj¦ klasyczn¡. S¡ one zatem wzajemnie równowa»ne. Szczegóªowo: niech t b¦dzie dowoln¡ liczb¡ rzeczywist¡ z przedziaªu [0, 1], ró»n¡ od 0. Niech a, x b¦d¡ formuªami i zaªó»my dla warunku 5, »e a = a1 ∧· · ·∧an . Wówczas a ` x wtedy i tylko wtedy, gdy ∀p(φ), gdzie φ jest dowolnym z warunków 1, 2t, 3t, 4t, 5.
D´ . Dwie strategie dowodu nasuwają się same. Jedna z nich polegałaby na osobnych dowodach równoważności poszczególnych stwierdzeń z warunkiem a ` x, druga na konstrukcji koła implikacji, z warunkiem inferencji a ` x jako jednym z elementów koła. Pierwsza strategia bardziej bazuje na logice, druga na teorii prawdopodobieństwa. Pierwsza strategia może być dłuższa w realizacji, ponieważ jeśli jest n warunków prawdopodobieństwa, to możemy mieć n równoważności do sprawdzenia. A ponieważ (jak zwykle) większość faktów ma być dowiedziona w postaci dwóch implikacji, trzeba więc sprawdzić do 2n implikacji. Stosując strategię koła pozostaje nam do sprawdzenia tylko n + 1 implikacji. Zastosujemy mieszaną strategią, wykorzystując fakt, który już znamy na podstawie obserwacji 5.2, a mianowicie, że warunek logiczny a ` x jest równoważny temu, że ∀p(1). Jedyne co nam pozostaje, to badać po kolei pozostałe probabilistyczne warunki z tabelki. Postaramy się dowodzić silniejszych implikacji, o ile tylko zachodzą, ponieważ przydadzą się one w kolejnym podrozdziale. (i) Chcemy pokazać, że ∀p(1) ⇒ ∀p(2t). Faktycznie mamy jednak silniejszą implikację ∀ p∈P (1 ⇒ 2t). Załóżmy, że p(a) 6 p(x). Stąd bezpośrednio otrzymujemy: jeśli t 6 p(a), to t 6 p(x), co kończy dowód. (ii) Zamierzamy pokazać, że ∀p(2t) ⇒ ∀p(3t). Później wygodnie będzie stosować implikację ∀ p∈Q (2t) ⇒ ∀ p∈Q (3t), gdzie Q jest dowolnym zbiorem funkcji prawdopodobieństwa, domkniętym na warunkowanie (tzn. jeśli p ∈ Q i p(a) , 0,
5.2. Probabilistyczne charakterystyki konsekwencji klasycznej
129
to pa ∈ Q). Nasza argumentacja wykorzysta prawo kontrapozycji. Niech Q będzie tego rodzaju zbiorem. Załóżmy, że p(a → x) < t, dla pewnego p ∈ Q. Wtedy p(a ∧ ¬x) = p(¬(a → x)) = 1 − p(a → x) > 0. Stąd pa∧¬x jest dobrze określone. Oczywiście jednak pa∧¬x (a) = 1 > t, podczas gdy pa∧¬x (x) = 0 < t, do czego zmierzaliśmy. (iii) Chcemy wykazać, że ∀p(3t) ⇒ ∀p(4t). Raz jeszcze pokazujemy, że ∀ p∈Q (3t) ⇒ ∀ p∈Q (4t), gdzie Q jest dowolnym zbiorem funkcji prawdopodobieństwa domkniętym na warunkowanie. Argumentujemy przez kontrapozycję. Niech Q będzie takim zbiorem. Załóżmy, że p(a) , 0 oraz pa (x) < t, dla pewnego p ∈ Q. Oczywiście, pa (¬a) = 0. Zatem pa (a → x) = pa (¬a ∨ x) 6 pa (¬a) + pa (x) = pa (x) < t, do czego zmierzaliśmy. (iv) Zamierzamy wykazać, że ∀p(4t) ⇒ ∀p(5). Podobnie pokażemy, że ∀ p∈Q (4t) ⇒ ∀ p∈Q (5), gdzie Q jest dowolnym zbiorem funkcji prawdopodobieństwa domkniętym na warunkowanie. Jak wyżej, ponownie argumentujemy przez kontrapozycję. Niech Q będzie takim zbiorem. Niech p ∈ Q i załóżmy, że p(¬x) > Σ(p(¬ai ) : i 6 n), gdzie a = a1 ∧ · · · ∧ an . Stąd Σ(p(¬ai ) : i 6 n) > p(¬a1 ∨ · · · ∨ ¬an ) = p(¬(a1 ∧ · · · ∧ an )) = p(¬a). Zatem p(¬x) > p(¬a), a następnie p(a) > p(x) > p(a ∧ x). Ponieważ p(a) = p(a ∧ x) + p(a ∧ ¬x), wynika stąd, że p(a ∧ ¬x) > 0. Zatem pa∧¬x jest dobrze określone i oczywiście pa∧¬x (a) = 1 , 0, podczas gdy pa∧¬x (x) = 0 < t, jak wymagano. (v) Aby zamknąć koło, musimy pokazać, że ∀p(5) ⇒ ∀p(1). Wykażemy, że ∀ p∈Q (5) ⇒ ∀ p∈ Q (1), gdzie Q jest taki jak wcześniej. Jeszcze raz przeprowadzimy argumentację stosując prawo kontrapozycji. Niech Q będzie opisanym zbiorem. Załóżmy, że dla pewnego p ∈ Q, p(a) > p(x), gdzie a = a1 ∧ · · · ∧ an . Wtedy p(a) , 0, więc pa jest dobrze określone. Otrzymujemy pa (a) = 1, zatem pa (ai ) = 1, dla i 6 n, więc każde pa (¬ai ) = 0. Stąd Σ(pa (¬ai ) : i 6 n) = 0. Musimy sprawdzić, czy pa (¬x) > 0. Wobec tego, że pa (¬x) = p(a ∧ ¬x)/p(a), wystarczy pokazać, iż p(a ∧ ¬x) > 0. Jednak p(a) = p(a ∧ x) + p(a ∧ ¬x). Zatem, na mocy założenia, p(a) > p(x) > p(a ∧ x), a więc p(a ∧ ¬x) > 0, do czego zmierzaliśmy i co kończy cały dowód.
Ćwiczenia W twierdzeniu 5.3 pokazaliśmy, że warunki wypisane w tabeli, domknięte dużymi kwantyfikatorami, są równoważne. Nie jest tak jednak bez domknięcia. Kolejne ćwiczenia pozwalają prześledzić szczegóły. 1∗ . Pokaż, że implikacja ∀p(2t ⇒ 1) może nie zachodzić. Trzymając się kontekstu, przypomnij sobie, że w tekście pokazano zachodzenie jej konwersu ∀p(1 ⇒ 2t) a także warunku ∀p(2t) ⇒ ∀p(1).
130
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
2∗ . Pokaż, że implikacja ∀p(1 ⇒ 5) zachodzi, ale implikacja odwrotna ∀p(5 ⇒ 1) może nie zachodzić. 3. Pokaż, że warunek (1) ani nie implikuje ogólnie, ani ogólnie nie jest implikowany przez warunki (3t), (4t). 4. Sprawdź zachodzenie ogólnych implikacji pomiędzy (2t), (3t), (4t), (5).
5.3. Nadklasyczne probabilistyczne relacje konsekwencji Po tym jak w twierdzeniu 5.3 scharakteryzowaliśmy klasyczną konsekwencję w terminach probabilistycznych, naturalne wydaje się pytanie o to, jak przejść do konsekwencji nadklasycznej, a w końcu niemonotonicznej. Prostym pomysłem — przypominającym to, co zrobiliśmy ze zbiorem funkcji boolowskich w podrozdziale 3.1 — jest ograniczenie zbioru wszystkich funkcji prawdopodobieństwa. Zamiast kwantyfikować po całym zbiorze P wszystkich funkcji prawdopodobieństwa określonych na języku, moglibyśmy jako dziedzinę wziąć pewien niepusty właściwy podzbiór Q ⊂ P. Otrzymamy w ten sposób nadklasyczne relacje konsekwencji dla dowolnie szerokiego zakresu wyborów zbioru Q. Dla przykładu, w wypadku warunku (1), jeśli istnieje jakaś boolowska formuła x, która nie jest tautologią, ale p(x) = 1, dla dowolnego p ∈ Q, to otrzymamy t |z x, mimo, że t 0 x. Uzyskane na tej drodze nadklasyczne operacje będą dla każdego z warunków (1), (2t), (3t) oraz (5) monotoniczne. Rozważmy przykładowo warunek (1). Załóżmy, że p(a) 6 p(x), dla p ∈ Q. Wtedy bezpośrednio z postulatu (K3), otrzymujemy p(a ∧ b) 6 p(a) 6 p(x), dla każdego p ∈ Q. Podobnie jest dla pozostałych wspomnianych warunków, kwantyfikowanych po dowolnej dziedzinie Q ⊂ P. Sprawa warunku (4t) jest bardziej skomplikowana. Ustalmy dziedzinę Q ⊂ P. Załóżmy, że Q jest domknięte ze względu na warunkowanie. Na podstawie twierdzenia 5.3 wiemy, że warunek ∀p∈Q (4t) jest równoważny z pozostałymi, a więc jest też monotoniczny. Kiedy jednak Q nie jest domknięte na warunkowanie, monotoniczność nie zachodzi. W szczególności może nie zachodzić, gdy Q jest singletonem {p}. W celu pokazania tego, musimy tylko znaleźć odpowiednie boolowskie formuły a, b, x i funkcję prawdopodobieństwa p, taką, że p(a ∧ b) , 0 (a więc zarówno pa jak i pa∧b są dobrze określone) oraz pa (x) > t, podczas gdy pa∧b (x) < t. Załóżmy dla przykładu, że nasz język ma tylko dwie litery elementarne q, r. Rozważmy dystrybutywne prawdopodobieństwo, które każdemu z atomów q ∧ r, …, ¬q ∧ ¬r daje tę samą wartość 0,25 i wybierzmy progową wartość t = 0,5. Niech a = q ∨ ¬q, x = q ∨ r, b = ¬q ∧ ¬r. Wtedy p(a) = 1,
5.3. Nadklasyczne probabilistyczne relacje konsekwencji
131
więc p(a ∧ x)/p(a) = p(x) = p(q ∨ r) = p(q ∨ r) = 0,75 > t, podczas gdy p(a ∧ b ∧ x)/p(a ∧ b) = 0 < t. Warunek (4t) jest często uważany za jeden z najbardziej interesujących probabilistycznych warunków definiujących konsekwencję. Dotąd zaobserwowaliśmy następujące jego cechy: • Gdy kwantyfikujemy po wszystkich funkcjach prawdopodobieństwa, daje on właśnie konsekwencję klasyczną. • Gdy kwantyfikujemy po pewnej dziedzinie funkcji prawdopodobieństwa domkniętej ze względu na warunkowe prawdopodobieństwo, prowadzi on do nadklasycznej, ale wciąż monotonicznej konsekwencji. • Gdy rozważymy specjalną funkcję prawdopodobieństwa (lub ogólniej, kwantyfikujemy po dziedzinie funkcji prawdopodobieństwa niedomkniętej ze względu na warunkowe prawdopodobieństwo), wtedy powstała relacja konsekwencji jest typowo niemonotoniczna. W kontekście probabilistycznym kwestia niemonotoniczności staje się jednak mniej ważna. Centralna staje się natomiast inna własność — łączenie konkluzji w koniunkcję (lub (AND)). W celu uściślenia notacji, będziemy pisać (4tp) dla warunku (4t) z wyróżnioną funkcją prawdopodobieństwa p i podobnie dla pozostałych warunków. Relacje konsekwencji określone przez takie szczególne warunki nigdy nie spełniają warunku łączenia konkluzji w koniunkcję, bez względu na to czy są monotoniczne, czy nie. Różnią się więc one w sposób istotny od swoich jakościowych kuzynek, które studiowaliśmy w poprzednich podrozdziałach. Ponieważ niemonotoniczny warunek (4tp) jest najbardziej interesujący w kontekście definiowania konsekwencji, niezachodzenie (AND) sprawdzimy właśnie w jego przypadku. Rozważając prosty przykład, bierzemy język z dwoma elementarnymi literami q, r oraz funkcję prawdopodobieństwa, która każdemu z czterech atomów q ∧ r, …, ¬q ∧ ¬r przypisuje tę samą wartość 0,25. Niech a będzie dowolną tautologią, x = q, y = r i dodatkowo wartość progowa t = 0,5. Wtedy pa (x) = p(x) = 0,5 > t i podobnie pa (y) = p(y) = 0,5 > t, więc na mocy warunku (4tp) otrzymujemy a |z x oraz a |z y. Jednak pa (x ∧ y) = p(x ∧ y) = 0,25, a zatem a |z 6 x ∧ y. Dodajmy, że (AND) nie jest jedynym warunkiem domknięcia, który nie zachodzi przy jego probabilistycznym odczytaniu w definicji (4tp). Ostrożna monotoniczność (CM), kumulatywana przechodniość (CT) oraz łączenie przesłanek w alternatywę (OR) również nie zachodzą. Przy tej probabilistycznej interpretacji prawdziwość utrzymują jednak ich osłabione wersje (podobnie jak (AND)). Mimo tego, niezachodzenie warunku (AND) przy definicji (4tp) jest w pewnym sensie podstawowe. Kiedy bowiem dodamy go do warunków domknięcia (reguł Horna),
132
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
które spełnia probabilistyczna konsekwencja zdefiniowana przez (4tp), to będzie on — jako jedyny z wymienionych — implikował wszystkie pozostałe wymienione warunki. Osoby zainteresowane dalszymi szczegółami tej interesującej opowieści, powinny sięgnąć do pracy Hawthorne’a oraz Makinsona (w przygotowaniu). Można by argumentować, że niezachodzenie (AND) jest zaletą podejścia probabilistycznego i wadą podejścia jakościowego. Chociaż bowiem zastosowanie (AND) tylko do dwóch przesłanek wydaje się niewinne, to staje się nieintuicyjne, kiedy przez iterację zastosujemy go do większej liczby konkluzji. Prezentuje to „paradoks loterii” Kyburga (1961; 1970) oraz „paradoks przedmowy” Makinsona (1965). Paradoks loterii związany jest z obserwacją, że jeśli uczciwie działająca loteria posiada dużą liczbę n losów, to każdy z losów ma wysokie prawdopodobieństwo, że nie wygra, a zatem w odniesieniu do każdego losu racjonalne jest przekonanie, że los ten nie wygra. Ponieważ jest jednak pewne (ponownie zakładając uczciwość loterii), że jakiś los spośród n losów przyniesie wygraną, to racjonalne jest przekonanie o wygranej. Jednakże te n + 1 zdań prowadzi do sprzeczności. Otrzymujemy zatem sytuację, w której z jednej strony racjonalnie jest wierzyć w każdy element z dużego, skończonego zbioru n + 1 zdań, jednak nie jest racjonalnie wierzyć w koniunkcję ich wszystkich, ponieważ stanowi ona logicznie sprzeczne zdanie. Do tego jednak skłaniałoby nas łączenie konkluzji w koniunkcję. Paradoks przedmowy jest podobny — zarówno strukturalnie, jak i ze względu na konkluzję — do paradoksu loterii, nie odnosi się jednak do prawdopodobieństwa. Jako autor książki, czyniący dużo stwierdzeń, mógłbym sprawdzać i poprawiać każde z nich indywidualnie, co dałoby poczucie pewności, że całość jest poprawna. Jednakże smutne doświadczenie w tych sprawach uczy mnie, że pewna ilość błędów w książce jest nie do uniknięcia. Mógłbym więc w przedmowie zaznaczyć ich istnienie oraz wziąć za nie odpowiedzialność (nie będąc w stanie podać liczby błędów). Zatem całość stwierdzeń w głównym tekście oraz w przedmowie jest sprzeczna. Nie byłoby więc czymś racjonalnym wierzenie w nie wszystkie. Nadal jednak racjonalnie można by wierzyć w nie indywidualnie. Ponownie zatem reguła łączenia konkluzji w koniunkcję wydaje się prowadzić nas na manowce. Opisany problem stanowi filozoficznie trudną kwestię i nie można powiedzieć, że osiągnięto tu kompromis. Wedle wstępnej opinii autora problem bierze się z napięcia pomiędzy dwoma komponentami racjonalności — koherencją oraz praktycznością (practicality). Kryterium koherencji prowadzi nas do odrzucenia reguły łączenia w koniunkcję. Z kolei drugie kryterium zachęca do porządkowania naszych przekonań za pomocą minimalnej ilości kalkulacji i operacji, co jest gwarantowane przez regułę łączenia w koniunkcję. Inferencje probabilistycz-
5.3. Nadklasyczne probabilistyczne relacje konsekwencji
133
ne skłaniają się ku kryterium koherencji, podczas gdy niemonotoniczne logiki jakościowe opierają się o kryterium praktyczności. Podrozdział ten zakończymy dwoma dalszymi uwagami na temat konsekwencji zdefiniowanych za pomocą warunku (4tp). Powtórzmy całą definicję. Dla dowolnej liczby rzeczywistej t ∈ [0, 1], gdzie t , 0, oraz dowolnej funkcji prawdopodobieństwa p, relacja a |ztp x zachodzi wtedy i tylko wtedy, gdy albo pa (x) > t, albo w granicznym przypadku p(a) = 0. Powinniśmy docenić to, że podana definicja wyraża pojęcie wystarczającego prawdopodobieństwa x przy danym a. Nie wolno tego mylić z korespondującym pojęciem zwiększania (incremental) prawdopodobieństwa x przy danym a, które + x wtedy i tylko wtedy, gdy p (x) > p(x), w zasadnizdefiniowalibyśmy: a |ztp a czym przypadku, kiedy p(a) , 0. Wyraża ono odmienną ideę, a mianowicie taką, że warunek a prowadzi do prawdopodobieństwa x, które jest wyższe niż byłoby w przypadku jego braku. Zdefiniowana relacja inferencji jest również niemonotoniczna. W przypadku jakościowym nasze niemonotoniczne operacje konsekwencji zostały zdefiniowane przez relatywizację wyróżnionych nadklasycznych monotonicznych relacji do danego zbioru przesłanek A. Tę relatywizację uzyskaliśmy za pomocą różnych pojęć — warunku niesprzeczności nałożonego na założenia ukryte w tle, warunku minimalności oraz sprawdzania niesprzeczności przy aplikacji reguł. Nie postąpiliśmy jednak w ten sposób z relacjami |ztp . Nasuwa to pytanie, czy istnieją jakieś monotoniczne pojęcia, które mogą posłużyć jako stopnie do niemonotonicznych relacji |ztp w taki sam sposób, jak w dziedzinie jakościowej? Odpowiedź jest pozytywna. Monotoniczny warunek (3tp) (tj. p(a → x) > t), dla pewnej wyróżnionej funkcji p, mógłby być postrzegany właśnie w tym świetle. Jest to widoczne, kiedy przeformułujemy dwa probabilistyczne warunki (3tp) oraz (4tp) w trochę inny, ale równoważny sposób. Z jednej strony warunek (3tp) mógłby być równoważnie zapisany jako: p(a ∧ ¬x) 6 1 − t. Z drugiej strony, w zasadniczym przypadku, gdy p(a) , 0, warunek (4tp) mógłby być równoważnie zapisany jako p(a ∧ ¬x)/p(a) 6 1 − t. Porównując obydwa warunki, widzimy, że drugi stosuje matematyczną operację dzielenia, aby uzależnić lewą stronę od prawdopodobieństwa przesłanek. Innymi słowy, dzielenie przez prawdopodobieńswo przesłanek służy do relatywizacji warunku (3tp) do (4tp). W ten sposób w probabilistycznych kontekstach relacje konsekwencji zdefiniowane przez (3tp) służą jako pewne (nadklasyczne i monotoniczne) pomosty pomiędzy klasyczną i niemonotoniczną inferencją. Podsumujmy ten podrozdział. Charakteryzując klasyczną konsekwencję za pomocą któregoś z pięciu wymienionych probabilistycznych warunków i ograniczając zbiór funkcji prawdopodobieństwa, otrzymujemy nadklasyczne relacje konsekwencji. Kiedy wyznaczony zbiór funkcji jest domknięty ze względu na
134
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
warunkowanie, wtedy wszystkie wymienione warunki są równoważne i monotoniczne. Kiedy jednak weźmiemy pod uwagę konkretne funkcje, to jeden z warunków — warunek (4tp) — jest notorycznie niemonotoniczny. Ponadto wszystkie warunki nie spełniają wówczas własności łączenia konkluzji w koniunkcję, a stąd także wielu innych własności, które implikują (AND). Istnieją argumenty na rzecz tego, że jest to pożądany stan rzeczy. Ogólna opinia na ten temat nie jest jednak ustalona. Ostatecznie, chociaż nie zaprezentowaliśmy tego wyraźnie, to istnieje monotoniczna wersja probablistycznej konsekwencji, która może służyć jako naturalny stopień prowadzący do konsekwencji niemonotonicznej, w dość podobny sposób jak było w przypadku relacji jakościowych.
Ćwiczenia 1∗ . Pokaż, że każdy z warunków (2tp), (3tp), (5p) jest monotoniczny, jeśli zbiór wyjściowych przesłanek będzie się składał z pewnej formuły a. 2∗ . Pokaż, że żaden z warunków (1p), (2tp), (3tp), (5p) nie spełnia reguły (AND). 3. Pokaż, że dowolna relacja spełniająca (RW) (w uogólnionej formie, opisanej w tekście) spełnia (AND). 4. Pokaż, że dowolna nadklasyczna relacja spełniająca (CT) (w uogólnionej formie, opisanej w tekście) spełnia (AND). 5. Pokaż, że warunek (3tp) może zostać w sposób równoważny zapisany jako: p(a ∧ ¬x) 6 1 − t. Pokaż, że w zasadniczym przypadku, gdy p(a) , 0, (4tp) może również zostać zapisany jako p(a ∧ ¬x)/p(a) 6 1 − t.
5.4. Próby zbliżenia inferencji probabilistycznej i jakościowej Wyniki przedstawione w ostatnim podrozdziale nasuwają kolejne pytanie: czy jest jakiś sposób, aby przybliżyć do siebie podejście ilościowe i jakościowe? W szczególności, czy istnieje jakiś sposób takiego dostosowania tego pierwszego podejścia, aby generowane przez nie relacje konsekwencji zachowywały się bardziej regularnie, spełniając na przykład regułę (AND)? W literaturze można znaleźć kilka takich sposobów. Zarysujemy tutaj dwa z nich, dość różne od siebie. Pierwszy nie zmienia żadnych elementów koncepcji prawdopodobieństwa, pozostawiając ją w standardowej formie, zdefiniowanej przez Kołmogorowa. Stosuje ją natomiast w bardziej wyrafinowany sposób, który gwarantuje spełnianie (AND). Jest to tak zwane podejście przez ograniczone prawdopodobieństwo. Drugi ze sposobów modyfikuje samo pojęcie prawdopodobieństwa, zastępując je innym rodzajem funkcji
5.4. Próby zbliżenia inferencji probabilistycznej i jakościowej
135
w interwał [0, 1], w której, w skrócie, operacja maksimum przejmuje rolę odgrywaną tradycyjnie przez dodawanie. Podejście to zwane jest często podejściem za pomocą funkcji możliwości, ale również, dualnie, za pomocą funkcji konieczności lub funkcji wiarygodności (plausibility functions). W bieżącym podrozdziale naszkicujmy obydwa podejścia oraz rodzaje niemonotonicznych operacji, które one definiują. Ograniczone prawdopodobieństwo Podejście to opiera się na pomysłach pochodzących z prac Adamsa (1966; 1975). Systematycznie zostało ono opisane przez Pearla (1988; 1989) oraz Lehmanna i Magidora (1992). Ma ono dwa warianty: z zastosowaniem konstrukcji typu epsilon/delta oraz przy użyciu analizy niestandardowej, a więc infinitezymali. Różnią się one w pewnych aspektach. W szczególności w drugim z nich zachodzi nie-Hornowy warunek racjonalnej monotoniczności, podczas gdy w podejściu pierwszym nie jest on spełniony. Opiszemy tutaj podejście typu epsilon/delta. W celu uproszczenia rozważań zakładamy poniżej, że operujemy skończenie generowanym językiem boolowskim. Przedstawiona konstrukcja opiera się na dowolnej relacji R określonej na formułach boolowskich. Jej elementy (b, y) stanowią bazę dla naszej konstrukcji. Docelowo chcemy zdefiniować niemonotoniczną i nadklasyczną relację |zR , gdzie R ⊆ |zR . Ustalmy wyjściową relację R i niech ε będzie dowolną liczbą rzeczywistą z interwału [0, 1], różną od zera. Niech PRε będzie zbiorem funkcji prawdopodobieństwa p takich, że dla dowolnej pary (b, y) ∈ R, p(b) , 0 (pb jest więc dobrze określone) i pb (y) > 1 − ε. Mówiąc w skrócie, PRε jest zbiorem wszystkich tych funkcji prawdopodobieństwa, które każdemu elementowi R przyporządkowują warunkowe prawdopodobieństwo ε-bliskie jedynce. Zbiór ten moglibyśmy nazwać zbiorem funkcji prawdopodobieństwa, które są epsilonowo dobre dla R. Możemy teraz za pomocą poniższej reguły zdefiniować relację „konsekwencji ograniczonego prawdopodobieństwa” |zR : a |zR x wtedy i tylko wtedy, gdy dla dowolnego δ > 0 istnieje takie ε > 0, że dla każdej funkcji prawdopodobieństwa p ∈ PRε , jeśli pa jest dobrze określone, to pa (x) > 1 − δ. W rezultacie otrzymujemy: a |zR x wtedy i tylko wtedy, gdy warunkowe prawdopodobieństwo pa (x) może być dowolnie bliskie 1 poprzez dowolne warunkowe prawdopodobieństwa pb (y) bazowych par (b, y), odpowiednio bliskie 1. Użyliśmy przy znaku relacji górnego, a nie dolnego indeksu, aby uniknąć możliwości pomylenia jej z relacją zdefiniowaną za pomocą reguł domyślnych.
136
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
Z podanej definicji niemalże bezpośrednio wynika nadklasyczność każdej relacji |zR . Ponadto dla skończonych języków nie trudno jest pokazać, wykorzystując odpowiednie zależności arytmetyczne, że |zR spełnia łączenie konkluzji w koniunkcję, kumulatywną przechodniość, ostrożną monotoniczność oraz warunek łączenia przesłanek w alternatywę (dowody można znaleźć w pracy Makinsona (1994)). Dla nieskończonych języków uogólnione wersje trzech ostatnich reguł mogą nie zachodzić. Natomiast dla skończonych języków odwrotną zależność pokazali Adams (1975) oraz Lehmann i Magidor (1992), co może służyć jako twierdzenie o reprezentacji. Podsumowując, omówiona konstrukcja, zachowując prawdopodobieństwo, prowadzi do niemonotonicznych relacji konsekwencji, które w skończonych językach mają istotnie te same własności, co relacje wygenerowane w jakościowy sposób. Mówiąc precyzyjniej, dla takich języków prowadzi ona dokładnie do tych samych relacji konsekwencji, co zakorkowane modele preferencji (z kopiami). Funkcje możliwości Inny sposób opisania podejścia probabilistycznego, które zachowuje regułę łączenia konkluzji w koniunkcję oraz ogólnie zachowuje się tak, jak podejścia jakościowe, polega na modyfikacji postulatów Kołmogorowa. W aksjomatach definiujących funkcje prawdopodobieństwa dodawanie zastępuje się operacją maksimum. Tego typu funkcje nazywa się zwykle funkcjami możliwości, ponieważ są one pomyślane jako funkcje reprezentujące, w pewnym znaczeniu tego słowa, stopnie możliwości. Podejście to było badane w wielu publikacjach przez Duboisa, Pradę oraz współautorów, np. Dubois, Lang, Prade (1994), Dubois i Prade (2001). W celu uniknięcia pomyłki z funkcjami prawdopodobieństwa w zwykłym znaczeniu tego terminu, będziemy używali litery π zamiast p. Ponadto podkreślmy, że ponownie operować będziemy na języku skończonym. Funkcja możliwości może być zdefiniowana jako dowolna funkcja π określona na języku boolowskim z przeciwdziedziną w zbiorze liczb rzeczywistych, która spełnia następujące warunki: (π1) (π2) (π3) (π4)
0 6 π(x) 6 1 π(x) = 1, dla pewnej formuły x π(x) 6 π(y), o ile x ` y π(x ∨ y) = max(π(x), π(y)).
Nie jest to najbardziej oszczędna aksjomatyzacja, ujawnia ona jednak z całą mocą związki π ze zwykłym prawdopodobieństwem. Pierwsze trzy postulaty są takie same, jak postulaty (K1)–(K3) dla prawdopodobieństwa. Różnica pojawia się dopiero w postulacie ostatnim. Podczas gdy w teorii prawdopodobieństwa jest wy-
5.4. Próby zbliżenia inferencji probabilistycznej i jakościowej
137
magane, aby p(x ∨ y) było sumą p(x) oraz p(y), jeśli x jest klasycznie sprzeczne z y, to w definiowanych funkcjach π(x ∨ y) ma być elementem maksymalnym w zbiorze dwóch obiektów π(x) oraz π(y) bez dodatkowych założeń. Z pierwszych trzech aksjomatów wynika, że π(x) = 1, o ile x ∈ Cn(∅), podobnie jak w teorii prawdopodobieństwa. W połączeniu z π(4) wynika stąd jednak, iż dla dowolnej formuły π(x) = 1 lub π(¬x) = 1, co dość różni się od równości p(¬x) = 1 − p(x), która zachodzi dla prawdopodobieństwa. Podobnie jak w przypadku funkcji prawdopodobieństwa, mamy tu własność rozszerzenia bazującą na opisach stanu. Niech f będzie dowolną funkcją określoną na opisach stanu w L z przeciwdziedziną [0, 1], taką że ich maksimum jest jedynką, tzn. f (s) = 1, dla co najmniej jednego opisu stanu s. Taką funkcję nazywamy dystrybucją możliwości. Wtedy f można rozszerzyć do funkcji możliwości π : L → [0, 1], spełniającej podane aksjomaty. Konstrukcja ta przypomina podejście probabilistyczne. Dla każdej niesprzecznej formuły x należy wziąć alternatywę s1 ∨ · · · ∨ sk wszystkich opisów stanu, które ją klasycznie implikują i zdefiniować π(x) = max( f (s1 ), …, f (sk )). Jeśli x jest sprzeczne, bierzemy π(x) = 0. Łatwo sprawdzić, że otrzymane π jest funkcją możliwości, i że dowolna funkcja możliwości określona na L, która zgadza się z f na opisach stanu, jest identyczna z π, nie licząc wartości przypisywanej przez nią kontrtautologiom (po zastąpieniu (K4) przez (π4) nie muszą być one zerem). Rozszerzenie jest więc „niemalże jedno”. Zdefiniujemy teraz relacje konsekwencji określone przez funkcje możliwości. Dla dowolnej funkcji możliwości π, definiujemy relację |zπ za pomocą reguły: a |zπ x wtedy i tylko wtedy, gdy π(a ∧ ¬x) < π(a ∧ x) lub, w granicznym przypadku, ¬a ∈ Cn(∅). Równoważnie, poprzez własności π oraz przeciwzwrotność relacji <: a |zπ x wtedy i tylko wtedy, gdy π(a ∧ ¬x) < π(a) lub, w granicznym przypadku, ¬a ∈ Cn(∅). Na gruncie tej definicji nie jest trudno sprawdzić, że każda relacja |zπ jest nadklasyczna, a dla skończonych języków spełnia łączenie konkluzji w koniunkcję, kumulatywną przechodniość, ostrożną monotoniczność, łączenie przesłanek w alternatywę oraz nie-Hornową regułę racjonalnej monotoniczności. Także tutaj można dowieść odwrotnej zależności, służącej jako twierdzenie o reprezentacji. Chociaż definicja funkcji możliwości wydaje się ilościowa, to po krótkim zastanowieniu się stwierdzimy, że ma charakter jakościowy, nie stosujemy w niej bowiem żadnych operacji arytmetycznych, takich jak dodawanie czy mnożenie. Zamiast tego używamy dwuargumentowej operacji maksimum, która ma sens
138
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
w dowolnym łańcuchu. Również obecność liczby 1 nie jest konieczna: potrzebujemy tylko tego, aby łańcuch miał element największy, który będzie stanowił wartość dla tautologii. Rezultat zawsze będzie ten sam, otrzymamy dokładnie tę samą relację konsekwencji |zπ . Po ominięciu problemów o charakterze liczbowym, możemy zauważyć, że opisane podejście jest treściowo identyczne z podejściem jakościowym, nazywanym inferencją porównywanych oczekiwań, które jest wariantem konsekwencji założeń domyślnych (opisaliśmy je w podrozdziale 2.3). Załóżmy, że mamy funkcję możliwości π określoną na języku boolowskim z pewnym łańcuchem jako przeciwdziedziną i „odwracamy ją”. To znaczy załóżmy, że definiujemy funkcję σ na tym samym języku za pomocą warunku σ(a) = π(¬a), równocześnie odwracając porządek tego łańcucha. Wtedy homomorfizm alternatywy z uwagi na operację max staje się homomorfizmem koniunkcji z uwagi na operację min. Inaczej mówiąc, σ(x ∧ y) = π(¬(x ∧ y)) = π(¬x ∨ ¬y) = max(π(¬x), π(¬y)) = min(σ(x), σ(y)), gdzie maksymalność jest rozumiana ze względu na wyjściowy łańcuch <, a minimalność ze względu na jego konwers, który zapisujemy jako <0 . Zaczyna to wyglądać znajomo. Dla pełnego obrazu zdefiniujmy relację <00 pomiędzy boolowskimi formułami, kładąc x <00 y wtedy i tylko wtedy, gdy σ(x) <0 σ(y). Relacja <00 spełnia warunek: jeśli x <00 y oraz x <00 z, to x <00 y ∧ z, który stanowi ważną własność inferencji porównywanych oczekiwań, opisaną w podrozdziale 2.3. Jeśli bowiem x <00 y oraz x <00 z, to z definicji σ(x) <0 σ(y) oraz σ(x) <0 σ(z), więc σ(x) <0 min(σ(y), σ(z)) = σ(y ∧ z), i stąd, ponownie poprzez definicję, x <00 y ∧ z. Faktycznie, wszystkie własności wymagane przez relacje porównywanych oczekiwań pojawiają się po tej transformacji. Możemy pójść także w odwrotnym kierunku, przekształcając dowolną relację oczekiwań w jakościową funkcję możliwości. Definicja relacji inferencji możliwości |zπ za pomocą reguły: a |zπ x wtedy i tylko wtedy, gdy π(a ∧ ¬x) < π(a) lub ¬a ∈ Cn(∅), staje się w tej transformacji równoważna relacji porównywanych oczekiwań z podrozdziału 2.3. W zasadniczym przypadku, a |zπ x wtedy i tylko wtedy, gdy π(a ∧ ¬x) < π(a) wtedy i tylko wtedy, gdy σ(¬a ∨ x) < σ(¬a) wtedy i tylko wtedy, gdy σ(¬a) <0 σ(¬a ∨ x) wtedy i tylko wtedy, gdy ¬a <00 ¬a ∨ x. Otrzymujemy zatem a |zπ x wtedy i tylko wtedy, gdy ¬a <00 ¬a ∨ x lub ¬a ∈ Cn(∅). Jak zauważyliśmy w podrozdziale 2.3, nie jest trudno sprawdzić, wykorzystując warunki nałożone na relacje porównywanych oczekiwań, że to ostatnie zachodzi wtedy i tylko wtedy, gdy x ∈ Cn({a} ∪ {y : ¬a <00 y}), co stanowi definicję inferencji porównywanych oczekiwań. Istnieje również możliwość powiązania funkcji możliwości z modularnymi modelami preferencji. Mając skończony, modularny model preferencji, mogli-
5.4. Próby zbliżenia inferencji probabilistycznej i jakościowej
139
byśmy zdefiniować na formułach funkcję π biorąc za π(a) najmniejszą pozycję dowolnego stanu w modelu preferencji, który spełnia a (w wypadku, gdy żaden nie spełnia a, bierzemy górną pozycję). Zdefiniowana funkcja π będzie funkcją możliwości, we wcześniej wskazanym abstrakcyjnym sensie, w łańcuch, który jest konwersem modularnego porządku. I na odwrót, mając model z funkcjami możliwości, możemy zbudować równoważny modularny model preferencji. Oczywiście łatwo jest zagubić się w szczegółach tego powiązania. Należy pamiętać, że kiedy przechodzimy od funkcji prawdopodobieństwa do funkcji możliwości, zastępując dodawanie maksimum, liczbowa reprezentacja staje się zbędna i jedyne co nas interesuje, to łańcuch z największym elementem. Uzyskane funkcje są homomorficzne z uwagi na alternatywę, możemy je jednak równoważnie zastąpić funkcjami w łańcuch o odwróconym porządku, które są homomorficzne z uwagi na koniunkcję. Dają one w rezultacie jakościowe pojęcie łańcucha oczekiwań i związane z nim relacje inferencji. O dalszych zagadnieniach dotyczących zastosowania funkcji możliwości do generowania relacji konsekwencji można przeczytać w podrozdziale 4.2 pracy Makinsona (1994). Są one tam przedstawione jako „odwrócone” funkcje σ homomorficzne dla koniunkcji ze względu na funkcję min i nazywane „funkcjami wiarygodności”. Na temat prezentacji problemu za pomocą funkcji π warto zajrzeć do prac: Benferhat, Dubois, Prade (1997), Dubois, Lang, Prade (1994), oraz Dubois i Prade (2001). Inne problemy dotyczące logiki i prawdopodobieństwa Granica pomiędzy logiką i prawdopodobieństwem jest długa i posiada wiele punktów przecięcia. Zatrzymaliśmy się na jednym z nich, bezpośrednio związanym z naszym głównym tematem: jak zastosować pojęcie prawdopodobieństwa, aby scharakteryzować klasyczną i nadklasyczne relacje konsekwencji — zarówno monotoniczne, jak i niemonotoniczne? Należy dodać, że problemy tu poruszane nie należą do najczęściej dyskutowanych w badaniach nad powiązaniami pomiędzy prawdopodobieństwem i logiką. Obecnie rozważa się natomiast następujące trzy główne problemy. • Najbardziej dyskutowane zagadnienie dotyczy tego, czy teoria prawdopodobieństwa daje się, w pewnym matematycznym lub filozoficznym sensie, zredukować do logiki. W szczególności, czy postulaty Kołmogorowa mogą posiadać pewnego rodzaju czysto logiczne uzasadnienie, być może dostarczając logicznego znaczenia pojęciu prawdopodobieństwa. Interesująca jest tu również kwestia, czy można wykorzystać czysto logiczne rozważania do znalezienia w dziedzinie wszystkich możliwych funkcji dystrybucji prawdopodobieństwa tej funkcji, która odgrywa specjalną rolę. Nie zajmowaliśmy się tymi problemami i jak czy-
140
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
telnik być może podejrzewa, jesteśmy sceptyczni co do szans sukcesu takiego przedsięwzięcia. Wprowadzenie do tych problemów znajduje się na przykład w pracach Williamsona (2002) oraz Howsona (2003). • I na odwrót, pewni autorzy postawili pytanie, czy pojęcie logicznej konsekwencji może zostać zredukowane do teorii prawdopodobieństwa z jednoczesnym uniknięciem kolistości, o której wzmiankowaliśmy na początku podrozdziału 5.2. Nie omawialiśmy szczegółowo tej kwestii i jesteśmy tu nawet bardziej sceptyczni niż przed chwilą. • Na końcu warto powiedzieć o problemie wyjaśnienia grupy pojęć i koncepcji, które są usytuowane na granicy pomiędzy logiką, prawdopodobieństwem i filozofią nauki, takich jak: konfirmacja, indukcja i abdukcja. Wprowadzenie do niektórych z nich znajduje się np. w pracy Skyrmsa (1999).
Ćwiczenia 1∗ . Pokaż, że dla dowolnej formuły x i dowolnej funkcji możliwości π, π(x) = 1 lub π(¬x) = 1. 2∗ . Pokaż, że obydwie definicje relacji inferencji możliwości są równoważne. 3. Pokaż, że każda relacja inferencji możliwości jest nadklasyczna, a dla skończonych języków spełnia również łączenie konkluzji w koniunkcję, kumulatywną przechodniość, ostrożną monotoniczność, łączenie przesłanek w alternatywę oraz nie-Hornową regułę racjonalnej monotoniczności.
Problem Pokaż, że każda relacja konsekwencji „ograniczonego prawdopodobieństwa” jest nadklasyczna, a dla skończonych języków spełnia również łączenie konkluzji w koniunkcję, kumulatywną przechodniość, ostrożną monotoniczność oraz łączenie przesłanek w alternatywę.
Projekty 1. Korzystając z odniesień zawartych w tym podrozdziale, przestudiuj konstrukcje niemonotonicznych relacji inferencji „ograniczonego prawdopodobieństwa” oraz „infinitezymalnego prawdopodobieństwa”, a następnie napisz raport. Uwaga: Projekt ten wymaga wprawy zarówno w podejściu typu epsilon/delta, jak i w analizie niestandardowej.
5.5. Powtórzenie materiału i dalsze poszukiwania
141
2. Korzystając z odniesień zawartych w tym podrozdziale, przestudiuj podejście do logiki niemonotonicznej przez „funkcje możliwości”, a następnie napisz raport.
5.5. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Pomiędzy konsekwencją klasyczną, prawdopodobieństwem i konsekwencją niemonotoniczną istnieją głębokie związki. Rozpocznijmy od tego, że konsekwencja klasyczna może być charakteryzowana za pomocą prawdopodobieństwa na pół tuzina sposobów. Przyjmując konkretne funkcje prawdopodobieństwa zamiast kwantyfikowania po nich, możemy również zdefiniować nadklasyczne relacje konsekwencji. Wiele z tych relacji jest monotonicznych, ale najbardziej interesująca, zdefiniowana przez warunkowe prawdopodobieństwo, jest jawnie niemonotoniczna. Wszystkie one nie spełniają reguły łączenia konkluzji w koniunkcję, czyli posiadają cechę, która może uchodzić za złą w oczach logika, ale dobrą w opinii epistemologa. Na wiele sposobów daje się jednak to zmienić, uzyskując ich bardziej regularne zachowanie, podobne do podejść jakościowych. Jednym ze sposobów jest ograniczone prawdopodobieństwo (lub podejście przez infinitezymalia). Kolejny sposób polega na przedefiniowaniu funkcji prawdopodobieństwa w inne funkcje, zwane często „funkcjami możliwości”, w których dodawanie zastępuje operacja max. Pomimo oparcia na liczbach oraz podobieństwa ich definicji do definicji funkcji prawdopodobieństwa, funkcje możliwości mają naturę jakościową. Lista sprawdzająca znajomość pojęć i definicji Podrozdział 5.1. Postulaty Kołmogorowa dla prawdopodobieństwa, opisy stanu, własność jedynego rozszerzenia dla boolowskich przyporządkowań, własność jedynego rozszerzenia dla probabilistycznych dystrybucji, warunkowe prawdopodobieństwo Bayesa, warunkowe prawdopodobieństwo Jeffreya, własność PC=CP, twierdzenie Lewisa o niemożliwości. Podrozdział 5.2. Pięć probabilistycznych warunków charakteryzujących klasyczną konsekwencję, progi lub wartości progowe, rola kwantyfikacji. Podrozdział 5.3. Warunki prawdopodobieństwa z ustaloną funkcją, niemonotoniczne i monotoniczne relacje przez nie generowane, niezachodzenie (AND) oraz związanych z nią własności, paradoks loterii, paradoks przedmowy, wystarczające prawdopodobieństwo vs zwiększające się prawdopo-
142
Rozdział 5. Związki pomiędzy inferencją niemonotoniczną i probabilistyczną
dobieństwo. Podrozdział 5.4. Epsilonowo-dobre funkcje prawdopodobieństwa, epsilon/delta relacje konsekwencji, funkcje możliwości, relacje konsekwencji oparte na funkcjach możliwości, związki z inferencją porównywanych oczekiwań.
Dalsze lektury • Benferhat S., Dubois D., Prade H., Nonmonotonic reasoning, conditional objects and possibility theory, Artificial Intelligence, 92, 1997, s. 259–276. • Kyburg H.E., Choh Man Teng, Uncertain Inference, Cambridge University Press, Cambridge 2001. W szczególności rozdziały 3, 5, 6. • Makinson D., General Patterns in Nonmonotonic Reasoning, w: Handbook of Logic in Artificial Intelligence and Logic Programming, Tom. 3, red. Gabbay, Hogger i Robinson, Oxford University Press, 1994, s. 35–110. W szczególności punkty 3.5 i 4.2. • Pearl J., Probabilistic semantics for nonmonotonic reasoning: a survey, w: Proceedings of the First International Conference on Principles of Knowledge Representation and Reasoning, KR’89, red. Brachman i inni, Morgan Kaufmann, San Mateo CA 1989, s. 505–515.
Rozdział 6
Krótkie porównanie
Podczas pracy z książką niektórzy czytelnicy mogli zauważyć pewne podobieństwo pomiędzy rozumowaniami niemonotonicznymi i pewnymi innymi dziedzinami logiki, które studiowali wcześniej. I rzeczywiście, istnieją tutaj bliskie związki z logikami zmiany przekonań, aktualizacji przekonań, kontrfaktycznych okresów warunkowych czy dyrektywalnych okresów warunkowych — dziedzinami, które również rozwinęły się w ostatnim ćwierćwieczu, pewne jeszcze przed, inne zaś po powstaniu logiki niemonotonicznej. Wspomniane podobieństwa pojawiają się na dwóch poziomach. Na poziomie syntaktycznym ujawniają się one we własnościach generowanych operacji logicznych, zaś na poziomie semantycznym są obecne w różnorakich sposobach wytwarzania tych operacji. Jednocześnie jest między nimi wiele różnic. Niektóre z nich są błahe, na przykład mają jedynie notacyjny charakter. Inne zaś mają charakter okolicznościowy w tym sensie, że odzwierciedlają opcje, które mogłyby wystąpić w dowolnej dziedzinie, ale ze względów historycznych wystąpiły raczej tu niż gdzieś indziej. W pierwszych dwóch podrozdziałach tego rozdziału zarysujemy pewne podobieństwa oraz różnice. Nacisk położymy jednak na sposoby wytwarzania operacji konsekwencji, chociaż wspomnimy również o syntaktycznych warunkach, do których one prowadzą. W trzecim podrozdziale dokonamy przeglądu twierdzeń o reprezentacji. Będzie on dotyczył zarówno logik paraklasycznych (łącząc wiadomości z poprzednich rozdziałów) oraz ich niemonotonicznych odpowiedników.
6.1. Związki z logiką zmiany przekonań Prawdopodobnie najbliższe związki łączą logiki niemonotoniczne z logiką (lub teorią) zmiany przekonań, która bada sposoby zmiany przekonań pod wpływem nowej wiedzy. Rozważa się tutaj trzy rodzaje takich sposobów: ekspansję, kontrakcję oraz rewizję. Zacznijmy od najprostszego pojęcia, czyli ekspansji. Niech K będzie dowolnym zbiorem formuł boolowskich, reprezentującym zbiór przekonań, i niech a
144
Rozdział 6. Krótkie porównanie
będzie dowolną formułą. Przez ekspansję zbioru K o formułę a, co często jest zapisywane jako K + a, rozumiemy zbiór wszystkich konsekwencji K oraz a rozważanych razem, tzn. Cn(K∪{a}), gdzie Cn jest konsekwencją klasyczną. Operacja ta jest w pełni określona, tzn. dla dowolnych K i a zbiór K + a jest wyznaczony jednoznacznie. W szczególności na mocy własności konsekwencji klasycznej, jeśli zbiór K jest sprzeczny z a, to K + a = L, gdzie L jest zbiorem wszystkich formuł języka. Kontrakcja (contraction), na odwrót, polega na usunięciu zdania a ze zbioru K w taki sposób, że wynik tego działania K − a nie implikuje dalej formuły a — chyba, że a jest tautologią, co oznaczałoby, że wynika także z pustego zbioru przesłanek. Częścią koncepcji kontrakcji jest przeświadczenie, że zbiór K nie powinien być niepotrzebnie zubażany lub modyfikowany. Nazywane jest ono zasadą minimalnej modyfikacji (minimal multilation). Systematyczne zmniejszanie danego zbioru aż do zbioru pustego bądź zbioru tautologii nie jest więc traktowane jako działanie rozsądne. Z kolei rewizja (revision) polega na dodawaniu nowych zdań do zbioru przekonań K w taki sposób, że wynik K ∗ a zawiera formułę a oraz jest niesprzeczny, chyba że a samo jest wewnętrznie sprzeczne, wtedy oczywiście powstaje sprzeczność, nawet gdy zbiór K jest niesprzeczny. Częścią koncepcji rewizji jest postulat, że rewizja nie powinna wnosić zbyt dużo z formułą a, ale również nie powinna powodować odrzucenia zbyt dużej ilości przekonań, aby utrzymać niesprzeczność. Jak wcześniej jest to związane z zasadą minimalnej modyfikacji. W przeciwieństwie do ekspansji, obydwa pozostałe działania nie są w pełni określone przez wzmiankowane pojęcia. Przy danym zbiorze K, formule a oraz bazowej operacji konsekwencji klasycznej operacje kontrakcji i rewizji nie są więc jednoznacznie określone. Może istnieć wiele rozsądnych sposobów uporządkowania przekonań, aby pewne zdanie już z nich nie wynikało, oraz wiele sposobów takiego dostosowania K, żeby dodanie zdania zachowało niesprzeczność. Stąd też logika zmiany przekonań napotyka na trzy główne problemy, będące echem podobnych zagadnień dotyczących logiki niemonotonicznej, postawionych w rozdziale 1: • Czy istnieją — biorąc pod uwagę niedookreślenie pojęć kontrakcji i rewizji — jakieś syntaktyczne warunki, które powinny one zawsze spełniać, albo — przynajmniej — które z warunków wzbudzających zainteresowanie zasługują na uznanie za cenne? • Czy istnieją jakieś szczególnie interesujące sposoby tworzenia operacji zmiany przekonań, to jest sposoby tworzenia semantyki?
6.1. Związki z logiką zmiany przekonań
145
• Czy potrafimy spośród wielu możliwych do wygenerowania operacji kontrakcji oraz rewizji, spełniających rozsądne własności, wyodrębnić takie dwie, które skłonni bylibyśmy uznać za „poprawne”? Odpowiedzi na te pytania brzmią podobnie. Nie ma jedynej operacji kontrakcji lub rewizji, która byłaby „poprawna” lub choćby odpowiednia we wszystkich sytuacjach. Do szczególnych celów można wytypować pewne specyficzne operacje. Zależy to od rodzaju sytuacji i ogólnie nie może zostać opisane w sposób czysto formalny. Z drugiej strony istnieje wiele ciekawych warunków, które można nałożyć na operacje zmiany przekonań, a nawet uznać za konstrukcje rozsądne, przynajmniej tak długo, dopóki nie zmienimy poglądu na ich temat. Istnieje także kilka sposobów generowania takich operacji, z których każdy dopuszcza wiele wariantów. Procesy kontrakcji i rewizji nie są niezależne. Dopuszczalne jest traktowanie rewizji jako procesu złożonego z kontrakcji oraz ekspansji. Mając zbiór przekonań K oraz zdanie a, które chcielibyśmy do niego dodać, po pierwsze eliminujemy z K całą zawartość, która jest sprzeczna z a, a następnie dołączamy a. Inaczej rzecz biorąc, definiujemy: K ∗ a = (K − ¬a) + a, a więc Cn((K − ¬a) ∪ {a}). Definicja ta jest znana — od nazwiska jej pomysłodawcy, filozofa Izaaka Leviego — jako identyczność Leviego. Jako konceptualna baza została ona przejęta przez Alchourróna, Gärdenforsa oraz Makinsona (1985), którzy rozwinęli teorię kontrakcji, a następnie zbadali ten rodzaj rewizji przekonań, który jest wyznaczony przez identyczność Leviego. Odwrotnie, chociaż w sposób mniej intuicyjny, kiedy zbiór K jest domknięty na konsekwencję klasyczną, wówczas kontrakcję można określić za pomocą następującej reguły: (K − a) = K ∩ (K ∗ ¬a). Inaczej mówiąc, dane zdanie zostaje zachowane po dokonaniu kontrakcji zdania a ze zbiorem K wtedy i tylko wtedy, gdy należy ono do K oraz do rezultatu rewizji K z uwagi na ¬a. Definicja ta jest znana jako identyczność Harpera, ponieważ zaproponował ją filozof Wiliam Harper. Z dwóch podanych operacji, najbardziej bezpośrednio związana z niemonotonicznymi konsekwencjami jest rewizja i z tego powodu w niniejszym podrozdziale skoncentrujemy się właśnie na niej. Rewizja jest dwuargumentową operacją K ∗ a, podczas gdy konsekwencja, traktowana jako operacja, ma tylko jeden argument. Jest jednak oczywiste, że z dowolnej dwuelementowej operacji możemy utworzyć operację jednoargumentową, zamieniając lewy bądź prawy argument w parametr. Możemy rozważyć więc rodzinę operacji ∗a (K) rewizji za pomocą K, modulo a, a także rodzinę operacji ∗K (a) rewizji za pomocą a, modulo K, zdefiniowane jak następuje: ∗a (K) = ∗K (a) = K ∗ a. Jeśli operacje ∗a (K) rewizji K, modulo a zinterpretujemy w paradygmacie AGM, czyli Alchourróna, Gärdenforsa oraz Makinsona (omówimy go dalej), to
146
Rozdział 6. Krótkie porównanie
nie są one monotoniczne, ale gdy odczytamy je w modelu aktualizacji przekonań Katsuno/Mendelzona, staną się monotoniczne (zajmiemy się tym w następnym podrozdziale). Posiadają one jednak dużo bardziej uderzającą cechę: nie spełniają warunku inkluzji, nie zawsze jest bowiem tak, że: K ⊆ ∗a (K), ponieważ warunek K ⊆ K ∗ a może nie zachodzić. Istotnie, zgodnie z zarysowaną tu strategią dla operacji rewizji, inkluzja ta musi być fałszywa, jeśli a jest sprzeczne z K, chociaż samo jest niesprzeczne, gdyż ze zbioru K trzeba coś usunąć, aby zachować niesprzeczność. W świetle tego lewostronna forma ∗a operacji rewizji niemalże w ogóle nie może być nazywana inferencją. Z drugiej strony, jak pierwszy raz zaobserwowali to Makinson i Gärdenfors, prawostronna forma ∗K (a) operacji rewizji przekonań K ∗ a, którą nazwalibyśmy operacją rewizji ze względu na a (modulo K), może być traktowana jako operacja konsekwencji. Także operacje konsekwencji spełniające odpowiednie warunki mogą być postrzegane jako funkcje rewizji. W celu prezentacji tego, krok po kroku rozważymy postulaty AGM dla operacji rewizji, sformułowane przez Alchourróna, Gärdenforsa oraz Makinsona (1985). Zaczniemy od „postulatów podstawowych”: (K ∗ 1) (K ∗ 2) (K ∗ 3) (K ∗ 4) (K ∗ 5) (K ∗ 6)
K ∗ a = Cn(K ∗ a) a∈ K∗a K ∗ a ⊆ Cn(K ∪ {a}) Jeśli ¬a < Cn(K), to Cn(K ∪ {a}) ⊆ K ∗ a Jeśli Cn(a) , L, to K ∗ a , L Jeśli Cn(a) = Cn(b), to K ∗ a = K ∗ b.
Przejdziemy teraz do tak zwanych „postulatów pomocniczych”: (K ∗ 7) (K ∗ 8)
K ∗ (a ∧ b) ⊆ Cn((K ∗ a) ∪ {b}) Jeśli ¬b < K ∗ a, to Cn((K ∗ a) ∪ {b}) ⊆ K ∗ (a ∧ b).
Spróbujemy teraz wyrazić podane postulaty używając prawostronnej formy rewizji ∗K (a) w miejscu dwuargumentowych funkcji K ∗ a. Ponieważ indeks K w zapisie ∗K nie różni się w żadnym z postulatów, możemy więc go pominąć i uprościć notację. Dodatkowo, aby uwypuklić wizualne podobieństwo z inferencją niemonotoniczną, zamiast ∗ będziemy pisać C. Wówczas powyższe postulaty dla rewizji przekonań zamienią się w następujące warunki dla operacji C: (C1) (C2) (C3) (C4)
C(a) = Cn(C(a)) a ∈ C(a) C(a) ⊆ Cn(K ∪ {a}) Jeśli ¬a < Cn(K), to Cn(K ∪ {a}) ⊆ C(a)
6.1. Związki z logiką zmiany przekonań
(C5)
Jeśli Cn(a) , L, to C(a) , L
(C6)
Jeśli Cn(a) = Cn(b), to C(a) = C(b).
147
„Postulaty pomocnicze” przybierają zaś postać: (C7)
C(a ∧ b) ⊆ Cn(C(a) ∪ {b})
(C8)
Jeśli ¬b < C(a), to Cn(C(a) ∪ {b}) ⊆ C(a ∧ b).
Postulaty (C3), (C4) wciąż posiadają parametr K. Możemy go wyeliminować utożsamiając zbiór K z C(∅), tak żeby przyjęły postać: (C3)
C(a) ⊆ Cn(C(∅) ∪ {a})
(C4)
Jeśli ¬a < Cn(C(∅)), to Cn(C(∅) ∪ {a}) ⊆ C(a).
Wszystkie powyższe własności spotykamy w przypadku niemonotonicznych operacji konsekwencji. Niektóre z nich zostały już nawet sformułowane wprost w poprzednich rozdziałach, w relacyjnej lub operacyjnej notacji, zachodząc dla pewnych lub wszystkich z opisanych operacji. Dla przykładu (C2) jest po prostu warunkiem inkluzji (zwrotności) dla jednoelementowego zbioru przesłanek, a (C6) stanowi warunek lewostronnej klasycznej równoważności. Pozostałe przypadki są prostymi wnioskami z warunków, które sformułowaliśmy explicite. Np. (C1) jest bezpośrednią konsekwencją (przy zastosowaniu zwartości klasycznej konsekwencji) reguły łączenia konkluzji w koniunkcję (AND) oraz prawostronnego osłabiania. To podobieństwo jest również bliskie na poziomie semantycznym. Literatura opisuje różne sposoby generowania operacji rewizji, które spełniają postulaty AGM i każdy z nich przypomina (choć nie we wszystkich szczegółach) jeden ze sposobów rozważanych przez nas w kontekście niemonotonicznych relacji konsekwencji. Wiele z nich odzwierciedla procedury opisane w rozdziale 2 dla konsekwencji założeń domyślnych. Po części jest tak z tego powodu, że sposób ten sam naturalnie nadaje się do konstrukcji kontrakcji, która odgrywa pierwotną rolę w podejściu AGM do opisu zmiany przekonań. Niektóre z prezentacji podanych w literaturze nawiązują bezpośrednio do procedur wartościowań domyślnych, opisanych w rozdziale 3. Według wiedzy autora, żaden z nich nie odpowiada jednak sposobom generowania operacji reguł domyślnych. Z matematycznego punktu widzenia nie ma dla tego żadnych przeciwskazań, ale droga ta nie jest jeszcze zbadana. Opiszemy teraz tylko jedną konstrukcję zmiany przekonań, porównując ją z jej odpowiednikiem opartym na operacji konsekwencji. W terminologii Alchourróna, Gärdenforsa oraz Makinsona (1985) jest ona nazywana rewizją przez częściowe przecięcie (partial meet revision).
148
Rozdział 6. Krótkie porównanie
Niech K będzie dowolnym zbiorem formuł boolowskich, reprezentującym zbiór przekonań (domkniętym na klasyczną konsekwencję lub też nie). Dla dowolnej formuły a, niech Ka będzie rodziną wszystkich podzbiorów K 0 ⊆ K, które są maksymalnie niesprzeczne z a. Niech δ będzie dowolną funkcją selekcji, która przyporządkowuje każdemu zbiorowi Ka podrodzinę δ(Ka ) ⊆ Ka . Załóżmy, że δ(Ka ) jest niepusty, jeśli Ka jest niepusty. Dla każdej takiej struktury poniższą regułą definiujemy operację rewizji ∗, która jako swój lewy argument ma zbiór K: T • K ∗ a = Cn( δ(Ka ) ∪ {a}). Inaczej mówiąc: T • K ∗ a = Cn( {K 0 : K 0 ∈ δ(Ka )} ∪ {a}). Definicja ta jest bardzo bliska pojęciu konsekwencji via funkcja selekcji, o którym wspomnieliśmy krótko w podrozdziale 2.3. Dla jednoelementowego zbioru przesłanek A = {a} mamy bowiem: T • C K (a) = {Cn(K 0 ∪ {a}) : K 0 ∈ δ(Ka )}. Prawa strona jest w obydwu definicjach prawie taka sama. Prawie, ale nie dokładnie taka sama! Dla potrzeb rewizji najpierw przecinamy maksymalne a-niesprzeczne podzbiory, a następnie rozszerzamy je o a. Dla potrzeb relacji konsekwencji postępujemy w porządku odwrotnym. Najpierw bierzemy wszystkie maksymalne a-niesprzeczne podzbiory, rozszerzamy je o a, a następnie przecinamy wyniki. Łatwo sprawdzić, że wynik zastosowania wcześniejszej definicji jest podzbiorem wyniku późniejszej: T T Cn( δ(Ka ) ∪ {a}) ⊆ {Cn(K 0 ∪ {a}) : K 0 ∈ δ(Ka )}. Ponadto łatwo pokazać, że inkluzja odwrotna zachodzi, jeśli K = Cn(K). Dla zbioru przekonań K, który nie jest domknięty na klasyczną konsekwencję, inkluzja odwrotna może jednak nie zachodzić. Skąd bierze się ta różnica? U jej podstaw leży konceptualna baza obydwu dziedzin. W przypadku rewizji przekonań podejście AGM przyjmuje kontrakcję jako podstawowe pojęcie, definiując za jego pomocą rewizję. Kontrakcja częściowego przecięcia jest zdefiniowana za pomocą reguły: T T • K − x = δ(K¬x ) = {K 0 : K 0 ∈ δ(K¬x )} zatem rewizja może być wyrażona w terminach kontrakcji następująco: T • K ∗ a = Cn((K − ¬a) ∪ {a}) = Cn( {K 0 : K 0 ∈ δ(Ka )} ∪ {a}). W przypadku inferencji niemonotonicznej nie używa się żadnego podstawowego pojęcia kontakcji, należy więc użyć innej definicji. Kiedy nasza uwaga jest
6.1. Związki z logiką zmiany przekonań
149
skoncentrowana na zbiorze przekonań (lub inaczej na zbiorze założeń w tle) domkniętym na Cn (wówczas obydwie definicje są równoważne), to różnica nie jest zazwyczaj uwypuklana, chociaż jest widoczna dla osób zainteresowanych przedmiotem. Istotną cechą postulatów AGM dla rewizji, o której wspomnieliśmy wcześniej, jest to, że żaden z nich nie zawiera więcej niż jeden zbiór przekonań K. Chociaż mówią więc one trochę na temat relacji pomiędzy K ∗ a oraz K ∗ b, gdzie a i b są różnymi zdaniami, to jednak nic na temat związku pomiędzy K ∗a oraz J ∗a, gdzie K oraz J są różnymi zbiorami przekonań. W szczególności nie dowiadujemy się więc niczego o iterowaniu rewizji przekonań, czyli dokonywaniu rewizji wyniku wcześniejszej rewizji. Podejście AGM może więc być nazwane prostą teorią rewizji, w punkcie wyjścia nie ma bowiem wielu informacji na temat iteracji. Przykładowo, podstawowe postulaty implikują, że (K ∗ a) ∗ a = K ∗ a, wnosi to jednak niewiele, choć naturalnie skłania to do poszukiwania teorii mówiącej o iteracji — dlatego też dziedzina ta jest mocno badana. Chociaż jednak w jej obrębie jest wiele propozycji, to nie ma ustalonego konsensusu.
Ćwiczenia 1∗ . W tekście powiedziano, że rewizja może być traktowana jako proces złożony z kontrakcji oraz ekspansji. Dlaczego najpierw kontrakcji, a potem ekspansji? 2. Przełóż każdy z postulatów AGM na notację relacyjną. 3. Dla każdego z postulatów AGM wyprowadź jego translację w języku relacji/operacji konsekwencji z warunków, które były dyskutowane w poprzednich rozdziałach. 4. Wyraź warunek racjonalnej monotoniczności jako zasadę dotyczącą rewizji przekonań, a następnie dowiedź jej na podstawie rozszerzonego zbioru postulatów AGM. 5∗ . Pokaż, że podstawowe postulaty AGM implikują równość (K ∗ a) ∗ a = K ∗ a.
Problemy T T 1. Pokaż, że inkluzja Cn( δ(Ka ) ∪ {a}) ⊆ {Cn(K 0 ∪ {a}) : K 0 ∈ δ(Ka )} zawsze zachodzi. 2. Pokaż, że konwers tej inkluzji również zachodzi, gdy K = Cn(K). 3. Podaj mały, skończony kontrprzykład dla tego konwersu w przypadku, gdy K , Cn(K).
150
Rozdział 6. Krótkie porównanie
6.2. Związki z logiką aktualizacji przekonań oraz logikami kontrfaktycznych i dyrektywalnych okresów warunkowych Powiązania pomiędzy logiką niemonotoniczną a innymi dziedzinami nie kończą się na logice zmiany przekonań. Jest wiele innych dziedzin, w których się one przejawiają. Spośród nich warto wspomnieć o logice aktualizacji przekonań, logice kontrfaktycznych oraz dyrektywalnych okresów warunkowych. W niniejszym podrozdziale zarysujemy właśnie ich główne punkty styczne. W każdej z tych dziedzin dana logika jest rozważana wraz z pewną szczególną intuicyjną interpretacją, która odzwierciedla rozumowania przeprowadzane przez ludzi. Na formalnym poziomie mamy jednak do czynienia z podejściem syntaktycznym i semantycznym. Aparat semantyczny jest zwykle tak samo ogólny, jak różnego rodzaju operacje domyślnych wartościowań, które opisywaliśmy w podrozdziałach 3.2 i 3.3. W każdym przypadku modelowanie zawiera zbiór stanów oraz porządkującą relację (lub rodzinę relacji) i ewentualnie inne elementy (jak na przykład dodatkowe relacje). Ponadto rozważane pojęcie konsekwencji jest scharakteryzowane przez pewnego rodzaju warunek minimalności nałożony na relację (lub relacje). Z tego też powodu w pracy Makinsona (1993), autor odwołuje się do semantycznych konstrukcji, mówiąc o pięciu twarzach minimalności. Logika aktualizacji przekonań Powszechnie przyjęło się rozróżniać pomiędzy dokonywaniem rewizji zbioru przekonań a jego aktualizacją. Z intuicyjnego punktu widzenia, rewizja jest procesem zmiany zakresu naszych przekonań w oparciu o zmianę naszej wiedzy na temat pewnej kwestii lub dodatkowej pomocniczej informacji. Aktualizacja jest natomiast procesem zmiany przekonań pod kątem ich adekwatności w stosunku do zmian, które zaszły w świecie. Różnice pomiędzy obydwoma podejściami zostały opisane w pracach Kellera oraz Winsletta Wilkinsa (1985). Następnie zostały one formalnie wymodelowane przez Katsuno i Mendelzona (1992), nosząc w efekcie nazwę podejścia KM. Podejście to stosuje konstrukcje oparte na minimalności. Niech S będzie dowolnym niepustym zbiorem, którego elementy nazywać będziemy stanami (lub, w terminologii autorów, „światami”). Rozważmy rodzinę relacji < s zdefiniowanych na S , po jednej dla każdego s ∈ S . Intuicyjnie rzecz biorąc, każda relacja < s z rodziny, porównuje dystans światów do s, a więc zapis t < s u mówi, że t jest bliżej s niż u. Mając taką interpretację na myśli, zwykle wymaga się, żeby < s była przeciwzwrotna, przechodnia i zakorkowana. Zazwyczaj rozważa się również warunek zwany słabym centrowaniem (weak centering). Mówi on, że żaden stan nie jest bliższy s niż samo s, tzn. nigdy nie jest tak, że t < s s. Czasami nakłada się
6.2. Związki z logiką aktualizacji przekonań …
151
również silniejszy warunek, zwany mocnym centrowaniem (full centering). Głosi on, że żaden stan nie jest tak blisko s, jak sam s, a więc zawsze s < s t, o ile t , s. Rozważmy dowolny taki zbiór S oraz rodzinę relacji < s (gdzie s ∈ S ), wraz z funkcją etykietującą, która każdemu s ∈ S przyporządkowuje klasyczne wartościowanie v s (w efekcie możemy więc mieć kopie pewnych wartościowań, a pewne mogą zostać pominięte). Taka trójka może być nazwana modelem aktualizacji KM. Definiuje ona operacje aktualizacji w następujący sposób. Niech K będzie dowolnym zbiorem formuł boolowskich (reprezentujących zbiór aktualizowanych przekonań) a formuła a dowolnym elementem aktualizującym. W poniższej definicji nie przywiązujemy wagi do tego, czy zbiór wyjściowy jest domknięty ze względu na konsekwencję klasyczną. Wynik operacji K # a, aktualizacji K z uwagi na a, definiujemy jako zbiór wszystkich formuł x, które są prawdziwe w każdym stanie s0 ∈ S , który spełnia a oraz jest tak bliski, jak to możliwe pewnemu stanowi spełniającemu K. Mówiąc precyzyjniej K #a jest zbiorem wszystkich takich formuł x, że dla każdego K-stanu s, x jest prawdziwe w każdym stanie s0 , minimalnym ze względu na relację < s w zbiorze wszystkich a-stanów. Zauważmy, że w definicji tej występuje podwójna kwantyfikacja: jedna po K-stanach s, a druga po < s -minimalnych a-stanach s0 . Stosując notację wprowadzoną w rozdziale 3, możemy tę definicję zapisać w sposób bardziej zwarty: K # a = {x : min<s (|a|) ⊆ |x|, dla dowolnego s ∈ |K|}. Użycie zbioru przekonań K powoduje, że aktualizacja przypomina rewizję. Podczas gdy rewizja w podejściu AGM traktuje K jako niepodzielną jednostkę, aktualizacja w podejściu KM rozdziela rozważaną operację po wszystkich stanach s spełniających K. Ta różnica na semantycznym poziomie modyfikuje zachowanie definiowanej operacji konsekwencji. Prowadzi do pojawienia się nowych własności, powoduje utratę innych, a niektóre własności pozostawia nietknięte. • Dla przykładu, jeśli K ⊆ K 0 , to oczywiście każdy K 0 -stan jest K-stanem. Z dystrybutywnej struktury definicji aktualizacji wynika więc, że jeśli K ⊆ K 0 , to K#a ⊆ K 0 #a. Jest to warunek monotoniczności dla lewego argumentu działania, którym jest zbiór przekonań. Jak jednak widzieliśmy, nie zachodzi on w podejściu AGM. Dodajmy, że w podejściu KM, podobnie jak w AGM, nie zachodzi monotoniczność dla prawego argumentu (czyli zdania aktualizującego a). Zatem inkluzja K # a ⊆ K # (a ∧ b) może być fałszywa. • Przykładem własności, którą tracimy, jest zasada AGM, mówiąca, że jeśli K jest niesprzeczny z a, to K ∗ a = Cn(K ∪ {a}), gdzie Cn jest konsekwencją klasyczną. Co ważniejsze, zasada ta może także nie zachodzić, kiedy Cn jest wzmocnione do operacji konsekwencji wartościowań osiowych CnW , gdzie W jest zbiorem wszystkich wartościowań v s , etykietujących stany s ∈ S w modelu aktualizacji. Otrzymujemy wtedy K # a ⊆ CnW (K ∪ {a}), ale konwers może nie
152
Rozdział 6. Krótkie porównanie
być prawdziwy, nawet wtedy gdy model aktualizacji spełnia mocne centrowanie. Jest tak, ponieważ może istnieć K-stan s, w którym v s (a) = 0, dla którego jeden z najbliższych a-stanów s0 znajduje się poza |K|. Może istnieć również formuła x, która jest fałszywa w pewnym takim s0 , nawet jeśli jest prawdziwa w każdym stanie spełniającym zarazem K i a. • Podstawową własnością wspólną dla rewizji i aktualizacji jest to, że a ∈ K # a. Także inkluzja (K #a)∩(K #b) ⊆ K #(a∨b) jest prawdziwa zarówno w podejściu KM, jak i w podejściu AGM częściowego przecięcia rewizji, spełniającym rozszerzone postulaty. Wciąż aktualny jest oczywiście problem, jak dalece formalny kontrast pomiędzy semantyką AGM i KM w sposób rzeczywisty odpowiada intuicyjnym różnicom pomiędzy rewizją i aktualizacją. Jest to jednak kwestia, na którą nie będziemy starali się tu odpowiedzieć. Podobnie jak operacja rewizji, także aktualizacja może być skonceptualizowana jako relacja modulo K. Innymi słowy, każdy wybór zbioru formuł K określa relację |≈K , zdefiniowaną następująco: A |≈K x wtedy i tylko wtedy, gdy x ∈ K # A, czyli wtedy i tylko wtedy, gdy dla każdego K-stanu s, x jest prawdziwe w każdym stanie t, który jest minimalny ze względu na relację < s określoną na zbiorze wszystkich A-stanów. Wstępnie rozważane własności aktualizacji przechodzą więc we własności takich relacji. Ten rodzaj relacji konsekwencji nie spotkał się jeszcze w literaturze z wielkim zainteresowaniem. Okazuje się jednak, że jest on blisko związany z logiką kontrfaktycznych okresów warunkowych, która ostatnio stała się przedmiotem intensywnych badań. Krótko ją teraz opiszemy. Logika kontrfaktycznych okresów warunkowych W zwykłym dyskursie kontrafaktyczne okresy warunkowe są to okresy warunkowe mówiące o tym, co miałoby miejsce, gdyby ich poprzednik był prawdziwy. Są one zwykle wypowiadane w sytuacjach, w których, według powszechnej wiedzy, poprzednik jest fałszywy. Jeden ze znanych przykładów jest czasami przypisywany Lady Astor oraz Winstonowi Churchillowi. Lady Astor miała powiedzieć do Churchilla: „Gdyby był Pan moim mężem, to zatrułabym Pański napój”, na co on miał odpowiedzieć: „Gdyby była Pani moją żoną, to niechybnie bym go wypił”. Filozoficznie zorientowani logicy dyskutują tego typu okresy warunkowe od czasów Chisholma (1946) oraz Goodmana (1947), którzy to pierwsi podkreślali ich szczególny charakter. Formalne badania nad kontrfaktycznymi okresami warunkowymi z systemami aksjomatów oraz charakterystyką semantyczną pochodzą natomiast od Stalnakera (1968) oraz Lewisa (1973) i są powszechnie uważane za locus classicus.
6.2. Związki z logiką aktualizacji przekonań …
153
Pod pewnym względem logika kontrfaktycznych okresów warunkowych jest bardziej złożona niż inferencja niemonotoniczna, podejście do rewizji w ramach AGM czy aktualizacja w stylu KM. W jej ramach spójnik warunkowy traktuje się bowiem jako spójnik przedmiotowego języka, który można w sposób nieograniczony iterować. Z drugiej jednak strony ten fragment logiki kontrfaktycznych okresów warunkowych, który jest oparty wyłącznie na boolowskich spójnikach może być traktowany jako specjalny przypadek logiki aktualizacji przekonań. Rozważmy dowolny niepusty zbiór S (którego elementy ponownie będziemy nazywać stanami) wraz z rodziną relacji < s (gdzie s ∈ S ) określonych na S , a także funkcję etykietującą λ, przyporządkowującą każdemu stanowi s ∈ S klasyczne wartościowanie v. Możemy teraz zdefiniować relację konsekwencji |≈ s za pomocą reguły: a |≈ s x wtedy i tylko wtedy, gdy x jest prawdziwe w każdym stanie s0 , który jest minimalny ze względu na relację < s pośród wszystkich a-stanów. Jest to dokładnie konstrukcja stosowana w semantyce Stalnakera/Lewisa dla kontrfaktycznych okresów warunkowych. Wyraża ona następującą idę: jeśli jesteśmy w stanie s, to zdanie x byłoby prawdziwe, gdyby zdanie a było prawdziwe, zaś pozostałe rzeczy zmieniłyby się stosunkowo najmniej w odniesieniu do stanu wyjściowego. Na semantykę tę można również spojrzeć jako na specjalny przypadek podejścia Katsuno-Mendelzona do aktualizacji — przypadek, w którym zbiór przekonań K jest spełniony przez dokładnie jeden stan s ∈ S . Jak wspomnieliśmy, w swojej standardowej prezentacji logika okresów kontrfaktycznych idzie jednak jeden krok dalej, internalizuje ona bowiem relację |≈ s do języka przedmiotowego, traktując ją jako nowy spójnik, który wolno iterować. Zapisując go na przykład za pomocą symbolu , dopuszczamy więc nowe rodzaje formuł, takie jak: p (q r), (p q) r, (p q) (r s), ich boolowskie złożenia, i głębsze iteracje. W dowolnym modelu rozszerzamy wartościowania boolowskie na formuły zawierające nowe spójniki, w następujący sposób: v s (a x) = 1 wtedy i tylko wtedy, gdy vt (x) = 1, dla dowolnego stanu t ∈ min<s (a). W ramach niniejszej prezentacji nie będziemy już definiować rodziny relacji konsekwencji. Zdefiniujemy natomiast wyróżniony zbiór formuł: zbiór twierdzeń lub tez tej logiki. Jest to zbiór takich formuł a, że dla dowolnej struktury modelowej logiki kontrfaktycznych okresów warunkowych (S , {< s } s∈S ), gdzie relacja < s spełnia określone warunki (jak przeciwzwrotność, przechodniość, słabe centrowanie lub, jeśli potrzeba, zakorkowanie oraz mocne centrowanie ) oraz dla dowolnej funkcji etykietującej λ, czyli dowolnej rodziny {v s } s∈S wartościowań boolowskich w strukturę, mamy v s (a) = 1, dla każdego s ∈ S . Podczas gdy pojedyncze relacje |≈ s pomiędzy formułami boolowskimi nie są ogólnie domknięte na podstawianie (podrozdział 1.3), zbiór formuł stanowiących twierdzenia logiki kontrfaktycznych okresów warunkowych jest domknięty na podstawianie.
154
Rozdział 6. Krótkie porównanie
Jak wygląda wygenerowana w ten sposób logika? Dla formuł czysto boolowskich pokrywa się ona z logiką klasyczną. Zatem tezy logiki kontrfaktycznych okresów warunkowych, które są czysto boolowskimi formułami, będą zbiorem tautologii klasycznych. Dla formuł pierwszego stopnia nasza logika będzie zawierała tezy odpowiadające Hornowym oraz nie-Hornowym zasadom, które rozważaliśmy jako warunki dla niemonotonicznych relacji konsekwencji. Dla przykładu, mamy następujące tezy: a a, ((a x) ∧ ((a ∧ x) y)) (a y), które kolejno odpowiadają zwrotności i kumulatywnej przechodniości. W przypadku, gdy modelowanie zakłada zakorkowanie, wtedy otrzymujemy jako tezę formułę wyrażającą ostrożną monotoniczność ((a x) ∧ (a y)) ((a ∧ x) y); kiedy zaś relacja < s w modelu jest modularna, otrzymujemy z kolei tezę wyrażającą nie-Hornowy warunek racjonalnej monotoniczności: ((a x) ∧ ¬(a ¬y)) ((a ∧ x) y). Warunki słabego i mocnego centrowania również skutkują tezami, które nie mają bezpośrednich odpowiedników w relacjach konsekwencji. Słabe centrowanie daje formułę wyrażającą modus ponens dla spójnika kontrfaktycznego: (a ∧ (a x)) → x. Brakuje tutaj ścisłego odpowiednika z powodu jej „niesymetrycznej” formy. Drugi składnik poprzednika jest kontrfaktycznym okresem warunkowym, pierwszy składnik oraz następnik są formułami boolowskimi. Najbliższy odpowiednik, który możemy otrzymać na poziomie relacyjnym, ma postać reguły: jeśli t |z 6 ¬a oraz a |z x, to t |z 6 ¬x, gdzie t jest dowolną tautologią, natomiast w wersji Horna: jeśli t |z ¬x oraz a |z x, to t |z ¬a. W terminach modeli preferencji znaczy to, że jeśli istnieje pewien minimalny stan s w całym modelu, który spełnia a i każdy minimalny a-stan spełnia x, wtedy x jest spełniony przez pewien stan minimalny (faktycznie przez to samo s, jednak syntaktyczne reguły nie są zdolne tego wyrazić). Przypomina to również regułę, którą moglibyśmy nazwać ograniczonym przypadkiem przechodniości: jeśli t |z a oraz a |z x, to t |z x. W ramach modeli preferencji brzmiałaby ona: jeśli każdy minimalny w całym modelu stan spełnia a i każdy minimalny a-stan spełnia x, wtedy każdy minimalny stan spełnia x. Pełne centrowanie w modelu prowadzi również do następnej, dobrze znanej tezy logiki okresów kontrfaktycznych, zwanej koniunkcyjną wystarczalnością: (a∧ x) → (a x). Ponownie nie ma tutaj odpowiednika dla relacji konsekwencji. Najbliższy ma następującą postać: jeśli t |z 6 ¬(a ∧ x), to a |z 6 ¬x, zaś w wersji Horna: jeśli a |z ¬x, to t |z ¬(a ∧ x) lub równoważnie: jeśli a |z y, to t |z ¬a ∨ y. Z kolei na poziomie semantycznym, w ramach modeli preferencji: jeśli pewien minimalny w całym modelu stan s spełnia a ∧ x, to pewien minimalny a-stan (powiedzmy, że ten sam s) spełnia x. Również bliska jest reguła: jeśli t |z a ∧ x, to a |z x. Zachodzi ona w przypadku, gdy model preferencji jest zakorkowany od dołu (bottom-stoppered) (dla każdego nie-minimalnego stanu w całym modelu istnieje minimalny stan poniżej).
6.2. Związki z logiką aktualizacji przekonań …
155
Przy okazji dodajmy, że koniunkcyjna wystarczalność prowadzi w logice okresów kontrfaktycznych do dziwnych konsekwencji. Dla przykładu, jej konsekwencją jest formuła (a b) ∨ (a ¬b) ∨ (¬a b) ∨ (¬a ¬b). Wszystkie podane formuły są modalnymi formułami pierwszego stopnia: nie ma w nich zagnieżdżonych wystąpień spójnika . Czy istnieją jakieś interesujące modalne tezy tej logiki drugiego lub wyższych stopni? Odpowiedź brzmi: nie ma żadnych, których nie dałoby się wyprowadzić z tez niższych stopni. Literatura przedmiotu zawiera także podejścia do kontrfaktycznych okresów warunkowych podobne do konstrukcji założeń domyślnych omówionych w podrozdziałach 2.2 i 2.3. Odsyłamy tutaj do prac Veltmana (1976; 1985) oraz Kratzera (1981). Z kolei Lewis (1981) porównuje obydwa podejścia w kontekście kontrfaktycznym. Logika dyrektywalnych okresów warunkowych Konstrukcje domyślnych wartościowań oparte na minimalności są również używane w dyscyplinie zwanej logiką deontyczną — logiką zobowiązań, dozwolenia oraz zakazu. W szczególności są one stosowane w badaniach nad zobowiązaniami warunkowymi. Doniosła praca w tym zakresie pochodzi od B. Hanssona (1969). Wprowadziła ona aparat pojęciowy, który z matematycznego punktu widzenia jest nieodróżnialny od semantyki preferencji dla niemonotonicznych rozumowań opisanej w podrozdziale 3.2. Posiada on jednak inną interpretację relacji < określonej na wartościowaniach lub stanach. Podczas gdy dla relacji preferencji była ona rozumiana jako relacyjna normalność, to w deontycznym kontekście jest odczytywana jako relacyjna (moralna, prawna, itd.) akceptowalność. W semantyce Hanssona stwierdzenie, że x jest obowiązkowe przy danym a, znaczy, że x jest prawdziwe we wszystkich najlepszych a-światach. „Najlepszy” jest rozumiane jako minimalny ze względu na relację < określoną na zbiorze W, wartościowań lub (światów) w modelu. Warunek ten ma więc postać: min< |a|W ⊆ |x|W . Jest on taki sam jak dla relacji preferencji, ze zreinterpretowaną relacją <. Od czasu klasycznej pracy Hanssona z 1969 semantyka preferencji dla okresów warunkowych zobowiązań została rozszerzona, uwzględniając w języku przedmiotowym odpowiadający tym okresom spójnik, zapisywany jako O(x/a), co dopuszcza zagnieżdżanie, podobnie jak ma to miejsce w logice okresów kontrfaktycznych. Została ona również w ten sposób udoskonalona oraz dopracowana przez dodanie indeksów do relacji porównywanego dobra, że porównanie zależy od świata lub stanu, w którym dokonujemy oceny, ponadto dodano pomocnicze relacje, zbiory oraz funkcje, aby w aparacie semantycznym reprezentować takie składniki, jak poziom normalności, upływ czasu, możliwość zmiany jednego stanu w drugi wraz z wpływem (lub bez) zamierzonego działania na część świata roz-
156
Rozdział 6. Krótkie porównanie
ważaną przez agentów. Dalszą dyskusję pewnych z tych kwestii można znaleźć w pracy Makinsona (1993), ogólny przegląd zagadnień logiki deontycznej jest natomiast dostępny w pracy Åqvista (2002). Jak można się spodziewać, literatura zawiera także pewne alternatywne podejścia do okresów dyrektywalnych, bazujące na zbiorach założeń w tle, zarówno w wersji osiowej, jak i domyślnej. Jeden z przykładów tego ostatniego podejścia można znaleźć w pracy Svena Ove Hanssona oraz Makinsona (1997). Podejście do okresów dyrektywalnych, bazujące na dodatkowych regułach ukrytych w tle, pochodzi od Makinsona oraz van der Torre’a (2000). Ich logiki „wejścia/wyjścia” są podobne do systemów reguł domyślnych z podrozdziału 4.1, jednak z wyjściem zdefiniowanym w trochę inny sposób. Gdy poprzednik dyrektywalnego okresu warunkowego jest spełniony (staje się „wejściem”), nie jest on automatycznie zawarty w wyjściu. Podejście to umotywowane jest intuicyjnym odczytywania dyrektywalnych okresów warunkowych. Podczas gdy w kontekście niemonotonicznym jest czymś zwyczajnym stwierdzenie, że każde zdanie jest swoją własną konsekwencją, to w kontekście okresów dyrektywalnych twierdzenie, że każde prawdziwe zdanie jest obligatoryjne byłoby czymś bardzo dziwnym. Logiki wejścia/wyjścia bazujące na regułach unikają tego problemu w sposób naturalny. W konstrukcjach, które opierają się na relacjach względnego dobra pomiędzy wartościowaniami lub stanami jednak niemalże koniecznie on występuje, jeśli nie nałoży się pewnych restrykcji ad hoc. Podejścia bazujące na regułach wskazują również interesujące sposoby potraktowania niezagospodarowanych jeszcze rejonów zobowiązań typu contrary-to-duty (to jest takich, w których realizacja zobowiązania koliduje z faktycznym stanem rzeczy) oraz zezwoleń warunkowych — Makinson, van der Torre (2001; 2003).
Ćwiczenia 1∗ . Sprawdź w sposób bardziej szczegółowy niż w tekście zasadę lewostronnej monotoniczności w podejściu Katsuno/Mendelzona do aktualizacji. 2. Podaj kontrprzykład do prawostronnej monotoniczności w podejścia do aktualizacji Katsuno/Mendelzona. 3. Udowodnij, że K # a ⊆ CnW (K ∪ {a}), gdzie W jest zbiorem wszystkich wartościowań v s etykietujących stany s ∈ S w modelu aktualizacji. 4. Opisz szczegółowo kontrprzykład zarysowany dla inkluzji CnW (K∪{a}) ⊆ K#a w modelu aktualizacji z pełnym centrowaniem.
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji
157
5. Sprawdź zachodzenie inkluzji (K # a) ∩ (K # b) ⊆ K # (a ∨ b) w podejściu KM oraz AGM częściowego przecięcia rewizji. 6∗ . Pokaż, że zbiór tez dowolnej logiki okresów kontrfaktycznych — zdefiniowanej tak jak w tekście — jest domknięty na podstawianie (dowolnym formułami za elementarne litery). 7. Pokaż na przykładzie, że — ogólnie rzecz biorąc — logiki okresów kontrfaktycznych nie zawierają jako tezy formuły odzwierciedlającej zasadę monotoniczności (lub wzmacniania poprzednika): (a x) ((a ∧ b) x). 8. Udowodnij każdą ze wzmiankowanych w tekście tez logiki okresów kontrfaktycznych. Wskazówka: W każdym przypadku rozważ klasę modeli spełniających wyróżnione warunki i pokaż, że logika przez nie zdefiniowana zawiera badaną formułę jako swoją tezę. 9∗ . Wyraź słownie, używając pojęcia zobowiązania warunkowego, reguły kumulatywnej przechodniości, ostrożnej monotoniczności, łączenia konkluzji w koniunkcję i przesłanek w alternatywę. Przedyskutuj ich intuicyjną zasadność.
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji Jak wskazywaliśmy w naszej ogólnej dyskusji dotyczącej twierdzeń o reprezentacji i pełności w podrozdziale 2.1, dane twierdzenie o reprezentacji dla relacji konsekwencji mówi nam, że każda relacja spełniająca określone syntaktyczne warunki (reguły Horna lub bardziej ogólne warunki, w których mogą występować negatywne przesłanki lub alternatywne konkluzje) może być zdefiniowana lub wygenerowana (w pewien specjalny sposób) ze struktury określonego rodzaju. Tego typu twierdzenia są interesujące, kiedy ich konwers jest również prawdziwy, a więc kiedy rozważane syntaktyczne warunki zachodzą dla wszystkich relacji konsekwencji generowanych przez struktury określonego rodzaju. Takie twierdzenia są nazywane twierdzeniami o adekwatności, a dane syntaktyczne warunki są określane jako adekwatne ze względu na przyjętą semantykę. To pojęcie jest oczywiście względne: syntaktyczny warunek może być adekwatny z uwagi na jedną semantyczną strukturę, zaś z uwagi na inną nie. Ogólnie rzecz biorąc twierdzenia o adekwatności są zwykle łatwe w dowodzie. Każdy z syntaktycznych warunków badamy po kolei pod kątem tego czy zachodzi w dowolnej strukturze danego typu. W celu pokazania odpowiedniego twierdzenia o reprezentacji musimy rozważyć dowolną logiczną operację spełniającą warunki
158
Rozdział 6. Krótkie porównanie
syntaktyczne i wykonać myślowy wysiłek prowadzący do znalezienia struktury w tej klasie, która wygeneruje dokładnie tę operację. W większości logik, z historycznego punktu widzenia, pierwsze badania dotyczyły kwestii syntaktycznych. Pewne formuły wydawały się pożądane, lub pewne warunki intuicyjne, więc grupowano je i studiowano. Późniejsze poszukiwania miały na celu wygenerowanie obiektów, które spełniają te warunki. Niekiedy jednak porządek historii był odwrotny: punkt wyjścia polegał na zdefiniowaniu klasy semantycznych struktur, a dalsze badania dążyły do odnalezienia syntaktycznych właściwości relacji konsekwencji lub innych logicznych obiektów, które są wyznaczone przez te struktury. Jeśli potrafimy dowieść twierdzeń o adekwatności oraz reprezentacji, potwierdza to pewną stabilność. Wiemy bowiem, że relacja konsekwencji spełnia wymienione syntaktyczne warunki wtedy i tylko wtedy, gdy może zostać zdefiniowana za pomocą struktur danego rodzaju. Klasa takich relacji konsekwencji może więc być postrzegana na jeden z dwóch różnych sposobów. Wygląda to na przecięcie dwóch różnych dróg myślowych i daje poczucie osiągnięcia strategicznej lub interesującej pozycji. Nie powinno się jednak tego poczucia bezpieczeństwa i spełnienia przeceniać. Fakt dowodu twierdzenia o adekwatności i reprezentacji nie gwarantuje posiadania „poprawnej” czy strategicznie ważnej koncepcji. Często nawet stosunkowo słabo umotywowany zbiór warunków syntaktycznych może ad hoc, przy odpowiednim wysiłku, zostać semantycznie zinterpretowany. Nawet dla przypadkowej klasy semantycznych struktur daje się znaleźć syntaktyczne warunki, dla których można dowieść adekwatności i pełności. Osąd i rozeznanie w tych kwestiach są równie ważne, jak gdzie indziej, prowadząc do różnych oszacowań i ocen. Nie wszystko w logice jest oczywiste i klarowne. W poprzednich rozdziałach wspominaliśmy przy okazji o pewnych specjalnych twierdzeniach o reprezentacji. Teraz połączymy je razem i podamy kilka nowych. Wygodnie będzie przedstawić je w dwóch grupach. Do pierwszej należą twierdzenia o reprezentacji dla systemów pomostowych, które są — jak widzieliśmy — paraklasyczne (są nadklasycznymi operacjami domknięcia w sensie podanym w rozdziale 1). Do drugiej zaś należą twierdzenia dla wybranych systemów niemonotonicznych, tj. systemów domyślnych, których konstrukcje zezwalają na zmianę pewnych semantycznych parametrów w zależności od rozważanych zbiorów przesłanek. Twierdzenia o reprezentacji dla systemów osiowych W podrozdziale 2.1 pokazaliśmy, że dla dowolnego zbioru formuł K, operacja konsekwencji CnK jest paraklasyczna, zwarta i spełnia warunek łączenie przesła-
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji
159
nek w alternatywę. Jest to obserwacja związana z adekwatnością. Dowiedliśmy także twierdzenia odwrotnego, czyli twierdzenia o reprezentacji. T 2.2. Niech Cn+ b¦dzie dowoln¡ paraklasyczn¡ operacj¡ konsekwen-
cji, która jest zwarta i speªnia warunek ª¡czenia przesªanek w alternatyw¦. Wtedy istnieje taki zbiór formuª K , »e Cn+ = CnK . Jest to satysfakcjonujący wynik, ponieważ łączy on bardzo naturalne warunki (zwartość, łączenie przesłanek w alternatywę, warunki definiujące operację domknięcia i nadklasyczność) z efektem zastosowania zbioru formuł K do wygenerowania operacji Cn+ za pomocą definicji Cn+ (A) = Cn(K ∪ A). Kolejne twierdzenie o reprezentacji, dla konsekwencji opartych o reguły osiowe, zostało wysłowione i dowiedzione w podrozdziale 4.1. Jeśli wyrazimy je trochę inaczej, będzie ono przypominało wcześniejsze twierdzenie: T 4.5. Niech Cn+ b¦dzie dowoln¡ paraklasyczn¡ i zwart¡ operacj¡ konsekwencji. Wtedy istnieje zbiór reguª R, taki »e Cn+ = CnR . Pomimo wspomnianego podobieństwa, uzyskany rezultat wydaje się być dużo mniej interesujący. Jak podkreślaliśmy w podrozdziale 4.1, dowód tego twierdzenia daje się przeprowadzić tylko dlatego, że definicja konsekwencji reguł osiowych nie nakłada żadnych warunków na zbiór reguł, czyli na relację R. Pozwala to zastosować pewien „chwyt”, a mianowicie wziąć R jako relację konsekwencji, której poszukujemy do reprezentacji, obciętą do singletonów. Byłoby to bardziej interesujące, gdybyśmy mogli nałożyć na R jakieś regularne warunki. Dla konsekwencji wartościowań osiowych nie dysponujemy żadnym „nieskończonym twierdzeniem” o reprezentacji. Istotnie, w podrozdziale 3.1 pokazaliśmy, że takie przypuszczenie, choć naturalne — jest fałszywe. Nie jest więc prawdą, że dla dowolnej paraklasycznej operacji konsekwencji Cn+ spełniającej warunek łączenia przesłanek w alternatywę istnieje taki zbiór wartościowań W, że Cn+ = CnW . Jak jednak również pokazaliśmy w owym podrozdziale, zachodzi skończona forma tego twierdzenia, którą dla łatwiejszego porównania trochę przeforumułujemy: T 3.6. Niech Cn+ b¦dzie dowoln¡ paraklasyczn¡ operacj¡ konsekwen-
cji, speªniaj¡c¡ warunek ª¡czenia przesªanek w alternatyw¦. Wtedy istnieje taki zbiór warto±ciowa« W , »e Cn+ (A) = CnW (A), dla dowolnego sko«czonego A. Twierdzenie to zachodzi, ponieważ skończona część operacji Cn+ jest równa skończonej części odpowiednio wybranej operacji założeń osiowych (porównaj z podrozdziałem 3.1). Dla logików lub matematyków najbardziej interesujący aspekt pojęcia konsekwencji osiowych wartościowań dotyczy jednak części nie-
160
Rozdział 6. Krótkie porównanie
skończonej. Problem znalezienia dobrego twierdzenia o reprezentacji wydaje się więc otwarty. Twierdzenia o reprezentacji dla systemów domyślnych Dla większości systemów niemonotonicznych dostępnych w literaturze, zdefiniowanych za pomocą konstrukcji domyślnych założeń oraz domyślnych wartościowań, podane zostały twierdzenia o adekwatności oraz reprezentacji, co najmniej dla skończonej części (dla skończonych zbiorów przesłanek lub równoważnie dla pojedynczych formuł jako przesłanek). Jednakże według wiedzy autora, nie został w ten sposób opisany żaden z systemów opartych o reguły domyślne. Problem reprezentacji jest więc wciąż aktualny. W niniejszym podrozdziale opiszemy tylko dwa twierdzenia o reprezentacji. Jedno dla konstrukcji domyślnych założeń, drugie dla domyślnych wartościowań. Dla systemu założeń domyślnych podamy podstawowe twierdzenie, łatwe do porównania z innymi dostępnymi w literaturze, chociaż nadal stanowiące wyzwanie. Dotyczy ono bowiem dyskutowanego w podrozdziale 2.3 pojęcia konsekwencji via dowolna funkcja selekcji (zostało ono po raz pierwszy dowiedzione przez Gärdenforsa i Makinsona (1994)). Twierdzenie to zachodzi dla skończonych części, a więc dla pojedynczych formuł jako przesłanek. Rozważmy z jednej strony strukturę (K, δ) następującego rodzaju: • K jest zbiorem formuł boolowskich, o którym zakładamy, że jest niesprzeczny oraz domknięty na klasyczną konsekwencję: K = Cn(K). • δ jest dowolną funkcją selekcji, która każdej rodzinie Ka przyporządkowuje pewną podrodzinę δ(Ka ) ⊆ Ka . Podobnie jak w podrozdziale 6.1, Ka jest rodziną wszystkich podzbiorów K 0 ⊆ K maksymalnie niesprzecznych z a. Wymagamy aby δ(Ka ) było niepuste, o ile Ka jest niepuste. Dla każdej takiej struktury definiujemy relacje konsekwencji |zδ pomiędzy pojedynczymi formułami w następujący sposób: • a |zδ x wtedy i tylko wtedy, gdy K 0 ∪ {a} |z x, dla dowolnego K 0 ∈ δ(Ka ). Z drugiej strony rozważmy następujące skończone, syntaktyczne warunki nałożone na relację konsekwencji |z, określoną na pojedynczych formułach. Jak zwykle t jest dowolną tautologią a f dowolną kontrtautologią. • Nadklasyczność: jeśli a ` x, to a |z x • Lewostronna, klasyczna równoważność: jeśli a ` b oraz b ` a, to a |z x wtedy i tylko wtedy, gdy b |z x • Prawostronne osłabianie: jeśli a |z b oraz b ` x, to a |z x
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji
161
• Łączenie konkluzji w koniunkcję (AND): jeśli a |z x i a |z y, to a |z x ∧ y • Zachowanie niesprzeczności: jeśli a 0 f , to a |z 6 f • Ograniczona dedukcja: jeśli a |z x, to t |z a → x • Ograniczony przypadek racjonalnej monotoniczności: jeśli t |z 6 ¬a i t |z a → x, to a |z x. T 6.1 (Adekwatność). Niech |zδ b¦dzie dowoln¡ relacj¡ konsekwencji zde niowan¡ w opisanej strukturze. Speªnia ona wówczas wymienione warunki. Reprezentacja: Na odwrót, dowolna relacja konsekwencji okre±lona pomi¦dzy pojedynczymi formuªami, która speªnia wymienione warunki mo»e by¢ zde niowana w opisany wy»ej sposób. Dowód części pierwszej powyższego twierdzenia zostawiamy jako ćwiczenia, skupiając się na dowodzie części dotyczącej reprezentacji. Będziemy potrzebować następującego lematu. L 6.2 (dla twierdzenia 6.1). 1. Ka jest pusty wtedy i tylko wtedy, gdy a jest sprzeczna. 2. Niech K = Cn(K) i K 0 ∈ Ka . Wtedy K 0 = Cn(K 0 ). 3. Zaªó»my, »e K = Cn(K) oraz niech K 0 ∈ Ka . Wtedy K 0 ∈ Kb , dla dowolnego b takiego, »e ¬b ∈ K oraz ¬b < K 0 . 4. Zaªó»my, »e K i δ speªniaj¡ zaªo»enia twierdzenia. Wtedy δ(Kt ) = Kt = {K}. S . Dla (1): Załóżmy po pierwsze, że formuła a jest sprzeczna. Wtedy a jest sprzeczna z każdym podzbiorem K, a więc Ka jest pusty. Załóżmy teraz, że a jest niesprzeczna. Wtedy jest ona niesprzeczna z ∅ i przez własność zwartości logiki klasycznej oraz lemat Kuratowskiego-Zorna otrzymujemy wniosek, iż istnieje maksymalny podzbiór K 0 ⊆ K, który jest niesprzeczny z a. Z definicji Ka , K 0 ∈ Ka , a więc Ka jest niepusty. Dla (2): Przypomnijmy, że Ka jest zbiorem wszystkich maksymalnych a-niesprzecznych podzbiorów K. Fakt ten został już zauważony w podrozdziale 2.2, w odpowiedzi do ćwiczenia 7. Punkt (3) wynika w prosty sposób z obserwacji 2.8, której dowód podany jest w odpowiedzi do problemu 2 z podrozdziału 2.2. Dla (4): Załóżmy, że K oraz δ spełniają założenia twierdzenia. Wtedy K jest niesprzeczny, więc jest również niesprzeczny z t. Zatem Kt = {K}. Ponieważ jednak δ(Kt ) musi być niepustym podzbiorem Kt , więc δ(Kt ) = {K}. D´ 6.1 (˛´´ ˛ ). Niech |z będzie relacją konsekwencji określoną na pojedynczych formułach, która spełnia wymienione
162
Rozdział 6. Krótkie porównanie
warunki. Zdefiniujmy K = {x : t |z x}. Niech δ będzie funkcją selekcji zdefiniowaną w następujący sposób: δ(Ka ) = {K 0 ∈ Ka : C(a) ⊆ Cn(K 0 ∪ {a})}. Są to — z heurystycznego punktu widzenia — zupełnie naturalne definicje. Założenia ukryte w tle stają się bowiem konkluzjami, które relacja |z pozwala wyciągnąć w wypadku braku jakichkolwiek specyficznych informacji. Wybieramy te elementy Ka , które są wystarczająco silne po złożeniu ich z a, żeby wyprowadzić klasycznie wszystkie zdania, które |z pozwala nam wywnioskować z a. Chcemy pokazać, że K oraz δ spełniają wspomniane wymagania, oraz że |z = |zδ . W celu pokazania, że K = Cn(K), załóżmy, iż x ∈ Cn(K). Wtedy przez własność zwartości logiki klasycznej, istnieją x1 , …, xn ∈ K takie, że x1 ∧· · ·∧ xn ` x. Z definicji K wiemy jednak, iż t |z xi , dla każdego i 6 n, więc przez warunek łączenia konkluzji w koniunkcję oraz prawostronne osłabianie, otrzymujemy t |z x. Zatem x ∈ K, do czego zmierzaliśmy. Pokażemy teraz niesprzeczność K. Załóżmy, że zbiór K jest sprzeczny. Wtedy K |z f . Zatem ponieważ K = Cn(K), więc f ∈ K. Stąd t |z f , z definicji K, co przez zachowanie niesprzeczności prowadzi do sprzeczności: t ` f . Dowodzimy teraz, że δ(Ka ) ⊆ Ka . Dowód uzyskujemy bezpośrednio z definicji δ(Ka ). Sprawdzenie, czy δ(Ka ) jest niepusty, gdy Ka jest niepusty, odłożymy na koniec niniejszego dowodu. Pokażemy teraz, że |z = |zδ . Dowód inkluzji „z lewej do prawej” jest prosty. Załóżmy, że a |z x. Weźmy dowolny K 0 ∈ δ(Ka ). Opierając się na definicji |zδ , chcemy pokazać, że K 0 ∪ {a} ` x. Z definicji δ(Ka ) otrzymujemy jednak C(a) ⊆ Cn(K 0 ∪ {a}), co kończy tę część dowodu. Dla dowodu inkluzji przeciwnej załóżmy, że a |z 6 x. Należy znaleźć taki K 0 ∈ 0 0 Ka , iż C(a) ⊆ Cn(K ∪ {a}) oraz K ∪ {a} 0 x. Jest to trudniejsza część całego dowodu. Zauważmy na początku, że C(a) jest niesprzeczny z a ∧ ¬x. Dla dowodu nie wprost załóżmy jednak, że jest odwrotnie. Na mocy zwartości logiki klasycznej istnieją x1 , …, xn , takie że a |z xi , dla dowolnego i 6 n oraz x1 ∧ · · · ∧ xn ` ¬(a ∧ ¬x) ` a → x. Z warunku łączenia konkluzji w koniunkcję oraz prawostronnego osłabiania otrzymujemy a |z a → x. Jednak a |z a, na mocy nadklasyczności, zatem ponownie przez łączenie konkluzji w koniunkcję oraz prawostronne osłabianie, a |z x, co przeczy założeniu. Ponieważ C(a) jest niesprzeczny z a ∧ ¬x, więc jego podzbiór C(a) ∩ K jest również niesprzeczny z a∧¬x i oczywiście jest on także podzbiorem K. Zatem na mocy lematu Kuratowskiego-Zorna istnieje zbiór K 0 ∈ Ka∧¬x taki, że C(a) ∩ K ⊆ K 0 . Pozostaje nam pokazanie, że K 0 ∈ Ka , C(a) ⊆ Cn(K 0 ∪ {a}) oraz K 0 ∪ {a} 0 x. Najpierw sprawdzimy, czy K 0 ∪ {a} 0 x. Wystarczy pokazać, że K 0 0 (a → x), a więc że K 0 jest niesprzeczny z a ∧ ¬x. Wynika to bezpośrednio z konstrukcji K0.
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji
163
Następnie pokażemy, że C(a) ⊆ Cn(K 0 ∪ {a}). Załóżmy, że a |z y. Wtedy na mocy warunku prawostronnego osłabiania, a |z a → y, a więc przez ograniczoną dedukcję, t |z a → y. Stąd, na mocy definicji K, otrzymujemy a → y ∈ C(a)∩ K ⊆ K 0 , a na mocy logiki klasycznej, y ∈ Cn(K 0 ∪ {a}), do czego zmierzaliśmy. Na końcu pokazujemy, że K 0 ∈ Ka . Ponieważ K 0 jest niesprzeczny z a ∧ ¬x, więc jest niesprzeczny z a. Załóżmy, że K 0 ⊂ K 00 ⊆ K. Chcemy pokazać, że K 00 ` ¬a. Na mocy konstrukcji K 0 otrzymujemy K 00 ` a → x, więc k1 ∧ · · · ∧ kn ` a → x, dla pewnych k1 , …, kn ∈ K 00 . Ponieważ K 00 ⊆ K, więc z definicji K, t |z ki , dla dowolnego i 6 n, Stosując warunek łączenia konkluzji w koniunkcję oraz prawostronne osłabianie, t |z a → x. Wynika stąd, iż t |z ¬a. W przeciwnym wypadku, z uwagi na to, iż t |z a → x, opierając się na warunku ograniczonej racjonalnej monotoniczności, mielibyśmy a |z x, co przeczyłoby założeniu dowodu. Ponieważ t |z ¬a, więc na mocy definicji K, ¬a ∈ K. Wiemy już, że K 0 ∈ Ka∧¬x . Wiemy również, że K 0 jest niesprzeczny z a, zatem ¬a < K 0 . Składając te trzy fakty razem i stosując punkt trzeci lematu, otrzymujemy K 0 ∈ Ka , co było do pokazania. Kończąc dowód, dokonamy jeszcze obiecanego sprawdzenia własności funkcji δ. Załóżmy, że Ka jest niepusty. Chcemy pokazać, że również δ(Ka ) jest niepusty. Ponieważ Ka jest niepusty, więc na mocy punktu pierwszego lematu, a jest niesprzeczna, tzn. a 0 f . Stąd przez zachowanie niesprzeczności a |z 6 f . Ponieważ właśnie pokazaliśmy, że |z = |zδ , konkludujemy więc, iż a |z 6 δ f . Z definicji |zδ znaczy to, że istnieje jakiś K 0 ∈ δ(Ka ) taki, że K 0 ∪ {a} 0 x. Ponieważ K 0 ∈ δ(Ka ), zatem δ(Ka ) jest niepusty. Przedstawimy teraz pewne twierdzenie o reprezentacji dla konsekwencji wartościowań domyślnych. Wybieramy najbardziej znane twierdzenie, często zwane twierdzeniem o reprezentacji KLM, pochodzące od Krausa, Lehmanna oraz Magidora (1990). Dotyczy ono pojęcia konsekwencji preferencji — które studiowaliśmy w podrozdziale 3.2 — rozszerzonego w sposób opisany w podrozdziale 3.3 do wielu kopii wartościowań z nałożonym dodatkowo warunkiem zakorkowania. Przypomnijmy definicję z podrozdziału 3.3. Modele preferencji (dopuszczające kopie) są strukturami postaci (S , <, λ), gdzie: • S jest dowolnym zbiorem. Jego elementy nazywamy stanami. • < jest relacją określoną na S . Zakładamy, że jest ona przechodnia i przeciwzwrotna. • λ jest funkcją przyporządkowującą każdemu stanowi s ∈ S boolowskie wartościowanie formuł. Nazywamy ją funkcją etykietowania i dla wygody λ(s) zapisujemy jako v s .
164
Rozdział 6. Krótkie porównanie
Zakładamy ponadto, że: • (S , <, λ) jest skończenie zakorkowany. Pojęcie to zostało zdefiniowane w podrozdziale 3.2 dla specjalnego przypadku modeli preferencji bez kopii, dla przypadku, gdy elementy z S są wartościowaniami, a λ jest funkcją identyczności. W szerszym kontekście, gdzie dopuszczone są kopie, skończone zakorkowanie (lub skończona gładkość) jest zdefiniowane następującym warunkiem: dla dowolnego s ∈ S , jeśli v s spełnia daną formułę a, wtedy albo s jest minimalny ze względu na relację < pośród stanów t takich, że vt spełnia a, albo istnieje jakiś s0 ∈ S taki, że s0 < s oraz s0 jest minimalny pośród stanów spełniających a. Używając bardziej zwartej notacji, zapis {s ∈ S : v s (a) = 1} skrócimy do |a|. Powiemy więc, że (S , <, λ) jest skończenie zakorkowany wtedy i tylko wtedy, gdy jeśli s ∈ S oraz s ∈ |a|, to albo s ∈ min< |a|, albo istnieje taki s0 < s, że s0 ∈ min< |a|. Dla każdej takiej struktury definiujemy relację konsekwencji |z< pomiędzy pojedynczymi formułami, kładąc: • a |z< x wtedy i tylko wtedy, gdy v s (x) = 1, dla każdego stanu s, który jest minimalny ze względu na relację < pośród stanów spełniających formułę a. Używając prostszej i bardziej zwartej, wprowadzonej powyżej notacji, można tę definicję przedstawić następująco: • a |z< x wtedy i tylko wtedy, gdy min< |a| ⊆ |x|. Rozważmy jeszcze następujące finitarne, syntaktyczne warunki nałożone na relację |z zdefiniowaną na pojedynczych formułach: • Nadklasyczność: jeśli a ` x, to a |z x • Lewostronna, klasyczna równoważność: jeśli a ` b oraz b ` a, to a |z x wtedy i tylko wtedy, gdy b |z x • Prawostronne osłabianie: jeśli a |z b oraz b ` x, to a |z x • Łączenie konkluzji w koniunkcję (AND): jeśli a |z x i a |z y, to a |z x ∧ y • Kumulatywna przechodniość: jeśli a |z x oraz a ∧ x |z y, to a |z y • Ostrożna monotoniczność: jeśli a |z x oraz a |z y, to a ∧ x |z y • Łączenie przesłanek w alternatywę (OR): jeśli a |z x oraz b |z x, to a ∨ b |z x. Wymienione wyżej warunki cechuje pewna redundancja. Przy założeniu prawostronnego osłabiania, nadklasyczność mogłaby być bowiem osłabiona do prostej zwrotności: a |z a. Mniej oczywiste jest to, że przy założeniu ostrożnej monotoniczności oraz kumulatywnej przechodniości także warunek (AND) jest zbędny. Są to jednak detale związane z upraszczaniem aksjomatyki.
6.3. Wybrane twierdzenia o reprezentacji dla relacji konsekwencji
165
T 6.3 (Adekwatność). Niech |z< b¦dzie dowoln¡ konsekwencj¡ zde -
niowan¡ za pomoc¡ zakorkowanej struktury preferencji, opisanej powy»ej. Wówczas speªnia ona wymienione powy»ej warunki. Reprezentacja: Na odwrót, dowolna relacja zachodz¡ca pomi¦dzy pojedynczymi formuªami, która speªnia wymienione warunki, mo»e by¢ zde niowana za pomoc¡ pewnej opisanej powy»ej zakorkowanej struktury preferencji. Twierdzenie o adekwatności jest łatwe do sprawdzenia. Natomiast dowód twierdzenia o reprezentacji jest dość długi i trudny — daleko bardziej niż przedstawiony dowód analogicznej części twierdzenia 6.1. Nawet konstrukcja modelu preferencji (S , <, λ) jest dość złożona. Zakładając, że relacja |z spełnia wymienione warunki syntaktyczne, aby upewnić się, że istnieje odpowiednia ilość kopii wartościowań, definiujemy zbiór stanów S w następujący sposób: • S = {(v, a) : v jest wartościowaniem boolowskim takim, że: v(C(a)) = 1}. Powyżej C(a) oznacza {x : a |z x}. Kiedy S jest już zdefiniowane, to funkcję λ określamy w najprostszy możliwy sposób: dla każdej pary (v, a) ∈ S : • λ(v, a) = v. Najbardziej subtelną część tej konstrukcji stanowi definicja relacji <: • (v, a) < (w, b) wtedy i tylko wtedy, gdy v(b) = 0 oraz a ∨ b |z a. Dobrze umotywujemy tę definicję, patrząc na problem z drugiej strony, czyli stosując pewnego rodzaju „odwrotną inżynierię”. Zauważmy, że dla każdego zakorkowanego modelu preferencji (S , <, λ), a ∨ b |z< a wtedy i tylko wtedy, gdy dla każdego stanu s ∈ S spełniającego b (tzn. takiego, że v s (b) = 1), istnieje stan s0 ∈ S , spełniający a, taki że s0 = s lub s0 < s. Jeśli dodatkowo v s0 (b) = 0, to s0 , s, więc s0 < s. Sprawdzenie, że podana konstrukcja rzeczywiście spełnia pokładane oczekiwania wymaga całej serii subtelnych lematów, które można przestudiować w pracy Krausa, Lehmanna oraz Magidora (1990).
Ćwiczenia 1. Sformułuj oraz dowiedź twierdzenie o adekwatności odwrotne do twierdzenia 4.5 dla konsekwencji reguł osiowych. 2. Chociaż twierdzenie 3.6 nie zachodzi w nieskończonej formie, to jego konwers zachodzi. Uzasadnij to. 3∗ . Uzupełnij szczegóły w dowodzie punktu 3 lematu do twierdzenia 6.1. Pokaż więc, że wynika on bezpośrednio z obserwacji 2.8.
166
Rozdział 6. Krótkie porównanie
4∗ . Udowodnij część dotyczącą adekwatności w twierdzeniu 6.1. 5. Pokaż, że syntaktyczne warunki z twierdzenia 6.1 implikują wspomniany w punkcie 6.2 „ograniczony przypadek przechodniości”: jeśli t |z a i a |z x, to t |z x. 6. Sprawdź „kwestię zmniejszenia liczby aksjomatów” wspomnianą w komentarzu przed sformułowaniem twierdzenia 6.3. 7. Udowodnij część dotyczącą adekwatności w twierdzeniu 6.3. 8. Udowodnij stwierdzenie poczynione w ramach „odwrotnej inżynierii”, służące do umotywowania konstrukcji relacji < pomiędzy stanami w dowodzie KLM twierdzenia 6.3.
Problem Czy z syntaktycznych warunków z twierdzenia 6.1 wynika kumulatywna przechodniość?
Projekt Przestudiuj szczegółowo pracę Krausa, Lehmanna oraz Magidora (1990).
Zaawansowany projekt Na podstawie prac Freunda i Lehmanna (1994) oraz Schlechty (2004) przestudiuj problem powstający przy twierdzeniu o reprezentacji dla operacji wartościowań domyślnych z nieskończonymi zbiorami przesłanek. Uwaga: Projekt ten może zostać podjęty tylko przez studentów biegłych matematycznie.
6.4. Powtórzenie materiału i dalsze poszukiwania Podsumowanie Logiki rewizji przekonań, aktualizacji, okresów kontrfaktycznych i warunkowych zobowiązań posiadają pewne podobieństwa, zarówno względem siebie, oraz względem inferencji niemonotonicznych. Są one widoczne na poziomie syntaktycznym, w logicznych zasadach, które definiują te logiki. Systemy te możemy więc częściowo tłumaczyć na siebie. Podobieństwo manifestuje się również w ich
6.4. Powtórzenie materiału i dalsze poszukiwania
167
semantyce, która jest podobna do semantyki konsekwencji założeń domyślnych (w przypadku rewizji i aktualizacji) oraz/lub konsekwencji preferencji (ponownie w przypadku aktualizacji, oraz okresów kontrfaktycznych i okresów warunkowych zobowiązań). W monotonicznym przypadku dysponujemy twierdzeniami o reprezentacji zarówno dla konsekwencji założeń i reguł osiowych. Nie mamy nieskończonej formy twierdzenia o reprezentacji dla konsekwencji osiowych założeń, chociaż dla wersji skończonej wynika takowe z jej osiowo-regułowego odpowiednika. W dziedzinie domyślnej jest wiele twierdzeń o reprezentacji (zwykle w formie skończonej) dla różnych form założeń domyślnych oraz domyślnych wartościowań. Dwa takie przykłady podaliśmy w rozdziale. Nie wiemy jednak nic na temat analogicznych rezultatów dla konsekwencji reguł domyślnych. Lista sprawdzająca znajomość pojęć i definicji Podrozdział 6.1. Zmiana przekonań, rewizja, kontrakcja, zasada minimalnej modyfikacji, identyczność Leviego, identyczność Harpera, podstawowe i rozszerzone postulaty AGM dla rewizji, rewizja częściowego przecięcia, rewizja prosta vs rewizja z iteracjami. Podrozdział 6.2. Intuicyjne pojęcie aktualizacji, model Katzuno/Mendelzona dla aktualizacji, słabe centrowanie, mocne centrowanie, intuicyjna koncepcja kontrfaktycznego okresu warunkowego, reprezentacja relacji konsekwencji jako spójnika okresu kontrfaktycznego, modele Stalnakera/Lewisa dla okresów kontrfaktycznych, modus ponens dla kontrfaktycznych okresów warunkowych, koniunkcyjna wystarczalność, intuicyjne pojęcie dyrektywalnego okresu warunkowego, modele preferencji dla dyrektywalnych okresów warunkowych. Podrozdział 6.3. Twierdzenia o reprezentacji, twierdzenia o adekwatności, znaczenie tych twierdzeń, główne twierdzenia o reprezentacji dla systemów osiowych, przykłady twierdzeń o reprezentacji dla systemów domyślnych.
Dalsze lektury Zmiana przekonań • Makinson D., Gärdenfors P., Relations between the logic of theory change and nonmonotonic logic, w: The Logic of Theory Change, red. Fuhrmann & Morreau, Springer, Berlin 1991, s. 185–205. • Gärdenfors P., Rott H., Belief revision, w: Handbook of Logic in Artificial Intelligence and Logic Programming. Volume 4: Epistemic and Temporal Logics, red. Gabbay D.M., Hogger C., Robinson J.A., Clarendon Press, Oxford 1995, s. 35–132.
168
Rozdział 6. Krótkie porównanie
Aktualizacja przekonań, kontrfaktyczne i dyrektywalne okresy warunkowe • Katsuno H., Mendelzon A. O., On the difference between updating a knowledge base and revising it, w: Belief Revision, red. Gärdenfors P., Cambridge University Press 1992, s. 183–203. • Lewis D., Counterfactuals, Blackwell, Oxford 1973. • Makinson D., Five faces of minimality, Studia Logica, 52, 1993, s. 339–379. Punkty 5–7. Twierdzenia o reprezentacji • Kraus S., Lehmann D., Magidor M., Nonmonotonic reasoning, preferential models and cumulative logics, Artificial Intelligence, 44, 1990, s. 167–207.
Dodatki
A. Dowód twierdzenia 4.12 T 4.12. Niech R b¦dzie dowolnym zbiorem (normalnych lub nienormalnych) reguª domy±lnych, za± A dowolnym zbiorem przesªanek. Wtedy rozszerzenia Reitera z punktem staªym zbioru A za pomoc¡ R s¡ dokªadnie zbiorami ChRi (A), dla dobrych porz¡dków hRi o typie porz¡dkowym ω. To znaczy: (⇒) dla dowolnego dobrego porz¡dku hRi zbioru R o typie porz¡dkowym 6 ω, je±li zbiór ChRi (A) jest dobrze zde niowany, to jest on rozszerzeniem Reitera zbioru A za pomoc¡ R. (⇐) dowolne rozszerzenie Reitera zbioru A za pomoc¡ R jest dobrze zde niowanym zbiorem ChRi (A), dla pewnego dobrego porz¡dku hRi zbioru R o typie porz¡dkowym 6 ω. D´ . Rozpoczynamy od dowodu (⇒). Argumentacja będzie przebiegać w zwykły sposób, w oparciu o „nieuchronny” wzorzec podany w definicji, chociaż ścisłe jego wyłożenie wymaga uwagi. Definicja rozszerzenia Reitera (1980) głosi, że zbiór formuł E jest rozszerzeniem zbioru przesłanek A ze względu na domyślne reguły R wtedy i tylko wtedy, gdy E jest najmniejszym zbiorem X, który spełnia następujące trzy warunki: (1) A ⊆ X, (2) X = Cn(X), (3) jeśli (a, P, x) ∈ R oraz a ∈ X i ¬p < E, dla każdego p ∈ P, to x ∈ X. Niech hRi będzie dobrym porządkiem zbioru R, o typie porządkowym 6 ω. Załóżmy, że ChRi (A) jest dobrze zdefiniowny, tzn. że jego indukcyjna konstrukcja nie jest przerwana w żadnym kroku. Wystarczy pokazać, że ChRi (A) jest najmniejszym zbiorem X spełniającym warunki (1)–(3), gdzie ChRi (A) jest podstawione za E. Inaczej mówiąc, musimy pokazać, że: (a) ChRi (A) spełnia warunki (1)–(3), oraz (b) jeśli X spełnia warunki (1)–(3), to ChRi (A) ⊆ X. Aby dowieść (a) musimy pokazać, że (ai) A ⊆ ChRi (A), (aii) ChRi (A) = Cn(ChRi (A)), (aiii) jeśli (a, P, x) ∈ R oraz a ∈ ChRi (A) i ¬p < ChRi (A), dla każdego p ∈ P, to x ∈ ChRi (A). Warunek (ai) wynika bezpośrednio z definicji ChRi (A),
170
Dodatki
(aii) łatwo sprawdzić korzystając ze zwartości klasycznej konsekwencji Cn. Istotny jest natomiast dowód (aiii). Załóżmy, że r = (a, P, x) ∈ R, a ∈ ChRi (A) oraz ¬p < ChRi (A) dla wszystkich p ∈ P. Chcemy pokazać, że x ∈ ChRi (A). Ponieważ a ∈ ChRi (A), wiemy więc, iż a ∈ An dla pewnego n < ω. Ponieważ ¬p < ChRi (A), dla dowolnego p ∈ P, więc na mocy (aii) otrzymujemy, że p jest niesprzeczna z ChRi (A), a przez monotoniczność klasycznej konsekwencji, jest także niesprzeczna z An . Jeśli x ∈ An ⊆ ChRi (A), to dowód jest gotowy. Załóżmy więc, że x < An . Zatem, co łatwo pokazać stosując indukcją, r < Rn . Stąd r spełnia warunek wejściowy przypadku 1 definicji An+1 . Istotnie, bez utraty ogólności możemy założyć, że r jest pierwszą taką regułą. Ponieważ z założenia ChRi (A) jest dobrze zdefiniowane, opuszczamy podprzypadek 1.2 i przechodzimy do podprzypadku 1.1. Zatem An+1 = Cn(An ∪ {x}), a więc x ∈ An+1 ⊆ ChRi (A), co kończy dowód (aiii) oraz całego punktu (a). Aby dowieść (b), załóżmy, że X spełnia warunki (1)–(3). Chcemy pokazać, że ChRi (A) ⊆ X. Wystarczy oczywiście pokazać, że An ⊆ X, dla każdego n < ω. Zastosujemy w tym celu indukcję. Krok wyjściowy jest bezpośredni, ponieważ A0 = A ⊆ X z warunku (1). Dla kroku indukcyjnego załóżmy, że An ⊆ X; chcemy pokazać, że An+1 ⊆ X. Jeśli nie ma reguły spełniającej warunek wejściowy przypadku 1 definicji An+1 , to przechodzimy do przypadku 2 i An+1 = An ⊆ X, stosując założenie indukcyjne. Załóżmy więc, że istnieje pewna reguła spełniająca test dla wejścia w przypadku 1 definicji An+1 . Niech r = (a, P, x) będzie pierwszą taką regułą. Ponieważ z założenia ChRi (A) jest dobrze zdefiniowane, więc także An+1 musi być dobrze zdefiniowane, przechodzimy zatem do podprzypadku 1.1. Wynika stąd, że An+1 = Cn(An ∪{x}) oraz Rn+1 = Rn ∪{r}, a ponadto każdy element just(Rn ∪ P) jest niesprzeczny z An ∪{x}. Z założenia indukcyjnego wiemy, iż An ⊆ X, wystarczy więc pokazać, że x ∈ X. Ponieważ X spełnia warunek (3), wystarczy pokazać, że a ∈ X oraz ¬p < ChRi (A), dla dowolnego p ∈ P. Wiemy, iż a ∈ X, ponieważ z założenia r spełnia warunek wejściowy do przypadku 1 definicji An+1 . Stąd ponownie z założenia a ∈ An ⊆ X. Niech p ∈ P. Musimy pokazać, że ¬p < ChRi (A). Z wejściowego warunku do podprzypadku 1.1, ¬p < Cn(An ∪ {x}) = An+1 , na mocy definicji An+1 w tym przypadku. Również, z definicji Rn+1 w tym przypadku, r ∈ Rn+1 , zatem p ∈ just(r) ⊆ just(Rn+1 ). Stąd, stosując prostą indukcję, otrzymujemy, że ¬p < Am , dla dowolnego m > n + 1. Zatem ¬p < ChRi (A), do czego dążyliśmy. Kończy to dowód (b), a więc także (⇒). Przechodzimy teraz do dowodu (⇐). Niech E będzie dowolnym rozszerzeniem Reitera zbioru A za pomocą R. Chcemy pokazać, że E = ChRi (A), dla pewnego dobrego porządku hRi zbioru R o typie porządkowym 6 ω. Dzielimy R na trzy podzbiory R1, R2 oraz R3, z indeksami 1, 2, 3 pisanymi na tym samym pozio-
A. Dowód twierdzenia 4.12
171
mie co R, aby nie pomylić ich z pierwszymi trzema elementami zdefiniowanego indukcyjnie ciągu R0 , R1 , …. R1: zbiór wszystkich reguł r = (a, P, x) ∈ R takich, że a ∈ E oraz p jest niesprzeczne z E, dla dowolnego p ∈ P; R2: zbiór reguł r = (a, P, x) ∈ R takich, że a < E; R3: zbiór reguł r = (a, P, x) ∈ R takich, że a ∈ E, ale p jest sprzeczne z E, dla pewnego p ∈ P. Zbiory te są oczywiście rozłączne, a ich suma jest równa R. Zaczynamy od zbioru R1, ustawiając jego elementy w dowolny porządek hRi typu ω (lub skończony, jeśli R jest skończony). Nasza strategia opiera się po pierwsze na pokazaniu, że ChR1i (A) jest dobrze zdefiniowany oraz równy E, a następnie wykazaniu, iż elementy R2 oraz R3 mogą zostać umieszczone w porządku hR1i, dając porządek R, który wciąż jest typu co najwyżej ω, bez zmiany wartości indukowanego wyjścia. W celu pokazania, że ChR1i (A) jest dobrze zdefiniowany i jest zawarty w E, zauważmy po pierwsze, że z definicji rozszerzeń opartych o punkt stały, konkluzja każdej reguły z R1 należy do E. Metodą prostej indukcji pokazujemy następnie, że dla każdego n wejściowe warunki do przypadku 1 oraz podprzypadku 1.1 są spełnione, a więc An+1 jest dobrze zdefiniowane i jest podzbiorem E. Zatem ChR1i (A) jest dobrze zdefiniowane i ChR1i (A) ⊆ E. Inkluzja odwrotna E ⊆ ChR1i (A) zachodzi na mocy definicji; przypomnijmy, że E jest najmniejszym zbiorem X spełniającym warunki (1)–(3) zarysowane na początku całego dowodu. Musimy jedynie sprawdzić, że ChR1i (A) spełnia te trzy warunki, tzn. że zachodzą one, jeśli X zastąpimy przez ChR1i (A). Pierwsze dwa otrzymujemy bezpośrednio, tzn. mamy A ⊆ ChR1i (A) oraz ChR1i (A) = Cn(ChR1i (A)). Dla dowodu warunku trzeciego załóżmy, że (a, P, x) ∈ R, a ∈ ChR1i (A) oraz ¬p < E, dla dowolnego p ∈ P. Musimy pokazać, że x ∈ ChR1i (A). Ponieważ ChR1i (A) ⊆ E, jak już zauważyliśmy, więc a ∈ E. Z definicji R1 oraz z tego, iż E = Cn(E), wynika zatem, że (a, P, x) ∈ R1. Ponownie, ponieważ ChR1i (A) ⊆ E, jak zauważyliśmy, oraz z założenia ¬p < E, ¬p < ChR1i (A), dla każdego p ∈ P. Składając te fakty razem otrzymujemy: (a, P, x) ∈ R1, a ∈ E, oraz ¬p < ChR1i (A), dla każdego p ∈ P. Możemy więc teraz powtórzyć dokładnie tę samą argumentację, co dla punktu (aiii) w części dowodu (⇒), zastępując wszędzie literę R przez R1, co da nam poszukiwany wniosek x ∈ ChR1i (A). Należy obecnie pokazać, że elementy R2 oraz R3 mogą być umieszczone w porządku hRi, co da porządek zbioru R o typie co najwyżej ω, bez zmiany wartości indukowanego wyjścia. Zrobimy to w dwóch krokach. Zaczniemy od elementów R2, a potem przejdziemy do elementów R3. W celu umieszczenia elementów R2, zapiszmy porządek hR1i jako r0 , r1 , … i ustawmy wszystkie reguły r20 , r21 , … z R2 w ciąg o typie co najwyżej ω.
172
Dodatki
Umieśćmy każdą regułę r2i w porządku hR1i w dowolny sposób, który utrzyma ciąg w typie porządkowym co najwyżej ω, np. dołączając r2i bezpośrednio po ri . Z definicji R2, założenie wstępne każdej reguły r2i jest poza E, a zatem także poza ChR1i (A), a stąd zaś także poza każdym An użytym w konstrukcji ChR1i (A). Jest zatem jasne, że żadna z reguł r2i nie spełnia wejściowego warunku przypadku 1 w indukcji zdefiniowanej przez nowy porządek. Reguła ta nie jest więc stosowana. Stąd stary porządek hRi definiuje to samo indukcyjne wyjście co nowy porządek, który oznaczymy symbolem hR1 ∪ R2i. Zatem ChR1i (A) = ChR1∪R2i (A). W celu dodania elementów z R3, zapiszmy porządek hR1 ∪ R2i jako r0 , r1 , … i ustawmy wszystkie reguły z R3 w dowolnym porządku r30 , r31 , … o typie co najwyżej ω. Rozważmy dowolną regułę r3i = (a, P, x) ∈ R3. Wtedy a ∈ E oraz pewne p ∈ P jest sprzeczne z E. Wiemy już, że E = ChR1i (A) = ChR1∪R2i (A). Zatem, z indukcyjnej definicji ChR1∪R2i (A), p jest sprzeczne z ChR1∪R2i (A) i ¬p ∈ An , dla pewnego An , gdzie wartość n zależy od i. Niech f będzie taką funkcją, że f (i) jest pierwszym takim n. Umieśćmy teraz wszystkie r3i w porządku hR1 ∪ R3i w dowolny sposób, ale taki, że znajdą się one po swoich odpowiednikach r f (i) , a zarazem otrzymany ciąg będzie długości co najwyżej ω. Dla przykładu, umieśćmy r3i zaraz po r f (i)·i . Nowy porządek zapiszmy jako hR1 ∪ R2 ∪ R3i. Teraz każda z umieszczonych reguł ma uzasadnienie p, które jest sprzeczne z pewnym wcześniejszym An w indukcyjnej definicji ChR1∪R2∪R3i (A). Zatem reguła ta nie spełnia warunku wejściowego przypadku 1 i nie zostaje zastosowana. Konstrukcja ChR1∪R2∪R3i (A) nie załamuje się więc, a nawet ChR1∪R2∪R3i (A) = ChR1∪R2i (A), a zatem E = ChR1i (A) = ChR1∪R2i (A) = ChR1∪R2∪R3i (A). Ponieważ R1 ∪ R2 ∪ R3 = R, możemy więc uporządkować R, kładąc hRi = hR1 ∪ R2 ∪ R3i. Ostatecznie otrzymujemy równość ChRi (A) = E, co kończy dowód części (⇐), a zarazem dowód całego twierdzenia.
B. Objaśnienie symboli specjalnych Zakładamy, że czytelnik jest już obeznany z klasycznymi, prawdziwościowymi funktorami: ¬, ∧, ∨, →, ↔, oraz klasycznymi kwantyfikatorami: ∀, ∃. Nie wyjaśniamy więc ich znaczenia. Liczb 1, 0 używamy do oznaczenia wartości prawdy i fałszu. Z kolei litery t, f oznaczają, odpowiednio, dowolną tautologię i kontrtautologię. Litery t używamy niekiedy razem z literą s do oznaczenia stanów w modelu, nie powinno to jednak powodować żadnej niejasności. Litery zdaniowe języka zdaniowego oznaczamy za pomocą liter p, q, r, …, nie licząc rozdziału 5, gdzie litera p jest zarezerwowana dla funkcji prawdopodobieństwa.
173
B. Objaśnienie symboli specjalnych
Zakładamy również znajomość symboli teoriomnogościowych: ∈, ⊆, ⊂, ⊇, ⊃, ∅, −, ∩, ∪, ×, 2X , a także wykorzystania nawiasów do opisywania zbiorów. Używamy zwykłych (okrągłych) nawiasów do oznaczania par uporządkowanych, chociaż kwadratowe nawiasy są niekiedy stosowane w dłuższych wypowiedziach. Przyjęte zwykle znaki stosujemy do opisu podstawowych operacji arytmetycznych, takich jak dodawanie +, odejmowanie −, mnożenie ·, dzielenie /, potęgowanie an itd. Poniższa tabela zestawia, w porządku ich wprowadzania, symbole specjalne. Oprócz ich polskiej nazwy, podajemy także numer podrozdziału, w którym są one wprowadzone i zdefiniowane. Staraliśmy się ograniczyć ich liczbę. Kiedy możliwe, stosowaliśmy mało greckich liter, nie używając w ogóle liter gotyckich.
Symbol
Nazwa/Opis
Podrozdział
` Cn
Klasyczna konsekwencja w relacyjnym (gate, turnstile) i operacyjnym ujęciu
1.2
Cl
Operacja domknięcia określona na dowolnym zbiorze
1.2
Funkcje podstawiania
1.3
Obraz zbioru A w funkcji podstawiania σ
1.3
Domknięcie zbioru A w funkcji σ
1.3
Nadklasyczne relacje i operacje domknięcia
1.3
Nadklasyczne relacje i operacje domknięcia (bez zakładanego domknięcia)
1.3
Relacje i operacje konsekwencji założeń osiowych
2.1
|zK C K
Relacje i operacje konsekwencji założeń domyślnych
2.2
C KK0
Chroniące operacje konsekwencji
2.3
δ
Funkcje selekcji
σ
τ
σ(A) σ[A] +
`
+
Cn
|z C `K
CnK
2.3 0
KA
Rodzina wszystkich podzbiorów K ⊆ K maksymalnie niesprzecznych z A
2.3
Cδ
Operacje konsekwencji założeń domyślnych zdefiniowane za pomocą funkcji selekcji
2.3
|zKJ CKJ
Operacje i relacje konsekwencji założeń domyślnych z dodatkowymi warunkami
2.3
SA
Zbiór wszystkich bezpiecznych z uwagi na A elementów z K
2.3
174
Dodatki
Symbol
Nazwa/Opis
Podrozdział
`W CnW
Relacje i operacje konsekwencji wartościowań osiowych
3.1
|zW CW
Relacje i operacje konsekwencji wartościowań domyślnych
3.2
(a, x)
Uporządkowana para formuł, nazywana regułą
4.1
2
R
Zbiór reguł, tzn. podzbiór L
4.1
`R CnR
Relacje i operacje konsekwencji reguł osiowych
4.1
hRi
Dobrze uporządkowany zbiór reguł
4.1
|zR CR
Relacje i operacje konsekwencji reguł domyślnych
4.2
(a, P, x)
Nienormalne reguły domyślne
4.3
CR
Operacja konsekwencji maksymalnej rodziny reguł
4.3
p
Funkcje prawdopodobieństwa
5.1
pa
Warunkowa funkcja prawdopodobieństwo p oparta o zdanie a
5.1
|ztp
Nadklasyczna niemonotoniczna konsekwencja, zdefiniowana za pomocą warunku (4pt)
5.3
+ |ztp
Wersja wcześniejszej konsekwencji wzbogacona o zwiększanie
5.3
|zR
Ograniczona konsekwencja oparta o prawdopodobieństwo
5.4
PRε
Zbiór wszystkich funkcji prawdopodobieństwa, które są epsilonowo dobre dla R
5.4
π
Funkcje możliwości
5.4
|zπ
Relacja konsekwencji określona za pomocą funkcji π
5.4
+
Ekspansja przekonań
6.1
−
Kontrakcja przekonań
6.1
∗
Rewizja przekonań
6.1
#
Aktualizacja przekonań (jako operacja dwuargumentowa)
6.2
|≈K
Aktualizacja (jako relacja konsekwencji)
6.2
|≈ s
Relacja konsekwencji logiki okresów kontrfaktycznych
6.2
Kontrfaktyczny okres warunkowy (w języku przedmiotowym)
6.2
O(x/a)
Dyrektywalny okres warunkowy (w języku przedmiotowym)
6.2
λ
Funkcje etykietowania
6.3
|zδ
Relacje konsekwencji założeń domyślnych zdefiniowane za pomocą funkcji selekcji
6.3
Odpowiedzi do wybranych ćwiczeń
Podrozdział 1.2
wiczenie 2(a). U»ywaj¡c znaku ∅ na oznaczenie pustego zbioru formuª, wyja±nij co wedªug podanej de nicji klasycznej konsekwencji znaczy, »e ∅ ` x. Odpowied¹: ∅ ` x wtedy i tylko wtedy, gdy x jest tautologią. Uzasadnienie: ∅ ` x wtedy i tylko wtedy, gdy nie istnieje takie boolowskie wartościowanie v, że v(a) = 1, dla dowolnego a ∈ ∅ oraz v(x) = 0. Nie ma jednak takiego a, że a ∈ ∅, zatem warunek, iż v(a) = 1, dla dowolnego a ∈ ∅, jest pusto spełniony. A więc ∅ ` x wtedy i tylko wtedy, gdy nie istnieje takie boolowskie wartościowanie v, że v(x) = 0, tj. wtedy i tylko wtedy, gdy x jest tautologią.
wiczenie 3(a). Poka», »e ka»dy z warunków domkni¦cia: zwrotno±¢, kumulatywna przechodnio±¢ oraz monotoniczno±¢, wyra»ony w j¦zyku relacji lub operacji, jest speªniony dla konsekwencji klasycznej. Odpowied¹ (cz¦±ciowa): Sprawdzimy monotoniczność, pozostałe warunki spraw-
dza się analogicznie. Załóżmy, że A ⊆ B oraz x < Cn(B). Musimy pokazać, że x < Cn(A). Ponieważ x < Cn(B), więc istnieje takie boolowskie wartościowanie v, że v(B) = 1 oraz v(x) = 0. Ponieważ v(B) = 1, tj. v(b) = 1, dla każdego b ∈ B, oraz A ⊆ B, więc v(b) = 1, dla dowolnego b ∈ A, tj. v(A) = 1. Zatem v(A) = 1 oraz v(x) = 0, więc x < Cn(A), do czego zmierzaliśmy.
wiczenie 3(b). Sprawd¹, czy warunki domkni¦cia dla Cn s¡ równowa»ne z odpowiednimi warunkami dla `, u»ywaj¡c de nicji Cn(A) = {x : A ` x}. Wska» w którym dokªadnie miejscu wymagany jest warunek zwrotno±ci przy dowodzie (CT) dla relacji ` w oparciu o warunek (CT) dla operacji Cn. Odpowied¹ (cz¦±ciowa) : W celu uniknięcia przeciążenia notacji, w tym, jak i kolejnych dwóch ćwiczeniach, niech ` będzie dowolną relacją pomiędzy zbiorami formuł i pojedynczymi formułami. Definiujemy Cn jak następuje: Cn(A) = {x : A ` x} dla dowolnego zbioru formuł A. Sprawdzimy tylko najtrudniejszy przypadek, tj. przechodniość.
176
Odpowiedzi do wybranych ćwiczeń
Najpierw załóżmy, że ` spełnia warunek (CT)(`). Chcemy pokazać, że Cn spełnia warunek (CT)(Cn). Załóżmy, że A ⊆ B ⊆ Cn(A). Chcemy pokazać, iż: Cn(B) ⊆ Cn(A). Niech x ∈ Cn(B). Musimy udowodnić, iż x ∈ Cn(A). Ponieważ B ⊆ Cn(A), więc A ` b, dla dowolnych b ∈ B. Ponieważ x ∈ Cn(B), mamy więc na podstawie definicji, że B ` x. Jednak A ⊆ B, zatem B = A ∪ B, i A ∪ B ` x. Stąd przez (CT)(`), A ` x, co na podstawie definicji daje, że x ∈ Cn(A). Przejdźmy do drugiej strony twierdzenia i załóżmy, iż Cn spełnia warunek (CT)(Cn) oraz warunek inkluzji. Chcemy pokazać, że ` spełnia warunek (CT)(`). Załóżmy, że A ` b, dla dowolnych b ∈ B oraz A ∪ B ` x. Chcemy pokazać, że A ` x. Oczywiście A ⊆ A ∪ B, ponadto z założenia oraz z warunku inkluzji mamy A ` b, dla wszystkich b ∈ A ∪ B, tj. A ∪ B ⊆ Cn(A). Zatem A ⊆ A ∪ B ⊆ Cn(A). Teraz z uwagi na (CT)(Cn) otrzymujemy Cn(A ∪ B) ⊆ Cn(A). Ponieważ A ∪ B ` x, więc ostatecznie A ` x.
wiczenie 4(b). W tek±cie byªa mowa o tym, »e przy zaªo»eniu warunku zwrotno±ci i monotoniczno±ci, warunek kumulatywnej przechodnio±ci jest równowa»ny ogólnej wersji prostej przechodnio±ci. Poka», »e faktycznie tak jest. Odpowied¹ : Załóżmy, że ` spełnia warunek zwrotności i monotoniczności. Załóż-
my najpierw, że spełnia również warunek kumulatywnej przechodniości. Chcemy pokazać, że spełnia też warunek przechodniości. Załóżmy, że A ` b, dla dowolnego b ∈ B oraz B ` x. Chcemy pokazać, że A ` x. Z monotoniczności wynika, że A ∪ B ` x, zatem przez kumulatywną przechodniość A ` x, do czego dążyliśmy. Załóżmy teraz, że relacja ` jest przechodnia. Zamierzamy pokazać, że spełnia także kumulatywną przechodniość. Załóżmy, iż A ` b, dla wszystkich b ∈ B, oraz A ∪ B ` x. Pokażemy, że A ` x. Z uwagi na zwrotność, A ` a, dla każdego a ∈ A. Zatem A ` b, dla dowolnego b ∈ A ∪ B. Stąd i z założenia: A ∪ B ` x, na mocy zwykłej przechodniości otrzymujemy A ` x.
wiczenie 4(c). W tek±cie twierdzono, »e w de nicji operacji domkni¦cia mo»emy zast¡pi¢ (CT) przez idempotencj¦, je±li zaªo»ymy warunki inkluzji oraz monotoniczno±ci. Poka», »e to prawda. Odpowied¹ (cz¦±ciowa) : Niech Cn będzie operacją spełniajacą inkluzję i mono-
toniczność. Załóżmy, że spełnia także kumulatywną przechodniość. Chcemy pokazać, że spełnia także idempotencję, tj. Cn(A) = Cn(Cn(A)). Cn(A) ⊆ Cn(Cn(A)) zachodzi z warunku inkluzji. Dla dowodu inkluzji odwrotnej zauważmy, że przez warunek inkluzji mamy A ⊆ Cn(A) ⊆ Cn(A), co przez kumulatywną przechodniość prowadzi do tego, że Cn(Cn(A)) ⊆ Cn(A).
Odpowiedzi do wybranych ćwiczeń
177
wiczenie 5(a). Poka», »e konsekwencja klasyczna speªnia warunek ª¡czenia przesªanek w alternatyw¦ (OR). Odpowied¹ : Musimy pokazać, że jeśli A ∪ {a} ` x i A ∪ {b} ` x, to A ∪ {a ∨ b} ` x.
Załóżmy, że A ∪ {a ∨ b} 0 x. Wtedy istnieje wartościowanie v takie, że v(A) = 1, v(a ∨ b) = 1, lecz v(x) = 0. Ponieważ v(a ∨ b) = 1, więc v(a) = 1 lub v(b) = 1. Zatem A ∪ {a} 0 x lub A ∪ {b} 0 x.
wiczenie 5(b). Rozwa» nast¦puj¡c¡ reguª¦: je±li A ∪ {a ∨ b} ` x, to A ∪ {a} ` x lub A ∪ {b} ` x. Czy jest to reguªa Horna? Czy zachodzi ona dla konsekwencji klasycznej? Odpowied¹ : Nie jest to reguła Horna, ponieważ jej konkluzja ma postać alterna-
tywy. Zachodzi ona dla klasycznej konsekwencji nawet w silniejszej postaci, po zastąpieniu słowa „lub” słowem „i” (ma wtedy ona postać reguły Horna).
wiczenie 6. Rozwa» nast¦puj¡c¡ reguª¦, zwan¡ łączeniem konkluzji w koniunkcję (AND) lub ∧+(prawostronne): je±li A ` x oraz A ` y, to A ` x ∧ y. Czy jest to reguªa Horna? Czy zachodzi ona dla konsekwencji klasycznej? Odpowied¹ : Tak, jest to reguła Horna. Zachodzi ona także dla konsekwencji klasycznej. Dowód: Załóżmy, że A 0 x∧y. Wtedy istnieje boolowskie wartościowanie v, takie że v(A) = 1 oraz v(x ∧ y) = 0. Z ostatniego wiemy, iż v(x) = 0 lub v(y) = 0, zatem A 0 x lub A 0 y.
Problem 4. Niech X b¦dzie dowolnym zbiorem. O zbiorze X mo»na my±le¢ jako o zbiorze formuª zdaniowych, ale omawiany problem jest du»o ogólniejszy. Niech F b¦dzie dowoln¡ rodzin¡ podzbiorów zbioru X . Zde niujmy operacj¦ T Cl : 2X → 2X jak nast¦puje: Cl(A) = {B ∈ F : A ⊆ B}. Poka», »e Cl jest operacj¡ domkni¦cia. Odpowied¹ : Musimy pokazać, że Cl spełnia warunki inkluzji, monotoniczności oraz idempotencji. Dla dowodu warunku inkluzji powinniśmy jedynie zaobserwoT wać, że A ⊆ {B ∈ F : A ⊆ B}. Dla dowodu monotoniczności załóżmy, że A ⊆ A0 . Wtedy, jeśli A0 ⊆ B, to A ⊆ B, a zatem {B ∈ F : A0 ⊆ B} ⊆ {B ∈ F : A ⊆ B}. T T Stąd Cl(A) = {B ∈ F : A ⊆ B} ⊆ {B ∈ F : A0 ⊆ B} = Cl(A0 ). Dla dowoT du warunku idempotencji zauważmy, że Cl(Cl(A)) = {B ∈ F : Cl(A) ⊆ B}. T Do dowodu faktu, iż Cl(Cl(A)) ⊆ Cl(A) wystarczy pokazać, że {B ∈ F : T Cl(A) ⊆ B} ⊆ {B ∈ F : A ⊆ B}, a do tego z kolei wystarczy pokazać, iż {B ∈ F : A ⊆ B} ⊆ {B ∈ F : Cl(A) ⊆ B}. Ostatecznie więc wystarczy zauważyć, T że jeśli B ∈ F oraz A ⊆ B, to Cl(A) = {B ∈ F : A ⊆ B} ⊆ B, co zachodzi bezpośrednio.
178
Odpowiedzi do wybranych ćwiczeń
Podrozdział 1.3
wiczenie 1(a). Zaªó»my, »e pracujemy w j¦zyku, w którym jedynymi pierwotnymi spójnikami s¡ ¬ oraz →. Jaka byªaby wtedy prawidªowa de nicja podstawiania? Odpowied¹ : W tym kontekście podstawienie będzie funkcją σ : L → L, która dla dowolnych formuł a, b spełnia warunki: σ(¬a) = ¬σ(a) oraz σ(a → b) = σ(a) → σ(b).
wiczenie 1(e). Przypominaj¡c sobie de nicj¦ warto±ciowania z podrozdziaªu 1.2, poka», »e zªo»enie vσ, czyli zªo»enie podstawienia oraz warto±ciowania, jest dobrze zde niowane oraz samo jest warto±ciowaniem. Odpowied¹ (cz¦±ciowa) : Jeśli a jest formułą, to vσ(a) = v(σ(a)), czyli jest to
funkcja z L w {0, 1}. Musimy pokazać, że zachowuje się ona dobrze w stosunku do odpowiednich spójników. Zacznijmy od negacji ¬, z definicji podstawiania mamy: vσ(¬a) = v(¬σ(a)). Ponieważ v jest wartościowaniem, więc v(¬σ(a)) = 1 wtedy i tylko wtedy, gdy v(σ(a)) = 0. Zatem v(σ(¬a)) = 1 wtedy i tylko wtedy, gdy v(σ(a)) = 0, do czego zmierzaliśmy. W przypadku ∧ oraz ∨ należy rozumować podobnie.
wiczenie 2(a). Sprawd¹, »e zawsze σ(A) ⊆ σ[A] oraz podaj prosty przykªad, w którym A * σ(A). Odpowied¹ : Dla pierwszej części pierwszej załóżmy, że x ∈ σ(A). Istnieje więc
takie a ∈ A, że x = σ(a). σ[A] jest jednak najmniejszym zbiorem, który zawiera A i jest domknięty na σ, tj. x ∈ σ[A]. Dla drugiej części wystarczy zdefiniować σ jako podstawienie, które każdej literze zdaniowej przyporządkowuje literę p, natomiast zbiór A może równać się: {q}.
Podrozdział 1.4
wiczenie 1(a). Poka», ze dowolna nadklasyczna relacja |z, która speªnia zwykª¡ przechodnio±¢, speªnia tak»e singletonow¡ koniunkcyjn¡ monotoniczno±¢. Odpowied¹ : Załóżmy, że a |z x. Zamierzamy pokazać, że a ∧ b |z x. Wiemy, że
a ∧ b ` a, więc przez nadklasyczność mamy a ∧ b |z a. Zatem przez przechodniość otrzymujemy a ∧ b |z x, co było wymagane.
wiczenie 1(b). Poka», ze dowolna nadklasyczna relacja |z, która speªnia kumulatywn¡ przechodnio±¢, speªnia równie» warunek ª¡czenia konkluzji w koniunkcj¦. Odpowied¹ : Niech |z będzie nadklasyczną relacją konsekwencji, która spełnia kumulatywną przechodniość. Załóżmy, że A |z x, A |z y. Zamierzamy pokazać,
Odpowiedzi do wybranych ćwiczeń
179
że A |z x ∧ y. Wiemy, że dla klasycznej konsekwencji mamy: A ∪ {x, y} ` x ∧ y. Zatem z założenia nadklasyczności otrzymujemy A ∪ {x, y} |z x ∧ y. Łącząc to z dwoma pierwszymi założeniami, na mocy warunku kumulatywnej przechodniości, uzyskujemy A |z x ∧ y.
Podrozdział 2.1
wiczenie 1. Sprawd¹ prawdziwo±¢ poczynionego w tek±cie stwierdzenia, »e konsekwencja zaªo»e« osiowych speªnia warunki inkluzji, kumulatywnej przechodnio±ci i monotoniczno±ci, a zatem jest operacj¡ domkni¦cia. Wskazówka: Przypomnij sobie, »e wszystkie te wªasno±ci posiada konsekwencja klasyczna (rozdziaª 1), i poka», »e operacje osiowych zaªo»e« dziedzicz¡ je po niej. Odpowied¹ : Zachodzenie wszystkich przypadków pokazujemy w podobny sposób, wykazując jednocześnie, że stwierdzenie dotyczy zarówno podejścia w języku operacji oraz relacji. Warunek inkluzji sprawdzimy w języku operacji, monotoniczność w języku relacji, a kumulatywną przechodniość ponownie w języku operacji (jako dalsze ćwiczenie należy zbadać odwrotne przypadki). Wskazane postacie warunków omówimy dokładnie. Zacznijmy od warunku inkluzji: niech CnK będzie operacją konsekwencji osiowych założeń, A zbiorem formuł, x pojedynczą formułą. Pokażemy, że Cn(A) ⊆ CnK (A). Załóżmy, że x ∈ Cn(A). Powinniśmy pokazać, że x ∈ CnK (A), tzn. zgodnie z definicją CnK , że x ∈ Cn(K ∪ A). Wynika to jednak bezpośrednio z założenia i monotoniczności klasycznej konsekwencji. Weźmy teraz pod uwagę monotoniczność: niech `K będzie dowolną relacją konsekwencji założeń osiowych, A zbiorem formuł, a x pojedynczą formułą. Załóżmy, że A `K x oraz A ⊆ B. Chcemy pokazać, że B `K x. Ponieważ A `K x, zgodnie więc z definicją `K , A ∪ K ` x. Zatem na podstawie monotoniczności konsekwencji klasycznej oraz założenia, że A ⊆ B, otrzymujemy: B ∪ K ` x, tzn. B `K x, do czego zmierzaliśmy. Rozważmy na koniec warunek kumulatywnej przechodniości: niech CnK będzie dowolną operacją osiowych założeń. Załóżmy, że A ⊆ B ⊆ CnK (A). Pokażemy, że CnK (B) ⊆ CnK (A). Ponieważ A ⊆ B ⊆ CnK (A) = Cn(K ∪ A), na mocy warunku inkluzji dla Cn, mamy: K ∪ A ⊆ K ∪ B ⊆ Cn(K ∪ A). Stąd zaś na mocy kumulatywnej przechodniości dla Cn otrzymujemy Cn(K ∪ B) ⊆ Cn(K ∪ A), tzn. CnK (B) ⊆ CnK (A).
wiczenie 3. Poka», »e konsekwencja zaªo»e« osiowych jest zwarta. Wskazówka: Post¦puj analogicznie jak w poprzednim ¢wiczeniu.
180
Odpowiedzi do wybranych ćwiczeń
Odpowied¹ : Problem rozwiążemy posługując się językiem relacji, jednak dla dal-
szych ćwiczeń warto rozwiązanie przepisać na język operacji. Niech `K będzie dowolną relacją konsekwencji założeń osiowych, niech A będzie zbiorem formuł, natomiast x pojedynczą formułą. Załóżmy, że A `K x. Chcemy znaleźć taki skończony F ⊆ A, że F `K x. Ponieważ A `K x, zgodnie z definicją `K , mamy więc, że A ∪ K ` x. Stąd przez zwartość klasycznej konsekwencji istnieje taki skończony G ⊆ A ∪ K, że G ` x. Ponieważ G ⊆ A ∪ K, istnieją zatem takie zbiory F ⊆ A, H ⊆ K, że G = F ∪ H. G jest skończony, więc zarówno F jak i H są skończone. Zatem F ∪ H ` x, co przez monotoniczność klasycznej konsekwencji oraz fakt, iż H ⊆ K daje F ∪ K ` x, i w końcu F `K x.
wiczenie 5. Uzasadnij lemat 2.3 do twierdzenia 2.2. Odpowied¹ (cz¦±ciowa) : Sprawdzimy lewostronną, klasyczną równoważność.
Niech Cn0 będzie dowolną paraklasyczną operacją konsekwencji. Niech A, B będą takimi zbiorami formuł, że Cn(A) = Cn(B). Pokażemy, że Cn0 (A) = Cn0 (B). Wystarczy jedynie dowieść, iż Cn0 (A) ⊆ Cn0 (B), ponieważ dowód przeciwnej inkluzji jest analogiczny. Korzystając z założenia oraz stosując nadklasyczność Cn0 , otrzymujemy: B ⊆ Cn(A) = Cn(B) ⊆ Cn0 (B). Stąd, na mocy kumulatywnej przechodniości dla Cn0 , dostajemy: Cn0 (Cn(A)) ⊆ Cn0 (B). W celu skończenia dowodu wystarczy pokazać, iż Cn0 (A) ⊆ Cn0 (Cn(A)). Jednak A ⊆ Cn(A), więc z warunku monotoniczności dla Cn0 otrzymujemy Cn0 (A) ⊆ Cn0 (Cn(A)), jak chcieliśmy.
Podrozdział 2.2
wiczenie 1. Niech K = {p → q, q → p, p ∨ q}, a zbiór A = {¬p ∨ ¬q}, gdzie p, q s¡ literami zdaniowymi. Które w tym wypadku podzbiory K s¡ maksymalnie niesprzeczne z A? Teraz, niech K = {p ↔ q, p ∨ q}, odpowiedz na poprzednie pytanie przy niezmienionym A. Odpowied¹ : W przypadku, gdy K = {p → q, q → p, p ∨ q}, jego maksymalnymi podzbiorami niesprzecznymi z A są trzy dwuelementowe zbiory. Gdy K = {p ↔ q, p ∨ q}, jego maksymalnymi podzbiorami niesprzecznymi z A są dwa singletony.
wiczenie 3. Rozwa» boolowski j¦zyk, który powstaª przy u»yciu tylko dwóch liter zdaniowych p, q. Niech K = Cn({p, q}) oraz niech A = {¬p}. Które podzbiory K s¡ maksymalnie niesprzeczne z A? Wskazówka : Wypisz wszystkie elementy ze zbioru Cn({p, q}) (aż do klasycznej równoważności).
Odpowied¹ : Jednym ze sposobów znalezienia elementów Cn({p, q}) (z dokładnością do klasycznej równoważności) jest zapisanie w ustalonym porządku czterech możliwych opisów stanu za pomocą dwóch liter p, q, a następnie rozważenie 23
Odpowiedzi do wybranych ćwiczeń
181
ich alternatyw, zawierających p ∧ q, które potem upraszczamy. W efekcie da to osiem formuł: p ∧ q, p, q, p ↔ q, p ∨ q, p ∨ ¬q, ¬p ∨ q, p ∨ ¬p. Musimy teraz znaleźć maksymalne podzbiory tego ośmioelementowego zbioru, które są niesprzeczne z ¬p. Oczywiście żaden z nich nie zawiera p ∧ q lub p. Są dwa takie podzbiory: (1) {q, p ∨ q, ¬p ∨ q, p ∨ ¬p} — jest on równoważny z q, (2) {p ↔ q, p ∨ ¬q, ¬p ∨ q, p ∨ ¬p} — jest on równoważny z p ↔ q. Uwaga : Studenci często opuszczają drugi przypadek.
wiczenie 6. W przypadku, gdy operacja konsekwencji speªnia zarówno kumulatywn¡ przechodnio±¢ oraz ostro»n¡ monotoniczno±¢ jest ona nazywana kumulatywną. Napisz prost¡ reguª¦ Horna, w relacyjnej i operacyjnej notacji, która wyrazi ten warunek. Odpowied¹ : W notacji relacyjnej: jeśli A ` b, dla dowolnego b ∈ B, to A ∪ B ` x
wtedy i tylko wtedy, gdy A ` x. W notacji operacyjnej: A ⊆ B ⊆ Cn(A) implikuje Cn(B) = Cn(A).
wiczenie 7. Sprawd¹ prawdziwo±¢ stwierdzenia poczynionego w tek±cie, »e je»eli K = Cn(K) oraz A jest sprzeczne z K , to K 0 = Cn(K 0 ), dla dowolnego maksymalnego, A-niesprzecznego podzbioru K . Odpowied¹ : Załóżmy, że K = Cn(K) oraz A jest sprzeczne z K. Niech K 0
będzie dowolnym maksymalnie A-niesprzecznym podzbiorem K. Załóżmy, że x ∈ Cn(K 0 ). Musimy pokazać, że x ∈ K 0 . Ponieważ K 0 ⊆ K, więc przez monotoniczność klasycznej konsekwencji mamy: Cn(K 0 ) ⊆ Cn(K), a także x ∈ K, stosując założenie, że K = Cn(K). Załóżmy teraz dla dowodu nie wprost, że x < K 0 . Wtedy z uwagi na maksymalność K 0 oraz fakt, iż x ∈ K, wiemy, że K 0 ∪{x} jest sprzeczny z A. Ale ponieważ x ∈ Cn(K 0 ), więc Cn(K 0 ) = Cn(K 0 ∪{x}). Zatem K 0 jest sprzeczny z A, co przeczy założeniu.
Problem 2. Udowodnij obserwacj¦ 2.8: zaªó»my, »e K = Cn(K) i niech A b¦dzie zbiorem formuª, które s¡ sprzeczne z K . Wtedy nast¦puj¡ce trzy warunki s¡ równowa»ne, dla dowolnego K 0 ⊆ K: a. K 0 jest zbiorem maksymalnym w±ród podzbiorów K , które s¡ niesprzeczne z A. b. K 0 jest zbiorem maksymalnym w±ród klasycznie domkni¦tych, wªa±ciwych podzbiorów K , które s¡ niesprzeczne z A. c. K 0 jest zbiorem maksymalnym w±ród klasycznie domkni¦tych, wªa±ciwych podzbiorów K , oraz K 0 jest równie» niesprzeczny z A. Odpowied¹ : Dowiedziemy równoważności warunków zamykając koło. Dowody implikacji (a) ⇒ (b) oraz (c) ⇒ (a) są proste, zaczniemy więc od nich. W dowodzie implikacji (b) ⇒ (c) będziemy musieli zastosować zwartość, zostawimy
182
Odpowiedzi do wybranych ćwiczeń
go więc na koniec. Istotnie jest, żeby w każdym kroku dowodu było jasne, co założono i co jest dowodzone. Pierwszy dowód. Załóżmy (a). Chcemy pokazać (b). Jest oczywiste, iż wystarczy pokazać, że K 0 jest klasycznie domkniętym, właściwym podzbiorem K. Musi on być właściwym podzbiorem K, ponieważ z (a) jest on podzbiorem K oraz jest niesprzeczny z A, podczas gdy z wyjściowego założenia K jest sprzeczny z A. Jest on także domknięty na klasyczną konsekwencję, co zostało już pokazane w ćwiczeniu 7. Następnie załóżmy (c). Zamierzamy pokazać (a). Z (c), K 0 jest podzbiorem K oraz jest niesprzeczny z A. Aby pokazać, że jest również maksymalny załóżmy, że K 0 ⊂ K 00 ⊆ K. Musimy pokazać, że K 00 jest sprzeczny z A. Jednak z (c), Cn(K 0 ) = K 0 , więc Cn(K 0 ) ⊂ K 00 , a zatem Cn(K 0 ) ⊂ Cn(K 00 ) ⊆ K. Ponownie korzystając z (c), otrzymujemy: Cn(K 00 ) = K, więc z wyjściowej hipotezy Cn(K 00 ) jest sprzeczny z A. Stąd również K 00 jest sprzeczny z A. Na końcu załóżmy (b). Chcemy pokazać (c). Z (b), K 0 jest niesprzeczny z A. Również z (b), K 0 jest klasycznie domkniętym, właściwym podzbiorem K. Mamy pokazać, że jest on zbiorem maksymalnym pośród klasycznie domkniętych, właściwych podzbiorów K. Załóżmy, że K 0 ⊂ K 00 ⊆ K oraz K 00 = Cn(K 00 ). Musimy pokazać, że K 00 = K. Niech k będzie dowolnym elementem K. Chcemy pokazać, że k ∈ K 00 . Wiemy z założenia (b), że K 00 jest sprzeczny z A. Zatem z własności zwartości logiki klasycznej wynika, iż K 00 jest sprzeczny z a, gdzie a jest koniunkcją wszystkich formuł w pewnym skończonym podzbiorze A. Zatem ¬a ∈ Cn(K 00 ). W celu zakończenia dowodu wystarczy pokazać, że a∨k ∈ K 0 ⊆ K 00 , a więc k ∈ Cn(K 00 ) = K 00 . Załóżmy, że a ∨ k < K 0 . Prowadzi to do sprzeczności. Z warunku (b), Cn(K 0 ∪ {a ∨ k}) jest sprzeczny z A. Zatem, na mocy logiki klasycznej, Cn(K 0 ∪ {a}) jest sprzeczny z A. Jednak a jest koniunkcją elementów pewnego skończonego podzbioru A. Ponownie stosując własności logiki klasycznej, otrzymujemy wniosek, że Cn(K 0 ) jest sprzeczny z A, tzn. że K 0 jest sprzeczny z A, co prowadzi do sprzeczności i kończy dowód.
Podrozdział 2.3
wiczenie 1. Zaªo»enie domkni¦cia ±wiata. Zaªó»my, »e nasz j¦zyk bazuje na nast¦puj¡cych literach zdaniowych: p, q, r, s, t, u. Niech A = {p, q, (p ∧ q) → r, (p ∧ r) → s, (s ∧ t) → u}. Które litery zdaniowe lub ich negacje mog¡ by¢ wyprowadzone z A przy u»yciu zaªo»enia domkni¦cia ±wiata, tzn. które nale»¡ do C K (A), gdzie K jest zbiorem wszystkich negacji liter zdaniowych? Odpowied¹ : p, q, r, s, ¬t, ¬u.
Odpowiedzi do wybranych ćwiczeń
183
wiczenie 2(a). Konsekwencja chroni¡ca. Niech K = {p → q, q → r, r → s, s → ¬p} i niech A = {p} b¦dzie zbiorem przesªanek. Niech K0 = {p → q}. Okre±l maksymalne podzbiory K 0 , gdzie K0 ⊆ K 0 ⊆ K , które s¡ niesprzeczne z A. Zidenty kuj w najbardziej ±cisªy sposób, w jaki potra sz, konsekwencje A przy danych K0 , K . Odpowied¹ : Jedynymi maksymalnymi zbiorami K 0 niesprzecznymi z p oraz speł-
niającymi warunek: K0 ⊆ K 0 ⊆ K są trzy podzbiory K, które zawierają p → q. Są to kolejno: K1 = {p → q, q → r, r → s}, K2 = {p → q, q → r, s → ¬p} oraz K3 = {p → q, r → s, s → ¬p}. Mamy teraz Cn(A ∪ K1 ) = Cn({p, q, r, s}), Cn(A ∪ K2 ) = Cn({p, q, r, ¬s}) oraz Cn(A ∪ K3 ) = Cn({p, q, ¬r, ¬s}). Zatem rezultatem zastosowania konsekwencji chroniącej do przesłanek A przy danych K0 , K są jedynie klasyczne konsekwencje następującej formuły o postaci normalnej: (p ∧ q ∧ r ∧ s) ∨ (p ∧ q ∧ r ∧ ¬s) ∨ (p ∧ q ∧ ¬r ∧ ¬s). Formułę tę daje się uprościć do postaci: (p ∧ q ∧ r) ∨ (p ∧ q ∧ ¬s), a następnie do postaci: p ∧ q ∧ (r ∨ ¬s). Zatem rezultatem zastosowania konsekwencji chroniącej do A przy danych K0 , K są klasyczne konsekwencje formuły: p ∧ q ∧ (r ∨ ¬s).
Problem 1. Dowied¹ wªasno±ci jedyno±ci dla inferencji domkni¦tego ±wiata, zakªadaj¡c, »e zbiór przesªanek A zawiera tylko formuªy Horna, a zbiór zaªo»e« ukrytych w tle K zawiera negacje wszystkich elementarnych liter. Wskazówka: Wykorzystaj obydwa zaªo»enia. S¡ nieodzowne w dowodzie. Odpowied¹ : W tej odpowiedzi, podobnie jak w innych miejscach, rezerwujemy
litery p, q, … dla liter zdaniowych, natomiast litery a, b, …, x, y, … dla dowolnych formuł. Niech K, A będą takie jak założono. Musimy pokazać, że istnieje dokładnie jeden maksymalnie A-niesprzeczny podzbiór K. Niech K1 = {¬p : ¬p jest niesprzeczne z A }. Innymi słowy, K1 = {¬p : A 0 p}. Każdy element K1 jest więc negacją litery zdaniowej, tj. K1 ⊆ K. Pokażemy teraz, że K1 jest jedynym maksymalnie A-niesprzecznym podzbiorem K. Pokażemy więc, iż: 1. K1 jest niesprzeczny z A; 2. Jeśli K1 ⊂ J ⊆ K, to J jest sprzeczny z A; 3. Nie istnieje żaden maksymalnie A-niesprzeczny podzbiór J zbioru K różny od K1 .
Dla dowodu (1) definiujemy przyporządkowanie v takie, że: v(p) = 1 wtedy i tylko wtedy, gdy A ` p. Pokażemy, że v(K1 ∪ A) = 1. Skoro dla dowolnego ¬p ∈ K1 , A 0 p, więc v(p) = 0, a następnie v(¬p) = 1. Stąd v(K1 ) = 1. Należy pokazać, że v(A) = 1. Niech a ∈ A. (Zauważmy, że ponieważ a nie musi być literą zdaniową, więc nie wolno nam bezpośrednio z definicji v skonkludować, że v(a) = 1. Powinniśmy natomiast argumentować bardziej ostrożnie, stosując
184
Odpowiedzi do wybranych ćwiczeń
założenie, że A zawiera wyłącznie formuły Horna.) Ponieważ a ∈ A, zatem a = (p1 ∧ · · · ∧ pn ) → q, dla pewnych liter zdaniowych p1 , …, pn , q. Załóżmy, że v(p1 ∧ · · · ∧ pn ) = 1. Wtedy v(pi ) = 1 (i 6 n). Teraz, zgodnie z definicją v, A ` pi (i 6 n), więc A ` p1 ∧ · · · ∧ pn . Ponieważ jednak a = (p1 ∧ · · · ∧ pn ) → q ∈ A, zatem, na mocy definicji v, A ` q oraz v(q) = 1, do czego zmierzaliśmy. Dla dowodu (2) załóżmy, że K1 ⊂ J ⊆ K. Zamierzamy pokazać, że J jest sprzeczny z A. Z założenia, istnieje taka formuła ¬p ∈ J, która nie należy do K1 . Z definicji K1 znaczy to jednak, że ¬p jest sprzeczne z A. Zatem J jest sprzeczne z A. Dowód (3) jest niemalże identyczny. Załóżmy, że J jest maksymalnie A-niesprzecznym podzbiorem K różnym od K1 Ponieważ K1 sam jest maksymalnie A niesprzecznym podzbiorem K, co pokazaliśmy dowodząc (1) i (2), nie może więc być tak, że J ⊆ K1 . Istnieje zatem taki element J, tzn. negacja litery zdaniowej ¬p, że ¬p ∈ J, ale ¬p < K1 . Zbiór J jest więc sprzeczny z A.
Podrozdział 3.1
wiczenie 1. Niech p1 , p2 , p3 , b¦d¡ jedynymi literami zdaniowymi naszego j¦zyka. Niech W b¦dzie zbiorem zawieraj¡cym jedynie cztery nast¦puj¡ce warto±ciowania v1 , v0 , ve , v10 , gdzie: v1 wery kuje wszystkie litery zdaniowe v0 falsy kuje wszystkie litery zdaniowe ve wery kuje tylko litery zdaniowe z parzystym indeksem v10 wery kuje tylko litery zdaniowe p1 , , p10 . We¹my teraz zbiór A = {¬p1 ∧ p2 } Która z poni»szych mo»liwo±ci zachodzi? A ` p2
A `W p2
A ` p3 ∨ ¬p4
A `W p3 ∨ ¬p4
A ` p11 ∨ p12
A `W p11 ∨ p12
A ` p2
A `W p2
A 0 p3 ∨ ¬p4
A 0W p3 ∨ ¬p4
A 0 p11 ∨ p12
A `W p11 ∨ p12
Odpowied¹ :
wiczenie 2. Dlaczego bezpo±rednim wnioskiem z de nicji konsekwencji warto±ciowa« osiowych jest stwierdzenie, »e s¡ one nadklasyczne, tzn. Cn ≤ CnW , dla dowolnego W ?
Odpowiedzi do wybranych ćwiczeń
185
Odpowied¹ : Musimy pokazać, że zawsze Cn(A) ⊆ CnW (A). Załóżmy, że x ∈
Cn(A). Wtedy v(x) = 1, dla dowolnego takiego wartościowania v, iż v(A) = 1. Zatem v(x) = 1, dla każdego wartościowania v ∈ W, dla którego v(A) = 1. Zatem x ∈ CnW (A).
wiczenie 4. Poka», »e relacje konsekwencji warto±ciowa« osiowych speªniaj¡ warunek ª¡czenia przesªanek w alternatyw¦. Wskazówka do odpowiedzi : Sprawdzenie jest niemalże takie samo, jak w ćwiczeniu 5(a) z podrozdziału 1.2. Należy jednak w odpowiednich miejscach wpisać indeks W.
Podrozdział 3.2
wiczenie 1. Wyja±nij, dlaczego ka»da przeciwzwrotna i przechodnia relacja jest asymetryczna (tzn. nigdy nie jest zarazem tak, »e v < v0 i v0 < v) oraz, ogólniej, nie jest acykliczna (nigdy nie jest tak, »e v1 < v2 < · · · < vn < v1 , dla n > 1). Odpowied¹ : Ponieważ relacja asymetryczna jest relacją acykliczną dla n = 2,
wystarczy więc jedynie sprawdzić acykliczność. Załóżmy, że < jest przechodnia i nie jest acykliczna. Pokażemy, że nie jest również przeciwzwrotna. Ponieważ nie jest acykliczna, istnieje więc taki indeks n oraz v1 , v2 , …, vn , że v1 < v2 < · · · < vn < v1 . Stosując przechodniość n − 1 razy, otrzymujemy v1 < v1 , co przeczy przeciwzwrotności.
wiczenie 2. Narysuj diagram dla modelu preferencji zawieraj¡cy niesko«czony, zst¦puj¡cy ªa«cuch, etykietuj¡c poszczególne punkty warto±ciowaniami w taki sposób, »e model nie ma wªasno±ci bycia zakorkowanym, a jednocze±nie nie speªnia warunków ostro»nej monotoniczno±ci i zachowania niesprzeczno±ci. Przykªadowa odpowied¹ : Jeden z najprostszych przykładów składa się z nieskoń-
czonego, schodzącego łańcucha z literą zdaniową p prawdziwą we wszystkich punktach. Niech teraz litera q będzie prawdziwa tylko w górnym punkcie, natomiast litera r nigdzie. Ponieważ nie ma minimalnego p-punktu, mamy więc: p |z f , gdzie f jest kontrtautologią. Nie jest jednak tak, że p ` f , gdzie ` jest konsekwencją klasyczną. W zdefiniowanym modelu nie jest więc spełniony warunek zachowania niesprzeczności. Następnie, ponieważ nie ma minimalnego p-punktu, mamy więc p |z q oraz p |z r. Istnieje jednak tylko jeden (p ∧ q)-punkt, nazwijmy go górnym, i jest to jednocześnie jedyny minimalny (p ∧ q)-punkt. Nie jest on jednak r-punktem, więc p ∧ q |z 6 r.
wiczenie 4. Poka», »e ka»da operacja konsekwencji preferencji jest nadklasyczna oraz speªnia kumulatywn¡ przechodnio±¢.
186
Odpowiedzi do wybranych ćwiczeń
Odpowied¹ : Niech |z będzie relacją konsekwencji określoną przez model preferencji (W, <). Dla dowodu nadklasyczności załóżmy, że A |z 6 x. Zamierzamy pokazać, że A 0 x. Ponieważ A |z 6 x, istnieje więc pewne minimalne A-wartościowanie v takie że v(x) = 0. Ponieważ v jest minimalnym A-wartościowaniem, zatem v(A) = 1. Stąd A 0 x. Dla dowodu kumulatywnej przechodniości załóżmy, że A |z b, dla wszystkich b ∈ B, oraz A |z 6 x. Zamierzamy pokazać, iż A ∪ B |z 6 x. Z drugiego założenia wiemy, że istnieje minimalne A-wartościowanie v, takie iż v(x) = 0. Z pierwszego założenia wiadomo natomiast, że v(b) = 1, dla każdego b ∈ B. Zatem v jest A ∪ B-wartościowaniem. Ponadto musi ono być minimalnym A ∪ B-wartościowaniem, ponieważ jeśli istnieje v0 < v oraz v0 (A ∪ B) = 1, to v0 (A) = 1, co przeczy temu, iż v jest minimalnym A-wartościowaniem. Zatem v jest minimalnym A ∪ B-wartościowaniem i v(x) = 0. Stąd A ∪ B |z 6 x, do czego zmierzaliśmy. wiczenie 12. Poka», »e dla modularnych modeli preferencji, je±li |A|min(W) , ∅, to C< (A) = Cnmin(W) (A). Odpowied¹ : Załóżmy, że model preferencji (W, <) jest modularny oraz |A|min(W) ,
∅, tzn. v(A) = 1, dla pewnego wartościowania v ∈ min(W). Załóżmy następnie, że x < C< (A). Pokażemy, że x < Cnmin(W) (A). Ponieważ x < C< (A), istnieje więc pewne u ∈ min< |A|W , takie że u(x) = 0. Ponieważ u ∈ min< |A|W oraz v(A) = 1, nie jest więc możliwe, że v < u. Zatem, ponieważ v ∈ min(W) i relacja < jest modularna, więc u ∈ min(W). Z tego zaś, że u(A) = 1 oraz u(x) = 0, wynika, iż x < Cnmin(W) (A).
Podrozdział 3.3
wiczenie 1. We¹ pod uwag¦ model preferencji (z kopiami) z przykªadu 3.9 (przykªad Krausa, Lehmanna i Magidora) i rozwa» nast¦puj¡ce porz¡dki : (a) Taki jak ten w 3.9, ale z dodatkowym warunkiem: s1 < s4 (b) Taki jak ten w 3.9, ale z dodatkowym warunkiem: s1 < s4 oraz s2 < s3 (c) Podobny do przykªadu 3.9, lecz z odwrotnym porz¡dkiem (d) Z przechodnim porz¡dkiem: s1 < s2 < s3 < s4 (e) Z przechodnim, ale i cyklicznym porz¡dkiem: s1 < s2 < s3 < s4 < s1 . (i) Który z nich jest modularny? Który zawiera niesko«czone, zst¦puj¡ce ªa«cuchy? (ii) Dla ka»dego z tych pi¦ciu modeli preferencji (z kopiami) okre±l status nast¦puj¡cych konsekwencji (sprawdzali±my je w tek±cie w przykªadzie 3.9): p ∧ q |z f (gdzie f jest kontrtautologi¡), t |z ¬q (gdzie t jest tautologi¡), p |z ¬q oraz p ↔ q |z ¬p ∧ ¬q.
187
Odpowiedzi do wybranych ćwiczeń
Odpowied¹ do cz¦±ci (i) : Jedynymi modularnymi porządkami są (b), (d) oraz (e). Jednym przypadkiem, który zawiera nieskończony, zstępujący łańcuch jest (e).
Odpowied¹ do cz¦±ci (ii) : p ∧ q |z f
t |z ¬q
p |z ¬q
p ↔ q |z ¬p ∧ ¬q
(a)
0
1
1
0
(b)
0
1
1
1
(c)
0
0
0
0
(d)
0
1
1
1
(e)
1
1
1
1
Podrozdział 4.1
wiczenie 1. Niech R b¦dzie zbiorem nast¦puj¡cych reguª: (p, r), (p ∧ q, s), (r, u), (w, v). Niech A = {p, q, ¬v}. Opisz ka»dy ze zbiorów: R(A), R(R(A)), R(A ∪ R(A)), R(Cn(A ∪ R(A))) i wska» ró»nice. Odpowied¹ : R(A) = {r}, R(R(A)) = {u}, R(A ∪ R(A)) = {r, u}, R(Cn(A ∪ R(A))) =
{r, u, s}. Wszystkie wypisane zbiory są różne. Zawieranie się pierwszych dwóch w ostatnich dwóch jest przejawem monotoniczności obydwu operacji.
wiczenie 2. Niech R b¦dzie dowolnym zbiorem reguª, rozumianych jak w tek±cie. Wyja±nij, dlaczego R(∅) = ∅. Wyja±nij, dlaczego dla dowolnego zbioru jest tak, »e je±li x ∈ R(A), to istnieje takie a ∈ A, »e x ∈ R({a}). Odpowied¹ : Z definicji, x ∈ R(∅) wtedy i tylko wtedy, gdy jest takie a ∈ ∅, że
(a, x) ∈ R. Jednakże a < ∅, dla dowolnego a. Zatem x < R(∅), dla dowolnego x. Również, gdy x ∈ R(A), to istnieje takie a ∈ A, że (a, x) ∈ R. Ponieważ a ∈ {a}, więc x ∈ R({a})
wiczenie 4. Niech R b¦dzie zbiorem nast¦puj¡cych reguª: (p, u), (p∧q, v), (s, w), (¬y, w), (r ∧ q, ¬w). Niech A zawiera trzy formuªy p ∧ q, r ∧ q, s ∨ ¬y. Wyznacz ci¡gi A0 , A1 , A2 , oraz ich sum¦, bior¡c pod uwag¦ pierwsz¡ z podanych w tym podrozdziale indukcyjnych de nicji. Nast¦pnie, przyjmuj¡c porz¡dek R zgodny z kolejno±ci¡ wypisania reguª, wyznacz ci¡gi A0 , A1 , A2 , i ich sum¦,
posªuguj¡c si¦ drug¡ z podanych indukcyjnych de nicji. Na ko«cu skomentuj ró»nice. Odpowied¹ : Z pierwszej definicji indukcyjnej otrzymujemy: A0 = Cn(A) = Cn({p, q, r, s ∨ ¬y}). Zatem R(A0 ) = {u, v, ¬w}, więc A1 = Cn(A ∪ R(A0 )) = Cn({p, q, r, s ∨ ¬y, u, v, ¬w}). Stąd R(A1 ) = {u, v, ¬w} = R(A0 ), więc A2 = Cn(A ∪ R(A1 )) =
188
Odpowiedzi do wybranych ćwiczeń
Cn(A ∪ R(A0 )) = A1 i podobnie dla wszystkich kolejnych elementów. Ostatecznie S {Ai : i < ω} = A1 . Na mocy drugiej definicji mamy: A0 = Cn(A) = Cn({p, q, r, s ∨ ¬y}). Zatem A1 = Cn(A0 ∪{u}) = Cn({p, q, r, s∨¬y, u}). Stąd A2 = Cn(A1 ∪{v}) = Cn({p, q, r, s∨ ¬y, u, v}). Zatem A3 = Cn(A2 ∪ {¬w}) = Cn({p, q, r, s ∨ ¬y, u, v, ¬w}). Następne elementy ciągu nie dają niczego nowego, więc każdy z nich, jak również ich suma jest równa A3 . Podczas, gdy pierwszy ciąg dodaje do A0 formuły: u, v, ¬w w jednym kroku, a dalej już nic nowego, drugi z nich wymaga trzech kroków, aby dojść do tego samego efektu.
Problem 4. Poka» »e konsekwencja reguª osiowych jest | jak stwierdzono w tek±cie | zwarta. Wskazówka: Zastosuj charakterystykę konsekwencji reguł osiowych podaną w obserwacji 4.6.
Odpowied¹ : Załóżmy, że x ∈ CnR (A). Zamierzamy pokazać, że Sx ∈ CnR (B), dla
pewnego skończonego B ⊆ A. Z definicji CnR (A) jest równe {An : n < ω}. Ponieważ x ∈ CnR (A), więc x ∈ An , dla pewnego n < ω. Wystarczy zatem pokazać, że dla dowolnego n < ω, jeśli x ∈ An , to istnieje pewien skończony zbiór B ⊆ A (zależny od n), taki iż x ∈ Bn . Pokażemy to przez indukcję po n. Na początku załóżmy, że x ∈ A0 . Chcemy pokazać, że istnieje taki skończony B ⊆ A, iż x ∈ B0 . Ponieważ jednak x ∈ A0 = Cn(A), na mocy zwartości klasycznej konsekwencji otrzymujemy, że istnieje taki skończony B ⊆ A, iż x ∈ Cn(B) = B0 . W kroku indukcyjnym zakładamy, że dowodzona własność zachodzi dla n. Pokażemy, że zachodzi ona również dla n + 1. Załóżmy, że x ∈ An+1 = Cn(An ∪ R(An )). Zakończymy dowód pokazując, że istnieje pewien skończony zbiór B ⊆ A taki, że x ∈ Bn+1 = Cn(Bn ∪R(Bn )). Stosując zwartość klasycznej konsekwencji do założenia, mamy x ∈ Cn({c1 , . . . , c j } ∪ {x1 , . . . , xk }), gdzie każdy ci ∈ An oraz dla każdego xi istnieje takie di ∈ An , że (di , xi ) ∈ R. Na mocy założenia indukcyjnego, istnieją takie skończone podzbiory C1 , . . . , C j , D1 , . . . , Dk zbioru A, że każdy ci ∈ (Ci )n oraz di ∈ (Di )n . Weźmy B = C1 ∪ · · · ∪ C j ∪ D1 ∪ · · · ∪ Dk . Wtedy B jest skończonym podzbiorem A, a z monotoniczności konstrukcji ciągów otrzymujemy, że każdy ci ∈ Bn oraz każdy di ∈ Bn , więc również każdy xi ∈ R(Bn ). Stąd x ∈ Cn(Bn ∪ R(Bn )) = Bn+1 , do czego zmierzaliśmy.
Podrozdział 4.2
wiczenie 1. Zaªó»my, »e p, q, r s¡ jedynymi literami w badanym j¦zyku. Rozwa» zbiór reguª R = {(p, q), (q, r), (q, ¬r)} oraz zbiór przesªanek A = {p}. Wypisz
189
Odpowiedzi do wybranych ćwiczeń
wszystkie mo»liwe porz¡dki hRi zbioru R. Dla ka»dego porz¡dku okre±l ChRi (A). Na ko«cu za± okre±l CR (A). Odpowied¹ : Jest 3 · 2 · 1 = 6 możliwych porządków. Oto one: (p, q), (q, r), (q, ¬r)
ChRi (A) = Cn({p, q, r})
(p, q), (q, ¬r), (q, r)
ChRi (A) = Cn({p, q, ¬r})
(q, r), (p, q), (q, ¬r)
ChRi (A) = Cn({p, q, r})
(q, r), (q, ¬r), (p, q)
ChRi (A) = Cn({p, q, r})
(q, ¬r), (p, q), (q, r)
ChRi (A) = Cn({p, q, ¬r})
(q, ¬r), (q, r), (p, q)
ChRi (A) = Cn({p, q, ¬r})
Z tego ostatecznie otrzymujemy: CR (A) = Cn({p, q}).
wiczenie 2. Rozwa» zbiór reguª R = {(p, q), (q, r), (r, s), (s, ¬p)} oraz zbiór przesªanek A = {p}. Poka», »e ChRi (A) = Cn({p,Tq, r, s}) bez wzgl¦du na porz¡dek hRi zbioru R, a w konsekwencji, »e CR (A) = {ChRi (A)} = Cn({p, q, r, s}). Przykªad ten jest reguªowym odpowiednikiem wstęgi Möbiusa (z czterema elementami) rozwa»anej ju» w formie zdaniowej (trzyelementowej) w podrozdziale 2.2. Odpowied¹ : Są 4 · 3 · 2 = 24 sposoby uporządkowania R. Nie ma znaczenia,
który rozważymy, reguły mogą zostać zastosowane wyłącznie w porządku podanym w treści zadania z wyjątkiem ostatniej z nich. Nie może ona bowiem być zastosowana ze względu na jakikolwiek porządek. Zatem w każdym z wypadków otrzymujemy: ChRi (A) = Cn({p, q, r, s}). Stąd bezpośrednio z definicji CR (A), tzn. T {ChRi (A)}, mamy również CR (A) = Cn({p, q, r, s}).
wiczenie 3. (a) Wyja±nij, dlaczego zbiór ChRi (A) jest dobrze zde niowany dla dowolnego zbioru formuª A, tzn. dlaczego jego de nicja gwarantuje jego istnienie? (b) Poka», »e operacje ChRi zachowują niesprzeczność lub, inaczej mówi¡c, ChRi (A) jest niesprzeczny, je±li A jest niesprzeczny. (c) Wyja±nij, dlaczego sceptyczna operacja CR równie» zachowuje niesprzeczno±¢. Odpowied¹ : (a) Aby wykazać, że ChRi (A) jest dobrze zdefiniowany wystarczy
pokazać indukcyjnie, że każdy An jest dobrze zdefiniowany. Jest oczywiste, że A0 = Cn(A) jest dobrze zdefiniowany. Jest równie oczywiste, że krok indukcyjny stosowanej definicji definiuje dokładnie jeden zbiór An+1 przy danym An . (b) Załóżmy, że A jest niesprzeczny. W celu pokazania, że ChRi (A) jest również niesprzeczny wystarczy pokazać przez indukcję, że każdy An jest niesprzeczny. Na mocy założenia A0 = Cn(A) jest niesprzeczny. Bezpośrednio z kroku indukcyjnego definicji wynika jednak, że jeśli An jest niesprzeczny, to również An+1 jest
190
Odpowiedzi do wybranych ćwiczeń
niesprzeczny. Odpowiedź na pytanie (c) wynika natomiast z (b) oraz stąd, że na mocy definicji CR (A) ⊆ ChRi (A).
Podrozdział 4.3
wiczenie 1. Niech A = {a}. W przykªadach poni»ej okre±l dla ka»dego mo»liwego porz¡dku reguª w R, czy ChRi (A) istnieje. Je±li ChRi (A) nie istnieje, zidenty kuj dokªadnie krok w konstrukcji, w którym nast¦puje przerwanie i wyja±nij dlaczego tak jest. Je±li natomiast zbiór ChRi (A) istnieje, to opisz go. (a) R = {(a, t, ¬a)} (b) R = {(a, x, x), (x, t, ¬a)} (c) R = {(a, x, x), (x ∨ y, t, y), (y, t, ¬x)} (d) R = {(t, x ∧ y, ¬x)} (e) R = {(a, x, y), (y, t, ¬x)}
Odpowied¹ : (a) Jedna reguła, jeden porządek. A0 = Cn(a), ale A1 nie istnieje. Jest tak, ponieważ warunek t jest niesprzeczny z A0 , a więc rozpatrujemy przypadek 1. Wniosek ¬a jest jednak sprzeczny z warunkiem wstępnym a. Zatem początkowy warunek podprzypadku 1.1 nie jest spełniony i cała konstrukcja zostaje przerwana. Istnieje więc konflikt pomiędzy konkluzją reguły oraz jej warunkiem wstępnym. (b) Dwie reguły, dwa porządki. Obydwa porządki dają ten sam rezultat. A0 = Cn(a), natomiast A1 = Cn({a, x}), przy czym A2 nie istnieje. Jest tak, ponieważ warunek t jest niesprzeczny z A1 , zatem podążamy za przypadkiem 1. Konkluzja ¬a jest jednak sprzeczna ze skonstruowanym A1 , nie jest więc spełniony warunek podprzypadku 1.1 i konstrukcja zostaje przerwana. Istnieje zatem konflikt pomiędzy konkluzją reguły i częścią już skonstruowanego rozszerzenia. (c) Trzy reguły, sześć porządków. Wszystkie porządki dają ten sam rezultat. A0 = Cn(a), A1 = Cn({a, x}), A2 = Cn({a, x, y}), jednak A3 nie istnieje. Uzasadnienie t jest bowiem niesprzeczne z A2 , zatem podążamy za przypadkiem 1, jednak konkluzja ¬x jest sprzeczna ze skontruowanym A2 . Niespełniony jest wejściowy warunek podprzypadku 1.1 i konstrukcja zostaje przerwana. Istnieje więc konflikt pomiędzy konkluzją reguły oraz częścią skontruowanego rozszerzenia. (d) Jedna reguła, jeden porządek. A0 = Cn(t), natomiast A1 nie istnieje. Jest tak, ponieważ uzasadnienie x ∧ y jest niesprzeczne z A0 , zatem podążamy za przypadkiem 1. Konkluzja ¬x jest jednak sprzeczna z warunkiem x ∧ y, warunek z podprzypadku 1.1 nie zachodzi i konstrukcja jest anulowana. Mamy zatem do czynienia z konfliktem pomiędzy konkluzją reguły oraz jej założeniem.
Odpowiedzi do wybranych ćwiczeń
191
(e) Dwie reguły, dwa porządki. Obydwa porządki dają ten sam rezultat. A0 = Cn(a), A1 = Cn({a, y}), natomiast A2 nie istnieje. Jest tak, ponieważ uzasadnienie t jest niesprzeczne z A1 , zatem podążamy za przypadkiem 1. Konkluzja reguły ¬x jest jednak sprzeczna z uzasadnieniem już użytej reguły (dokładnie w R1 ), warunek z podprzypadku 1.1 nie jest zatem spełniony i cała konstrukcja jest anulowana. Zachodzi więc konflikt pomiędzy konkluzją reguły oraz założeniem z wcześniejszego poziomu konstrukcji.
wiczenie 2. Czym jest ChRi (A), gdy wyj±ciowy zbiór przesªanek A jest sprzeczny i ka»da reguªa ma niepusty zbiór uzasadnie«? Odpowied¹ zilustruj prostym przykªadem. Odpowied¹ : W tym przypadku ChRi (A) = A0 = Cn(A) = L. Dla przykładu weźmy A = { f } oraz R = {t, t, t}. Wtedy uzasadnienie reguły jest sprzeczne z A0 = Cn( f ) = L. Zatem podczas konstrukcji A1 jesteśmy w przypadku 2, więc A1 = A0 .
wiczenie 3. Czym jest ChRi (A), gdy ka»da reguªa ma sprzeczny zbiór uzasadnie«? Opowied¹ zilustruj prostym przykªadem. Odpowied¹ : Ponownie ChRi (A) = A0 = Cn(A), chociaż w tym przypadku Cn(A) , L. Przykładowo, niech A = {t} oraz R = {(t, f, t)}. Wtedy uzasadnienie reguły jest sprzeczne z A0 = Cn(t), a więc kiedy konstruujemy A1 , jesteśmy w przypadku 2, zatem A1 = A0 .
Podrozdział 5.1
wiczenie 1. Uzasadnij stwierdzenie z tekstu, »e boolowskie warto±ciowania logiki klasycznej speªniaj¡ cztery aksjomaty Koªmogorowa dla funkcji prawdopodobie«stwa. Odpowied¹ : Dla dowodu (K1) wystarczy zaobserwować, że dla dowolnej formuły
a, v(a) ∈ {0, 1} ⊆ [0, 1]. Dla dowodu (K2) wystarczy zauważyć, że v(t) = 1, jeśli t jest tautologią. Dla dowodu (K3) załóżmy, że x ` y. Należy pokazać, że v(x) 6 v(y). Gdyby jednak v(x) v(y), to v(x) = 1 oraz v(y) = 0, co przeczyłoby temu, że: x ` y. Dla dowodu (K4) załóżmy, iż x ` ¬y; chcemy pokazać, że v(x ∨ y) = v(x) + v(y). W przypadku, gdy v(x) = 1, z uwagi na boolowskie wartościowania, v(x ∨ y) = 1, a ponieważ założenie mówi, że v(y) = 0, zatem v(x) + v(y) = 1. W przypadku, gdy v(x) = 0, znów z uwagi na boolowskie wartościowania, v(x ∨ y) = v(y), co ponownie, tym razem na mocy zasad arytmetyki, daje poszukiwaną równość: v(x) + v(y) = v(y).
wiczenie 2. Uzasadnij stwierdzenie poczynione w tek±cie, »e z (K1), (K2) oraz (K3) mo»emy wyprowadzi¢ wniosek: p(x) = 1, je±li x ∈ Cn(∅).
192
Odpowiedzi do wybranych ćwiczeń
Odpowied¹ : Z (K2), p(y) = 1, dla pewnej formuły y. Załóżmy, że x ∈ Cn(∅). Wtedy y ` x, zatem z postulatu (K3), p(y) 6 p(x), tj. 1 6 p(x), więc na mocy (K1), p(x) = 1. wiczenie 3. (cz¦±¢) Uzasadnij na podstawie aksjomatów Koªmogorowa ka»de z poni»szych stwierdze« (przydadz¡ si¦ one w kolejnym podrozdziale). Wskazówka: Kiedy potrzeba zastosuj wniosek z ¢wiczenia 2. (a) p(a) = p(b), o ile a i b są klasycznie równoważne (b) p(¬a) = 1 − p(a).
Odpowied¹ : Dla dowodu (a) po prostu zastosuj (K3) w obie strony. Dla dowodu
(b) zauważ, że a ` ¬¬a, zatem na mocy (K4) oraz rezultatu z ćwiczenia 2, 1 = p(a ∨ ¬a) = p(a) + p(¬a), zatem na mocy arytmetyki: p(¬a) = 1 − p(a).
Problem 3. W tek±cie podano przykªad funkcji f ze zbioru liter elementarnych w zbiór [0, 1], która mo»e by¢ rozszerzona do funkcji prawdopodobie«stwa p : L → [0, 1] przynajmniej na dwa sposoby, tzn. »e jedyno±¢ rozszerzenia nie musi zachodzi¢ dla funkcji ze zbioru liter. Poka» mimo tego, »e dla sko«czonych j¦zyków zawsze istnieją takie rozszerzenia. Poka» wi¦c, »e ka»da funkcja f ze sko«czonego zbioru liter alfabetu danego j¦zyka w zbiór [0, 1] ma co najmniej jedno rozszerzenie do funkcji prawdopodobie«stwa p : L → [0, 1]. Wskazówka: Na mocy wªasno±ci jedynego rozszerzenia z uwagi na opisy stanów, wystarczy znale¹¢ funkcj¦ g okre±lon¡ na opisach stanu z przeciwdziedzin¡ [0, 1], sumuj¡c¡ si¦ do jedno±ci, tak¡ »e dla dowolnej litery elementarnej qi , f (qi ) = P (g(s) : s jest takim opisem stanu, »e: s ` qi ). Odpowied¹ : Bez utraty ogólności rozważań możemy wypisać elementarne litery
q1 , …, qn w porządku zwiększania się ich wartości ze względu na funkcję f . Rozważmy teraz opisy stanów s1 , …, sn , zdefiniowane przez schemat: s j = (¬q1 ∧ · · · ∧ ¬q j−1 ) ∧ (q j ∧ · · · ∧ qn ). Zatem s1 = (q1 ∧ · · · ∧ qn ), s2 = (¬q1 ∧ q2 ∧ · · · ∧ qn ) itd. Zauważmy, że s j ` qi , dla każdego j 6 i, ale s j 0 qi , dla wszystkich j > i. Zdefiniujmy g(s1 ) = f (q1 ) oraz g(s j+1 ) = f (q j+1 ) − f (q j ). Dzięki prostej indukcji, wiemy, iż dla każdego i 6 n, f (qi ) = Σ(g(s j ) : j 6 i). Aby uzupełnić definicję g dla wszystkich opisów stanu, weźmy g(¬q1 ∧ · · · ∧ ¬qn ) = 1 − f (qn ) oraz g(s) = 0 dla pozostałych opisów stanu. Zatem funkcja g na opisach stanu sumuje się do jedności, i również każdy f (qi ) = Σ(g(s) : s jest takim opisem stanu, że s ` qi ). Stąd jedyna funkcja prawdopodobieństwa, która rozszerza g, rozszerza również f .
Problem 5. Uzasadnij stwierdzenie z tekstu, »e je±li p jest funkcj¡ prawdopodobie«stwa i a jest formuª¡ tak¡, »e: p(a) , 0, to pa jest jedyn¡ funkcj¡ prawdopodobie«stwa speªniaj¡c¡ nast¦puj¡ce dwa warunki: (1) pa (a) = 1, (2) dla dowolnych b, b0 , je±li zarówno b ` a oraz b0 ` a, to p(b)/p(b0 ) = pa (b)/pa (b0 ).
Odpowiedzi do wybranych ćwiczeń
193
Odpowied¹ (cz¦±ciowa) : Pokażemy, że z uwagi na warunki po lewej stronie, pa
ma własność (2). Załóżmy, że x ` a, y ` a. Chcemy pokazać, że p(x)/p(y) = pa (x)/pa (y). Jednak pa (x) = p(a ∧ x)/p(a) oraz pa (y) = p(a ∧ y)/p(a), zatem pa (x)/pa (y) = [p(a ∧ x)/p(a)]/[p(a ∧ y)/p(a)] = p(a ∧ x)/p(a ∧ y) = p(x)/p(y), po zastosowaniu założenia.
Podrozdział 5.2
wiczenie 1. Poka», »e implikacja ∀p(2t ⇒ 1) mo»e nie zachodzi¢. Przykªadowa odpowied¹ : Rozważmy pewien język z jedynie dwoma elementarnymi literami q, r. Niech p będzie jedyną taką funkcją prawdopodobieństwa określoną na języku, która każdemu z czterech opisów stanu przypisuje wartość 0,25. Weźmy t = 0, 6, a = q oraz x = q ∧ r. Wtedy p(a) = p(q) = 0,5 < 0,6 = t, a zatem warunek (2t) jest pusto spełniony. Z drugiej strony p(x) = p(q ∧ r) = 0,25 < 0,5 = p(a), więc warunek (1) nie zachodzi.
wiczenie 2. Poka», »e implikacja ∀p(1 ⇒ 5) zachodzi oraz »e implikacja odwrotna ∀p(5 ⇒ 1) nie zachodzi. Odpowied¹ : W celu pokazania, że implikacja ∀p(1 ⇒ 5) zachodzi, niech p będzie
dowolną funkcją prawdopodobieństwa, niech a = a1 ∧ · · · ∧ an i załóżmy (1), tzn. p(a) 6 p(x). Wtedy p(¬x) 6 p(¬a) = p(¬(a1 ∧ · · · ∧ an )) = p(¬a1 ∨ · · · ∨ ¬an ) 6 P (p(¬ai ) : i 6 n), z uwagi na dowód w jednym z ćwiczeń z poprzedniego podrozdziału. W celu pokazania, że implikacja ∀p(5 ⇒ 1) nie zachodzi, weźmy ten sam język i funkcję prawdopodobieństwa, co w odpowiedzi do ćwiczenia 1. Niech a1 = a2 = q oraz x = q ∧ r. Wtedy p(¬x) = 0,75 6 1 = p(¬a1 ) + p(¬a2 ), ale p(a) = 0,5 0,25 = p(x).
Podrozdział 5.3
wiczenie 1. Poka», »e ka»dy z warunków: (2tp), (3tp), (5p) jest monotoniczny, je±li zbiór wyj±ciowych przesªanek b¦dzie si¦ skªadaª z pewnej formuªy a. Odpowied¹ : Zacznijmy od warunku (2tp). Załóżmy, że jeśli p(a) > t, to p(x) > t.
Wtedy jednak, skoro p(a ∧ b) 6 p(a), więc: jeśli p(a ∧ b) > t, to p(x) > t. Przejdźmy teraz do (3tp). Jeśli p(a → x) > t, to p(a → x) 6 p((a ∧ b) → x), ponieważ a → x ` a ∧ b → x. A zatem p((a ∧ b) → x) > t. Rozważmy teraz (5p). P P P (p(¬ai ) : i 6 n) 6 (p(¬ai ) : i 6 n + 1), zatem: jeśli p(¬x) 6 (p(¬ai ) : i 6 n), P to p(¬x) 6 (p(¬ai ) : i 6 n + 1).
wiczenie 2. Poka», »e »aden z warunków (1p), (2tp), (3tp), (5p) nie speªnia reguªy (AND).
194
Odpowiedzi do wybranych ćwiczeń
Przykªadowa odpowied¹ : Weźmy ponownie język złożony jedynie z dwóch ele-
mentarnych liter q, r. Niech p znowu będzie funkcją prawdopodobieństwa, która przyporządkowuje każdemu z czterech atomów q ∧ r, …, ¬q ∧ ¬r tę samą wartość 0,25. Dla przypadku (1p) załóżmy a = q, x = r, y = ¬r. Wtedy a |z x, a |z y, ale a |z 6 x ∧ y. W przypadku (2tp) można użyć tego samego przykładu z wartością progową t = 0,5. Z kolei w przypadku (3tp) przy tym samym przykładzie należy przyjąć t = 0,75. Dla przypadku (5p), można wziąć n = 1 i ten sam przykład, co dla (1p).
Podrozdział 5.4
wiczenie 1. Poka», »e dla dowolnej formuªy x i dowolnej funkcji mo»liwo±ci π, π(x) = 1 lub π(¬x) = 1. Odpowied¹ : Na podstawie warunków (π1), (π2) oraz (π3) wiemy, że dla dowolnej tautologii π(a) = 1. W szczególności π(x ∨ ¬x) = 1, zatem z (π4), π(x) = 1 lub π(¬x) = 1.
wiczenie 2. Poka», »e obydwie de nicje relacji inferencji mo»liwo±ci s¡ równowa»ne. Odpowied¹ : W granicznym przypadku obydwie definicje dają to samo. Musimy więc tylko sprawdzić przypadek zasadniczy. Załóżmy najpierw, że π(a ∧ ¬x) < π(a ∧ x). Z warunku (π3) otrzymujemy: π(a ∧ x) 6 π(a), zatem π(a ∧ ¬x) < π(a). Odwrotną zależność dowodzimy następująco. Załóżmy, że π(a ∧ ¬x) < π(a). Wiemy, że a jest klasycznie równoważne formule (a ∧ x) ∨ (a ∧ ¬x), zatem z (π3) otrzymujemy π(a) = π((a ∧ x) ∨ (a ∧ ¬x)) = max(π(a ∧ x), π(a ∧ ¬x)), stosując również (π4). Stąd π(a∧¬x) < max(π(a∧ x), π(a∧¬x)). Zatem π(a∧¬x) < π(a∧ x) lub π(a∧¬x) < π(a∧¬x). Ponieważ to ostatnie jest niemożliwe, pozostaje pierwsza nierówność, co kończy dowód.
Podrozdział 6.1
wiczenie 1. W tek±cie powiedziano, »e rewizja mo»e by¢ traktowana jako proces zªo»ony z kontrakcji oraz ekspansji. Dlaczego najpierw kontrakcji, a potem ekspansji? Gdyby zacząć od ekspansji i przejść do kontrakcji, to uzyskana operacja w zasadniczych przypadkach (tzn. najbardziej interesujących), kiedy dodawane a jest sprzeczne z K, strywializowałaby się. Można to pokazać w następujący sposób. Załóżmy, że a jest sprzeczne z K. Jeśli rozpoczniemy od ekspansji, to otrzymujemy K + a = Cn(K ∪ {a}) = L. Załóżmy teraz, że dokonujemy kontrakcji formuły f (lub dowolnej innej formuły). Bez względu na to, jak zdefiniowaliśmy operację
Odpowiedzi do wybranych ćwiczeń
195
kontrakcji, tak długo jak działa ona na parze złożonej jedynie ze zbioru przekonań oraz pewnego zdania, otrzymamy (K +a)− f = L− f = (K 0 +a)− f , dla dowolnych dwóch zbiorów przekonań K, K 0 , sprzecznych z a. Innymi słowy, jeśli rewizja jest skonstruowana jako ekspansja z kontrakcją, wtedy rewizja dowolnych dwóch zbiorów, obojętnie jak różnych od siebie, za pomocą sprzecznego z nimi zdania, da jako wynik ten sam zbiór przekonań! Wypada zauważyć, że próbując uniknąć tego wysoce niepożądanego wyniku, pewni autorzy badali zmodyfikowane wersje podejścia typu ekspansja-kontrakcja.
wiczenie 5. Poka», »e podstawowe postulaty AGM implikuj¡ równo±¢: (K ∗ a) ∗
a = K ∗ a.
Odpowied¹ : W przypadku, kiedy a jest sprzeczne, warunki (K ∗ 2) oraz (K ∗ 1)
dają łącznie (K ∗ a) ∗ a = L = K ∗ a. Załóżmy zatem, że a jest niesprzeczne. Wtedy przez (K ∗5), K ∗a , L, zatem przez (K ∗1), K ∗a jest niesprzeczny. Z uwagi jednak na (K ∗ 2) mamy a ∈ K ∗ a, skoro zaś K ∗ a jest niesprzeczny, więc ¬a < K ∗ a. A zatem na mocy (K ∗ 4) oraz (K ∗ 3) otrzymujemy (K ∗ a) ∗ a = Cn((K ∗ a) ∪ {a}). Ponadto, ponieważ a ∈ K ∗ a, mamy Cn((K ∗ a) ∪ {a}) = Cn(K ∗ a) = K ∗ a, na mocy (K ∗ 1). Składając obydwa fakty razem, otrzymujemy tezę (K ∗ a) ∗ a = K ∗ a, co kończy nasz dowód.
Podrozdział 6.2
wiczenie 1. Sprawd¹ w sposób bardziej szczegóªowy ni» w tek±cie zasad¦ lewostronnej monotoniczno±ci w podej±ciu do aktualizacji Katsuno/Mendelzona. Odpowied¹ : Załóżmy, że K ⊆ K 0 . Wtedy, jeśli v(a) = 1, dla każdego a ∈ K 0 , to v(a) = 1, dla wszystkich a ∈ K, tzn. jeśli v(K 0 ) = 1, to v(K) = 1, więc |K 0 | ⊆ |K|. Załóżmy, że x < K 0 # A. Zamierzamy pokazać, że x < K # A. Ponieważ x < K 0 # A, więc zgodnie z definicją aktualizacji Katsuno/Mendelzona istnieje taki s ∈ |K 0 |, że dla pewnego s0 ∈ min<s |A|, s0 < |x|. Zatem ponieważ |K 0 | ⊆ |K|, istnieje więc jakiś s ∈ |K| taki, że dla pewnego s0 ∈ min<s |A|, s0 < |x|. To zaś znaczy, że x < K # A.
wiczenie 6. Poka», »e zbiór tez dowolnej logiki okresów kontrfaktycznych | zde niowanej tak jak w tek±cie | jest domkni¦ty na podstawianie (dowolnym formuªami za elementarne litery). Odpowied¹ : Niech a będzie formułą logiki okresów kontrfaktycznych, zawierają-
cą litery zdaniowe p1 , …, pn . Niech σ będzie funkcją podstawiania. Załóżmy, że formuła σ(a) nie jest tautologią danej logiki. Chcemy pokazać, że również a nie jest jej tautologią. Z założenia istnieje taki model dla zdań kontrfaktycznych (z odpowiednimi warunkami) oraz stan s i wartościowanie v s takie, że v s (σ(a)) = 0. Zdefiniujmy wartościowanie wt dla dowolnego t ∈ S , kładąc wt (p) = v s (σ(x)),
196
Odpowiedzi do wybranych ćwiczeń
dla dowolnej litery p. Stosując indukcję po długości formuł pokazujemy, że wt (x) = v s (σ(p)), dla każdej formuły x logiki okresów kontrfaktycznych oraz każdego stanu t ∈ S . W szczególności w s (a) = v s (σ(a)) = 0, a więc a nie jest tautologią rozważanej logiki.
wiczenie 8. Wyra¹ sªownie, u»ywaj¡c poj¦cia warunkowego zobowi¡zania, reguªy kumulatywnej przechodnio±ci, ostro»nej monotoniczno±ci, ª¡czenia konkluzji w koniunkcj¦ iq przesªanek w alternatyw¦. Przedyskutuj ich intuicyjn¡ zasadno±¢. Odpowied¹ (cz¦±ciowa) : Przy takim odczytaniu kumulatywna przechodniość mó-
wiłaby, że: jeśli b jest obowiązkowe przy danym a oraz x jest obowiązkowe przy a ∧ b, to x jest obowiązkowe przy a. Ta zasada brzmi dobrze, jeśli wszystkie zobowiązania są rozumiane w ten sposób, że zarówno ich założenia jaki i wnioski zachodzą w tym samym czasie. Dodanie czasu i podmiotów rodzi jednak pewne komplikacje. Rozważmy następujący przykład. Przypuśćmy, że przesłanki tej reguły odczytujemy następująco: w sytuacji a jesteśmy zobowiązani uczynić b, a w sytuacji a ∧ b jesteśmy zobowiązani uczynić x. Załóżmy, że jesteśmy w sytuacji a. Wtedy powinniśmy spowodować b. W czasie, gdy wypełniamy zobowiązanie b, sytuacja a przestaje mieć jednak miejsce i nigdy już nie wystąpi. Chociaż więc jesteśmy zobowiązani spowodować x, jeśli zachodzi a ∧ b, to faktycznie koniunkcja a ∧ b nigdy nie będzie miała miejsca. Zatem zobowiązanie występujące w drugiej przesłance nigdy nie będzie występowało, bo nigdy nie będziemy w sytuacji, która wymaga wypełnienia zobowiązania x. Analiza ta jest oczywiście wrażliwa na takie odczytanie zobowiązań warunkowych, w które zaangażujemy czas i podmioty warunkowych zobowiązań. Inne sposoby odczytania mogą usprawiedliwiać kumulatywną przechodniość.
Podrozdział 6.3
wiczenie 3. Uzupeªnij o detale dowód punktu 3 lematu do twierdzenia 6.1. To znaczy poka», »e wynika on bezpo±rednio z obserwacji 2.8. Odpowied¹ : Załóżmy, że K = Cn(K) i niech K 0 ∈ Ka . Niech b będzie dowolną formułą taką, że ¬b ∈ K oraz ¬b < K 0 . Należy pokazać, że K 0 ∈ Kb . Formuła a musi więc być sprzeczna z K, inaczej bowiem K 0 = K, co przeczy założeniu na temat b. Ponadto, ponieważ K 0 ∈ Ka , więc K 0 jest maksymalnie a-niesprzecznym podzbiorem K. Zatem z obserwacji 2.8 (pierwszy i ostatni punkt), K 0 jest zbiorem maksymalnym wśród klasycznie domkniętych, właściwych podzbiorów K. Ponieważ ¬b < K 0 , więc K 0 jest również niesprzeczny z b. Zatem ponownie z obserwacji 2.8 (ostatni i pierwszy warunek), K 0 jest maksymalnie b-niesprzecznym podzbiorem K, tzn. K 0 ∈ Kb .
Odpowiedzi do wybranych ćwiczeń
197
wiczenie 4. Udowodnij cz¦±¢ dotycz¡c¡ adekwatno±ci w twierdzeniu 6.1. Odpowied¹ (cz¦±ciowa) : Warunki nadklasyczności, lewostronnej, klasycznej rów-
noważności, prawostronnego osłabiania oraz łączenia konkluzji w koniunkcję są łatwe do udowodnienia. Trudniejsze są natomiast dowody zachowania niesprzeczności, ograniczonej dedukcji oraz ograniczonego przypadku racjonalnej monotoniczności. Dlatego też właśnie je omówimy. Dla dowodu zachowania niesprzeczności załóżmy, że a |z 6 f . Wtedy a jest niesprzeczna, więc z lematu Kuratowskiego-Zorna istnieje maksymalny podzbiór K 0 zbioru K niesprzeczny z a, tzn. K 0 ∈ Ka . Ponieważ Ka jest niepusty, więc δ(Ka ) jest również niepusty, bo zawiera pewien element K 00 . Ponieważ K 00 jest niesprzeczny z a, mamy więc K 00 ∪ {a} 0 f . Zatem z definicji |zδ , a |z 6 f. Dla dowodu ograniczonej dedukcji załóżmy, że t |z 6 δ a → x. Chcemy pokazać, że a |z 6 δ x. Z założenia istnieje taki K 0 ∈ δ(Kt ), że K 0 ∪ {t} 0 a → x, tj. K 0 ∪ {a} 0 x. Wystarczy zatem pokazać, że δ(Kt ) = δ(Ka ), a więc wystarczy pokazać, iż Kt = Ka . Z punktu czwartego lematu, Kt = {K}, zatem ponieważ δ(Kt ) ⊆ Kt , otrzymujemy K 0 = K, więc K ∪ {a} 0 x. Stąd K jest niesprzeczne z a, a zatem Ka = {K} = Kt . Dla dowodu ograniczonego przypadku racjonalnej monotoniczności załóżmy, że t |z 6 δ ¬a oraz a |z 6 δ x. Pokażemy, że t |z 6 δ a → x. Z pierwszej hipotezy oraz z czwartego punktu lematu wynika, że istnieje taki K 0 ∈ δ(Kt ) = {K}, iż K 0 ∪{t} 0 ¬a, a więc K 0 ¬a. Zatem formuła a jest niesprzeczna z K oraz Ka = {K}. Z drugiej hipotezy wiemy zaś, iż K ∪ {a} 0 x, tzn. że K 0 a → x, czyli t |z 6 δ a → x.
Bibliografia
Poniższa lista odniesień zawiera tylko te pozycje, do których odwołujemy się w tekście, wraz z pewnymi dodatkowymi pracami przeglądowymi oraz zbiorami tekstów. Nie rości sobie ona pretensji do bycia kompletną. Literatura poświęcona niemonotonicznym rozumowaniom jest ogromna i wyczerpująca lista sama zajęłaby tom. Dalsze odniesienia czytelnik może znaleźć w następujących książkach, z których każda posiada własny określony cel i zamierzenia: Antonelli (2005), Antoniou (1997), Besnard (1990), Bochman (2001), Bochman (2005), Brewka, Dix, Konolige (1997), Grégoire (1990), Kyburg i Teng (2001), Łukaszewicz i Truszczyński (1993), Rott (2001), Schlechta (1997) oraz Schlechta (2004). Dla bibliografii poświęconej specjalnym tematom warto spojrzeć do przeglądu prac Duboisa, Horty’ego, Konolige’a, Lifschitza, Makinsona i innych, pod redakcją, między innymi, Gabbaya (1994). Osoby zainteresowane logiką programowania mogą wziąć pod uwagę bibliografię w pracy Barala (2003).
(Adams, 1966) Adams E.W., Probability and the logic of conditionals, w: Aspects of Inductive Logic, red. Hintikka J., Suppes, P., North-Holland, Amsterdam 1966. (Adams, 1975) Adams E.W., The logic of Conditionals, Reidel, Dordrecht 1975. (Adams, 1998) Adams E.W., A Primer of Probability Logic, CSLI, Stanford 1998. (Alchourrón oraz Makinson, 1982) Alchourrón C., Makinson D., On the logic of theory change: contraction functions and their associated revision functions, Theoria, 48, 1982, s. 14–37. (Alchourrón oraz Makinson, 1985) Alchourrón C., Makinson D., On the logic of theory change: safe contraction, Studia Logica, 44, 1985, s. 405–422. (Alchourrón oraz Makinson, 1986) Alchourrón C., Makinson D., Maps between some different kinds of contraction function: the finite case, Studia Logica, 45, 1986, s. 187–198. (Alchourrón i inni, 1985) Alchourrón C., Gärdenfors P., Makinson D., On the logic of theory change: partial meet contraction and revision functions, The Journal of Symbolic Logic, 50, 1985, s. 510–530.
Bibliografia
199
(Antonelli, 2005) Antonelli A., Grounded Consequence for Defeasible Logic, Cambridge University Press, Cambridge 2005. (Antoniou, 1997) Antoniou G., Nonmonotonic Reasoning, MIT Press, Cambridge Mass 1997. (Åqvist, 2002), Åqvist L., Deontic Logic, w: Handbook of Philosophical Logic, Second Edition, Volume 3, red. Gabbay D. M., Guenthener F., Kluwer, Dordrecht 2002, s. 265–344. (Baral, 2003) Baral C., Knowledge Representation, Reasoning and Declarative Problem Solving, Cambridge Univeristy Press, Cambridge 2003. (Ben-David oraz Ben-Eliyahu-Zohary, 2000) Ben-David S., Ben-Eliyahu-Zohary R., A modal logic for subjective default reasoning, Artificial Intelligence, 116, 2000, s. 216–236. (Benferhat i inni, 1993) Benferhat S., Cayrol C., Dubois D., Lang J., Prade H., Inconsistency management and prioritized syntax-based entailment, w: Proceedings IJCAI-93, Morgan Kaufmann, Los Altos 1993, s. 640–645. (Benferhat i inni, 1997) Benferhat S., Dubois D., Prade H., Nonmonotonic reasoning, conditional objects and possibility theory, Artificial Intelligence, 92, 1997, s. 259–276. (Besnard, 1990) Besnard P., An Introduction to Default Logic, Springer, Heidelberg 1990. (Bochman, 2001) Bochman A., A Logical Theory of Nonmonotonic Inference and Belief Change, Springer-Verlag, Berlin 2001. (Bochman, 2005) Bochman A., Explanatory Nonmonotonic Reasoning, World Scientific Publishing, London 2005. (Brewka, 1989) Brewka G., Preffered subtheories: an extended logical framework for default reasoning, w: Proceedings IJCAI-’89, Morgan Kaufmann, Los Altos 1989, s. 1043–1048. (Brewka, 1991) Brewka G., Cumulative default logic: in defense of nonmonotonic inference rules, Artificial Intelligence, 50, 1991, s. 183–205. (Brewka, 1994) Brewka G., Adding priorities and specifity to default logic, w: Logics in Artificial Intelligence: Proceedings of the JElIA ’94 Workshop, red. MacNish C. i inni, Springer Verlag, Berlin 1994, s. 247–260. (Brewka i inni, 1997) Brewka G., Dix J., Konolige K., Nonmonotonic Reasoning – An Overview, CSLI Publications, Stanford 1997. (Brewka i inni, 1991) Brewka G., Makinson D., Schlechta K., Cumulative inference relations for JTMS and logic programming, w: Nonmonotonic and Inductive Logic, red. Dix, Jantke, Schmitt, vol. 543, Lecture Notes in Artificial Intelligence, Springer, Berlin 1991 s. 1–12. (Brown i Suszko, 1973) Brown D. J., Suszko R., Abstract logics, Dissertationes Mathematicae, 102, 1973, s. 9–41.
200
Bibliografia
(Calabrese, 2003) Calabrese P., Operating on functions with variable domains, Journal of Philosophical Logic, 32, 2003, s. 1–18. (Chisholm, 1946) Chisholm R., The contrary-to-fact conditional, Mind, 55, 1946, s. 289–307. (Cohn, 1965) Cohn P. M., Universal Algebra, Harper and Row, New York 1965. (de Finetti, 1936) de Finetti B., La logique de la probabilité, w: Actes du Congres International de Philosophie Scientifique, Hermann, Paris 1936, s. IV1–IV9. (Dubois i Prade, 1994) Dubois D., Prade H., Conditional objects as nonmonotonic consequence relationships, IEEE Transactions on Systems, Man and Cybernetics, 24, 1994, s. 1724–1740. (Dubois i inni, 1994) Dubois D., Lang J., Prade H., Possibilistic logic, w: (Gabbay i inni, 1994). (Dubois i Prade, 2001) Dubois D., Prade H., Possibility theory, probability theory and multiple-valued logics: a clarification, Annals of Mathematics and Artificial Intelligence, 32, 2001, s. 35–66. (Edgington, 2001) Edgington D., Conditionals, w: The Blackwell Guide to Philosophical Logic, red. L. Goble, Blackwell, Oxford 2001, s. 385–414. (Freund, 1993) Freund. M, Injective models and disjunctive relations, Journal of Logic and Computation, 3, 1993, s. 231–247. (Freund, 1998) Freund M., On rational preferences, Journal of Mathematical Economics, 30, 1998, s. 210–228. (Freund i Lehmann, 1994) Freund M., Lehmann D., Nonmonotonic reasoning: from finitary relations to infinitary inference operations, Studia Logica, 53, 1998, s. 161–201. (Friedman i Halpern, 2001) Friedman N., Halpern J. Y., Plausibility measures and default reasoning, Journal of the ACM, 48, 2001, s. 648–685. (Gabbay, 1985) Gabbay D., Theoretical foundations for nonmonotonic reasoning in expert systems, w: Logics and Models of Concurrent Systems, red. Apt K., Springer Verlag, Berlin 1985. (Gabbay i inni, 1994) Gabbay D., Hogger C., Robinson J., red., Handbook of Logic in Artificial Intelligence and Logic Programming. Vol. 3: Nonmonotonic Reasoning and Uncertain Reasoning, Clarendon Press, Oxford 1994. (Gamut, 1991) Gamut L. T. F., Language and Meaning: Vol. I. Introduction to Logic, Chicago University Press, 1991. (García i Simari, w przygotowaniu) García A., Simari G., Defeasible logic programming: an argumentative approach, Theory and Practice of Logic Programming, w przygotowaniu.
Bibliografia
201
(Gärdenfors, 1988) Gärdenfors P., Knowledge in Flux: Modeling the Dynamic of Epistemic States, MIT Press, Cambridge Mass 1988. (Gärdenfors i Makinson, 1988) Gärdenfors P., Makinson D., Revisions of knowledge systems and epistemic entrenchment, w: Proceedings of the Second Conference on Theoretical Aspects of Reasoning about Knowledge, red. Vardi M., Morgan Kaufmann, Los Altos 1988 s. 83–95. (Gärdenfors i Makinson, 1994) Gärdenfors P., Makinson D., Nonmonotonic inference based on expectations, Artificial Intelligence, 65, 1994, s. 197–245. (Gärdenfors i Rott, 1995) Gärdenfors P., Rott H., Belief Revision, w: Handbook of Logic in Artificial Intelligence and Logic Programming. Vol. 4: Epistemic and Temporal Logics, red. Gabbay D. M., Hogger C. J., Robinson J., Clarendon Press, Oxford 1995, s. 35–132. (Gelfond i Leone) Gelfond M., Leone N., Logic Programming and knowledge representation — A-prolog perspective, Artificial Intelligence, 138, 2002, s. 37–38. (Ginsberg, 1994) Ginsberg M., AI and nonmonotonic reasoning, w: (Gabbay i inni, 1994). (Ginsberg, 1987) Ginsberg M., red., Readings in Nonmonotonic Logic, Morgan Kaufmann, Los Altos 1987. (Goodman, 1947) Goodman N., The problem of counterfactual conditionals, Journal of Philosophy, 44, 1947, s. 113–128. (Grégoire, 1990) Grégoire E., Logiques non-monotones et intelligence artificielle, Hermès, Paris 1990. (Hájek, 2001) Hájek A., Probability, logic and probability logic, w: The Blackwell Guide to Philosophical Logic, red. Goble L., Blackwell, Oxford 2001, s. 362–384. (Hansson, 1969) Hansson B., An analysis of some deontic logics, Nous, 3, 1969, s. 373–398. Przedruk w: Deontic Logic: Introductory and Systematic Readings, red. Hilpinen, Reidel, Dordrecht 1971, s. 121–147. (Hansson i Makinson, 1997) Hansson S. O., Makinson D., Applying normative rules with restraint, w: Logic and Scientific Methods, red. M. Dalla Chiara i inni, Kluwer, Dordrecht 1997, s. 313–332. (Halmos, 1960) Halmos P., Naive Set Theory, van Nostrand, New York 1960. (Hawthorne i Makinson, w przygotowaniu) Hawthorne J., Makinson D., The quantitative/qualitative watershed for rules of uncertain inference. (w przygotowaniu) (Hein, 2002) Hein J., Discrete Structures, Logic, and Compatibility (wydanie drugie), Jones and Bartlett, Boston 2002. (Hodges, 2001) Hodges W., Classical logic I: first-order logic, w: The Blacwell Guide to Philosophical Logic, red. Goble L., Blackwell, Oxford 2001, s. 9–32.
202
Bibliografia
(Horty, 1994) Horty J., Some direct theories of nonmonotonic inheritance, w: (Gabbay i inni, 1994). (Horty, 2001) Horty J., Nonmonotonic Logic, w: The Blackwell Guide to Philosophical Logic, red. Goble L., Blackwell, Oxford 2001, s. 336–361. (Howson, 2003) Howson C., Probability and logic, Journal of Applied Logic, 1, 2003, s. 151–165. (Jeffrey, 1965) Jeffrey R. C., The Logic of Decision, McGraw-Hill, New York 1965. (Katsuno i Mendelzon, 1992) Katsuno H., Mendelzon A. O., On the difference between updating a knowledge base and revising it, w: Belief Revision, red. Gärdenfors P., Cambridge University Press, UK, s. 183–203. (Keller i Winslett Wilkins, 1985) Keller A., Winslett Wilkins M., On the use of an extended relational model to handle changing incomplete information, IEEE Transactions on Software Engineering, SE-11:7, 1985, s. 620–633. (Kołmogorow, 1950) Kolmogorov N., The Foundations of Probability, Chelsea Publishing Co, New York 1950. (Konolige, 1994) Konolige K., Autoepistemic logic, w: (Gabbay i inni, 1994). (Kratzer, 1981) Kratzer A., Partition and revision: the semantics of counterfactuals, Journal of Philosophical Logic, 10, 1981, s. 201–216. (Kraus i inni, 1990) Kraus S., Lehmann D., Magidor M., Nonmonotonic reasoning, preferential models and cumulative logics, Artificial Intelligence, 44, 1990, s. 167–207. (Kyburg, 1961) Kyburg H. E., Probability and the Logic of Rational Belief, Wesleyan University Press, Middletown 1961. (Kyburg, 1970) Kyburg H. E., Conjunctivitis, w: Induction, Acceptance and Rational Belief, red. Swain M., Reidel, Dordrecht 1970 s. 55–82. (Kyburg i Teng, 2001) Kyburg H. E., Choh Man Teng, Uncertain Inference, Cambridge University Press, Cambridge 2001. (Lehmann, 2001) Lehmann D., Nonmonotonic logics and semantics, Journal of Logic and Computation, 11, 2001, s. 229–256. (Lehmann, 2002) Lehmann D., Connectives in quantum and other cumulative logics, Technical Report TR-2002-28 of the Leibniz Center Research in Computer Science, Hebrew University of Jerusalem, 2002. (Lehmann i Magidor, 1992) Lehmann D., Magidor M., What does a conditional knowledge base entail?, Artificial Intelligence, 55, 1992, s. 1–60. (Levi, 1996) Levi I., For the Sake of the Argument, Cambridge University Press, Cambridge UK 1996. (Lewis, 1973) Lewis D., Counterfactuals, Blackwell, Oxford 1973.
Bibliografia
203
(Lewis, 1976) Lewis D., Probabilities of conditionals and conditional probabilities, Philosophical Review, 85, 1976, s. 297–315. Przedruk z posłowiem w: Lewis D., Philosophical Papers Volume II, Oxford University Press, Oxford, s. 133–56. (Lewis, 1981) Lewis D., Ordering semantics and premise semantics for counterfactuals, Journal of Philosophical Logic, 10, 1981, s. 217–234. (Lifschitz, 1994) Lifschitz V., Circumscription, w: (Gabbay i inni, 1994). (Lindström, 1991) Lindström S., A semantic approach to nonmonotonic reasoning: inference operations and choice, Uppsala Prints and Reprints in Philosophy, 6, Wydział Filozofii, Uniwersytet w Uppsali, 1991. (Lipschutz, 1998) Lipschutz S., Set Theory and Related Topics (wydanie drugie), McGraw Hill Education, New York 1998. (Łukaszewicz, 1984/8) Łukaszewicz W., Considerations on default logic: an alternative approach, w: Proceedings of the AAAI Workshop on Non-Monotonic Reasoning, New Palz, New York 1984, s. 165–193. Także w: Computational Intelligence, 4, 1988, s. 1–16. (Łukaszewicz, 1990) Łukaszewicz W., Non-Monotonic Reasoning-Formalization of Commonsense Reasoning, Ellis Horwood, 1990. (Makinson, 1965) Makinson D., The paradox of the preface, Analysis, 25, 1965, s. 205–207. (Makinson, 1973) Makinson D., Topics in Modern Logic, Methuen, London 1973. (Makinson, 1989) Makinson D., General theory of cumulative inference, w: Nonmonotonic Reasoning, red. Reinfrank M. i inni, Tom 346, Lecture Notes on Artificial Intelligence, Springer-Verlag, Berlin 1989, s. 1–17. (Makinson, 1993) Makinson D., Five faces of minimality, Studia Logica, 52, 1993, s. 339–379. (Makinson, 1994) Makinson D., General Patterns in Nonmonotonic Reasoning, w: (Gabbay i inni, 1994). (Makinson, 1997) Makinson D., Screened revision, Theoria, 63, 1997, s. 14–23. (Makinson, 2003a) Makinson D., Bridges between classical and nonmonotonic logic, Logic Journal of the IGPL, 11, 2003, s. 69–96. http://www3.oup.co.uk/igpl/Volume−11/Issue−01/. (Makinson, 2003b) Makinson D., Supraclassical inference without probability, w: Cognitive Economics: An Interdisciplinary Approach, red. Bourgine P., Nadal J.P., Springer, Berlin 2003, s. 95–112. (Makinson, 2005) Makinson D., How to go nonmonotonic, Handbook of Philosophical Logic, Second Edition, Tom 12, red. Gabbay D., Guenthner F., Kluwer, Dordrecht 2005, s. 175–278.
204
Bibliografia
(Makinson, 2005a) Makinson D., Friendliness for logicians, w: We Will Show Them! Essays in Honour of Dov Gabbay, Tom 2, red. Artemov S., Barringer H., Garcez A., Lamb L., Wood J., King’s College Publications, London 2005, s. 259–292. (Makinson i Gärdenfors, 1991) Makinson D., Gärdenfors P., Relations between the logic of theory change and nonmonotonic logic, w: The Logic of Theory Change, red. Fuhrmann i Morreau, Springer Berlin, 1991 s. 185–205. (Makinson i van der Torre, 2000) Makinson D., van der Torre L., Input/output logics, Journal of Philosophical Logic, 29, 2000, s. 383–408. (Makinson i van der Torre, 2001) Makinson D., van der Torre L., Constraints for input/output logics, Journal of Philosophical Logic, 30, 2001, s. 155–185. (Makinson i van der Torre, 2003) Makinson D., van der Torre L., Permission from an input/output perspective, Journal of Philosophical Logic, 32, 2003, s. 391–416. (Marek i Truszczyński, 1989) Marek V. W., Truszczyński M., Relating autoepistemic and default logics, w: Proceedings of the First Conference on Principles of Knowledge Representation and Reasoning, Morgan Kaufmann, Palo Alto 1989, s. 276–288. (Marek i Truszczyński, 1993) Marek V. W., Truszczyński M., Nonmonotonic Logic: Context Dependent Reasoning, Springer, Berlin 1993. (McCarthy, 1980) McCarthy J., Circumscription — a form of non-monotonic reasoning, Artificial Intelligence, 13, 1980, s. 27–39. Przedruk w: (Ginsberg, 1987, s. 145–152). (Pearl, 1988) Pearl J., Probabilistic Reasoning in Intelligent Systems, Morgan Kaufmann, Los Altos 1988. (Pearl, 1989) Pearl J., Probabilistic semantics for nonmonotonic reasoning: a survey, w: Proceedings of the First International Conference on Principles of Knowledge Representation and Reasoning (KR’89), red. Brachman i inni,. Morgan Kaufmann, San Mateo 1989, s. 505–516. (Pino Pérez i Uzcátegui, 2000) Pérez P., Uzcátegui Ramón i C., On representation theorems for nonmonotonic inference relations, The Journal of Symbolic Logic, 65, 2000, s. 1321–1337. (Poole, 1988) Poole D., A logical framework for default reasoning, Artificial Intelligence, 36, 1988, s. 27–47. (Poole, 1989) Poole D., What the lottery paradox tells us about default reasoning, w: Proceedings of the First International Conference on Principles of Knowledge Representation and Reasoning, Morgan Kaufmann, Los Altos 1989, s. 333–340. (Prakken i Vreeswijk, 2001) Prakken H., Vreeswijk G., Logics for defeasible argumentation, w: Handbook of Philosophical Logic, wydanie drugie, Tom 4, Kluwer, Dordrecht 2001.
Bibliografia
205
(Reiter, 1978) Reiter R., On closed world data bases, w: Logic and Data Bases, red. Gallaire H., Minker J., Plenum, New York 1978, s. 55–76. Przedruk w: (Ginsberg, 1987, s. 300–310). (Reiter, 1980) Reiter R., A logic for default reasoning, Artificial Intelligence, 13, 1980, s. 81–132. Przedruk w: (Ginsberg, 1987, s. 68–93). (Rott, 1991) Rott H., Two methods of constructions and revisions of knowledge systems, Journal of Philosophical Logic, 20, 149–173, 1991. (Rott, 1993) Rott H., Belief contraction in the context of the general theory of rational choice, Journal of Symbolic Logic, 58, 1993, s. 1426–1450. (Rott, 2001) Rott H., Change, Choice and Inference: A Study of Belief Revision and Nonmonotonic Reasoning, Tom 43, Oxford Logic Guides, Clarendon Press, Oxford 2001. (Rott, 2003) Rott H., Basic entrenchment, Studia Logica, 73, 2003, s. 257–280. (Rott i Pagnucco, 1999) Rott H., Pagnucco M., Severe withdrawal and recovery, Journal of Philosphical Logic, 28, 1999, s. 501–547. Przedruk poprawionej pracy w ibidem, 29, 121, 2000. (Sandewall, 1985) Sandewall E., A functional approach to non-monotonic logic, Computational Intelligence, 1, 1985, s. 80–87. Również w: Research Report LITH-IDA-R-85-07 of the Departament of Computer and Information Science, Uniwersytet Linköping, Szwecja. (Schlechta, 1992) Schlechta K., Some results on classical preferential models, Journal of Logic and Computation, 2, 1992, s. 676–686. (Schlechta, 1997) Schlechta K., Nonmonotonic Logics: Basic Concepts, Results and Techniques, Tom 1187, Lecture Notes in Artificial Intelligence, Springer Berlin, 1997. (Schlechta, 2004) Schlechta K., Coherent Systems, Elsevier 2004. (Shoham, 1988) Shoham Y., Reasoning About Change, MIT Press, Cambridge, USA 1988. (Skyrms, 1999) Skyrms B., Choice and Chance (wydanie czwarte), Wadsworth, Belmont CA 1999. (Stalnaker, 1968) Stalnaker R., A theory of conditionals, w: Studies in Logical Theory, red. Rescher N., Blackwell, Oxford 1968. (Stalnaker, 1970) Stalnaker R., Probability and conditionals, Philosophy of Science, 37, 1970, s. 64–80. (Tan i Treur, 1992) Tan Y. H., Treur Jan, Constructive default logic and the control of defeasible reasoning, w: Proceedings of the Tenth European Conference on Artificial Intelligence (ECAI ’92), red. Neumann B., John Wiley, New York 1992, s. 299–303.
206
Bibliografia
(Tarski, 1930) Tarski A., Über einige fundamentale Begriffe der Metamathematik, w: Comptes Rendus des Seances de la Société des Sciences et les Lettres de Varsovie, d.III, 23, 1930, s. 22–29. Tłumaczenie: On some fundamental concepts of metamathematics, w: Logic, Semantics, Metamathematics, Clarendon Press, Oxford, 1956. (Veltman, 1976) Veltman F., Prejudices, presuppositions and the theory of counterfactuals, w: Truth, Interpretation and Information: Selected Papers from the Third Amsterdam Colloquium, red. Groenendijk J., Stockhof M., Foris, Dordrecht 1976. (Veltman, 1985) Veltman F., Logics for Conditionals., Praca doktorska, Uniwersytet w Amsterdamie, 1985. (Williamson, 2002) Williamson J., Probability logic, w: Handbook of the Logic of Argument and Inference, red. Gabbay D. i inni. Elsevier, Amsterdam 2002, s. 397–424. (Wójcicki, 1988) Wójcicki R., Theory of Logical Calculi: Basic Theory of Consequence Operations, Kluwer, Dordrecht 1988. (Zhu i inni, 2002) Zhu Z., Pan Z., Chen S., Zhu W., Valuation structure, The Journal of Symbolic Logic, 67, 2002, s. 1–23.
Skorowidz
A-niesprzeczność, 31 (CT) lub cięcie, 5 abdukcja, 39, 140 abstrakcyjne własności, 7, 24 acykliczna relacja, 52, 74 Adams, E., 125, 128, 135, 136, 198 AGM, 46 paradygmat, 145 postulaty, 146, 147 rewizja przekonań, 147–149, 151 aksjomaty Kołmogorowa, 115–118, 120, 123–126, 136, 140, 142 aksjomatyzacja, 18 aktualizacja przekonań, 143, 146 Alchourrón, C., xix, 39, 46, 47, 54, 145, 147, 198 algebra abstrakcyjna, 28 AND, 9, 131, 132, 160, 164 Antoniou, G., 21, 76, 86, 102, 104, 112, 198, 199 aparat generujący, 29 Åqvist, L., 156, 199 Astor, 152 asymetryczna relacja, 70, 74 atomy, 118, 119 autoepistemiczna logika, xv, 109 Baral, C., xiv, 198, 199 Ben-David, S., 84, 199 Ben-Eliyahu-Zohary, R., 84, 199 Benferhat, S., 139, 142, 199 Bjurling, B., xix Bochman, A., 38, 50–52, 55, 60, 198, 199
Boole’a algebra, 115, 118 boolowska formuła, 3 boolowskie wartościowanie, 4 Bourgine, P., 203 Brewka, G., xiv, xv, xix, 21, 45, 52, 60, 76, 86, 96, 102, 103, 105, 107, 112, 198, 199 Brodsky, A., 40 Brofman, R., 40 Brown, D. J., 7, 199 Calabrese, P., 122, 125, 200 całkowicie chronione przesłanki, 44 Chen, S., 206 Chisholm, R., 152, 200 Churchill, W., 2, 152 ciało zbiorów, 115 Cohn, P. M., 7, 200 Conan Doyle, A., 1 contrary-to-duty, 156 cyrkumskrypcja, 43, 76, 77 Dalla Chiara, M., 201 definiowalny zbiór wartościowań, 63 Denecker, M., xix deontyczna logika, 155 Dix, J., xiv, xv, 21, 60, 76, 86, 112, 198, 199 dodatkowe reguły ukryte w tle, xiii, 87 dodatkowe warunki ukryte w tle, 48 dodatkowe założenia ukryte w tle, xiii, 23, 90 dodawanie reguł, xiii, 87 dolne segmenty, 68 domknięcie, 17
208 domknięcie na podstawianie, 15–17, 24, 30, 62, 153, 157 domknięcie na prawdopodobieństwo warunkowe, 130, 134 domknięcie na regułę odrywania, 18 domknięty zbiór, 11 domyślne reguły, 19 domyślne wartościowania, 19 domyślne założenia, 19 dualność, 74 Dubois, D., 122, 125, 136, 139, 142, 198–200 dyrektywalne okresy warunkowe, xiv, 143, 150 dysjunkcyjna monotoniczność, 84 dysjunkcyjna racjonalność, 81 Edgington, D., 125, 128, 200 ekspansja, 120, 143 entymemat, 23 epsilon/delta konstrukcja, 135 epsilonowo dobry, 135 Escher, M., 51 filtr, 66 filtrowany model preferencji, 81 Finetti, B. de, 122, 200 formuła Horna, 42 Freund, M., xix, 52, 60, 81, 82, 166, 200 funkcja etykietowania, 78 funkcja wyboru, 46 funkcje konieczności, 135 funkcje możliwości, 135 funkcje selekcji, 46 Gärdenfors, P., 23, 46, 55, 120, 121, 145–147, 160, 167, 168, 198, 201, 202 Gabelaia, D., xix, 33 Gamut, L. T. F., xi, 200 García, A., xv, 200 Gentzen, G., 5 Gillies, D., xix Ginsberg, M., 21, 201, 204, 205
Bibliografia Goble, L., 22, 200–202 Goodman, N., 152, 201 Grégoire, E., 198, 201 Grzegorczyk, A., xi Hájek, A., 122, 125, 201 Halmos, P., xii, 201 Halpern, J., 84, 200 Hansen, J., xix Hansson, B., 155, 201 Hansson, S. O., 156, 201 Harper, W., 145 Hein, J., xi, xii, 107, 201 Hilbert, D., 18 Hodges, W., 22, 201 homomorfizm, 17 Horn, A., 6 Horty, J., xv, 22, 198, 202 Howson, C., 140, 202 ideał, 66 ideał główny, 67 identyczność Harpera, 145 identyczność Leviego, 145, 167 implikacja materialna, 3 indukcja matematyczna, xi indukcja z regulowanym wyjściem, 97 inferencja porównywanych oczekiwań, 54, 58, 138 infinitezymale, 135, 141 iniekcja, 17 inkluzja, 5 iterowanie rewizji przekonań, 149 jedyność, 97 Jeffrey, R. C., 121, 124, 142, 202 język skończenie generowany, 64 Katsuno, H., 146, 150, 153, 156, 168, 202 Keller, A., 150, 202 klasyczna konsekwencja, xiii, 3–6, 26, 125
Bibliografia klasyczna logika, xi, 34, 37, 41, 42, 47, 114, 116, 117, 123, 126, 154, 161–163 klauzula przerwania, 102 Kołmogorow, N., 115–118, 120, 123, 125–126, 135, 136, 140, 142, 202 konfirmacja, 140 koniunkcyjna postać normalna, 37 koniunkcyjna wystarczalność, 154 konkluzja, 97, 102, 108 Konolige, K., xiv, xv, 21, 60, 76, 86, 112, 198, 199, 202 konsekwencja bezpieczna, 52 konsekwencja chroniąca, 44 konsekwencja domyślnych reguł, 19, 69, 95 konsekwencja domyślnych wartościowań, 19 konsekwencja domyślnych wyjątków, 83 konsekwencja domyślnych założeń, 19, 30–34, 37, 39–41, 51, 53, 55, 56, 59, 60, 99, 101, 166 konsekwencja domyślnych założeń z dodatkowymi warunkami, 48 konsekwencja KLM, 81 konsekwencja określona za pomocą funkcji selekcji, 46, 148 konsekwencja osiowych reguł, 87 konsekwencja osiowych wartościowań, 61 konsekwencja osiowych wyjątków, 67 konsekwencja osiowych założeń, 23 konsekwencja preferencji, 70 konsekwencja uporządkowanych reguł domyślnych, 95 konsekwencja warstwowa, 43, 45 konsekwencja założeń domyślnych, 40, 58 kontrakcja, 46, 143–145, 148, 149, 167 kontrapozycja, 88, 89, 94 kontrfaktyczne okresy warunkowe, xiv, 143, 150, 152, 167
209 kopie wartościowań, 77, 80, 84, 86, 163 Kratzer, A., 39, 155, 202 Kraus, S., 37, 79, 81–84, 86, 163, 165, 166, 168, 202 kumulatywna przechodniość, 5, 6, 9, 12, 16, 19, 21, 24, 30, 33, 40, 41, 49, 54, 56, 58, 62, 63, 68, 72, 73, 85, 88, 94, 99, 101, 106, 111, 132, 136, 138, 140, 141, 154, 157, 164, 166 Kuratowski, K., xii, 7, 10, 36, 90, 161, 162, 197 Kyburg, H., 132, 142, 198, 202 Lang, J., 136, 139, 199, 200 Lehmann, D., xix, 37, 40, 79, 81–84, 86, 135, 136, 163, 165, 166, 168, 200, 202 lemat Kuratowskiego-Zorna, xii, 10, 36, 90, 161, 162, 197 Leone, N., xiv, 201 Levi, I., 50, 145, 202 Lewis, D., 122, 125, 142, 152, 153, 155, 167, 168, 202, 203 lewostronna klasyczna równoważność, 25 Lifschitz, V., 76, 198, 203 Lindström, S., 37, 83, 203 Lipschutz, S., xi, xii, 203 logika modalna, 28 logika paraklasyczna, 19 logika priorytetowego domyślania, 105 logika trójwartościowa, 122 logika zmiany przekonań, 47, 143 logiki zakazu, 155 łańcuch epistemiczny, 51 łańcuch zstępujący w dół, 73, 74, 84 łańcucha tworzenie, 11 łączenie konkluzji w koniunkcję, 9, 19, 68, 115, 131–134, 136, 138, 140, 141, 147, 157, 160, 162–164
210 łączenie przesłanek w alternatywę, 21, 29, 41, 65, 88, 89, 132, 138, 140, 141, 159, 164 Łukaszewicz, W., 102, 106, 108, 112, 113, 198, 203 Magidor, M., 37, 79, 81–84, 86, 135, 136, 163, 165, 166, 168, 202 Makinson, D., vii, xvi, xvii, xix, 20, 22, 23, 38, 39, 44, 46, 47, 51, 54, 55, 60, 65, 73, 83, 86, 90, 97, 99, 101, 104, 107, 110, 113, 132, 136, 139, 142, 145–147, 150, 156, 160, 167, 168, 198, 199, 201 maksymalne rodziny reguł, 109 maksymalność, 6 maksymalny wybór, 46 Marcos, J., xix, 34 Marek, V. W., 102, 113, 204 McCarthy, J., 76, 204 Mendelzon, A. O., 146, 150, 153, 156, 167, 168, 195, 202 miara prawdopodobieństwa, 115 minimalność, 53 mocne centrowanie, 151–154 mocne twierdzenie o pełności, 10 model aktualizacji Katsuno/Mendelzona, 146, 153 model preferencji, 70 modularność, 54 modularny model preferencji, 81 modus ponens, 90, 154, 167 modus tollens, 110 monotoniczność, 5 monotoniczność ostrożna, 33 Mostowski A., xii Nadal, J. P., 203 nadklasyczne relacje domknięcia, 12 nadklasyczność, 12 niemonotoniczność, 2 nienormalne reguły domyślne, 102 niepewność, 114
Bibliografia nieprawdopodobieństwo, 128 niespełnialność, 4 niesprzeczność, 4 normalne reguły domyślne, 95 obiekty warunkowe, 122 obraz, 17 ograniczona dedukcja, 161 ograniczone prawdopodobieństwo, 135 ograniczony przypadek przechodniości, 154 ograniczony przypadek racjonalnej monotoniczności, 161 operacja domknięcia, xi, 9, 11, 24, 30, 32, 41, 65, 67, 68, 88, 89, 111 operacja konsekwencji, 37 operacje częściowego przecięcia, 43 operacje wolne od przecięcia, 43 opis stanu, 118 Pérez, P., 82, 204 Pagnucco, M., 50, 205 Pan, Z., 206 paradoks loterii, 132 paradoks przedmowy, 132, 203 Parent, X., xix PDL, 105 Pearl, J., 135, 142, 204 pełność, 27–30, 60, 157 podejście ilościowe, 138 podejście jakościowe, 138 podstawienie, 15 podzbiory maksymalnie bogate informacyjnie, 49 Poole, D., 39, 48, 60, 105, 106, 108, 112, 204 poznawcza wygoda, 123 Prade, H., 122, 125, 136, 139, 142, 199, 200 Prakken, H., xv, 204 prawdopodobieństwo okresu warunkowego, 123 prawdopodobieństwo warunkowe, 119, 121, 122
211
Bibliografia prawostronna monotoniczność, 156 prawostronne osłabianie, 25 preferowane podzbiory, 57 próg warunku, 127 przechodniość, 5 przeciwzwrotna relacja, 51 przesłanki ukryte w tle, 48 przyporządkowanie, 4 punkt stały, 97 quasi-indukcja, 97 Rabinowicz, W., xix racjonalna monotoniczność, 29, 54 reguła, 87 reguła Horna, 6 reguła odrywania, 90 reguły domyślne, 95 Reinfrank, M., 60, 203 Reiter, R., 41, 93, 95, 97–99, 102–106, 108, 109, 111–113, 169, 170, 205 relacja domknięcia, 5, 11, 16 relacja konsekwencji ograniczonego prawdopodobieństwa, 135 relacja logicznej życzliwości, 20 relacyjna konsekwencja częściowego przecięcia, 45 rewizja, 44, 46, 50, 120, 143, 144 rewizja przez częściowe przecięcie, 147 rewizji przekonań logika, xiv, 44, 166 Robinson, J., 60, 86, 113, 142, 167, 200, 201 Rott, H., xix, 25, 38, 48, 50, 54, 55, 83, 167, 198, 201, 205 rozszerzenia Reitera, 97 rozszerzenie, 97 rozumowanie niemonotoniczne, 2 Sandewall, E., 93, 205 sceptyczna konsekwencja reguł domyślnych, 98 Scherlock Holmes, 1 Schlechta, K., xix, 65, 198, 199, 205
Schubert, R., xix semantyka zbioru odpowiedzi, xiv, 108 Shoham, Y., 69, 86, 205 Simari, G., xv, 200 singletonowa koniunkcyjna monotoniczność, 6 singletonowa monotoniczność, 6 skończona gładkość, 164 skończone zakorkowanie, 164 skończony, 27 Skyrms, B., 140, 205 słabe centrowanie, 150 słabe rozszerzenia, 108 Speed, S., xix spełnialność, 4 spełnianie preferencyjne, 71 sposoby wytwarzania, xiii spójniki prawdziwościowe, 3 sprzeczność, 4 Stalnaker, R., 116, 152, 153, 167, 205 stany epistemiczne, 50 stany epistemicznie najlepsze, 50 Stolpe, A., xix surjekcja, 17 Suszko, R., 7, 199 Swain, M., 202 systemy pomostowe, xiii, 134 światy, 77 Tan, Y. H., 105, 205 Tarski, A., 7, 206 teoria zawodnej argumentacji, xv teoria zawodnych sieci dziedziczenia, xv topologia, 7, 28 Torre, L. van der, 90, 110, 156, 204 Treur, J., 105, 205 Truszczyński, M., 102, 108, 109, 113, 198, 204 twierdzenie o adekwatności, 161, 165 twierdzenie o reprezentacji, xiv, 25–30, 55, 60, 64–66, 68, 81, 82, 89, 90, 136, 138, 139, 143, 157, 159–161, 163, 165–168
212 twierdzenie o reprezentacji dla KLM, 163 tworzenie drzewa, 11 ujawniona preferencja, 48 uwalnianie przesłanek, 26 uwarunkowanie funkcji prawdopodobieństwa, 114, 119, 121, 122, 124, 127 uwarunkowanie Jeffreya, 121, 124 Uzcátegui, C., 82, 204 Veltman, F., 39, 155, 206 Vreeswijk, G., xv, 204 wartościowania domyślne, 19, 69 wartościowanie, 4 warunek Freunda, 82 warunek niesprzeczności, 95, 102, 112 warunek topologiczny, 7, 10 warunkowe zezwolenia, 156 Watson, 1 wielowartościowe funkcje prawdziwościowe, 118 Williamson, J., 140, 206 Winslett Wilkins, M., 150, 202 własność CP = PC, 122 własność jedynego rozszerzenia, 118 własność redundancji, 34 Wójcicki, R., 7, 22, 206 wstęga Möbiusa, 31, 100, 110, 189 względna epistemiczna wartość, 50 wzmacnianie przesłanek, 6 zachowanie niesprzeczności, 39, 41, 73, 74, 86, 160, 162, 163 zagnieżdżanie, 155 zakorkowanie, 51, 73 zakorkowanie od dołu, 155 zależność syntaktyczna, 35 założenie domknięcia świata, 41, 56, 58, 76, 77 zbiór maksymalnie A-niesprzeczny, 31 zbiór maksymalnie niesprzeczny, 31
Bibliografia zbiór oczekiwań, 23 Zhu, W., 206 Zhu, Z., 82, 206 złożenie, 17 zobowiązania warunkowe, 155, 157, 167 Zorn, M., xii, 10, 36, 90, 161, 162, 197 zrównywanie, 98 zwartość, xi, xviii, 6, 7, 9, 10, 21, 24, 26–29, 33, 36, 40, 41, 47, 49, 53, 58, 60, 62, 63, 65, 69, 82, 86, 89–91, 94, 147, 159, 161, 162, 170, 188 zwiększanie o singletony, 92 zwrotność, 5