kognitywistyka o umyśle umyślnie i nieumyślnie
Recenzenci: dr Jan Daciuk prof. dr hab. Maria Ledzińska dr hab. Emilia ...
65 downloads
1213 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
kognitywistyka o umyśle umyślnie i nieumyślnie
Recenzenci: dr Jan Daciuk prof. dr hab. Maria Ledzińska dr hab. Emilia Łojek prof. dr hab. Marcin Mostowski dr Agnieszka Mykowiecka prof. dr hab. Barbara Stanosz mgr Konrad Zdanowski
Książka ukazała się dzięki dotacji: FUNDACJI NA RZECZ STUDENTÓW I ABSOLWENTÓW UNIWERSYTETU WARSZAWSKIEGO „UNIVERSITATIS VARSOVIENSIS” oraz KOLEGIUM MIĘDZYWYDZIAŁOWYCH INDYWIDUALNYCH STUDIÓW HUMANISTYCZNYCH
Wydawca: Koło Filozoficzne przy MISH Uniwersytet Warszawski Kolegium Międzywydziałowych Indywidualnych Studiów Humanistycznych Nowy Świat 69 00-927 Warszawa
Skład: Paweł Mleczko (systemem LATEX 2ε ) Projekt okładki: Piotr Labenz Korekta: Barbara Ciecierska Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. c Koło Filozoficzne przy MISH 2004
ISBN 83 – 915323 – 2 – 1
Koło Filozoficzne przy Kolegium Międzywydziałowych Indywidualnych Studiów Humanistycznych
kognitywistyka o umyśle umyślnie i nieumyślnie pod redakcją Jakuba Szymanika i Marcina Zajenkowskiego
Warszawa 2004
Wstęp
Czym jest kognitywistyka? Dlaczego termin cognitive science stał się w ostatnich latach tak popularny? Na te i podobne pytania chcieliśmy znaleźć odpowiedź w ramach prac Koła Filozoficznego w roku akademickim 2002/2003. Omawiane na naszych spotkaniach tematy w jakiś sposób wyrastają z klasycznych zagadnień epistemologii. Natomiast metody wykorzystywane do badania tych problemów wywodzą się między innymi z takich nauk jak: biologia, informatyka, językoznawstwo i matematyka. Niniejsza książka ma za zadanie zaprezentować niektóre z zagadnień, rozważanych przez teoretyków, określających siebie mianem przedstawicieli cognitive science. W efekcie ma się przyczynić do lepszego zrozumienia wartości badań kognitywnych. Najogólniej mówiąc, kognitywistyka to multidyscyplinarna gałąź nauki, badająca procesy poznawcze z perspektywy różnych nauk szczegółowych. W skład badaczy spod tego znaku wchodzą specjaliści od: filozofii, informatyki, lingwistyki, logiki, neurofizjologii, psychologii poznawczej, robotyki, socjologii itd. Obecnie najbardziej znaną dziedziną badań kognitywnych jest Sztuczna Inteligencja (AI, z ang. Artificial Inteligence), czyli teoria, zajmująca się symulowaniem procesów poznawczych człowieka za pomocą maszyn takich jak komputery, czy roboty. Innym szeroko rozpropagowanym działem cognitive science jest teoria języka uprawiana w duchu generatywnym. Polega ona między innymi na budowaniu gramatyk fragmentów języka naturalnego, które to postuluje się często jako dobry model kompetencji językowej człowieka. Najbardziej znaną dyskusją, leżącą u podstaw całej kognitywistyki, jest spór na temat możliwości realizacji programu AI. Czy rzeczywiście, jak chcą zwolennicy silnej AI, wszystkie procesy poznawcze można symulować za pomocą uniwersalnych maszyn liczących (teza Churcha-Turinga)? Kognitywiści odpowiadają najczęściej twierdząco na to pytanie i stąd bierze się między innymi nadmiar metafor „komputerowych” w pracach z nurtu cognitive science. Popularne jest przyrównywanie mózgu do komputera (hardware, device), który wykonuje pewien program (software). O procesach poznawczych często mówi się w kategoriach teorii obliczeń, utożsamiając umysł z programem zaimplementowanym na maszynie, jaką jest układ nerwowy. Ten sposób myślenia opiera się na wierze, iż procesy poznawcze są tożsame z obliczeniami. Multidyscyplinarność kognitywistyki przejawia się już w tym, iż trudno jednoznacznie zaklasyfikować ją jako naukę przyrodniczą albo dyscyplinę humanistyczną. Wiele w niej klasycznych wątków, pojęć oraz problemów
filozoficznych, lecz też ogrom badań biologicznych, wyników matematycznych i zagadnień inżynieryjnych. Potrzeba interdyscyplinarności w cognitive science bierze się ze złożoności problemu badawczego, jakim jest opis funkcjonowania umysłu oraz z przeświadczenia, iż teorie zbudowane w obrębie tylko jednej dyscypliny (np. filozoficzne teorie umysłu, psychologiczne opisy procesów poznawczych, komputerowe modele rozumowań) nie dostarczają adekwatnej teorii opisowo-wyjaśniającej. Dlatego jednym z podstawowych zadań kognitywistytki jest integracja danych uzyskanych przez poszczególne nauki szczegółowe w jedną spójną teorię umysłu. Łączenie wyników różnych dyscyplin odbywa się zazwyczaj na trzech etapach: rozważania teoretyczne (filozofia, językoznawstwo, logika, psychologia), szukanie podstaw biologicznych (neuropsychologia), symulacja komputerowa (informatyka). Również artykuły składające się na ten tom odznaczają się interdyscyplinarnością i dlatego też trudno je uporządkować pod względem tematycznym. Natomiast dla lepszej orientacji czytelnika poniżej przedstawiamy pewien rodzaj takiej klasyfikacji. Do grupy rozważań teoretycznych zaliczylibyśmy prace: Pauli Bucholc (psychologia i logika), Jakuba Fasta (filozofia), Niny Gierasimczuk (filozofia i psychologia), Macieja Piaseckiego (lingwistyka, logika, informatyka) oraz Marcina Zajenkowskiego (psychologia). Podstawom biologicznym teorii umysłu poświęcony jest artykuł Przemysława Tomalskiego (neuronauki). O implementacjach osiągnięć z dziedziny teorii języka traktują teksty Piotra Labenza (filozofia i informatyka) oraz Sebastiana Kozłowskiego (lingwistyka oraz informatyka). Kognitywistyka jest nauką bardzo młodą o ciągle nie do końca ustalonej pozycji akademickiej. Wiele w niej problemów do rozwiązania, lecz mało ugruntowanych i powszechnie znanych wyników. Trudno mówić o kanonie wiedzy składającej się na cognitive science. Z tych powodów wybór tematyki artykułów wchodzących w skład niniejszego tomu jest zapewne w dużej mierze subiektywny. Mamy jednak nadzieję, iż każdy, kogo żywo zajmują zagadnienia związane z ludzkim poznaniem i umysłem, znajdzie dla siebie w tej książce coś interesującego. Praca ta nie ukazałaby się, gdyby nie pomoc wielu osób. Ogromne podziękowania za cierpliwość i wsparcie należą się autorom artykułów. Jesteśmy bardzo wdzięczni recenzentom: dr. Janowi Daciukowi, prof. Marii Ledzińskiej, dr hab. Emili Łojek, prof. Marcinowi Mostowskiemu, dr Agnieszce Mykowieckiej, prof. Barbarze Stanosz oraz mgr. Konradowi Zdanowskiemu za wnikliwą i zarazem życzliwą krytykę. Bardzo wiele zawdzięcza ta książka naszym przyjaciołom, szczególnie Pawłowi Mleczko, bez którego zaangażowania nigdy nie udałoby się skończyć prac redakcyjnych oraz Piotrowi Labenzowi, który przygotował projekt okładki. Wszystkim Wam bardzo dziękujemy. Pragniemy podziękować również Fundacji na Rzecz Studentów i Absolwentów Uniwersytetu Warszawskiego oraz Kolegium Międzywydziałowych Indywidualnych Studiów Humanistycznych za sfinansowanie projektu. Redaktorzy
Spis treści
Paula Bucholc, Kompetencja logiczna a poprawność logiczna. Analiza na przykładzie terminów pustych . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Jakub Fast, Język, racjonalność i „inne umysły”. Założenie o racjonalności a nieredukowalność języka psychologicznego w filozofii Donalda Davidsona
29
Nina Gierasimczuk, Teoretyczny model nabywania języka według Quine’a . . .
41
Sebastian Kozłowski, Co to jest tłumaczenie maszynowe? . . . . . . . . . . . . .
63
Piotr Labenz, Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina .
95
Maciej Piasecki, Selektywne wprowadzenie do semantyki formalnej . . . . . . . 113 Przemysław Tomalski, Cognitive neuroscience: nic nie jest już proste. Kilka uwag o badaniach interakcji ciała i umysłu . . . . . . . . . . . . . . . . 157 Marcin Zajenkowski, Emocje i procesy poznawcze jako przykład elementarnych przedmiotów psychicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Skorowidz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Paula Bucholc
Kompetencja logiczna a poprawność logiczna. Analiza na przykładzie terminów pustych
1. Wstęp Podstawowym zagadnieniem poruszanym w tym artykule jest zależność pomiędzy kompetencją logiczną, w którą wyposażony jest człowiek1 , a poprawnością logiczną. W ostatnich latach coraz częściej zauważa się, że mechanizm kompetencji nie działa zgodnie z warunkami poprawności logicznej. Przykładem może być tu książka (Devlin, 1997). Analizie pojęć kompetencji logicznej i poprawności logicznej oraz istniejących pomiędzy nimi zależności poświęcona jest pierwsza część artykułu, zatytułowana Poprawność logiczna a kompetencja logiczna. Stawiamy w niej następującą hipotezę: HIPOTEZA 1. Kompetencja logiczna składa się z dwóch, być może różnych mechanizmów: mechanizmu rozpoznawania poprawności wnioskowań i mechanizmu generowania wniosków. Nie próbowaliśmy wnikać w strukturę funkcjonowania tych mechanizmów. Rozróżnienie to wydaje się jednak istotne przy szacowaniu poprawności logicznej naszej kompetencji. Przykładem, w oparciu o który analizujemy różnice pomiędzy kompetencją logiczną a poprawnością logiczną, jest problem terminów pustych. Przy ograniczeniu jedynie do terminów niepustych niezawodne stają się pewne wnioskowania, które nie są poprawne w ogólnym przypadku. Niestety nie zawsze możemy wiedzieć, czy dany termin jest pusty czy nie. Dyskusja tego problemu oraz przedstawienie problemu terminów pustych w sylogistyce Arystotelesa składają się na drugą część: Terminy puste i sylogistyka. W trzeciej części, zatytułowanej Terminy konkretne i abstrakcyjne opisujemy doświadczenie (test Wasona) świadczące o różnicy w rezultatach rozumowań w zależności od tego, czy terminy w nich używane opisują świat, który uznajemy za znany (terminy konkretne), czy też odnoszą się do rzeczywistości od nas odległej (terminy abstrakcyjne). 1 Kompetencją logiczną nazywamy ludzką zdolność do posługiwania się logiką. Termin ten został ukuty przez analogię do kompetencji językowej. Patrz: (Macnamara, 1986) oraz infra, rozdział 2.
2
Kompetencja logiczna a poprawność logiczna
Naszym punktem wyjścia była analiza badań przeprowadzonych przez psychologów poznawczych2 : Philipa N. Johnsona–Lairda i Bruna G. Barę (1983). Zainteresował nas szczególnie wynik, na którego istotność autorzy ci nie zwrócili uwagi. Mianowicie, wszyscy uczestnicy eksperymentu zachowali się zgodnie z warunkami poprawności logicznej i nie generowali egzystencjalnego wniosku z dwóch ogólnych przesłanek. Zauważmy, że wnioskowanie takie byłoby niepoprawne bez dodatkowego założenia niepustości terminów w przesłankach (część piąta: Badania Philipa N. Johnsona-Lairda i Bruna G. Bary). Na podstawie tej obserwacji postawiliśmy hipotezę, że w tym przypadku istnieje zgodność pomiędzy kompetencją logiczną a poprawnością logiczną: HIPOTEZA 2. W rozumowaniach sylogistycznych, w których dla poprawności konieczne jest założenie niepustości terminów w przesłankach w przypadku generowania wniosków, istnieje zgodność pomiędzy kompetencją logiczną a poprawnością logiczną. Chcieliśmy zbadać, czy postawienie ludzi przed zadaniem rozpoznawania wnioskowań tego typu przyniesie podobny rezultat. Okazało się jednak, że uczestnicy naszego eksperymentu uznawali takie wnioskowania za poprawne. Można z tego wywnioskować, iż w przypadku zadania polegającego na rozpoznawaniu poprawności wnioskowań sylogistycznych, istnieje rozbieżność pomiędzy kompetencją logiczną a poprawnością logiczną. Obserwacja ta stanowiła podstawę do sformułowania kolejnej hipotezy: HIPOTEZA 3. Kompetencja logiczna jest w różnym stopniu zbieżna z warunkami poprawności logicznej. Zbieżność owa zależy od tego, czy zadanie polega na rozpoznawaniu poprawności wnioskowań czy na generowaniu wniosku. Słuszność tej hipotezy potwierdziły kolejne badania. Opis obydwu eksperymentów, analiza wyników oraz wnioski znajdują się w części szóstej: Badania testujące role terminów pustych w rozumowaniach człowieka. Podziękowania Niniejsza praca jest rezultatem studiów pod opieką naukową prof. dr hab. Marcina Mostowskiego z Instytutu Filozofii Uniwersytetu Warszawskiego, któremu chciałabym bardzo serdecznie podziękować za długie dyskusje, doskonałe pomysły, niezliczone uwagi oraz surowe krytyki. Chciałabym także podziękować Pani prof. dr hab. Marii Lewickiej z Wydziału Psychologii Uniwersytetu Warszawskiego za pomoc w przygotowaniu badań i analizie danych. Wdzięczna jestem również moim kolegom z Zakładu Logiki IF UW za pomoc przy przeprowadzaniu eksperymentu, uczestnikom Warsztatów Logicznych w Słupsku (2000) i w Lutowiskach (2001) za dyskusje i zainteresowanie oraz wszystkim, którzy czytali kolejne wersje tej pracy. 2 Zamiennie można używać określenia psychologowie kognitywni. Nazwa kognitywistyka używana jest w szerszym znaczeniu dla określenia nauki zajmującej się badaniem procesów poznawczych, także z punktu widzenia biologii, informatyki, lingwistyki czy filozofii.
Paula Bucholc
3
2. Poprawność logiczna i kompetencja logiczna W pierwszym rozdziale niniejszej pracy najpierw przeprowadzimy analizę pojęć poprawność logiczna oraz kompetencja logiczna, następnie zaś spróbujemy określić wzajemne zależności pomiędzy nimi. Zacznijmy od przypomnienia pewnej zabawnej i dobrze znanej w świecie logików przypowiastki autorstwa Lewisa Carrolla, zatytułowanej What the Tortoise Said to Achilles (Carroll, 1895). Carroll odwołuje się do paradoksu starożytnego filozofa, Zenona z Elei, który to dowodził, iż w wyścigu Achilles nigdy nie dogoni Żółwia, jeżeli Żółw wystartuje choćby odrobinę wcześniej od Bohatera. Carroll opisał rozmowę pomiędzy Achillesem i Żółwiem dotyczącą wnioskowań, które jesteśmy skłonni uznać za oczywiste. Sytuacja przedstawia się w następujący sposób: bez oporu zgodzimy się, że z prawdziwych przesłanek: (A) Rzeczy, które są równe tej samej rzeczy, są równe sobie nawzajem. (B) Dwa boki pewnego Trójkąta są równe tej samej rzeczy. możemy wyciągnąć prawdziwy wniosek, że (Z) Dwa boki tego Trójkąta są sobie równe. Dla Żółwia nie jest jednak to oczywiste. Dlaczego miałby uznawać właśnie takie wnioskowanie za poprawne? Wymaga się od niego zaakceptowania zdania warunkowego (C) Jeśli A i B są prawdziwe, to Z musi być prawdziwe. To jednak wciąż nie wystarcza do przyjęcia (Z) jako poprawnego wniosku, ponieważ znowu najpierw musimy uznać w poprzednim kroku zdanie warunkowe: (D) Jeśli A i B i C są prawdziwe, to Z musi być prawdziwe. I tak, jak łatwo się domyślić, musielibyśmy postępować w nieskończoność. Szczęśliwie, na co dzień nie mamy takich „żółwich problemów”. Bez oporu godzimy się na przyjęcie (Z) już na podstawie dwóch pierwszych przesłanek. Co więcej, nie wymaga to żadnego specjalnego logicznego treningu. Fakt ten świadczy o tym, że nasz umysł wyposażony jest w swoisty mechanizm kompetencji logicznej, który pozwala nam uznawać pewne wnioskowania, przeprowadzane na co dzień, za poprawne, oraz odrzucać inne, jako wnioskowania niepoprawne. Tę zdolność nazywać będziemy rozpoznawaniem poprawności wnioskowań. Potrafimy również sami, ze względnie dużą swobodą, generować wnioski w oparciu o zadane przesłanki. Nasuwa się jednak pytanie: w jakim stopniu nasze poczucie oczywistości jest zgodne z tym, co rzeczywiście jest poprawne na gruncie logiki3 . Zanim zajmiemy się analizą wzajemnej zależności pomiędzy kompetencją a poprawnością logiczną, przyjrzymy się każdemu z tych pojęć osobno. 3 Chcemy podkreślić różnicę pomiędzy „oczywistością” a „poprawnością”. Oczywistość jest pewnym kryterium psychologicznym poprawności logicznej.
4
Kompetencja logiczna a poprawność logiczna
2.1. Poprawność logiczna Interesuje nas przede wszystkim ocena wnioskowań, to znaczy – chcemy wyróżnić pewną klasę wnioskowań, które nazwiemy poprawnymi. Wnioskowanie polega na przechodzeniu od przesłanek (skończonego zbioru zdań) do wniosku (pewnego zdania). Wnioskowanie można zdefiniować formalnie w następujący sposób: DEFINICJA 1. Niech dany będzie ustalony język oraz zbiór zdań Z tego języka. Wnioskowaniem nazywamy taką parę, że pierwszym elementem pary jest skończony zbiór zdań, nazywanych przesłankami tego wnioskowania; drugi element pary stanowi zdanie zwane wnioskiem. Zbiór wnioskowań W rozważanego języka określimy więc następująco: W = {(A, ϕ) : ϕ ∈ Z, A ⊆ Z, A – skończony zbiór}. Zbiór poprawnych wnioskowań wyróżnia się semantycznie. Załóżmy, że dane jest pojęcie modelu oraz relacji pomiędzy modelami a zdaniami rozważanego języka zwanej relacją prawdziwości w modelu i oznaczanej |=4 . DEFINICJA 2. Niech para składająca się z przesłanek ϕ1 , . . . , ϕn oraz wniosku ψ będzie wnioskowaniem. Powiemy, że wnioskowanie to jest semantycznie poprawne (co zapisujemy: ϕ1 , . . . , ϕn |= ψ) wtedy i tylko wtedy, gdy dla dowolnego modelu M, w którym wszystkie przesłanki są prawdziwe (czyli M |= ϕ1 oraz . . . oraz M |= ϕn ), również wniosek jest prawdziwy (więc M |= ψ).Równoważne jest to stwierdzeniu, że nie ma takiej interpretacji, przy której wszystkie przesłanki byłyby prawdziwe, wniosek zaś fałszywy. Zilustrujemy nasze rozważania posługując się przykładem rachunku zdań. Naszymi przesłankami i wnioskami będą w tym przypadku formuły rachunku zdań. Ustalamy słownik rachunku zdań: formuły budowane będą ze zmiennych zdaniowych (zwanych też formułami atomowymi) oraz spójników: ⇒ i ¬, przy użyciu nawiasów. Zbiór wnioskowań budujemy zgodnie z regułami podanymi wyżej. Model ustala wartości logiczne (wartościowanie5 ) dla zmiennych zdaniowych. Możemy go zdefiniować wskazując zbiór formuł atomowych, które są w nim prawdziwe. Tak więc przyjmiemy, że naszymi modelami są dowolne zbiory formuł atomowych. Relację prawdziwości w modelu określimy przy pomocy następującego warunku dla formuł atomowych: — jeśli ϕ jest formułą atomową, wówczas M |= ϕ wtedy i tylko wtedy, gdy ϕ ∈ M. Przyjmujemy również następujące warunki indukcyjne: — M |= ¬ϕ wtedy i tylko wtedy, gdy M 2 ϕ, 4
Modele są to ścisłe matematyczne odpowiedniki pojęcia możliwych interpretacji wyrażeń pozalogicznych. 5 Wartościowaniem nazywamy funkcję, która przyporządkowuje zmiennym wartości logiczne.
5
Paula Bucholc
— M |= ϕ ⇒ ψ wtedy i tylko wtedy, gdy M 2 ϕ lub M |= ψ. Zauważmy, że wnioskowanie z przesłankami ϕ1 , . . . , ϕn oraz wnioskiem ψ jest poprawne wtedy i tylko wtedy, gdy formuła (ϕ1 ⇒ (ϕ2 ⇒ (. . . (ϕn ⇒ ψ) . . .)) jest tautologią rachunku zdań6 . Zwróćmy uwagę, że z punktu widzenia naszej zdolności do przeprowadzania poprawnych wnioskowań i oceniania ich poprawności, kluczowa jest kwestia złożoności algorytmicznej problemu poprawności wnioskowań naszego języka. Złożoność algorytmiczna wnioskowań przeprowadzanych przez człowieka jest prawdopodobnie większa niż złożoność rozpoznawania gramatyczności czy generowania poprawnych zdań języka naturalnego. Problemy, z którymi umysł ludzki może sobie poradzić, to prawdopodobnie te problemy, które należą do klasy PTIME7 . Wiadomo, że problem wynikania dla logiki pierwszego rzędu jest problemem nierozstrzygalnym (twierdzenie Churcha8 ). Oznacza to, że przy pewnych naturalnych założeniach nasz umysł nie może być zdolny do rozpoznawania poprawności wszelkich wnioskowań w języku pierwszego rzędu. Wiadomo także, iż w przypadku rachunku zdań czy logiki pierwszego rzędu w języku jedynie z predykatami jednoargumentowymi oraz identycznością, problem poprawności wnioskowań jest rozstrzygalny (Mostowski, 1994). Rozstrzygalny jest także rachunek sylogistyczny (można go zinterpretować jako fragment logiki pierwszego rzędu w słowniku jedynie z predykatami jednoargumentowymi). 2.2. Kompetencja logiczna Drugim kluczowym pojęciem, któremu poświęcimy teraz naszą uwagę, jest pojęcie kompetencji logicznej. Kompetencją logiczną, na wzór kompetencji językowej opisywanej przez Chomsky’ego, psycholodzy kognitywni nazywają mechanizm, który pozwala człowiekowi na rozpoznawanie pewnych wnioskowań jako wnioskowań poprawnych, a także na generowanie poprawnych wniosków z zastanych przesłanek. Noam Chomsky w swoich pracach zaproponował model funkcjonowania języka, w którym istotną rolę odgrywa hipotetyczny mechanizm zwany kompetencją językową. Koncepcja ta pozwala na wyjaśnienie, dlaczego człowiek potrafi rozpoznawać jako poprawne zdania, z którymi nigdy wcześniej się nie zetknął – a także je generować. Jak szacuje Keith Devlin, „przeciętna osoba anglojęzyczna9 może wygenerować 1023 różnych zdań zbudowanych 6
Tautologią nazywamy formułę, która jest prawdziwa w każdym modelu. Szerszą dyskusję na temat złożoności obliczeniowej w kontekście ograniczeń umysłu ludzkiego można znaleźć w (Mostowski Wojtyniak). 8 Jedna z wersji tego twierdzenia wraz z dowodem w (Davis Weyuker, 1983, str. 283–287). 9 Wydaje się, że podobnie użytkownik jakiegokolwiek innego języka, np. polskiego. 7
6
Kompetencja logiczna a poprawność logiczna
z dwudziestu lub mniej słów”. Łatwo policzyć, że wypowiedzenie takiej liczby zdań zajęłoby tryliony lat! „Nie zmienia to faktu”, pisze dalej Devlin „że bezustannie rozumiemy nowe zdania. Na przykład, niniejsze zdanie liczy dwadzieścia słów, czytelnik prawdopodobnie nigdy wcześniej się z nim nie zetknął, a przecież je rozumie”10 . Nie ulega wątpliwości, że owo zrozumienie nie jest oparte na przeglądzie wszystkich możliwych zdań, zmagazynowanych w naszej pamięci. Generowanie i rozpoznawanie musi być zatem oparte na jakimś innym procesie. Chomsky postuluje w tym celu opis języka poprzez podanie gramatyki generatywno-transformacyjnej. Opis funkcjonowania takich gramatyk wykracza jednak poza ramy tej pracy. Zajmiemy się natomiast pewnym pobocznym aspektem tej teorii. Istotną sprawą wydaje się odróżnianie dwóch pojęć: generowania wypowiedzi oraz zdolności rozpoznawania gramatyczności tych wypowiedzi. Chomsky wymienia obydwa te aspekty kompetencji językowej, ale wydaje się nie przywiązywać wielkiej wagi do ewentualnych różnic w ich funkcjonowaniu. W szczególności nie określa, czy mają to być dwa niezależne mechanizmy, czy też dwie różne funkcje tego samego mechanizmu. Naszym jednak zdaniem problem jest bardzo istotny i wart przedyskutowania, jak się bowiem wydaje, rozpoznawanie i generowanie działają na dwa różne sposoby. Dobrym przykładem może tu być zależność pomiędzy gramatyką bezkontekstową a odpowiadającym jej automatem ze stosem. Gramatyka pełni tu rolę mechanizmu generującego, automat ze stosem – rozpoznającego. Automat akceptuje wypowiedzi, które wyprodukowane zostały przez gramatykę. Obydwa mechanizmy stosowane są do tego samego zbioru wyrażeń, natomiast ich działanie jest wyraźnie odmienne. Rozważmy język rachunku zdań będący bardzo prostym językiem bezkontekstowym. Mechanizm generowania formuł rachunku zdań możemy opisać przy pomocy prostej gramatyki bezkontekstowej G = (V, T, P, S), gdzie V i T są skończonymi zbiorami, odpowiednio: zmiennych i symboli końcowych11 . V = {S, Z, R}, T = {p,′ , ¬, ⇒, (, )}. Zakładamy, że V i T są rozłączne. P jest zbiorem produkcji, określonym następująco: S → ¬S | (S ⇒ S) | Z Z → pR R → ′ R | ε. Z generuje zmienne zdaniowe, R generuje ciąg primów, ε to słowo puste, zaś S jest symbolem początkowym tej gramatyki12 . Działanie gramatyki G zilustrujemy na przykładzie generowania formuły: (p ⇒ (¬p′ ⇒ p)): S 7→ (S ⇒ S) 7→ (S ⇒ (S ⇒ S)) 10
(Devlin, 1997, str. 157) Opracowaniu tego przykładu zawdzięczam Konradowi Zdanowskiemu z IF UW. 12 Gramatykę taką nazywa się bezkontekstową, ponieważ warunki stosowalności jej produkcji nie zależą od tego, jakie symbole występują obok symbolu zmiennej. 11
Paula Bucholc
7
7→ (S ⇒ (¬S ⇒ S)) 7 (Z ⇒ (¬S ⇒ S)) → 7→ (pR ⇒ (¬S ⇒ S)) 7→ (p ⇒ (¬S ⇒ S)) 7→ (p ⇒ (¬Z ⇒ S)) 7→ (p ⇒ (¬pR ⇒ S)) 7→ (p ⇒ (¬p′ R ⇒ S)) 7→ (p ⇒ (¬p′ ⇒ S)) 7→ (p ⇒ (¬p′ ⇒ Z)) 7→ (p ⇒ (¬p′ ⇒ pR)) 7→ (p ⇒ (¬p′ ⇒ p)) Rozpoznawanie gramatyczności, czyli własności bycia formułą rachunku zdań, może być realizowane na przykład przy użyciu odpowiedniego automatu ze stosem: M = {Q, Σ, Γ, δ, S, {S, R}}. Q = {S, R} jest to zbiór stanów, gdzie S – czytamy formułę, R – czytamy resztę; Σ – to zbiór symboli alfabetu wejściowego, Γ – zbiór symboli stosu, δ : Q × Σ × Γ 7→ P(Q × Γ∗) – to funkcja przejścia, (Γ∗ jest tu zbiorem skończonych ciągów nad alfabetem Γ), δ może być funkcją częściową, S – element zbioru Q, będący stanem początkowym, S – symbol początkowy stosu, {R} oznacza zbiór stanów akceptujących. Σ = {p,′ , ¬, ⇒, (, )}, Γ = {S, ) , ⇒ }, gdzie S – czytamy formułę. Słowo puste oznaczamy: ε. Funkcję przejścia δ definiujemy w następujący sposób: δ(S, ¬, S) = {(S, S)} δ(S, (, S) = {(S, S ⇒ S ) )} δ(S, p, S) = {(R, S), (R, ε)} δ(R,′ , S) = {(R, S), (R, ε)} δ(R,′ , ε) = {(R, ε)} δ(S, ⇒, ⇒ ) = {(S, ε)} δ(R, ⇒, ⇒ ) = {(S, ε)} δ(R, ), ) ) = {(R, ε)} M akceptuje słowo ϕ wtedy i tylko wtedy, gdy istnieje obliczenie M na wejściu ϕ takie, że w stanie końcowym mamy (R, ε, ε). Zdefiniowany w ten sposób automat akceptuje formuły rachunku zdań, to znaczy formuły wygenerowane przez podaną wyżej gramatykę bezkontekstową. Nie będziemy w tej pracy przeprowadzać formalnego dowodu tego faktu, zadowolimy się przykładem. Oto w jaki sposób wyżej zdefiniowany automat rozpoznaje jako poprawną formułę (p ⇒ (¬p′ ⇒ p)): [S, (p ⇒ (¬p′ ⇒ p)), S] 7→ [S, p ⇒ (¬p′ ⇒ p)), S ⇒ S ) ] 7→ [R, ⇒ (¬p′ ⇒ p)), ⇒ S ) ] 7→ [S, (¬p′ ⇒ p)), S ) ] 7→ [S, ¬p′ ⇒ p)), S ⇒ S ) ) ]
8
Kompetencja logiczna a poprawność logiczna
7→ [S, p′ ⇒ p)), S ⇒ S ) ) ] 7→ [R, ′ ⇒ p)), S ⇒ S ) ) ] 7→ [R, ⇒ p)), ⇒ S ) ) ] 7→ [S, p)), S ) ) ] 7→ [R, )), ) ) ] 7→ [R, ), ) ] 7→ [R, ε, ε] Jeśli, jak sądzą niektórzy językoznawcy, języki naturalne są językami bezkontekstowymi, to stosowne mechanizmy generowania i rozpoznawania dla tych języków można by opisać w podobny sposób. Oczywiście gramatyka bezkontekstowa czy automat ze stosem dla jakiegokolwiek języka naturalnego byłyby dużo bardziej skomplikowane. Rzecz jasna, może się zdarzyć, że odpowiedni mechanizm generowania i odpowiedni mechanizm rozpoznawania wykorzystują dokładnie te same informacje dotyczące języka.13 Wówczas mielibyśmy zagwarantowaną zgodność pomiędzy tym, co zostało wygenerowane, a tym, co zostało rozpoznane. Taka sytuacja nie ma natomiast miejsca w przypadku mechanizmu kompetencji logicznej. Ludzie są bowiem skłonni zaakceptować pewne niepoprawne wnioskowania, których nie są gotowi wygenerować. Świadczą o tym na przykład wyniki naszego eksperymentu. Przejdźmy teraz do problemu kompetencji logicznej. Od pewnego czasu, wzorem Chomsky’ego, używa się terminu kompetencja logiczna dla określenia pewnej funkcji naszego umysłu, która polega na rozpoznawaniu wnioskowań oraz na generowaniu wniosków. Wydaje się, że jako pierwszy termin ten zaproponował John Macnamara. W swojej książce Logika i psychologia (Macnamara, 1986) proponuje, by rolę kompetencji spełniała „logika, tak jak ujmują ją logicy” oraz żeby odchylenia od logiki przypisywać czynnikom związanym z realizacją. Podkreśla, że w przypadku myślenia potocznego, kompetencja musi zostać ograniczona do logiki podstawowej, „dostatecznie prostej, aby temu potocznemu myśleniu odpowiadać, lecz zarazem dostatecznie bogatej, by sprostać ogromnie rozbudowanym strukturom logicznym, jakie pojawiają się w dzisiejszych czasach”(Macnamara, 1986, str. 8)14 . 13 Być może to właśnie było powodem, dla którego Chomsky nie zajmował się problemem różnicy pomiędzy generowaniem i akceptowaniem. 14 Nie chcemy tutaj zajmować się szczegółową analizą funkcjonowania mechanizmu kompetencji logicznej według Macnamary, niemniej jednak dwa aspekty tej teorii wymagają komentarza. Po pierwsze, nie wiadomo, na jakiej podstawie Macnamara twierdzi, że mechanizm kompetencji związany jest z prostą logiką, ani też co ma na myśli mówiąc, że owa logika podstawowa ma być „dostatecznie bogata, by sprostać ogromnie rozbudowanym strukturom logicznym, jakie pojawiają się w dzisiejszych czasach”. W życiu codziennym znajdujemy wiele przykładów, które świadczą o tym, że człowiek potrafi przeprowadzać rozumowania przy użyciu logik wyższych rzędów. Rozpatrzmy, na przykład, zdanie: „Napoleon posiada wszystkie cechy wielkiego generała”. Jeśli dodatkowo wiemy, że „Każdy wielki generał jest bardzo odważny”, to bez trudu zgodzimy
Paula Bucholc
9
Nasze doświadczenie poucza nas, że ludzie potrafią wyciągać wnioski z informacji, a także potrafią oceniać argumenty jako przekonujące lub nie. Domniemany mechanizm, w który wyposażony jest człowiek, realizujący te dwa rodzaje zdolności, nazwiemy kompetencją logiczną. Podobnie jak w przypadku kompetencji językowej rozróżnimy dwie istotnie odmienne funkcje tego mechanizmu: — generowanie wniosków z danych przesłanek, — rozpoznawanie trafności wnioskowań zastanych.
2.3. Zależność między poprawnością logiczną a kompetencją logiczną Jesteśmy teraz gotowi do przyjrzenia się zależności pomiędzy kompetencją logiczną a poprawnością logiczną. Na ile wnioskowania, które jesteśmy skłonni akceptować czy generować, są logicznie poprawne? Poprawność logiczną naszej kompetencji możemy szacować po pierwsze w odniesieniu do generowania, po drugie w odniesieniu do rozpoznawania. — Powiemy, że dany mechanizm generowania wnioskowań15 jest logicznie poprawny wtedy i tylko wtedy, gdy dla dowolnych przesłanek ϕ1 , . . . , ϕn oraz wniosku ψ wygenerowanego przez ten mechanizm z przesłanek ϕ1 , . . . , ϕn , wnioskowanie ψ z ϕ1 , . . . , ϕn jest logicznie poprawne. — Powiemy, że mechanizm rozpoznawania wnioskowań jest logicznie poprawny wtedy i tylko wtedy, gdy każde zaakceptowane przez niego wnioskowanie jest logicznie poprawne. Takim mechanizmem, który z jednej strony generuje wnioski, z drugiej zaś – rozpoznaje poprawne logicznie wnioskowania, jest kompetencja logiczna człowieka. Głównym zadaniem naszej pracy jest zbadanie tego mechanizmu i ocena jego poprawności logicznej. W ostatnich latach coraz częściej zauważa się, że pomiędzy kompetencją a poprawnością istnieje duża rozbieżność16 Interesujące przykłady zawiera książka Keitha Devlina, Żegnaj Kartezjuszu. Rozstanie z logiką w poszukiwaniu nowej kosmologii umysłu (1997). W książce Devlina znajdujemy szereg przykłasię, iż „Napoleon był bardzo odważny.” Mamy tu do czynienia ze zdaniem drugiego rzędu – jeśli cechy potraktujemy jako pewnego rodzaju zbiory, formy logicznej tego zdania nie można podać w języku pierwszego rzędu. Drugą kwestią budzącą poważne wątpliwości jest twierdzenie Macnamary, że mechanizm kompetencji logicznej jest zgodny z warunkami poprawności logicznej. Nie ma żadnych powodów, żeby a priori zakładać taką zgodność. Co więcej, uzyskane przez nas rezultaty świadczą o tym, że taka rozbieżność rzeczywiście istnieje. 15 Używamy tego niezręcznego zwrotu w następującym sensie: mówimy, że mechanizm generuje dane wnioskowanie, gdy przy przesłankach tego wnioskowania generuje jego wniosek. 16 Zwolennikami koncepcji przyjmującej jako mechanizm kompetencji logicznej jakiś fragment logiki formalnej byli między innymi wspominany wcześniej John Macnamara (Macnamara, 1986), a także Jean Piaget, w Barbel Inhelder i Jean Piaget, The Growth of Logical Thinking from Childehood to Adolescence, Routhlege and Kegan Paul, Londyn 1958, na stronie 305. czytamy: „reasoning is nothing more than the propositional calculus itself”, cytat za (Johnson–Laird, 1983, str. 24).
10
Kompetencja logiczna a poprawność logiczna
dów, głównie probabilistycznych, świadczących o tym, że taka rozbieżność istnieje.17 . Wskazują one na skłonność do postępowania niezgodnego z wynikami poprawnych oszacowań prawdopodobieństw, co w pierwszym przypadku działa wyraźnie na niekorzyść osoby wnioskującej. Zauważmy, że inne cele przyświecają logice formalnej, a inne kompetencji logicznej. Logika formalna poszukuje wnioskowań bezwarunkowo niezawodnych, natomiast w życiu codziennym naszym podstawowym celem jest skuteczność, a nie poprawność logiczna za wszelką cenę. W swoich działaniach człowiek chce być przede wszystkim skuteczny. Podejmuje często działania w oparciu o niepoprawne wnioskowania, co zdecydowanie zmniejsza jego szanse na przeżycie. Na przykład, wyobraźmy sobie następującą sytuację: pewien człowiek uciekający przed wrogiem w pewnym momencie znajduje się przed polem minowym. Posiada on częściową wiedzę dotyczącą sposobu rozmieszczenia min: zidentyfikował kilka z nich, co pozwoliłoby mu na obliczenie rzeczywistego ich rozmieszczenia. Od tego, jak zadziała jego mechanizm kompetencji logicznej, zależy w tym momencie jego życie. Jeśli miałby dostatecznie dużo czasu, mógłby przeprowadzić dokładne obliczenia i przejść bezpiecznie przez pole minowe. Nie ma jednak na to czasu, ponieważ gonią go wrogowie. Drugą możliwością byłoby po prostu pobiegnięcie na oślep, ale to, jak się wydaje, nie byłaby bezpieczna strategia. Chociaż – być może – dająca większe szanse przeżycia niż rozwiązanie pierwsze. Trzecia możliwość – to posłużyć się mechanizmem kompetencji logicznej, który co prawda działa zapewne nie do końca poprawnie, ale wyciągnie wniosek z posiadanych przesłanek i pozwoli uciekającemu powiększyć szanse na przetrwanie w tej trudnej sytuacji, w której się znalazł. Również we wspomnianej książce Devlina podany jest przykład świadczący o tym, że postępowanie absolutnie logiczne może okazać się nieskuteczne z powodów niezależnych od jego poprawności czy niepoprawności, a mianowicie z powodów związanych z czasem, który potrzebny jest na obliczenia. Devlin opisuje pewnego Romana – „irracjonalnego człowieka logiki”, który „przyjął ideę logicznego myślenia jako uniwersalnie ważną”18 . Roman, matematyk, był mistrzem obliczeń i stosował zasady logicznego rozumowania w każdym momencie swojego życia. Starał się jednakże zbyt ściśle trzymać zasad logiki i przez to często bywał nieskuteczny. Devlin podaje dwa prawdopodobne powody, dla których tak się działo. Po pierwsze, pozostali ludzie nie mieli skłonności do postępowania z podobną precyzją, po drugie, zbyt wiele czasu zajmowało Romanowi podejmowanie adekwatnych decyzji. W tej pracy chcieliśmy się przyjrzeć rozbieżnościom istniejącym pomiędzy kompetencją logiczną, w którą wyposażony jest człowiek, a poprawnością logiczną. W tym celu poszukiwaliśmy przykładu, w którym ta rozbieżność 17 Na przykład problem Monty’ego Halla (Devlin, 1997, str.33–36; 350–351) czy problem niebieskich i czarnych taksówek (Devlin, 1997, str. 346–350). 18 (Devlin, 1997, str. 30)
Paula Bucholc
11
jest wyraźnie widoczna. Problem terminów pustych wydał się nam bardzo odpowiedni.
3. Terminy puste i sylogistyka Przypomnijmy teraz podstawowe pojęcia związane z teorią sylogistyki oraz wyjaśnijmy, co rozumiemy przez terminy puste. 3.1. Sylogistyka Sylogistyka przedstawiona przez Arystotelesa w Analitykach Pierwszych jest niewątpliwie najstarszym sformalizowanym rachunkiem logicznym. Miała stanowić bezbłędne narzędzie uzasadniania. Arystoteles sformułował w sposób systematyczny zasady, które – jak się wydawało – pozwalały w sposób niezawodny wyprowadzić z prawdziwych przesłanek prawdziwe wnioski. Przez wieki sylogistyka pozostawała podstawowym narzędziem logicznym umożliwiającym analizę niezawodności argumentacji. W Średniowiecznej Europie stanowiła podstawę wykształcenia uniwersyteckiego. Wchodziła w zakres tak zwanego trivium, do którego zaliczenia zobowiązany był każdy student. Zresztą zwyczaj nauczania sylogistyki na wyższych uczelniach utrzymał się do tej pory: stanowi ona integralną część wielu uniwersyteckich kursów logiki. Podane poniżej definicje odnoszą się do sylogistyki w sensie Arystotelesa (z uwzględnieniem uzupełnień podanych przez logików średniowiecznych)19 . Alfabet sylogistyki tworzą dwie grupy symboli: (i) spójki, (ii) terminy: S, P, M . Liter S, P, M zaczęto używać w średniowieczu z powodów mnemotechnicznych: S miała przywoływać na myśl łacińskie słowo Subiectum, czyli podmiot, litera P – Praedicatum, czyli orzecznik. Służyły one do oznaczania w konkluzji wnioskowania odpowiednio podmiotu (zwanego też terminem mniejszym) i orzecznika (zwanego terminem większym). Litera M natomiast służyła do oznaczenia terminu łączącego przesłanki, zwanego terminem średnim (terminus Medius). Spójki oznacza się tradycyjnie małymi samogłoskami: a, e, i, o. Służą one do oznaczania następujących zależności: SaP – Każde S jest P – zdanie ogólnotwierdzące; SeP – Żadne S nie jest P – zdanie ogólnoprzeczące; SiP – Pewne S jest P – zdanie szczegółowo twierdzące; 19 Możliwe jest oczywiście podanie definicji bardziej ogólnych (patrz (Suchoń, 1999)) i traktowanie sylogistyki Arystotelesa jako szczególnego przypadku teorii sylogizmów w ogóle.
12
Kompetencja logiczna a poprawność logiczna
SoP – Pewne S nie jest P – zdanie szczegółowo przeczące. Litery a oraz i są, odpowiednio, pierwszą i drugą samogłoską występującą w słowie Affirmo, natomiast e oraz o pochodzą ze słowa Nego. Formułami sylogistyki są ciągi trójznakowe zbudowane zgodnie ze schematem: <spójka> . Trybem sylogistycznym natomiast nazywamy ciąg trzech formuł , z których ostatnia nazywa się wnioskiem, dwie pierwsze zaś przesłankami. W pierwszej przesłance, zwanej również przesłanką większą terminami są termin średni oraz termin większy, orzecznik wniosku. Z kolei druga przesłanka zbudowana jest z terminu średniego oraz terminu mniejszego, podmiotu wniosku. Nazywa się ją również przesłanka¸ mniejszą. Wniosek wyraża zatem zależność pomiędzy terminami mniejszym i większym. Łatwo zauważyć, że możemy przeprowadzić klasyfikację trybów ze względu na rozmieszczenie terminów w przesłankach. Tryby należące do tej samej grupy różnią się jedynie spójkami występującymi w przesłankach i wniosku. Grupy takie nazywamy figurami sylogizmu. Figura sylogizmu to zbiór trybów sylogizmu o identycznym rozmieszczeniu terminów w przesłankach, różniących się pomiędzy sobą występującymi w nich spójkami. Jak łatwo zauważyć, istnieją cztery możliwe układy terminów w przesłankach, zatem są cztery figury. Tradycyjnie numeruje się je w następujący sposób: Figura 1
Figura 2
Figura 3
Figura 4
MP SM SP
MP MS SP
PM SM SP
PM MS SP
Ponieważ każda przesłanka oraz każda konkluzja jest zdaniem i są cztery rodzaje zdań, zatem są 43 , czyli 64 sylogizmy w każdej figurze, co daje razem 256 sylogizmów. Nie wszystkie sylogizmy są poprawne. Arystoteles, a za nim logicy średniowieczni, dzielili sylogizmy na sylogizmy poprawne, w których z przesłanek (przy założeniu ich prawdziwości) wynika prawdziwy wniosek oraz na sylogizmy niepoprawne, w których wniosek nie wynika z przesłanek. Studiowali także uniwersalne metody odróżniania sylogizmów poprawnych od niepoprawnych. Właśnie w średniowieczu odkryto szczególną własność pierwszej figury, z której można poprzez określone schematy otrzymać wszystkie pozostałe poprawne sylogizmy. Jednakże we wnioskowaniach sylogistycznych pozostawał przez cały czas ukryty poważny błąd metodologiczny. Rachunek sylogistyczny opracowany był dla terminów niepustych, tymczasem często nie możemy z góry przewidzieć, czy wypowiadamy się o rzeczach istniejących z całą pewnością, czy nie. Z problemem tym nie radziła sobie tradycyjna sylogistyka: zakładało się tam po prostu, że rozumowania przeprowadzane będą na terminach niepustych. Nie zauważano tego problemu w średniowieczu, nie uwzględniła go
13
Paula Bucholc
interpretacja Eulera. Dopiero logika George’a Boole’a wyzwoliła się z konieczności założeń egzystencjalnych. Dla boolowskiej interpretacji zdań A, E, I, O, koła Eulera nie są wystarczające. Konieczna była modyfikacja pomysłu. Autorem zmodyfikowanej wersji był John Venn, którego diagramy są graficzną interpretacją pomysłu Boole’a20 . Diagramy Venna dają nam algorytm pozwalający odróżnić sylogizmy poprawne od sylogizmów niepoprawnych według interpretacji Boole’a21 . Dzięki diagramom Venna, u schyłku XIX wieku ukształtował się zatem pogląd, że naturalną semantykę dla sylogistyki stanowią stosunki zakresowe pomiędzy terminami zdań podmiotowo-orzecznikowych22 . 3.2. Klasyfikacja sylogistyki z punktu widzenia terminów pustych W tej pracy sylogizmy podzielone zostały na trzy kategorie: — Kategoria I – sylogizmy poprawne bezwarunkowo, takie, które nie wymagają dodatkowych założeń. — Kategoria II – sylogizmy poprawne jedynie przy założeniu niepustości terminów występujących w ich przesłankach. — Kategoria III – sylogizmy niepoprawne (nawet przy założeniu niepustości). Z punktu widzenia logiki tradycyjnej 24 układy przesłanek dają poprawne wnioski. Część spośród nich dla poprawności wymaga jednak założenia niepustości terminów w przesłankach. 3.3. Terminy puste Zgodnie ze współczesną terminologią mówimy, że terminom lub orzecznikom sylogistycznym odpowiadają jednoargumentowe predykaty proste lub złożone. Interpretacją takich predykatów są zbiory. W przypadku, gdy interpretacją danego predykatu jest zbiór pusty, mówimy, że predykat ten jest pusty lub, w tradycyjnej stylistyce, że jest on terminem lub orzecznikiem pustym. Rozważmy na przykład następujące wnioskowanie: AaB AiB Może się ono okazać logicznie zawodne: dla pewnych terminów A, B przesłanka może się okazać prawdziwa, wniosek zaś fałszywy. Rozwiązanie tego problemu polegające na wcześniejszym określaniu, z jakim terminem – pustym czy niepustym – mamy w danej sytuacji do czynienia, również jest metodologicznie zawodne. Często stajemy bowiem przed problemem klasyfikacji danego terminu – czy w rzeczywistości jest on pusty czy niepusty? 20 21 22
John Venn w Symbolic Logic, London 1881, za: (Gochet Gribomont, 1990, str. 24). Patrz: (Gochet Gribomont, 1990, str. 24). Patrz: (Suchoń, 1999, str. 9).
14
Kompetencja logiczna a poprawność logiczna
W istocie każdy nierozwiązany problem naukowy możemy przedstawić jako problem niepustości pewnego terminu. Rozważmy na przykład znany nierozstrzygnięty problem „P = N P ?”. Problem ten wydaje się być bardzo trudny, zaś jego rozstrzygnięcie może mieć ważne konsekwencje nie tylko teoretyczne, lecz również praktyczne. Ekstensję terminu A wskażemy definiując zbiór liczb naturalnych n takich, że n = 1 & P = N P . Tak więc pytanie „P = N P ?” równoważne jest pytaniu o niepustość terminu A. Podobnie, zanim odkryto Neptuna, termin planety układu słonecznego o orbitach dalszych od Saturna był przykładem terminu, którego niepustość nie była znana. Tak więc pomysł, aby najpierw ustalać niepustość stosownych terminów, a następnie rozstrzygać, które z praw logiki możemy stosować, wydaje się metodologicznie błędny. Niemniej jednak, zauważmy, że niepustość pewnych terminów potrafimy ustalić ponad wszelką wątpliwość. Wiemy, że istnieją ludzie, zwierzęta, kamienie, drzewa i tym podobne. Przyjrzyjmy się sylogistyce Arystotelesa. Jednym z jej podstawowych praw jest prawo konwersji ograniczonej. Ponieważ jednak zdania szczegółowo twierdzące: — Pewne A są B. (A i B) oraz — Pewne B są A. (B i A) są równoważne, to prawo konwersji ograniczonej pozwala nam na wywnioskowanie tego, że pewne A są B z założenia, że każde A są B, symbolicznie AaB AiB Prawo to pozwala nam na wnioskowanie następujące: Jeśli każde kwadratowe koło jest kołem, to pewne kwadratowe koła są kołami. Zdanie: Każde kwadratowe koło jest kołem jest niewątpliwie prawdziwe. Nie da się jednak powiedzieć tego o zdaniu Pewne kwadratowe koła są kołami. Nie ma bowiem kwadratowych kół. Tak więc implikacja AaB ⇒ AiB okazuje się fałszywa, jeśli A jest terminem pustym. Sylogistyka klasyczna radzi sobie z tym problemem już na wstępie ograniczając swoje rozważania do terminów niepustych. Postulat ograniczenia stosowania praw sylogistyki do terminów, których niepustość potrafimy ustalić ponad wszelką wątpliwość, obarczony jest jednak poważną wadą. Ogranicza on bowiem ogólność praw logiki, nie pozwalając nam na stosowanie tych praw w wielu rozumowaniach naukowych czy prawniczych. W istocie spór prawniczy często dotyczy niepustości pewnego terminu. Podobnie w nauce – wiele nierozwiązanych problemów dotyczy właśnie niepustości pewnych terminów. Ograniczenie do terminów niepustych czyni sylogistykę formalnie poprawnym narzędziem, które jednak wydaje się metodologicznie błędne.
15
Paula Bucholc
4. Terminy konkretne i abstrakcyjne. Obok podziału na terminy puste i niepuste dokonamy, na potrzeby tej pracy, podziału na terminy konkretne i abstrakcyjne. W pracach psychologów (na przykład (Johnson–Laird, 1983)) często spotyka się sugestię, że nasz umysł funkcjonuje odmiennie w zależności od tego, czy operacje myślowe, które wykonuje, dotyczą obiektów, z którymi możemy spotkać się na co dzień, czy też przedmiotów (w pewnym sensie) abstrakcyjnych. Możemy zatem mówić o terminach konkretnych – odnoszących się do przedmiotów znanych danemu użytkownikowi języka z życia albo też takich, których istnienie wydaje mu się prowdopodobne, oraz o terminach abstrakcyjnych określających na przykład liczby, stwory mityczne, ale także przedmioty, których nazwa danemu użytkownikowi języka jest nieznana. Jednym z bardziej popularnych przykładów świadczących o rzeczywistej różnicy w rozumowaniach w zależności od „familiarności” terminów jest tak zwany test Wasona. W zadaniu tym przed badanym leżą na stole cztery karty, na których widoczne są następujące symbole: EK 47 Badany wie, że na każdej karcie z jednej strony znajduje się numer, a z drugiej litera. Przeprowadzający badanie formułuje następujące twierdzenie: Jeśli na karcie znajduje się samogłoska, to z drugiej strony jest liczba parzysta. Zadaniem badanego jest wskazanie kart, których odkrycie potwierdzi lub obali to twierdzenie. Zazwyczaj badani satysfakcjonują się wybraniem karty, na której znajduje się samogłoska: jeżeli okaże się, że po drugiej stronie znajduje się liczba parzysta, wówczas twierdzenie pozostaje bez szwanku. Problem pojawia się natomiast w przypadku karty z liczbą nieparzystą. Bardzo niewielu badanych wskazuje ją i przeoczenie to jest niepokojące, ponieważ jeśli z drugiej strony na karcie znajduje się samogłoska, twierdzenie okazuje się fałszywe. Z tego samego powodu, dla którego wybraliśmy kartę, na której była samogłoska, powinniśmy wszak wybrać kartę, na której znajduje się liczba nieparzysta. W poszukiwaniu przyczyny, dla której tak mało osób dokonuje poprawnego wyboru (wybiera dwie karty), badanie przeprowadzano wielokrotnie, zmieniając jednak obiekty na kartach. Zauważono, że kiedy na kartach pojawiają się symbole konkretnych przedmiotów, a sytuacja jest podobna do sytuacji z życia codziennego, badani zazwyczaj wykonują zadanie prawidłowo (wybór dwóch kart). Tak było na przykład wtedy, kiedy na kartach przedstawiano podróż, to znaczy po jednej stronie miejsce, które było celem podróży, po drugiej środek transportu, którym się w tym przypadku posługiwano. Na kartach znajdowały się na przykład: Manchester
Sheffield
train
car
Twierdzenie podawane przez przeprowadzającego badanie brzmiało zaś:
16
Kompetencja logiczna a poprawność logiczna
Zawsze kiedy jadę do Manchesteru, jadę tam pociągiem. Ponad 60% badanych zgadzało się, że należy odwrócić kartę z napisem car i zobaczyć, co znajduje się po drugiej stronie. Jeśli będzie to nazwa Manchester, twierdzenie okaże się fałszywe. W przypadku symboli abstrakcyjnych analogicznego wyboru dokonywało jedynie 12% badanych. W innej wersji tego eksperymentu badani widzieli na stole zestaw kopert, pomiędzy którymi przynajmniej jedna leżała stroną klejoną do góry i była zamknięta, przynajmniej jedna stroną klejoną do góry i była otwarta, przynajmniej jedna stroną gładką do góry z przyklejonym znaczkiem za 50 lirów i przynajmniej jedna stroną gładką do góry, z przyklejonym znaczkiem za 40 lirów. Twierdzenie brzmiało: Jeśli list jest zamknięty, wówczas jest na nim przyklejony znaczek za 50 lirów. Badanego proszono, by wyobraził sobie, że zajmuje się sortowaniem listów w taki sposób, aby stan rzeczy był zgodny z twierdzeniem. Zadaniem badanych było określić, które koperty należy przekręcić na drugą stronę, aby sprawdzić, czy nie naruszają reguły. Badani nie mieli z tym zadaniem trudności. Z łatwością zauważali, że konieczne było odwrócenie koperty, na której naklejony był znaczek za 40 lirów.
5. Badania Philipa N. Johnsona-Lairda i Bruna G. Bary Jak wspomnieliśmy we wstępie, główną inspiracją naszych rozważań była analiza badań nad wnioskowaniami sylogistycznymi przeprowadzonych przez P. N. Johnsona-Lairda i Bruno G. Barę (1984). Podstawowym celem autorów wspomnianej pracy było wykazanie, że opracowana przez Johnsona-Lairda teoria modeli umysłu23 dobrze opisuje mechanizm wykonywania w umyśle człowieka wnioskowania sylogistycznego. Nasze zainteresowanie wzbudziła jednak nie sama teoria modeli umysłu Johnsona-Lairda, lecz wyniki badań, które sugerują, że nie mamy skłonności do formułowania nieuprawnionych (bez założenia niepustości terminów w przesłankach) szczegółowych wniosków na podstawie ogólnych przesłanek. Autorzy badań sami w ogóle nie zwrócili uwagi na ten fakt (iż niektóre tryby – te mianowicie, w których z ogólnych przesłanek wyciąga się szczegółowy wniosek – wymagają założenia niepustości terminów w przesłankach). Przeoczenie to wydaje się zaskakujące. Szczególnie, że oceniając wyniki swych badań Johnson-Laird i Bara traktują jako błąd logiczny brak inferencji, podczas gdy błędem logicznym byłoby właśnie wyciąganie takich wniosków24 . Poniższe układy przesłanek zostały wymienione przez Johnsona-Lairda i Barę jako pary dające poprawny wniosek. Trzeba przy tym zauważyć, że autorzy dopuszczali zarówno wnioski o układzie terminów S −P , jak i P −S. 23 24
Patrz na przykład : (Johnson–Laird, 1983) Patrz: (Johnson–Laird Bara, 1984).
17
Paula Bucholc Figura 1 MaP SaM
MeP SaM
MaP SiM
MeP SiM
MaP SeM
MiP SeM
PiM SeM
PoM SaM
Figura 2 PaM SoM
PeM SiM
PaM SeM
PeM SaM
Figura 3 MoP MaS
MiP MaS
MeP MiS
MaP MiS
MeP MaS
MaP MaS
MaP MeS
MaP MoS
MiP MeS
Figura 4 PaM MeS
PeM MiS
PiM MaS
PaM MaS
PiM MeS
PeM MaS
Przy średniowiecznej klasyfikacji sylogizmów nie rozróżnia się kolejności przesłanek przyjmując, że na pierwszym miejscu wymieniana jest przesłanka większa, której terminami są termin średni i orzecznik wniosku, zaś na drugim miejscu przesłanka mniejsza, czyli taka, której terminami są termin średni i podmiot wniosku. Tak więc, autorzy podają swoją własną klasyfikację trybów sylogistycznych, z czego wydają się nie zdawać sobie sprawy. Warto zauważyć, że co innego nazywa się tu trybem sylogistycznym. W średniowiecznej klasyfikacji trybem nazywano nieuporządkowaną parę przesłanek, natomiast w klasyfikacji przedstawionej w (Johnson–Laird Bara, 1984) kolejność przesłanek jest istotna. W szczególności, przesłanka większa może stać na pierwszym lub drugim miejscu. Zgodnie z warunkami Johnsona-Lairda i Bary jest 27 par przesłnek dających poprawny wniosek (S − P lub P − S). Autorzy nie zwracają jednak uwagi na to, że niektóre pary dwóch ogólnych przesłanek dają dwa rodzaje wniosków: wniosek ogólny, poprawny bezwarunkowo, oraz wniosek szczegółowy, poprawny przy założeniu niepustości terminów w przesłankach. Tak jest na przykład dla pary przesłanek M aP i SaM : MaP SaM —– SaP
MaP SaM —– SiP
Uderzającym wynikiem było to, że żaden z badanych w żadnym z eksperymentów nie podał szczegółowego wniosku jako wynikającego z ogólnych przesłanek (co, bez zakładania niepustości terminów w przesłankach, byłoby niepoprawne). Podobny wynik pozwolił na postawienie hipotezy, że ludzie nie
18
Kompetencja logiczna a poprawność logiczna
są skłonni do wyciągania egzystencjalnych wniosków z ogólnych przesłanek, a zatem, że kompetencja logiczna jest w tym przypadku zbieżna z poprawnością logiczną.
6. Badania testujące rolę terminów pustych w rozumowaniach człowieka Chcieliśmy sprawdzić prawdziwość hipotezy o istnieniu rozbieżności pomiędzy kompetencją logiczną a poprawnością logiczną. W szczególności interesowała nas analiza tej rozbieżności w przypadku rozumowań sylogistycznych, angażujących terminy, które mogłyby okazać się puste. W tym celu zaprojektowane zostały badania testowe. Inspirację stanowiły opisane w poprzednim rozdziale badania Johnsona-Lairda i Bary. Jak już napisaliśmy wcześniej, uderzający wydał się nam fakt, na który autorzy wcale nie zwrócili uwagi: badani, którym polecono generować sylogistyczne wnioski z podanych przesłanek ani razu nie wygenerowali wniosku szczegółowego z dwóch ogólnych przesłanek. Zachowali się więc zgodnie z zasadami poprawności logicznej. Psychologowie mają na to wytłumaczenie nazywane efektem atmosfery, zgodnie z którym na wniosek wpływa „atmosfera” przesłanek, czyli, w tym przypadku, ich ogólność25 . Wytłumaczenie prostsze jest takie, że wnioskowanie tego typu byłoby, po prostu, niepoprawne logicznie. Pierwsze badania – (Eksperyment pierwszy), które przeprowadziliśmy, miały na celu sprawdzenie, czy postawienie ludzi przed zadaniem rozpoznawania poprawności wnioskowań, z których część wymaga założenia niepustości terminów w przesłankach, przyniesie podobne rezultaty26 . To znaczy, czy będą oni skłonni uznawać za poprawne tryby, których poprawność wymaga założenia niepustości terminów w przesłankach. Wyniki badań okazały się sprzeczne z oczekiwanymi. Badani w zdecydowanej większości rozpoznawali takie wnioskowania jako poprawne. W związku z tym rezultatem postawiona została kolejna hipoteza: inaczej zachowujemy się w sytuacji generowania wniosków niż w sytuacji rozpoznawania poprawności wnioskowań. Kolejne badania (Eksperyment drugi) wydają się potwierdzać to przypuszczenie. 6.1. Eksperyment pierwszy Badanie przeprowadzone zostało w marcu 2000 roku. Uczestniczyło w nim 14 osób, studentów pierwszego roku w Instytucie Filozofii Uniwersytetu Warszawskiego. Przed ćwiczeniami z Logiki I wszystkim uczestnikom zajęć, siedzącym już w sali, rozdano testy składające się z 24 zadań, po 4 zadania 25 26
Patrz: (Johnson–Laird, 1983, str. 6–7) oraz (Lewicka, 1993, str. 71). Johnson-Laird i Bara prosili o wygenerowanie wniosku.
Paula Bucholc
19
na jednej stronie. Wybór 24 sylogizmów przebiegał następująco27 : z każdej figury wylosowano: — po 2 sylogizmy kategorii I, — po 2 sylogizmy kategorii II (w przypadku trzech pierwszych figur wybór był jednoznaczny, ponieważ każda z tych figur zawiera dokładnie dwa sylogizmy kategorii II, dla czwartej figury przeprowadzono losowanie), — po 2 sylogizmy kategorii III. Badani otrzymali testy, w których zadanie sformułowane było w następujący sposób: Wiesz, że : 1. Każdy logik jest Litwinem. 2. Pewien logik nie jest amatorem górskich wycieczek. Czy na tej podstawie wolno Ci twierdzić, że: Każdy amator górskich wycieczek jest Litwinem. √ Zaznacz swoją odpowiedź wstawiając znak w odpowiedniej kratce: TAK NIE
Terminy w przesłankach dobierano tak, by kojarzyły się badanym z sytuacjami ze świata zewnętrznego, lecz jednocześnie były na tyle neutralne, by nie wnioskowano na podstawie własnych doświadczeń. Starano się także minimalizować semantyczny związek pomiędzy nimi. Stworzone zostały trzy listy: zawodów, zainteresowań i narodowości. Z nich, w sposób losowy, wybierane były trójki; następnie, również losowo, ustalano, który z wyrazów ma pełnić funkcję terminu większego, który mniejszego, a który środkowego. Badanym polecono zaznaczać poprawną odpowiedź, pozostawiając na każdy przykład 30 sekund. Co trzydzieści sekund osoba prowadząca badanie dawała znak (sygnał dźwiękowy), informujący, że należy przejść do następnego przykładu. Badani bez oporów wykonywali polecenia. Testy były wypełniane anonimowo, uczestników zaś zapewniono na początku, że wyniki nie będą miały żadnego wpływu na ocenę ich wiedzy na koniec roku akademickiego. Eksperyment przeprowadzała autorka tej pracy, ówcześnie studentka czwartego roku, a zatem osoba względnie neutralna. Uczestnicy wiedzieli, że wnioski z tych badań wykorzystane zostaną w pracy magisterskiej. Przed rozpoczęciem eksperymentu wszyscy uczestnicy otrzymali kartki zawierające następujący tekst, który osoba przeprowadzająca badanie głośno odczytała: Test składa się z 24 pytań o podobnej formie. Sformułowane są dwa zdania informujące o stanie rzeczy (stan rzeczy może być nieco absurdalny, a nawet jawnie nieprawdziwy, np. „Żaden chirurg nie ma trojga dzieci” albo „Każdy taksówkarz ma dom z ogródkiem” – nie należy się tym przejmować). Na podstawie wiedzy czerpanej z podanych przesłanek (nie sugerując się wiedzą czerpaną z zewnątrz) należy stwierdzić, czy w opisywanym przez nie stanie rzeczy można powiedzieć, że również pewna, przedstawiona poniżej sytuacja 27
Numeracja zgodnie z podziałem z punktu 3, strona 13.
20
Kompetencja logiczna a poprawność logiczna ma miejsce. Odpowied: TAK lub NIE należy zaznaczyć w odpowiedniej kratce. Na każdy przykład przewidziane jest 30 sekund. Test w całości trwa więc 12 minut. Na wszystkie pytania należy odpowiedzieć. Przykład: Wiesz, że : 1. Każdy psycholog jest filatelistą. 2. Każdy filatelista jest Szwedem. Czy na tej podstawie wolno Ci twierdzić, że: Każdy psycholog jest Szwedem. √ Zaznacz swoją odpowiedź wstawiając znak w odpowiedniej kratce: TAK NIE Bardzo dziękuję za pomoc.
6.1.1. Analiza wyników Badani bez oporów wypełniali testy. Jedna tylko osoba oddała test nie w pełni wypełniony (brakowało 6 odpowiedzi). Spośród 24 przykładów osiem wymagało dla poprawności założenia niepustości terminów w przesłankach. Każdy badany przynajmniej raz rozpoznawał takie wynikanie jako poprawne bez dodatkowych warunków. Tylko jedna osoba i tylko w jednym przypadku explicite założyła niepustość terminu28 . 6.1.2. Wnioski Wyniki z eksperymentu nie potwierdziły postawionej hipotezy, że nasza kompetencja działa tutaj zgodnie z warunkami poprawności logicznej. Wszyscy badani co najmniej raz rozpoznawali jako poprawne wnioskowania wymagające założenia niepustości terminów w przesłankach. Dla sylogizmów, które dla poprawności wymagają założenia niepustości terminów w przesłankach (kategoria II), było ogółem jedynie 19% poprawnych odpowiedzi, podczas gdy dla pozostałych odpowiednio: dla kategorii I (sylogizmy poprawne bezwarunkowo) – 81%, dla kategorii III (sylogizmy niepoprawne) – 82%. W tabeli 1. przedstawiono średnie ilości poprawnych odpowiedzi udzielanych przez uczestników eksperymentu dla poszczególnych kategorii. Trzeba jednak zauważyć, że zadanie uczestników naszego eksperymentu różniło się od zadania uczestników eksperymentu Johnsona-Lairda i Bary. Uczestnicy naszego eksperymentu mieli za zadanie rozpoznawać poprawność wnioskowań, podczas gdy zadanie uczestników eksperymentu Johnsona-Lairda i Bary polegało na generowaniu wniosku. Postawiona została zatem hipoteza, że nasza kompetencja odmiennie zachowuje się w sytuacji generowania wniosku, a odmiennie w sytuacji rozpoznawania wnioskowań zastanych. W celu sprawdzenia tej hipotezy przeprowadzone zostały kolejne badania. 28 Stało się tak w przypadku pierwszego w kolejności sylogizmu poprawnego jedynie przy założeniu niepustości terminów w przesłankach.
21
Paula Bucholc Tabela 1. Rozkład procentowy poprawnych odpowiedzi dla poszczególnych kategorii sylogizmówa .
kategoria I kategoria II kategoria III
ilość udzielonych odpowiedzi 110 110 110
ilość poprawnych odpowiedzi 89 21 90
procent poprawnych odpowiedzi 81% 19% 82%
a
W każdej kategorii było 8 sylogizmów, w badaniach uczestniczyło 14 osób, zatem w każdej kategorii można było udzielić maksymalnie 112 odpowiedzi. Jak już wcześniej wspomnieliśmy, jedna osoba oddała test, w którym brakowało odpowiedzi. 6.2. Eksperyment drugi Tym razem w eksperymencie uczestniczyły 64 osoby, studenci resocjalizacji oraz studenci matematyki studiów zaocznych WSP w Słupsku. Eksperyment przeprowadzono w lipcu 200029. Badanie odbywało się przed zajęciami w uzgodnieniu z osobą prowadzącą. Wszyscy otrzymali serię dziesięciu zadań30 , pośród których były wnioskowania bezpośrednie31 , wymagające dla poprawności założenia niepustości terminów w przesłankach, oraz sylogizmy z każdej z trzech kategorii, to znaczy: sylogizmy poprawne bezwarunkowo, dające jeden wniosek, (kategoria I)32 , sylogizmy poprawne jedynie przy założeniu niepustości terminów w przesłankach (kategoria II), i sylogizmy niepoprawne (kategoria III). Tabela 2. pokazuje, ile dokładanie było wnioskowań bezpośrednich, a ile poszczególnych rodzajów sylogizmów. Celowo dobrane zostały tryby sylogistyczne uznawane przez psychologów za najłatwiejsze dla człowieka. Lista „najłatwiejszych trybów sylogistycznych” opracowana została na podstawie artykułu Johnsona-Lairda i Bary.33 Podobnie, terminy w przesłankach dobrane zostały w sposób arbitralny. Starano się zachować jak największą różnorodność, to znaczy wybrano: 29
Podczas Warsztatów Logicznych Warszawskiej Grupy Logicznej, Słupsk 2000. Wyniki przedstawione w tej pracy opracowane zostały na podstawie jedynie sześciu spośród dziesięciu zadań testowych. Pozostałe zadania trzeba było wyłączyć z powodu trudności interpretacyjnych. 31 „Rozumowanie, w którym na podstawie tylko jednego uznanego już zdania (przesłanka) uznaje się inne zdanie (wniosek).” (Marciszewski, 1988, str. 216). W naszych badaniach wszystkie AaB zatem dla poprawności wymagały założenia wnioskowania bezpośrednie miały postać: AiB niepustości terminów w przesłankach. 32 Numeracja zgodnie z podziałem z rozdziału 3, strona 13. 33 (Johnson–Laird Bara, 1984, str. 30) oraz dokonane na potrzeby tej pracy wyliczenia, które z sylogizmów sprawiały uczestnikom eksperymentów Johnsona-Lairda i Bary najmniejszy kłopot. 30
22
Kompetencja logiczna a poprawność logiczna Tabela 2. Ilościowe zróżnicowanie poszczególnych typów wnioskowań.
wnioskowania bezpośrednie sylogizmy kategorii I sylogizmy kategorii II sylogizmy kategorii III
ilość zadań 2 1 1 2
terminy niepuste w sposób oczywisty z dużym prawdopodobieństwem należące do sfery doświadczeń uczestników eksperymentu, na przykład artyści, łysi, konie; terminy niepuste w sposób nieoczywisty – po pierwsze – terminy denotujące przedmioty, z którymi badani nie mieli okazji zetknąć się bezpośrednio, ale o których istnieniu prawdopodobnie słyszeli, na przykład pytony; po drugie – terminy niepuste, których niepustość może wydawać się wątpliwa, jak palmtopy, wyraki; terminy puste w sposób oczywisty, na przykład cyklopi, fauny, centaury; terminy puste w sposób nieoczywisty – po pierwsze – nazwy prawdopodobnie nieznane badanym, których ewentualna pustość lub niepustość nie jest dla nich oczywista: globoskopy, perytony; po drugie – terminy, które „udają” terminy niepuste, jak bracia Autorki tych badań. Badani podzieleni zostali na dwie grupy – połowa z nich otrzymała sylogizmy, w których terminy w przesłankach były terminami niepustymi, połowa sylogizmy, w których terminy w przesłankach były terminami pustymi. Dodatkowo, każda z grup podzielona została na dwie – jedna miała za zadanie rozpoznawanie poprawności wnioskowań, druga miała wygenerować sylogistyczny wniosek. Sytuacja przedstawiała się tak, jak pokazano w tabeli 3. Tabela 3. Podział testów
rozpoznawanie generowanie
niepuste 16 osób 16 osób
puste 16 osób 16 osób
Badanie przeprowadzono w kilku turach. Za każdym razem uczestniczyła w nim grupa studentów oczekujących w sali na rozpoczęcie zajęć. Studenci nie byli uprzednio informowani o tym, że będą brali udział w eksperymancie psychologicznym. Badanie przeprowadzały osoby nieznane jego uczestnikom. Przed rozdaniem formularzy do wypełnienia, informowano badanych, iż testy są anonimowe i o wynikach nie będą informowani ich profesorowie. Podawano przykład prostego wnioskowania sylogistycznego: Z danych przesłanek: (1) Każdy człowiek jest zwierzęciem.
23
Paula Bucholc
(2) Każde zwierzę jest śmiertelne. można wywnioskować na przykład, że: Każdy człowiek jest śmiertelny. Proszono o samodzielne wypełnianie testów, a także o nie sugerowanie się wiedzą czerpaną z zewnątrz, a tylko uważne wczytywanie się w treść poleceń. Następnie każdy z uczestników otrzymywał książeczkę z dziesięcioma zadaniami: po jednym zadaniu na stronie. Na rozwiązanie testów pozostawiono czas nieograniczony. Analiza wyników i wnioski Zestawienie wyników badań przedstawione zostało w poniższych tabelach: Tabela 4. Rozkład procentowy poprawnych odpowiedzi w zadaniu polegającym na rozpoznawaniu poprawnych wnioskowań w przypadku wnioskowań bezpośrednich oraz poszczególnych kategorii sylogizmówa
rozpoznawanie wyniki przedstawione w procentach termin termin niepusty pusty wnioskowania bezpośrednie
15,62%
kategoria I
62,5%
3,12% 9,37% 87,5% 75%
kategoria II
56,25%
25% 40,62%
kategoria III
62,5%
78,12% 70,31%
a
Dane liczbowe w tabeli wyrażają stosunek poprawnych odpowiedzi do ogólnej liczby odpowiedzi udzielonych w każdym przypadku.
Przedmiotem analizy były przede wszystkim ilości poprawnych odpowiedzi udzielanych przez badanych w przypadku sylogizmów wymagających dla poprawności założenia niepustości terminów w przesłankach.34 Próbowaliśmy ustalić stopień zgodności pomiędzy funkcjonowaniem kompetencji logicznej, a warunkami poprawności logicznej w tym przypadku. Głównymi czynnikami, pod 34
To znaczy: wnioskowań bezpośrednich oraz sylogizmów z kategorii II.
24
Kompetencja logiczna a poprawność logiczna Tabela 5. Rozkład procentowy poprawnych odpowiedzi w zadaniu polegającym na generowaniu wniosków w przypadku wnioskowań bezpośrednich oraz poszczególnych kategorii sylogizmówa
generowanie wyniki przedstawione w procentach termin termin niepusty pusty wnioskowania bezpośrednie
25,81%
kategoria I
13,33%
53,33% 39,34% 12,5% 12,9%
kategoria II
18,75%
68,75% 43,75%
kategoria III
29,63%
33,33% 31,58%
a
Dane liczbowe w tabeli wyrażają stosunek poprawnych odpowiedzi do ogólnej liczby odpowiedzi udzielonych w każdym przypadku. kątem których przeprowadzano analizę, był rodzaj zadania (rozpoznawanie, bądź generowanie) oraz typ terminów (puste lub niepuste). Analiza wyników wydaje się potwierdzać hipotezę o różnicy w mechanizmie kompetencji w zależności od tego, czy zadanie polega na generowaniu wniosku czy ocenianiu czyjegoś wnioskowania. Ludzie gotowi są akceptować wnioskowania poprawne tylko przy założeniu niepustości, ale przed wyciąganiem takich wniosków mają już pewne opory. Świadczą o tym wyniki procentowe przedstawione w tabelach 4 i 5. Z tabeli 4, gdzie przedstawione są wyniki dla części „rozpoznawanie”, widać, że w przypadku zadań wymagających dla poprawności założenia niepustości terminów w przesłankach – czyli we wnioskowaniach bezpośrednich oraz sylogizmów kategorii II – było odpowiednio 9,37% i 40,62% prawidłowych odpowiedzi, natomiast dla sylogizmów poprawnych bezwarunkowo (kategoria I) i sylogizmów po prostu niepoprawnych (kategoria III) prawidłowych odpowiedzi było odpowiednio 75% i 70,31%. W tabeli 5, w której znajdują się wyniki dla części „generowanie”, sytuacja przedstawia się następująco: w zadaniach z wnioskowaniem bezpośrednim odpowiedzi prawidłowe stanowiły 39,34%, w kategorii II – 43,75%, natomiast w pozostałych kategoriach: 12,9% w kategorii I, 31,58% w kategorii III. Obserwacja pierwsza Opór przeciwko wyciąganiu wniosków egzystencjalnych w przypadku wnioskowań bezpośrednich objawiał się między innymi
25
Paula Bucholc
tym, że badani w taki czy inny sposób parafrazowali zdanie ogólne powtarzając przesłankę. Zestawienie ilości parafraz dla poszczególnych przypadków przedstawiono w tabeli 6. Tabela 6. Ilość parafraz lub innego typu „ucieczek” od egzystencjalnego wnioskua
centaury 4
konie 3
bracia 2
wyraki 3
a
Liczby w tabeli informują, ile tego typu odpowiedzi udzielono w poszczególnych przypadkach na 16 możliwych odpowiedzi. Każdemu wnioskowaniu nadaliśmy nazwę rzeczownika będącego podmiotem przesłanki.
Obserwacja druga W zaskakująco wielu przypadkach badani usprawiedliwiali swoje odpowiedzi „nic nie wynika”. Mówiono na przykład: Konie: — Tylko to, że mają cztery nogi. — Stwierdzenie, że każdy koń ma cztery nogi jest prawdą, ale nie mówi nic konkretnego, co mogłoby scharakteryzować różne rasy koni. — Niektóre konie też posiadają cztery nogi, chyba, że są inwalidami. — Niektóre z nich są czystej rasy.
Centaury:
— Nic nie wynika oprócz tego, że ma cztery nogi. — Nic więcej, ponad to, że one też mają cztery nogi.
Wyraki:
— Można powiedzieć tylko tyle, że mają wyłupiaste oczy. — Żaden wyrak nie ma oczu normalnych. — Niektóre wyraki mają mniej lub bardziej wyłupiaste oczy.
Bracia:
— Nic poza tym, że mają po dwa samochody i każdy z nich ma siostrę.
Obserwacja trzecia Często używano także kwantyfikatorów ograniczonych. W pewnych wnioskowaniach termin średni nie zanikał, pozostając jako warunek ograniczający. Na przykład w zadaniu: Wiesz, że: (1) Żaden pyton nie jest roślinożercą. (2) Wszystkie pytony mają plamiste ubarwienie. Czy na tej podstawie możesz coś powiedzieć na temat wzajemnych zależności pomiędzy posiadaniem plamistego ubarwienia a byciem roślinożercą?
padły odpowiedzi: — Zwierzęta mające plamiste ubarwienie nie są roślinożercami. — Wszystkie plamiście ubarwione pytony są roślinożercami.
26
Kompetencja logiczna a poprawność logiczna
Obserwacja czwarta Dało się również zaobserwować pewną zależność pomiędzy rodzajem terminów – ta sama osoba odpowiadała poprawnie, nie akceptując wynikania wymagającego założenia niepustości terminów, kiedy termin był blisko związany z otaczającym ją światem, natomiast akceptowała takie wynikanie, gdy angażowane były terminy być może niepuste, ale dotyczące rzeczywistości odległej. Ściślej, osoba ta zgadzała się na wyciągnięcie wniosku egzystencjalnego (niepoprawnego bez zakładania niepustości terminu) o „wyrakach” albo „centaurach”, nie zgadzając się jednocześnie na takie wnioskowania w przypadku „koni” lub „braci Autorki tych badań”. Postąpiły tak trzy osoby w przypadku zadania z terminami niepustymi (końmi i wyrakami) oraz jedna osoba w przypadku zadania z terminami pustymi (centaurami i braćmi). Zauważmy, że ten problem nie był przedmiotem badań. Przypuszczaliśmy wprawdzie, że mogą istnieć różnice w dostrzeganiu pustości (terminy puste czy niepuste w sposób „oczywisty” bądź „nieoczywisty”), jednak zbadanie różnic w ilości poprawnych odpowiedzi nie było naszym celem. Wspomniane spostrzeżenia wynikają z analizy uzyskanych wyników. Niemniej jednak, skłaniać to może do przypuszczenia, że podobnie jak w teście Wasona35 , nasze rozumowania częściej okazują się poprawne, gdy dotyczą zagadnień konkretnych. Aby zbadać to przypuszczenie, należało by jednak zaprojektować nowe badania. Stawiamy więc hipotezę, że w przypadku odległych problemów lub przedmiotów abstrakcyjnych gotowi jesteśmy akceptować niepoprawne logicznie wnioskowania. Bardziej ostrożni jesteśmy oceniając wnioskowania o konkretach z bliskiego otoczenia. Odpowiedź na naszą hipotezę wyjściową, mówiącą o istnieniu rozbieżności pomiędzy kompetencją logiczną a poprawnością logiczną, nie jest jednoznacznie pozytywna. Okazuje się bowiem, że wyniki różnią się między sobą zależnie od tego, czy zadanie polega na rozpoznawaniu poprawności wnioskowań, czy na generowaniu wniosków36 . Problem terminów pustych okazał się dobrą egzemplifikacją rozbieżności w przypadku rozpoznawania. Natomiast kompetencja związana z generowaniem w tym przypadku zasadniczo zachowuje się zgodnie z poprawnością logiczną. Wcześniej przypuszczaliśmy, że mechanizm rozpoznawania i mechanizm generowania są różne. Wyniki badań potwierdzają nasze przypuszczenie, a dodatkowo wskazują, że mechanizmy te nie są równoważne.
7. Podsumowanie W trakcie badań popełniono wiele błędów, które pozwalają jedynie na częściową interpretację wyników. Wydaje nam się jednak, że w oparciu o posta35
Test Wasona opisany został w rozdziale 4 tej pracy. Niektórzy psychologowie opisywali podobne zjawisko w innych dziedzinach aktywności psychicznej człowieka używając terminów postawa bierna i postawa czynna. Patrz na przykład: (Lewicka, 1993). 36
Paula Bucholc
27
wione przez nas hipotezy i szkice badań, można przygotować odpowiednie testy i poprawnie przeprowadzić nowe eksperymenty. W naszym artykule analiza statystyczna nie została rzetelnie opracowana. Zdawaliśmy sobie sprawę ze szkicowego charakteru naszego przedsięwzięcia. Tak też należy traktować te rezultaty: jako wskazanie interesującego terenu badań i nakreślenie wstępnego projektu solidnych badań empirycznych. Niezależnie jednak od niedoskonałości metodologii psychologicznej, zaobserwowaliśmy szereg zaskakujących zależności. Oto najważaniejsze wnioski z naszej pracy: — Problem terminów pustych jest dobrym przykładem rozbieżności pomiędzy kompetencją logiczną a poprawnością logiczną w przypadku zadania polegającego na rozpoznawaniu poprawności wnioskowań. W przypadku zadania polegającego na samodzielnym generowaniu wniosku kompetencja logiczna pozostaje w większej zgodzie z warunkami poprawności. — Wydaje się zatem, że w przypadku kompetencji logicznej sytuacja jest inna niż w przypadku kompetencji językowej, gdzie istnieją rozsądne podstawy, by przypuszczać, że funkcja rozpoznawania zdań oraz funkcja generowania zdań są ze sobą zgodne w tym sensie, że te same zdania są rozpoznawane i generowane jako poprawne (patrz: przykład gramatyk bezkontekstowych z rozdziału 2). — Zgodność kompetencji logicznej z poprawnością logiczną wydaje się wzrastać wraz z konkretnością terminów i przypuszczenie to pozostaje w zgodzie z wynikami testu Wasona omawianymi w rozdziale 4.
Literatura Arystoteles: Analityki pierwsze, [wydanie polskie: (1990) Analityki pierwsze. tom 1, tł. K. Leśniak, Warszawa, PWN, 127–251]. Carroll, L. (1895): What The Tortoise Said to Achilles. The Mind (new series) 4, 278–280. Chomsky, N. (1957): Syntactic Structures. Haga, Mouton. Chomsky, N. (1965): Aspects of the Theory of Syntax. Cambridge, MIT, [wydanie polskie: (1982) Zagadnienia teorii składni. tł. I. Jakubczak, Wrocław, Ossolineum]. Davis, M.D., E.J. Weyuker (1983): Computability, Complexity, and Languages. Fondamentals of Theoretical Computer Science, Academic Press. Devlin, K. (1997): Goodbye, Descartes. The End of Logic and the Search for a New Cosmology of the Mind, John Wiley & Sons Inc., [wydanie polskie: (1999) Żegnaj, Kartezjuszu. Rozstanie z logiką w poszukiwaniu nowej kosmologii umysłu. tł. B. Stanosz, Warszawa, Prószyński i S-ka]. Gochet, P., P. Gribomont (1990): Logique – m’ethodes pour l’informatique fondamentale. vol. 1, Paryż, Editions Herm’es. Hopcroft, J.E., J.D. Ullman (1979): Introduction to Automata Theory, Languages and Computation. Londyn, Addison-Wesley Publishing Company, [wydanie polskie: (1994) Wprowadzenie do teorii automatów, jezyków i obliczeń. tł. B. Konikowska, Warszawa, PWN]. Johnson–Laird, P.N. (1983): Mental Models. Toward a Cognitive Science of Language, Inference and Consciousness. Cambridge MA, Cambridge University Press. Johnson–Laird, P.N., B. Bara (1984): Syllogistic inference. Cognition 16, 1–61.
28
Kompetencja logiczna a poprawność logiczna
Lewicka, M. (1993): Aktor czy obsrewator. Psychologiczne mechanizmy odchyleń od racjonalności. Warszawa-Olsztyn, Pracownia Wydawnicza. Łukasiewicz, J. (1957): Aristotle’s Syllogistic from the Standpoint of Modern Formal Logic. Oxford, Clarendon Press, [wydanie polskie: (1988) Sylogistyka Arystotelesa z punktu widzenia współczesnej logiki formalnej. tł. A. Chmielewski, Warszawa, PWN]. Macnamara, J. (1986): A Border Dispute. The Place of Logic in Psychology. Cambridge MA, The Massachusetts Institute of Technology, [wydanie polskie: (1993) Logika i psychologia. Rozważania z pogranicza nauk. tł. M. Zagórski, Warszawa, PWN]. Marciszewski, W. (red.) (1988): Mała Encyklopedia Logiki. Wrocław, Zakład Narodowy imienia Ossolinskich. Mostowski, M. (1994): Kwantyfikatory rozgałęzione a problem formy logicznej. [W:] Nauka i Jezyk. M. Omyła (red.), Biblioteka Mysli Semiotycznej, Warszawa, Nauka i Jezyk, 201–241. Mostowski, M., D. Wojtyniak: Computational Complexity of the Semantics of Some Natural Language Constructions. Annals of Pure and Applied Logic, [artykuł przedstawiony do druku]. Suchoń, W. (1999): Sylogistyki klasyczne. Kraków, Universitas.
Jakub Fast
Język, racjonalność i „inne umysły”. Założenie o racjonalności a nieredukowalność języka psychologicznego w filozofii Donalda Davidsona
1. Wprowadzenie W artykule Physicalism and Psychology Georges Rey w taki oto sposób odnosi się – między innymi1 – do tezy Donalda Davidsona o normatywnym charakterze języka psychologicznego: . . . zarzut jaki chciałbym tutaj postawić . . . dotyczy niesamowitej zarozumiałości wielu spośród tych autorów [Davidsona, Dennetta i innych]. Czasem wydaje się, że filozofowie ci myślą, że znaleźli się w skórze Einsteina, kiedy ogłaszał w 1905 roku tezę o niezdeterminowaniu prędkości absolutnej2 . W przekonaniu Reya, winą Davidsona jest głoszenie tezy o powszechnej obecności niewypowiadanego założenia o racjonalności osób, których zachowanie opisywane jest w języku psychologicznym (ibid. str. 111). Davidson utrzymuje, że ażeby móc sensownie wyjaśnić zachowanie innej osoby, konieczne jest założenie, że osoba ta zachowuje się w sposób racjonalny. Jeżeli ktoś chwyta za parasol widząc, że pada deszcz, to dochodzimy do wniosku, na przykład, że bierze go ze sobą, żeby się ochronić przed deszczem (poza znajomością potocznych faktów dotyczących deszczy i parasoli, przypisujemy tej osobie, przede wszystkim, zdolność wyciągnięcia poprawnych wniosków z tychże faktów), lub żeby obronić się przed brytanem sąsiada, czy do dowolnego innego. Jednakże, jakie by owo wyjaśnienie nie było, zakładać będzie ono racjonalny proces wnioskowania, który skłonił tę osobę do podjęcia określonych działań w konsekwencji posiadania takich a nie innych, spójnych przekonań. Nie uzyskamy nigdy dostatecznych danych, które pozwoliłyby na jednoznaczne określenie motywów opisywanej osoby, jeśli więc nie założymy 1
Rey traktuje Davidsona jako reprezentanta popularnego nurtu. Wspomina także poparcie dla stanowiska Davidsona wyrażone przez Jaegwon Kima (por. Kim (1993), str. 194) i podobną koncepcję proponowaną przez Daniela Dennetta (1991). 2 Rey (2001, str. 112), podkr. w oryg., przekład cytatu i dalszych – własny.
30
Język, racjonalność i „inne umysły”
jej racjonalności, pozostanie nam jedynie zgadywać, co nią w danej chwili kierowało. Jeżeli w żaden sposób nie ograniczymy zbioru dopuszczalnych wyjaśnień, zgadywanie to będzie miało nikłe szanse powodzenia. Ta teza o zakładaniu racjonalności innych ludzi, które uznawane jest przez Davidsona za nieusuwalne w wyjaśnianiu ludzkich zachowań w języku psychologicznym, służy mu za przesłankę prowadzącą do uznania tego języka za nieredukowalny do opisów fizycznych3 – nawet przy założeniu czysto materialistycznej ontologii. Nieredukowalność ta jest centralną tezą jego koncepcji nazywanej monizmem anomalnym. W ramach monizmu anomalnego, właśnie ze względu na założenie o racjonalności, język psychologiczny określany jest przez Davidsona jako „normatywny” – być może dlatego, że założenie to ma moc niemalże proskrypcyjną: w dowolnej sytuacji interpretacji zachowania, wymusza uznanie opisywanej osoby za racjonalną, nawet wbrew oczywistym świadectwom. Jednakże Rey nie jest skłonny zaakceptować stanowiska Davidsona4 (por. ibid. str. 110) ze względu na arbitralność założenia o racjonalności: twierdzi, że jest ono „filozoficznym przesądem” (ibid. str. 113). Starając się pokazać absurdalność uznawania ludzi za idealnie racjonalnych, pisze na przykład: „wyobraźmy sobie . . . żółtodzioba, który odrzuca teorię mnogości w jej wczesnej postaci, ponieważ jest – «oczywiście?» – sprzeczna!” (loc. cit.) Proponuje odmienne potraktowanie problemu: zamiast przyjmować automatycznie, że badane osoby są bezwyjątkowo racjonalne, uważa, że „racjonalność należałoby uznać za kolejną regularność, być może o roli istotniejszej niż niektóre inne regularności, ale nie różną od tych, które pojawiają się na czołowych pozycjach w innych [niż psychologia] dziedzinach.”(ibid. str. 114). Postuluje więc uznanie jej za nabywany w miarę doświadczenia nawyk, u jednych wykształcony lepiej niż u innych, a nie zestaw uniwersalnych i bezwyjątkowych reguł. Argument Rey’a może być odbierany jako bardzo mocny. Przemawia za nim zdroworozsądkowa intuicja powszechnej omylności i niekonsekwencji ludzkich przekonań, na co zresztą Davidson nie odpowiada w sposób nie wzbudzający dalszych kontrowersji5 . 3 Podstawowy wykład koncepcji Davidsona znajduje się w Davidson (1992a). Zostanie ona omówiona bardziej szczegółowo w dalszych częściach niniejszego tekstu. 4 Należy zauważyć, że Rey zdaje się argumentować nie przeciw tezie, że w opisach psychologicznych nieuchronnie zakładana jest racjonalność obiektu, a przeciwko stanowisku, że wszyscy ludzie są racjonalni w ramach posiadanego zbioru przekonań. Argumentacja Davidsona nie wydaje się wymagać aż tak mocnej tezy, a jeżeli rzeczywiście nie implikuje ona ani nie zawiera tak daleko idących stwierdzeń, to – ściśle biorąc – krytyka Reya już w punkcie wyjścia jest chybiona. Jednakże naturalne jest założenie, że według Reya błędność tezy o uniwersalnej racjonalności implikuje bezzasadność przekonania o powszechnym jej zakładaniu w opisach psychologicznych i że za pośrednictwem polemiki z ogólniejszą tezą atakuje on rzeczywiste stanowisko Davidsona wyrażone w koncepcji monizmu anomalnego. 5 Por. na przykład Davidson (1992a, str. 187): „Przypisywanie ludziom wysokiego stopnia konsekwencji . . . jest . . . nieuniknione, jeżeli mamy sensownie oskarżać ich o błąd i pewien stopień irracjonalności.” Twierdzenie to, jak się wydaje, nabiera sensu dopiero na tle Davidsona teorii o niezdeterminowaniu interpretacji, uznanie której wymaga zapewne więcej życzliwości
Jakub Fast
31
Celem tego tekstu nie jest polemika ze stanowiskiem Reya w kwestii zasadności założenia o uniwersalnej racjonalności. Podchodząc do problemu z innej perspektywy, postaram się wykazać, że wbrew temu, co Rey wydaje się zakładać, odrzucenie tezy o powszechnej logicznej spójności przekonań nie prowadzi w sposób konieczny do odrzucenia monizmu anomalnego; innymi słowy, że możliwe jest uznawanie monizmu anomalnego za prawdziwy, nawet wtedy, gdy odrzuci się założenie o powszechnej racjonalności i przyjmie się pogląd Rey’a na jej naturę, tj. uzna się racjonalność za jedynie empiryczną, nieścisłą regularność. Język psychologiczny w koncepcji Davidsona nadal bowiem pozostanie normatywny. Aby wykazać trafność tej tezy, konieczne jest przedstawienie przynajmniej w zarysie argumentacji Davidsona na rzecz monizmu anomalnego. Następnie podejmę próbę analizy roli, jaką pełni założenie o racjonalności obiektu opisu w koncepcji Davidsona. Nie starając się o pełną rekonstrukcję davidsonowskiego pojęcia „normatywności”6 postaram się jedynie wykazać, że użycie przez niego terminu „normatywny” w odniesieniu do języka psychologicznego nie musi wskazywać ani na ukryte występowanie zwrotów w rodzaju „powinien”, „należy” (modalności deontycznych) w opisach psychologicznych, ani na nieuchronne wykorzystanie w tychże opisach uniwersalnie obowiązujących reguł inferencji; wskazuje raczej na nieusuwalnie holistyczną7 naturę wyjaśnień psychologicznych, związaną z koniecznością zakładania w języku mentalistycznym, że opisywana w nim osoba stosuje jakieś reguły wnioskowania (chociażby takie, jak proponuje Rey), niekoniecznie ścisłe, logiczne reguły wynikania i niesprzeczności.
2. Monizm anomalny W oryginalnym wykładzie swojej koncepcji Donald Davidson (1992a) przedstawia monizm anomalny jako rozwiązanie problemu pozornej sprzeczności w następującym zbiorze przesłanek, które skądinąd uważa za prawdziwe: P1. Zdarzenia mentalne pozostają w związku przyczynowym ze zdarzeniami fizycznymi (zasada Interakcji Przyczynowej). P2. Jeżeli dwa zdarzenia powiązane są przyczynowo, to istnieje ścisłe, deterministyczne prawo, które opisuje ich związek (zasada Nomologicznego Charakteru Przyczynowości). niż można oczekiwać od kogoś, kto nie uznaje nawet jego tezy o uniwersalnym występowaniu założenia o racjonalności. 6 W szczególności nie jest istotne dla dalszego wywodu na przykład to, czy normatywność języka psychologicznego równoważna jest występowaniu w nim założenia o racjonalności, czy tylko jest przez nie implikowana. Zależy mi jedynie na ukazaniu pewnych kluczowych dla oceny argumentacji Reya aspektów tego pojęcia. 7 W dalszej części tego tekstu stanie się mam nadzieję jasne, co Davidson ma na myśli używając w tym kontekście pojęcia „holistyczny”; niewątpliwie wymaga ono dłuższych niż to możliwe na tym etapie wyjaśnień.
32
Język, racjonalność i „inne umysły”
P3. Nie istnieją ścisłe prawa, które wiązałyby zdarzenia fizyczne i mentalne (Anomalność tego, co Mentalne). Według Davidsona, konsekwencją tych przesłanek są następujące tezy (zob. na przykład Davidson (1999, str. 30)): K1. Zdarzenia mentalne są identyczne ze zdarzeniami fizycznymi. K2. Ponieważ zdarzenia mentalne nie mogą zawierać się w systemie zamkniętym8 , a ścisłe prawa możliwe są tylko w ramach takiego systemu, nie istnieją prawa łączące dowolne zdarzenie mentalne z innym zdarzeniem tego samego rodzaju. W prostym sformułowaniu, monizm anomalny stwierdza, że mimo iż zdarzenia mentalne są zdarzeniami fizycznymi i jako takie podlegają ścisłym prawom fizyki, niemożliwe jest sformułowanie praw, które obejmowałyby te zdarzenia w ich równoważnym, mentalistycznym opisie. Jeżeli, na przykład, chęć pójścia do kina opiszemy jako taki a nie inny wzorzec pobudzeń nerwowych czy konfigurację połączeń między neuronami w mózgu danej osoby, to wszystkie elementy tego opisu podlegać będą prawom fizyki i całe to zdarzenie będzie można opisać jako konsekwencję wystąpienia określonych warunków początkowych i działania konkretnych praw. Jednakże, gdy dokładnie to samo, jednostkowe zdarzenie opisać w języku psychologicznym, jako wystąpienie chęci pójścia do kina (czy wystąpienie określonej postawy propozycjonalnej, albo takiego a nie innego zespołu motywacyjnego), to ze względu na własności tego języka nie uda nam się sformułować praw, które łączyłyby zdanie w postaci „Jan ma ochotę pójść do kina” ze zdaniami z porządku fizycznego, ani też bezwyjątkowych, ścisłych praw, które łączyłyby je z innymi zdaniami psychologicznymi. Ze względu na powyższe przekonanie, wystąpienie danego zdarzenia psychicznego zidentyfikowanego za pomocą języka psychologicznego nie może, według Davidsona, być w sposób pewny wywiedzione (wydedukowane) z wystąpienia innego zdarzenia psychicznego lub innego zdarzenia fizycznego, i odwrotnie. Argumentacja ta wyraża przekonanie o zasadniczej niewspółmierności języka fizycznego i języka psychologicznego; dokładniej mówiąc zakłada, że język psychologiczny posiada cechy, które sprawiają, że niemożliwe jest sformułowanie praw rządzących zdarzeniami opisanymi w tym języku. Dlatego właśnie, według Davidsona, sprzeczność między koniunkcją P1. i P2. a P3. jest jedynie pozorna – to właściwości języka psychologicznego (a nie zdarzeń i obiektów w nim opisywanych!), fundamentalnie niezdatnego do formułowania w nim zdań opisujących zależności o charakterze nomologicznym, sprawiają, że mimo identyczności zdarzeń psychicznych z fizycznymi, niemożliwe jest powiązanie ich za pomocą praw. Zauważyć należy, że nomologiczne zależności, o których tutaj mowa, są zależnościami specjalnego rodzaju (por. P2.). Muszą być one wyrażalne za pomocą „ścisłych, deterministycznych praw”, tj. praw, które powszechnie 8
Pojęcie „systemu zamkniętego” zostanie przybliżone kilka akapitów dalej.
Jakub Fast
33
obowiązują, nie zawierają klauzuli ceteris paribus i skwantyfikowane są uniwersalnie, czyli stosują się do klas zdarzeń, a nie do zdarzeń jednostkowych (Davidson, 1995, str. 265 i n.). Davidson stawia tezę, że prawa takie możliwe są do sformułowania jedynie w ramach sposobu opisu (zbioru pojęć, języka), który konstytuuje „zamknięty system” – taki na przykład jak system nowoczesnej fizyki (Davidson (1999, str. 30)) – i że opis psychologiczny nie może nigdy stworzyć takiego systemu ze względu na swój „normatywny, czy też racjonalny aspekt” (Davidson, 1995, str. 266)9 . Tym samym, argumentacja na rzecz monizmu anomalnego zasadza się na wykazaniu niemożliwości sformułowania praw takich, jakie znamy z fizyki, które obejmowałyby co najmniej jedno zdarzenie mentalne w opisie psychologicznym. Należy również zauważyć, że aby powyższa argumentacja była trafna, prawa muszą być rozumiane jako obiekty lingwistyczne, a nie fizyczne (por. Davidson (1992a, str. 176)) – w przeciwnym wypadku identyczność tego, co fizyczne z tym, co mentalne (K1.) stałaby w sprzeczności z P3.
3. Anomalność tego, co mentalne Sprawą centralną dla niniejszego wywodu jest to, w jaki dokładnie sposób przypisanie racjonalności obiektowi opisu w języku psychologicznym – czyli ów „normatywny” aspekt tego języka – wiąże się z nieuchronną „otwartością” i, co za tym idzie, anomalnością opisów mentalistycznych. Przede wszystkim postaram się wyeliminować dwie hipotezy: H1. Niemożliwość sformułowania regularności nomologicznych w języku psychologicznym zdeterminowana jest zawężonym charakterem jego dziedziny, ograniczonej do zdarzeń mentalnych: aby nadawać się do formułowania ścisłych praw psychologicznych czy psychofizycznych, język psychologiczny musiałby opisywać również prawa i zjawiska fizyczne, co jednak nie ma miejsca, gdyż wtedy język ten straciłby swoją moc wyjaśniającą10 . H2. Język psychologiczny musi być anomalny, ponieważ jego użycie pociąga za sobą uznanie przesłanek o charakterze normatywnym, czyli zawierających operatory deontyczne. Nie tyle przypisują one, co nakazują bądź zalecają racjonalność osobom, do których się odnoszą, i sformułowane są w innej modalności niż opisowe zdania fizyczne. Mam nadzieję wykazać, że H1 jest sprzeczna z tezą monizmu anomalnego. Natomiast uznanie H2, po pierwsze, nie wydaje się mieć podstaw w kon9
przekład własny Może istnieć wiele powodów dla takiego hipotetycznego wykluczenia wyjaśnień fizycznych z psychologii – nie są one tutaj istotne. Mogą to być na przykład względy praktyczne – zmniejszenie „rozmiaru” teorii psychologicznej, albo zachowanie jej mocy wyjaśniającej – albo czysto kontyngentne: aspekt fizyczny byłby pominięty po prostu dlatego, że szczegółowe zależności między tym, co mentalne i tym, co fizyczne są wciąż nieznane, nawet jeżeli teoretycznie uzna się je za opisywalne nomotetycznie. Zob. dalszy ciąg wywodu oraz Davidson (1991, str. 164) i (1995, str. 275 i n.) gdzie znajduje się argument ukazujący, dlaczego wprowadzenie klauzuli ceteris paribus może być kluczowe dla praktyczności teorii – psychologicznej czy nie. 10
34
Język, racjonalność i „inne umysły”
cepcji Davidsona, po drugie, jak się zdaje, wprowadziłoby przynajmniej kilka niespójności do jego argumentacji. Hipotezy te są tutaj istotne z dwóch powodów: wyglądają na prawdopodobne interpretacje Davidsona (Rey przyjmuje interpretację przynajmniej częściowo zbieżną z H2 – por. Rey (2001, str. 114)), a wyeliminowanie ich ułatwi ustalenie bardziej prawdopodobnej interpretacji stanowiska Davidsona. Przyjrzyjmy się zatem implikacjom H1. Przede wszystkim zakłada ona, że zdarzenia psychiczne, będące przedmiotem opisu języka psychologicznego, są z natury ujmowane w ścisłych prawach i nie ma w samych tych zdarzeniach i ich opisie niczego, co czyniłoby takie ich ujęcie niemożliwym. Zgodnie z H1, gdyby - teoretycznie – postarano się o wprowadzenie całości wiedzy fizycznej do psychologii, możliwe byłoby sformułowanie ścisłych praw, które miałyby zastosowanie do zdarzeń psychicznych. Jednakże, ze względu chociażby na różnorodność i poziom skomplikowania ewentualnych kryteriów identyczności zdarzeń psychicznych i fizycznych oraz kłopoty związane z wyliczeniem warunków początkowych, prawa takie prowadziłyby do ogromnego rozrostu wszelkich wyjaśnień i w rezultacie korzystające z nich teorie stałyby się zbyt nieporęczne, by być użytecznymi. Możliwość wcielenia zdarzeń fizycznych do dziedziny języka psychologicznego i sformułowania na tej podstawie praw łączących zdarzenia fizyczne z mentalnymi stoi jednak w sprzeczności z P3 (K2 również zostaje naruszona – wystarczy uświadomić sobie, że taka „superpsychologia” byłaby systemem zamkniętym). Davidsonowska anomalność tego, co mentalne, jest problemem poważniejszym niż sugeruje H1, ponieważ przy uwzględnieniu wspomnianych właśnie przesłanek wyklucza sformułowanie ścisłych praw odnoszących się do zdarzeń psychicznych, niezależnie od tego, jak dużo pozapsychologicznej wiedzy zostanie uwzględnione. A zatem musi istnieć jakiś czynnik, występujący w opisach zdarzeń psychicznych, który sprawia, że teoria zawierająca takie opisy jest nieuchronnie anomalna. H1 nie jest jednak całkowicie nietrafna: jednym z powodów, dla których psychologia nie tworzy systemu zamkniętego, jest wykluczenie z jej dziedziny ogromu czynników fizycznych, motywowane względami praktycznymi. Jednakże nie jest to cecha swoista psychologii: stosuje się ona do dowolnej nauki lub dziedziny szczegółowej. Dobrym przykładem jest meteorologia (Davidson (1991, str. 163)): zadowala się ona formułowaniem jedynie prawidłowości, a nie praw w ścisłym znaczeniu, gdyż dogłębny opis wszystkich czynników wpływających na pogodę, jeśli nawet możliwy z praktycznego punktu widzenia, przez swoje rozmiary i niewyobrażalną wprost szczegółowość byłby zupełnie nieprzydatny. Czyni to meteorologię de facto – lecz nie zasadniczo – anomalną: nie wyklucza się przecież możliwości ścisłego opisu fizycznego, lecz jedynie porzuca się go ze względu na niepraktyczność lub doraźną niewykonalność. Jak zauważa Davidson, nauki tego typu nie respektują wymogów precyzji opisu w imię użyteczności: „To, że odkrywamy coraz bardziej ogólne prawa, nie znaczy, że należy odrzucić nasze prowizoryczne, codzienne prawa przyczynowe . . . Im bardziej precyzyjne są
Jakub Fast
35
prawa ogólne, tym mniej prawdopodobne jest, byśmy byli w stanie zastosować je do przewidywania konsekwencji naszych zwyczajnych działań albo pogody.” (Davidson, 1995, str. 276)11 . Niemniej jednak, nie należy odnosić wrażenia, że psychologia zostaje w ten sposób całkowicie zrównana z innymi naukami. Davidson podkreśla fakt, że między tą nauką a pozostałymi dyscyplinami szczegółowymi zachodzi istotna różnica (Davidson, 1991, str. 163 i n.). Według Davidsona, inaczej niż w meteorologii, normatywność teorii psychologicznych nie jest wyłącznie wynikiem praktycznie umotywowanego zawężenia „superpsychologii”, która zawierałaby język fizyczny, do języka uwzględniającego jedynie „miękkie”, codzienne prawidłowości; jest również efektem pewnych wewnętrznych cech języka psychologicznego. Co do H2, przypisuje ona Davidsonowi przekonanie, że entymematyczne przesłanki wyjaśnień psychologicznych muszą być formułowane w kategoriach modalności normatywnych. Zakłada to, na przykład, że przypisując racjonalność czyjemuś działaniu czy czyimś poglądom, w domyśle stwierdza się, że osoba ta „powinna” czy „jest zobowiązana” być racjonalną, albo że „racjonalnie ma ona obowiązek wierzyć w to a to”. Poza faktem, że Davidson nigdzie nie wskazuje na taką „etyczną” interpretację, nie wydaje się by przyjęcie H2 wykluczało redukowalność języka psychologicznego do dowolnego innego (pomijając trywialny fakt niemożliwości prostego przekładu modalności). Jeżeli ktoś z jakiegoś powodu uważałby preskryptywny aspekt opisów psychologicznych za sam w sobie istotny, a ten niewątpliwie zostałby utracony w przekładzie na opisowy język fizyki, to mógłby uważać zdania psychologiczne za zasadniczo nieredukowalne do zdań fizycznych. Gdyby jednak Davidson miał wyznawać takie właśnie przekonanie, to musiałby wyjaśnić nie tylko, dlaczego ten niezauważony wcześniej aspekt etyczny miałby być istotny w opisach zdarzeń psychicznych; wyjaśnienia (jeżeli w ogóle jest ono możliwe) wymagałoby i to, w jaki sposób dokonuje się redukcja, uznana właśnie w ramach jego hipotetycznego poglądu za niemożliwą, we wnioskowaniu z normatywnych przesłanek do deskryptywnych wniosków. Na przykład: w jaki sposób „jest” dedukowane jest z „powinien” – i do czego to „powinien” jest nam w ogóle potrzebne – w stwierdzeniu, że Jan został w domu, ponieważ nie czuł się dobrze. Przy takim spiętrzeniu problemów, nie poruszanych przez Davidsona, można z dostateczną, jak się wydaje, pewnością stwierdzić, że niewspółmierność modalności nie jest tym, o co mu chodzi, kiedy mówi o nieredukowalnie normatywnym charakterze języka psychologicznego. Nic nie wskazuje na to, by Davidsonowskie użycie zwrotu „powinien” traktować inaczej niż tę „powinność”, którą Rey odnotowuje w języku fizyki i przeciwstawia teorii Davidsona, pisząc: „«Jeżeli to gaz, to powinien zachowywać się tak a tak» nie jest odwołaniem do normatywności w żadnym poważnym sensie.” (Rey, 2001, str. 114). Tak więc, na podstawie powyższych rozważań, jedno można stwierdzić z dostateczną dozą pewności: w filozofii Davidsona język psychologiczny 11
przekład własny
36
Język, racjonalność i „inne umysły”
jest anomalny z powodu pewnej (wciąż nie określonej) wewnętrznej cechy psychologicznych opisów zdarzeń mentalnych, która występuje niezależnie od tego, czy opisy te rozważane są w izolacji, czy w koniunkcji z dowolnym zbiorem zdań. Cecha ta nie jest związana z ewentualnym występowaniem w tych opisach czy w ich przesłankach wyrażeń o charakterze normatywnym w ścisłym sensie (rozumianym jako zawieranie operatorów deontycznych).
4. Normatywność w interpretacji zachowań Według Davidsona, psychologiczny opis zachowań zawsze opiera się na wielu prowizorycznych założeniach, które, ściśle rzecz traktując, są nieuprawnione. Jednakże, założenia te są nieodzowne, żeby jakiekolwiek opisy psychologiczne były możliwe. Davidson przedstawia jako przykład próbę podania behawiorystycznej definicji zdania mówiącego, że ktoś wierzy w istnienie życia na Marsie (Davidson, 1992a, str. 179 i n.). Powiedzmy, że wierzyć w życie na Marsie, to to samo, co wyprodukować pewien ciąg dźwięków („tak”), jeżeli inny ciąg dźwięków („Czy na Marsie istnieje życie?”) został wyprodukowany w naszej obecności12 . Definicja taka nie jest, niestety, uniwersalna: stosuje się tylko do osób, co do których założymy, że znają język polski. Nawet jeżeli tak jest, wciąż musimy założyć, że ciąg dźwięków składających się na pozytywną odpowiedź został wyprodukowany świadomie, szczerze, i tak dalej – warunki, które muszą zostać wzięte pod uwagę, wydają się ciągnąć w nieskończoność; co więcej – każdy warunek, który sformułujemy, ujawnia konieczność uwzględnienia kolejnych ustaleń, które muszą być prawdziwe, by dane wyjaśnienie miało charakter ścisłego prawa. W wypadku interpretacji zachowania przeprowadzanej w nawet mniej rygorystycznych ramach niż zasady teorii behawiorystycznych sytuacja niczym się nie różni. Żadne prawo psychologii nie pozwoli nam z faktu, że widzimy Achillesa powracającego na pole bitwy wydedukować, że chce on pomścić śmierć Patroklesa (przykład pochodzi z (Davidson, 1992b, str. 221)), o ile nie założymy, na przykład, że Achilles żywi przekonanie, że powrót na pole bitwy pozwoli mu pomścić śmierć przyjaciela, że chce się zemścić, że uznaje opuszczenie swojego namiotu za najlepszy środek prowadzący do tak obranego celu i tak dalej. 12 Konsekwentny wyznawca teorii Davidsona mógłby pokusić się o argumentację na rzecz tezy, że nawet pojęcie równokształtności dźwięków mowy jest pojęciem psychologicznym, co z góry wyklucza jakąkolwiek próbę niementalistycznej definicji przekonań w oparciu o zachowania werdyktywne. Częstość występowania homofonii, nieregularności wymowy czy błędów produkcji w codziennej mowie, w zestawieniu z niewiarygodną zdolnością ludzi do rozpoznawania dźwięków, i to przede wszystkim tych składających się na wypowiedzi w ich własnym języku, wydaje się wskazywać, że skuteczne określenie równokształtności ciągów dźwięków mowy wymaga rozumienia danego języka. Rozumienie języka z kolei – jego semantyka, proces jego nabywania – według Davidsona nie mogą być zdefiniowane bez odwołania do pojęć psychologicznych (por. główną tezę artykułu Davidsona (1991)).
Jakub Fast
37
Co ważne, nawet jeżeli przyjmie się, że liczba koniecznych obwarowań nie stanowi, przynajmniej teoretycznie, przeszkody w sformułowaniu ostatecznego wyjaśnienia danego zdarzenia mentalnego, podstawowym problemem wciąż pozostaje fakt, że dodając warunek za warunkiem, nie jesteśmy w stanie uniknąć formułowania dalszych warunków, które będą same w sobie opisami psychologicznymi: „. . . niezależnie od tego, jak bardzo przykrawamy i dopasowujemy owe pozamentalne warunki, zawsze dostrzegamy potrzebę warunków dodatkowych (o ile zauważa on, rozumie etc.), które mają charakter mentalny.” (Davidson, 1992a, str. 180)13. Żaden z tych warunków nie może być wyeksplikowany bez opierania się na kolejnych obwarowaniach i kolejnych opisach psychologicznych. Mam nadzieję, że w tym momencie dotychczasowe użycie pojęcia „holistyczny” staje się jaśniejsze: język psychologiczny jest holistyczny, ponieważ musi opierać się na całym zbiorze współzależnych założeń, z których żadne nie może być zweryfikowane bez odniesienia do innych założeń w tymże zbiorze. Tak więc założenie o racjonalności zawarte jest implicite w procesie formułowania wspomnianych właśnie założeń: sprawia ono, że ich zbiór zawiera, z grubsza biorąc, te najbardziej prawdopodobne i najbardziej użyteczne. Bez zakładania racjonalności można by te warunki mnożyć bez ograniczeń, a co za tym idzie, bez większego pożytku. Wyjaśnienie motywacji Achillesa możliwe jest tylko wtedy, gdy przyznamy mu podstawową chociaż zdolność do działania w zgodzie ze standardami poprawnego wnioskowania. Nie mielibyśmy większych szans powodzenia, doszukując się powodów jego powrotu na pole bitwy z zamiarem pomszczenia śmierci przyjaciela w sytuacji, gdyby ruszył tam w przekonaniu, że jest to miejsce, w którym najłatwiej można coś przekąsić i wreszcie odpocząć – chyba, że mielibyśmy bezpośredni wgląd w jego psychikę, który pozwoliłby na odnalezienie sensownego powodu, dla którego właśnie z takiego przekonania powinien on wywnioskować możliwość dokonania zemsty. Nie ulega jednak wątpliwości, że kompletna wiedza o przekonaniach i metodach wnioskowania danej osoby nie jest osiągalna i prędzej czy później założenie o racjonalności, czy chcemy tego czy nie, jest konieczne dla zrozumienia zachowania innych (por. Davidson (1991, str. 162; 1999, str. 30)). Na tej samej zasadzie, równie istotne jest założenie, że przekonania danej opisywanej osoby są ogólnie raczej prawdziwe i raczej podobne do naszych. Davidson pisze: „moja wiedza o zawartości innego umysłu możliwa jest . . . jedynie w kontekście ogólnie poprawnego i współdzielonego obrazu świata” (Davidson, 1991, str. 164)14 . Wiele spośród założeń dotyczących przekonań opisywanej osoby nie ma innego oparcia niż to, że my sami (i zapewne ludzie, których znamy) takie przekonanie posiadamy, jako że wiele zakładanych konkretnych przekonań nigdy nie jest nawet pośrednio potwierdzane przez badaną osobę. W przypadku Achillesa: poczynając od założenia „Moje ciało ma masę”, poprzez „Achilles jest (ja jestem) uzbrojony”, 13 14
Mowa tu wciąż o behawiorystycznej definicji zdań o wierzeniu. przekład własny.
38
Język, racjonalność i „inne umysły”
aż do „Zabicie wroga na polu bitwy to dobry sposób pomszczenia śmierci przyjaciela”, wszystkie wydają się mieć jedyne źródło w naszych własnych przekonaniach i doświadczeniu. Tak one, jak wnioski z nich wyciągane (a co za tym idzie, zasady dochodzenia do tych wniosków) ekstrapolowane są na opisywaną osobę z naszego własnego doświadczenia jako „oczywiste” czy „rozsądne”, a według Davidsona bez nich, i bez tej ekstrapolacji, zachowanie innych stałoby się niezrozumiałe i niemożliwe do wyjaśnienia. Powyższe rozważania miały na celu wskazanie na dwa fakty: po pierwsze, że aspekt normatywności – czyli dopasowywanie dostępnych danych do „odpowiedniego” zbioru przekonań i prawidłowych reguł wnioskowania – wprowadzany jest do języka psychologicznego w równej mierze przez zakładanie racjonalności, co przez zakładanie ogólnej prawdziwości i podobieństwa przekonań; a po drugie, że nieistotne jest, jakie dokładnie właściwości ma ta zakładana „racjonalność”, pod warunkiem, że służy ona osobie interpretującej do określenia zależności między zdaniami wyrażającymi przekonania osoby opisywanej w języku psychologicznym. Jak pisze Davidson: „. . . interpretator musi oddzielić znaczenie od opinii częściowo na gruncie normatywnym, decydując, co z jego punktu widzenia maksymalizuje zrozumiałość. W zadaniu tym interpretator naturalnie nie ma innych standardów racjonalności, na których mógłby się oprzeć, niż swoje własne15 .” Czym jest ta „racjonalność interpretatora” – czy zgodna jest ze standardami logiki i czy w ogóle nadaje się do formułowania prawdziwych wniosków w oparciu o prawdziwe przesłanki – nie gra tutaj roli (a Rey zdaje się twierdzić, że Davidson, mówiąc o racjonalności, ma na myśli właśnie standardy logiki). Dla normatywności języka psychologicznego istotny jest sam fakt przypisania osobie opisywania jakichś standardów wnioskowania i spójności, które w rzeczywistych sytuacjach wyjaśniania zachowań opierają się na własnych standardach opisującego. Standardy te pozwalają na formułowanie założeń o charakterze psychologicznym, które są konieczne do sformułowania jakichkolwiek psychologicznych wyjaśnień. A więc nawet, jeżeli standardy te nie są, jak twierdzi Rey argumentując przeciwko Davidsonowi, niczym innym niż indukcyjnie ustalonymi (probabilistycznymi?) regularnościami, wykorzystywanymi w procesie podejmowania decyzji, argumentacja na rzecz monizmu anomalnego pozostaje nietknięta. Normatywność języka psychologicznego nie ma bowiem nic wspólnego z tą, której brak regularności uznawanych przez Reya, a która miałaby cechować logikę matematyczną. Występuje ona niezależnie od tego czy ludzie są naprawdę racjonalni, i wyłącznie dlatego, że przy wyjaśnianiu zachowania innych – żeby w ogóle móc ich zrozumieć – z reguły zakładamy, że myślą tak jak my i wierzą, z grubsza, w to samo, co my. 15
Davidson (1991, str. 162), podkreślenie dodane, przekład własny.
Jakub Fast
39
Literatura Cummins, R. (1976): States, Causes, and the Law of Inertia. Philosophical Studies 29, 21–36. Davidson, D. (1991): Three Varieties of Knowledge. [W:] A. J. Ayer Memorial Essays. P. Griffiths (red.), Cambridge, Cambridge University Press, 153–166. Davidson, D. (1992a): Zdarzenia mentalne (1970). [W:] Eseje o prawdzie, języku i umyśle. B. Stanosz (red.), PWN, 163–193. Davidson, D. (1992b): Psychologia jako filozofia (1974). [W:] Eseje o prawdzie, języku i umyśle. B. Stanosz (red.), PWN, 217–233. Davidson, D. (1995): Laws and Cause. Dialectica 49, 265–279. Davidson, D. (1999): Anomalous monism. [W:] MIT Encyclopedia of Cognitive Science. Wilson R. A. Keil F. C. (red.), Cambridge, MIT Press, 30–31. Dennett, D. (1991): True Believers: The Intentional Strategy and Why It Works (1975). [W:] The Nature of Mind. D. M. Rosenthal (red.), Oxford, Oxford University Press, 339–353. Kim, J. (1993): Supervenience and the Mind: Selected Essays. Cambridge, Cambridge University Press. Rey, G. (2001): Physicalism and Psychology. [W:] Physicalism and Its Discontents. C. Gillett B. Loewer (red.), Cambridge, Cambridge University Press, 99–128. Robinson, H. (2001): Davidson and Nonreductive Materialism: A Tale of Two Cultures. [W:] Physicalism and Its Discontents. C. Gillett B. Loewer (red.), Cambridge, Cambridge University Press, 129–151.
Nina Gierasimczuk
Teoretyczny model nabywania języka według Quine’a
Artykuł ten powstał wskutek mojego ogromnego zainteresowania i zrozumienia dla problemów filozoficznych poruszanych przez W.V.O. Quine’a. Jednak nawet wśród tak przejrzystych poglądów, z czasem mogą pojawić się wątpliwości. Wraz z kolejną lekturą powstają podejrzenia – Czy to rzeczywiście może być aż tak proste? Szczególną satysfakcję zawsze sprawiały mi quine’owskie rozstrzygnięcia psycholingwistyczne, które konsekwentnie prowadzą do ciekawej i względnie spójniej charakterystyki języka naturalnego. Mają tutaj swoje miejsce rozmaite zagadnienia: przyswajanie i pochodzenie języka naturalnego; konstruowanie pojęć; pochodzenie, co ciekawe ‘prywatnych’, ontologii. W rezultacie otrzymujemy filozoficzno-logiczną teorię funkcjonowania umysłu ludzkiego, w niejednym spośród tego funkcjonowania aspektów. Filozofia Quine’a jest ekscytująca z powodu silnego pierwiastka polemiczności, jaki w sobie zawiera. Atencję, jaką Quine poświęcał rozmaitym dyskusjom, można docenić na przykład na podstawie sporu z Noamem Chomsky’m. Tak ważni to interlokutorzy, że ich starcia w związku z problemami kompetencji językowej oraz charakteru tzw. poprawności gramatycznej wpisuje się niekiedy w historię klasycznego (już od wieków) konfliktu pomiędzy empiryzmem a racjonalizmem. W artykule tym zajmę się analizą Quine’owskiego modelu przyswajania języka. Sygnalizując strukturę mojej wypowiedzi, uprzedzam o jej równoległej budowie. Pierwsza część poświęcona będzie deklarowanym przez Quine’a poglądom, druga zaś stanowić ma dyskusję, zarys problematyki, którą prowokuje część pierwsza. I tutaj właśnie objawi się wspomniana równoległość krytyki. Najpierw skupię się na ściśle filozoficznych, logicznych i językowych jej aspektach. Potem zachęcę do prześledzenia wyników psychologii poznawczej i rozwojowej. Stanowią one, dzięki swej empiryczności, dziedzinę oderwaną od filozoficznych rozważań (dlatego właśnie mowa o równoległości), mniej swobodną a jednocześnie nadspodziewanie adekwatną. Aby usprawiedliwić moją metodologię, zaznaczam, że sam Quine zezwala na interdyscyplinarną dyskusję nad swoją teorią, twierdząc: „Taka jest moja opcja. [. . . ] Motywacja jest nadal filozoficzna, podobnie zresztą, jak na ogół bywa w naukach przyrodniczych, a badania prowadzi się, ignorując
42
Teoretyczny model nabywania języka według Quine’a
granice pomiędzy poszczególnymi dyscyplinami, ale z szacunkiem dla nich i gotowością skonsumowania ich nowych wyników.” (Quine, 1995)
1. Propozycja Quine’a Behawiorystyczna koncepcja człowieka głosi, iż jest on organizmem, którego zachowanie jest jednoznacznie wyznaczone przez zewnętrzne bodźce. W związku z tym, jedynym przedmiotem badań psychologii powinny być zależności pomiędzy bodźcem a reakcją (Watson, 1990). Nie angażując się zbytnio w założenia behawioryzmu w psychologii, Quine twierdził, że każdy, kto chce uprawiać empiryczną teorię języka, dysponuje jako danymi wyłącznie ludzkimi zachowaniami językowymi. W tym sensie musi być behawiorystą. Było to niewątpliwie konsekwencją deklarowanych przez niego: empiryzmu, determinizmu, fizykalizmu i naturalizmu. Podstawowe terminy behawioryzmu, takie jak: ‘bodziec’, ‘reakcja’, ‘pobudzenie’, ‘warunkowanie’ pozostają słowami charakterystycznymi dla Quine’owskiej teorii języka. Pytanie, na które usiłuje odpowiedzieć Quine, sformułować można następująco: „[. . . ] w jaki sposób my, fizyczni mieszkańcy fizycznego świata, jesteśmy w stanie konstruować naukową teorię tego świata na podstawie naszych ubogich z nim kontaktów.” (Quine, 1995). Taka schematyzacja świata doświadczanego jest widoczna u dzieci uczących się języka. Według Quine’a, jest ona pochodna wobec języka. Głównym założeniem tej teorii jest to, że język jest pierwotny wobec wszelkich pojęć w umyśle, wobec wszelkich kategorii ontologicznych. Przyjrzyjmy się teraz bliżej behawiorystycznemu modelowi uczenia się języka postulowanemu przez Quine’a. Poniżej wyróżnię etapy przyswajania języka. Definicje kluczowych terminów skonstruowane zostały na podstawie (Quine, 1995). 1.1. Obserwacja świata zewnętrznego przez podmiot Idąc tropem Carnapa (1967), który obserwację utożsamia z ‘doświadczeniem elementarnym’ (czyli całościowym doświadczeniem zmysłowym danej osoby w danej sytuacji), konstruuje Quine pojęcie pobudzenia całościowego. Utożsamia więc trudne do wyeksplikowania pojęcie obserwacji z jej fizykalnym odpowiednikiem. DEFINICJA 1. Pobudzenie całościowe doznawane przez podmiot A w sytuacji S – uporządkowany według następstwa czasowego zbiór wszystkich tych receptorów zewnętrznych podmiotu A, które w sytuacji S odbierają jakieś bodźce. Eksplikacja ta nie odpowiada intuicyjnemu pojęciu obserwacji, które zwykliśmy utożsamiać z czynnościami percepcji wzbogaconej o retrospekcję i nawiązania. Należy wyodrębnić więc relację pomiędzy pobudzeniami, która gwarantowałaby postrzeganie, czyli możliwość kojarzenia ze sobą różnych bodźców. Relacją proponowaną przez Quine’a jest podobieństwo. Roz-
Nina Gierasimczuk
43
poznawanie pobudzeń jako częściowo podobnych, (inaczej – przypominanie), które pozwala na rzetelną obserwację świata zewnętrznego i mówienie o nim, możliwe jest dzięki relacji podobieństwa zachodzącej między niektórymi parami pobudzeń. Wyróżnia się dwa rodzaje podobieństwa: recepcyjne i percepcyjne. DEFINICJA 2. Podobieństwo recepcyjne – relacja pomiędzy takimi dwoma bodźcami całościowymi, które posiadają znaczną część wspólną. DEFINICJA 3. Podobieństwo percepcyjne – relacja pomiędzy takimi dwoma bodźcami całościowymi, które wywołują taką samą reakcję. „Dwa bodźce całościowe, które są bardzo podobne recepcyjnie, są rzeczywiście na ogół podobne percepcyjnie, lecz dwa bodźce, które są recepcyjnie niepodobne, również mogą być podobne percepcyjnie” (Quine, 1995). Przykładem powyższych zależności może być następujące zestawienie reakcji bezwarunkowych. Na skutek dwukrotnego wystawienia danej osoby na oddziaływanie niskich temperatur, w pewnym odstępie czasu (podobieństwo recepcyjne pomiędzy ich pobudzeniami) prawdopodobnie w obu przypadkach reakcją jej organizmu będzie tzw. ‘gęsia skórka’ czy drżenie. Jej reakcje będą w każdym razie bardzo zbliżone (świadczy to zatem w oczywisty sposób o podobieństwie percepcyjnym pomiędzy tymi pobudzeniami). Gdy jednak ‘przestraszymy’ tę osobę, dajmy na to – stawiając ją wobec jakiejś sytuacji ekstremalnej, mimo recepcyjnego niepodobieństwa tego pobudzenia z odczuciem zimna, jej reakcje będą zapewne zbliżone do tych opisanych powyżej: ’gęsia skórka’, drżenie. Zajdzie więc podobieństwo percepcyjne pomiędzy pobudzeniami niepodobnymi recepcyjnie. (Towarzyszy temu oczywiście założenie, że za odczucie zimna odpowiedzialny jest inny zbiór receptorów niż za odczucie strachu.) W dwóch powyższych definicjach wyróżniam kursywą punkty dyskusyjne. Jak duża miałaby być część wspólna obu zbiorów pobudzonych receptorów (w def. 2), tego Quine nie precyzuje. Podobne wątpliwości budzi istnienie kryterium identyczności dla reakcji (w def. 3). Kwestia ta była wielokrotnie szeroko dyskutowana wśród psychologów i jest uważana za jeden ze słabych punktów behawioryzmu. Szerzej zajmę się tą problematyką w drugiej części pracy. Pozwolę sobie jednak na wspomnienie jednego z postulatów Quine’a w tej sprawie. Pisze: „Trzeba [. . . ] często przypominać sobie o chwiejności ludzkich zachowań, zachowując tymczasem jasność przez postulowanie fikcyjnych granic.” (Quine, 1997) 1.2. Skojarzenie elementarnych zdań obserwacyjnych z pobudzeniami przez warunkowanie reakcji Warunkowanie jest jedną z metod uczenia się. Polega ona po prostu na kojarzeniu bodźca z odpowiednią reakcją. Przeanalizujmy warunkowanie na przykładzie dziecka uczącego się języka. Wydawanie rozmaitych dźwię-
44
Teoretyczny model nabywania języka według Quine’a
ków przez niemowlę jest działaniem spontanicznym. Dziecko nagradzane jest przez wychowawców, gdy wypowiada odpowiednią sylabę w obecności pewnego przedmiotu. Dzięki temu, po pewnej liczbie takich prób jest skłonne wypowiedzieć daną sylabę celowo. Badania na zwierzętach [. . . ] wykazały, że w wyniku kolejnych warunkowań bodźce nabierają znaczenia (czyli stają się wystarczającym powodem do reakcji warunkowej, pewnego rodzaju wzmocnieniem pozytywnym). W rozważanym przypadku sama możliwość komunikowania staje się w pewnym momencie pozytywnym wzmocnieniem dla dalszej nauki języka, zob. (Watson, 1990). Warunkowanie reakcji może posłużyć jako narzędzie przy testowaniu podobieństwa percepcyjnego. Najpierw, w sytuacji pewnego całościowego pobudzenia, reakcja podmiotu jest nagradzana. Po następnym, recepcyjnie ‘dość podobnym’ do poprzedniego, pobudzeniu reakcja podmiotu jest karana. To, czy przy trzeciej tego rodzaju próbie reakcja wystąpi, świadczy o podobieństwie trzeciego pobudzenia percepcyjnego do pierwszego lub drugiego pobudzenia. W ten sposób postulować można istnienie pewnej ‘dominującej’ części pobudzenia całościowego, która decyduje o podobieństwie percepcyjnym dwóch pobudzeń, przy ich jednoczesnej odmienności recepcyjnej. Dzięki tej dominującej części pobudzenia całościowego jesteśmy zdolni wyróżniać modalności zmysłowe (bodźce słuchowe, wzrokowe, itd.). Jakie ma to znaczenie dla dziecka uczącego się języka? Częścią takiej dominanty pobudzenia całościowego jest, według Quine’a, ostensja. Działa ona na rzecz pożądanego skojarzenia danego pobudzenia z wypowiadanym słowem. Wprowadzę teraz pojęcie zdania obserwacyjnego. DEFINICJA 4. Zdanie obserwacyjne – zdanie okazjonalne (prawdziwe w jednych okolicznościach, fałszywe w innych), na które użytkownicy języka mogą zgodzić się natychmiast, będąc świadkami odpowiedniej sytuacji. Dziecko kojarzy najprostsze zdania obserwacyjne (np.: ‘Mleko!’, ‘Pies!’) z określonymi pobudzeniami całościowymi dzięki warunkowaniu. Te najprostsze wypowiedzi, które często mają postać rzeczowników, nie denotują określonych przedmiotów. Są ‘po prostu czymś, co się wypowiada w określonych okolicznościach’ (Quine, 1995). 1.3. Potwierdzanie skojarzenia Dziecko jest skłonne potwierdzać nabytą wiedzę przez zapytania dotyczące różnych sytuacji. Dzięki temu wkracza na pole współpracy językowej i internalizuje określone schematy swojej wspólnoty językowej. Jest to możliwe dzięki właściwościom zdań obserwacyjnych. „Wywołują one natychmiastową zgodę lub niezgodę podmiotu w sytuacji, w której doznaje on pobudzenia odpowiedniego rodzaju bez dalszych wyjaśnień i niezależnie od tego, czym się on w danej chwili zajmuje” (Quine, 1997). Są ponadto intersubiektywne – w odróżnieniu od sprawozdania z odczuć, zdanie takie musi wywoływać ten sam werdykt u wszystkich kompetentnych użytkowników języka, świadków
Nina Gierasimczuk
45
tej sytuacji. Warunek ten jest według mnie dość intuicyjny, jakkolwiek niezbyt ścisły. Rozszerzę zarzut w drugiej części pracy. 1.4. Budowanie złożonych zdań obserwacyjnych. Zdania koniunkcyjne i predykacyjne Quine zakłada, że dziecko bardzo szybko uczy się spójników logicznych, dzięki czemu buduje złożone zdania obserwacyjne. Pierwszymi są zdania negacyjne (‘Nie p’) oraz koniunkcyjne (‘p i q’). Znajomość tych struktur prowadzi do pierwszego sformułowania prawa sprzeczności (‘Nie[p i nie p]’). Innymi, według Quine’a, wcześnie przyswajanymi spójnikami służącymi do tworzenia podrzędnie złożonych zdań obserwacyjnych są: ‘nad’, ‘pod’, ‘przed’, ‘po’, ‘w’ i ‘oprócz’. Założeniom tym nie towarzyszy żadna argumentacja natury empirycznej. Istnieje jeszcze jedna konstrukcja, którą Quine uważa za szczególnie ważną. Są to predykacyjne zdania obserwacyjne. Zdanie obserwacyjne: ‘Niebieski kamyk.’ jest złożeniem dwóch zdań: ‘Patrz, kamyk!’ i ‘Patrz, niebieski!’. W sposób istotny różni się ono od zdań koniunkcyjnych. Wymaga współwystępowania pewnych jakości wizualnych, które jest charakterystyczne dla ciał. Czym wyróżnia się ciało spośród innych źródeł pobudzenia? Wymienia się następujące jego cechy: spoistość, zwartość, stawianie oporu przy dotyku, widoczność jego ruchu w przestrzeni. Nie można tutaj jeszcze mówić o reifikacji. Właściwa reifikacja pojawia się bowiem, według Quine’a, dużo później. 1.5. Budowanie obserwacyjnych zdań kategorycznych Obserwacyjne zdania kategoryczne „są bezpośrednim wyrazem oczekiwania indukcyjnego, które leży u podstaw wszelkiego uczenia się” (Quine, 1995). Przykładami takich zdań są: (1) ‘Kiedy pada śnieg, jest zimno.’ (2) ‘Gdzie jest dym, tam jest ogień.’ Quine uważa, że formułowanie tego typu zdań nie wymaga reifikacji. Stwierdzają one jedynie współwystępowanie lub bliskie następstwo osobno charakteryzowanych zjawisk. Są uogólnionymi zdaniami koniunkcyjnymi, w tym sensie, że każda sytuacja, w której występuje pewien element, będzie też w jakimś innym miejscu zawierała inny element. „Choć zbudowane z dwóch zdań okazjonalnych, obserwacyjne zdanie kategoryczne jest samo zdaniem stałym.” (Quine, 1997). Stoi to w sprzeczności z definicją zdania obserwacyjnego (def. 4.) Głosi ona, że warunkiem koniecznym bycia zdaniem obserwacyjnym jest bycie zdaniem okazjonalnym. Zastanowimy się nad tym w dalszej części pracy.
46
Teoretyczny model nabywania języka według Quine’a
1.6. Budowanie ogniskowych obserwacyjnych zdań kategorycznych. Kategoryczne zdania obserwacyjne o strukturze ,‘Ilekroć. . . , tylekroć. . . ’ ((1) i (2)) mają słabą moc wyrazu. Quine uważa, że nie występuje w nich (pozornie dostrzegalna) kwantyfikacja po jednostkach czasu czy przestrzeni. Jest to po prostu wyraz empirycznie dostrzegalnych następstw. Zdania te różnią się w istotny sposób od tzw. ogniskowych kategorycznych zdań obserwacyjnych. Porównajmy dwie wypowiedzi: (3) ‘Ilekroć kruk, czarny kruk.’ (4) ‘Ilekroć kruk, jest to czarny kruk.’ Występujący w zdaniu (4) tzw. zaimek istotny (‘to’) jest ukoronowaniem procesu nabywania pojęcia rzeczy. Dzięki temu słówku jesteśmy w stanie wyrazić myśl: ‘Wszystkie kruki są czarne.’ Zdanie (3) dopuszcza bowiem istnienie białych kruków, o ile pojawiają się one zawsze w towarzystwie kruków czarnych. Wspomniany zaimek jest, według Quine’a, podstawowym narzędziem odniesienia przedmiotowego. 1.7. Reifikacja Wreszcie dziecko zdolne jest dostrzec rzecz. Osiągnęło już wystarczający poziom rozwoju językowego, aby odnosić swe wypowiedzi do przedmiotów. Dzięki poznanej już roli zaimka istotnego za kilkanaście lat będzie reifikować cechy, liczby i inne obiekty abstrakcyjne. Według Quine’a geneza tego niesamowitego zjawiska, jakim jest reifikacja, to najprawdopodobniej czysty przypadek, fortunna pomyłka. Zaimek istotny musiał zostać wprowadzony przez omyłkowe użycie tzw. zaimka lenistwa. Skłania to do przyjęcia perspektywy, w myśl której „szczęśliwe przypadki i oportunizm są prawami natury.”(Quine, 1995)
2. Dyskusja filozoficzna Główną osią dyskusji z poglądami Quine’a mogłoby być ogólne zagadnienie adekwatności psychologii behawiorystycznej jako opisu ludzkich zdolności poznawczych. Wspomniana we wstępie dyskusja Quine’a z Chomsky’m jest niewątpliwie godna szczegółowej analizy pod tym właśnie kątem. Sądzę, że pojawiło się w niej wiele argumentów, które ukazywały słabe punkty Quine’owskiej teorii. Oczywiście odnoszą się do niej również wszelkie zastrzeżenia i uwagi Chomsky’ego pod adresem pracy Skinnera (Chomsky, 1997). Nie będę jednak tutaj zajmować się rywalizacją natywizmu i behawioryzmu lingwistycznego, lecz jedynie niektórymi konsekwencjami, nieoczywistymi przesłankami i uproszczeniami w koncepcji Quine’a.
Nina Gierasimczuk
47
Quine, świadom zapewne statusu poznawczego wszelkich teorii, proponuje traktować swe rozwiązania niezobowiązująco i z pewną dozą ostrożności. Pisze: „Nie twierdzę, że tak właśnie jest. Twierdzę, że jest to w każdym razie możliwe.” (Quine, 1977). Są wobec tego dwa sposoby, aby krytykować zaproponowaną przez niego teorię. Po pierwsze – można zbadać jej wewnętrzną spójność i ścisłość. Postaram się uczynić to w tej właśnie części artykułu. Po drugie – można wskazać wyniki badań empirycznych, które pozostają niewytłumaczone na gruncie tej teorii. Zagadnienie to będzie przedmiotem następnego punktu artykułu. Pozostałe uwagi mogą dotyczyć jedynie definicji pojęć, które znalazły w międzyczasie pewne trwałe sformułowania na gruncie np. psychologii poznawczej. Poniżej – uwagi. Kolejne wątpliwości dotyczą odpowiednio wypunktowanych w pierwszej części pracy koncepcji Quine’a. 2.1. Obserwacja świata zewnętrznego przez podmiot a) Uproszczenie trudnego do wyjaśnienia pojęcia obserwacji jest u Quine’a nieoczywiste. Ograniczenie się do zewnętrznego opisu w definicji pobudzenia całościowego (def.1) wzbudza mój sprzeciw. W podobny sposób definiuje się zwykle zewnętrzny bodziec całościowy. Zaś termin „pobudzenie całościowe”, jako eksplikacja pojęcia obserwacji (czy też percepcji), powinien być odnoszony do uporządkowanego zbioru ścieżek układu nerwowego, od receptorów do kory mózgowej. To rozróżnienie terminologiczne, obecne we współczesnej psychologii, umożliwia włączenie do systemu ewentualnych wygaszeń pojedynczych bodźców, a także tzw. czucia wewnętrznego. Zamęt terminologiczny stworzony dookoła wspomnianej definicji powstał w wyniku zamiennego używania przez Quine’a terminów „pobudzenia całościowego” oraz „bodźca całościowego”. Zdaje się to pozostawać w zgodzie z modelem behawioryzmu, który sprowadza swe dociekania do izolacji zewnętrznego oddziaływania na podmiot oraz zewnętrznej reakcji. Klasyczny behawiorysta był zapewne świadomy faktu wewnętrznego przetwarzania informacji bodźcowej. Niestety, ze względu na komplikacje, jakich nastręcza badanie procesów tego rodzaju, starano się je eliminować z teorii. W pewnym momencie behawioryści zaczęli postulować pewne zmienne pośredniczące pomiędzy bodźcem a reakcją. Skomplikowało to bardzo metodologię badań oraz stało się powodem kwestionowania słuszności podejścia behawiorystycznego, wobec niezgodności jej wczesnych założeń z tym kierunkiem rozwoju, zob. (Chomsky, 1997). b) Do ludzkich receptorów zewnętrznych dociera ogromna ilość informacji. Istotną częścią pracy umysłu powinna być zatem redukcja tych danych. Informacje te często dublują się lub wymagają tego samego rodzaju reakcji organizmu. Integracja informacji określana jest mianem kategoryzacji. Polega ona na odrzuceniu olbrzymiej części zbędnej informacji i pozostawieniu tej, która posiada wartość różnicującą lub pozwala uzupełnić brakujące dane, przewidywać przyszłe stany rzeczy i planować działanie. Kategoryzacja ta
48
Teoretyczny model nabywania języka według Quine’a
powinna polegać na ustaleniu pewnego rodzaju tożsamości pomiędzy ‘podobnymi’ cząstkami pobudzeń. Problem z ustaleniem percepcyjnych kryteriów podobieństwa sprawił, iż obecnie traktuje się teorię podobieństwa jako dopełnienie teorii kategoryzacji. Quine’owska eksplikacja pojęcia obserwacji, angażująca definicje podobieństwa percepcyjnego i recepcyjnego, nie wyjaśnia tych skomplikowanych powiązań. Nie jest to jednak wada dyskredytująca, ponieważ opisywana tu teoria Quine’a nie stoi w sprzeczności z tym, co przyjęte na gruncie współczesnych badań psychologicznych. Przedmiotom percepcji często brakuje dostrzegalnych cech, które mogłyby zadecydować o ich przynależności do danej kategorii. Często informacja ta dopełniana jest przez zastaną już wiedzę o członkach danej kategorii. Czy możliwe jest więc, że mamy tu do czynienia z pewnymi wrodzonymi tendencjami do strukturalizowania postrzeżeń? To kwestia jak dotąd nierozstrzygnięta (dyskusję tego problemu zob. Haman, 2002). 2.2. Potwierdzanie skojarzenia a) Uczenie się języka opisane metodą warunkowania kusi swoją przejrzystością. Rozumujmy przez analogię do doświadczeń warunkowania szczurów. Badania te towarzyszyły tworzeniu się późniejszej wersji behawioryzmu. Wobec pewnej derywacji - pokarmowej lub innej, szczur uczył się skomplikowanego sposobu zdobywania tego pokarmu, a sama konsumpcja w przypadku powodzenia była wzmocnieniem pozytywnym (nagrodą). Uczenie takie zakłada, według badaczy, np. Clarka Hulla, silną dążność do zrealizowania potrzeby, często fizjologicznej. Z jaką derywacją, mówiąc swobodniej - motywacją, mamy do czynienia przy uczeniu się języka przez dziecko? Można powiedzieć oczywiście, że jest nią motywacja przetrwania – komunikowania potrzeb swego organizmu. Ale dlaczego akurat język? Możemy równie dobrze mieć tu do czynienia z właściwą człowiekowi, dziedziczoną (wrodzoną) tendencją do komunikowania się. Stąd już tylko krok do natywistycznych postulatów Chomsky’ego i pojęcia gramatyki uniwersalnej (Chomsky, 1997). b) Nie jest jasne, w jakim sensie dominującą częścią sytuacji bodźcowej miałaby być ostensja. Skoro niemowlę doświadcza jedynie strumienia bodźców, to w jaki sposób miałoby wyróżniać z sytuacji osobę wskazującą i przedmiot wskazywany? Quine niestety nie precyzuje, jak dokładnie wyobraża sobie postrzeganie sytuacji bodźcowej. 2.3. Skojarzenie elementarnych zdań obserwacyjnych z pobudzeniami przez warunkowanie reakcji a) Konstrukcja Quine’owskich zdań obserwacyjnych opiera się na ich intersubiektywności – zdanie obserwacyjne musi wywoływać ten sam werdykt u wszystkich kompetentnych użytkowników języka, świadków danej sytuacji. Nie jest oczywiście kontrintuicyjne, że dzięki podobnej budowie fizjologicznej percepcja osobników danego gatunku jest zapewne podobna.
Nina Gierasimczuk
49
Trudno jednak zgodzić się, że często jesteśmy skłonni akceptować te same zdania. Zastrzeżenie, że dotyczy to tylko kompetentnych użytkowników języka, niewiele zmienia. Powstaje bowiem błędne koło: zdanie obserwacyjne to zdanie, na które w danym kontekście zgodzi się każdy kompetentny użytkownik języka. Kompetentny użytkownik języka to taki, który potrafi trafnie potwierdzić zdanie obserwacyjne w danych okolicznościach. Można oczywiście identyfikować wspólnotę językową i właściwe jej standardy językowe według innych kryteriów. Takowych jednak u Quine’a nie znalazłam. Powstają także trudności przy próbie formalnego opisu bodźcowego znaczenia zdania. Powszechnie wiadomo o problemach pragmatyki logicznej w kwestii sformalizowania kontekstu (zob.Tokarz, 1993). 2.4. Budowanie złożonych zdań obserwacyjnych. Zdania koniunkcyjne i predykatywne a) Quine podkreśla (patrz punkt 1.4.), że ciało fizyczne ma bardzo wyrazistą strukturę percepcyjną. Dlaczego nie wyciąga z tego dalej idących konsekwencji? Dlaczego rzecz nie miałaby szybko wyłaniać się ze strumienia percepcji? Dlaczego niemożliwe jest odniesienie językowe do przedmiotu postrzeganego odrębnie? Przyznam, że nie potrafię udzielić odpowiedzi na powyższe pytania w kontekście propozycji Quine’a przedstawionej w jego wczesnych dziełach. b) W The Roots of Reference Quine nieco zmienia pogląd na poznawcze możliwości dziecka i stwierdza, że ludzie są, jak to nazywa, ‘body minded animals’. Nigdy jednak nie zaprzeczył swej tezie jakoby niemowlętom brakowało umiejętności umysłowego reprezentowania rzeczowników policzalnych. Jak więc połączyć oba przekonania? Warto omówić to na przykładzie. Butelka w dziecięcym polu widzenia jest porcją doświadczenia, które nazwać można ‘butelkowością’. Kilka butelek też będzie stanowiło dla dziecka ową ‘butelkowość’. Butelkowość jest identyfikowalna dzięki kształtowi (butelki) jako istotnemu elementowi pobudzenia całościowego. Właśnie fakt, że dziecko wyróżnia kształt spośród elementów pobudzeń, jest spowodowany wspomnianą, typowo ludzką cechą wczesnego wyróżniania ciał. Absolutnie nie świadczy to jednak o tym, że dziecko jest w stanie identyfikować i reprezentować w umyśle słowa ‘jedna butelka’ czy ‘ta sama butelka’. Quine’owskie pojęcie ‘ciała’ nie jest określeniem przedmiotu zreifikowanego (rzeczy) i policzalnego. To, co jest tutaj Quine’owi potrzebne to pojęcie ‘ciała’ rozumianego jako rodzaj pojęcia sortującego, które wyznaczałoby rodzaje przedmiotów (Quine, 1973). 2.5. Budowanie obserwacyjnych zdań kategorycznych a) Obserwacyjne zdania kategoryczne w postaci: ‘Ilekroć. . . ,tylekroć. . . ’ są wyrazem prostego oczekiwania indukcyjnego, czyli naiwnej teorii świata. Quine zastrzega, że powinniśmy wyzbyć się wrażenia, jakoby występowała
50
Teoretyczny model nabywania języka według Quine’a
tutaj kwantyfikacja po odcinkach czasu lub przestrzeni. Jednak fakt, że zdanie to rzeczywiście nie ogniskuje się na jednym przedmiocie, nie świadczy o tym, że kwantyfikatory tu nie występują. Bo też dlaczego miałoby o tym świadczyć? Przecież wyrażenie tzw. ‘oczekiwania indukcyjnego’ , moim zdaniem, powinno mieć strukturę zdania ogólnego. Tak czy inaczej, zarzut ten nie czyni uszczerbku teorii reifikacji. Kwestia ta jest jednak zagadkowa. b) Quine stwierdza: „Chociaż kategoryczne zdanie obserwacyjne składa się ze zdań okazjonalnych, samo jest zdaniem stałym.” (Quine, 1997). O sprzeczności z definicją zdania obserwacyjnego pisałam wcześniej. Niewątpliwie wkradło się tutaj jakieś przeoczenie. Są dwie możliwości wyjścia z takiej sytuacji. Można uznać, że kategoryczne zdania obserwacyjne nie są ‘obserwacyjne’ w tym samym sensie. Należałoby więc ograniczać się do określania ich jako zdań kategorycznych. Przymiotnik ‘obserwacyjne’ traktować należałoby wtedy jako skrót dla ‘oparte na zdaniach obserwacyjnych’. Takie rozumienie tego terminu nie pociąga okazjonalności zdań kategorycznych. Druga droga to uznanie definicji zdania obserwacyjnego (def.4) za definicję zbyt wąską. Takie rozstrzygnięcie pociągałoby jednak za sobą istnienie takich zdań obserwacyjnych, które nie są okazjonalne. Sądzę, że nie jest to zgodne z zamysłem Quine’a. 2.6. Budowanie ogniskowych obserwacyjnych zdań kategorycznych a) Quine w jednej ze swych prac (Quine, 1997) wprowadza jaskrawe rozróżnienie pomiędzy wprowadzonym w pierwszej części pracy zaimkiem istotnym, a zaimkiem lenistwa. Zaimek lenistwa jest tym, co zwykliśmy nazywać anaforą. Jako przykład takiego, ‘nieistotnego’ użycia zaimka podaje Quine zdanie: ‘Uderzyłem się w głowę i boli mnie ona.’ Słówko ‘ona’ w drugiej części zdania jest, według Quine’a, zastąpieniem wyrazu głowa zaimkiem skracającym wypowiedź. Mówiąc półżartem, powyższemu przykładowi niewątpliwie sprzyja okoliczność posiadania przez człowieka jednej głowy. Czy rzeczywiście między zaimkiem istotnym a zaimkiem lenistwa jest tak istotna różnica ze względu na reifikację? Możliwe, że skrót taki powstał dzięki konieczności ekonomicznego wyrażania się. Czy nie jest to jednak wystarczającym świadectwem wcześniejszego reifikowania elementów strumienia bodźców? Nie wydaje mi się konieczne łączenie reifikacji z tak późnym etapem tworzenia zdań ogniskowych. Nawet na gruncie omawianej teorii. Pozostaje jeszcze zastanowić się, na ile trafna jest, postulowana przez Quine’a i innych badaczy tej samej orientacji (np.Piageta), analogia pomiędzy modelem przyswajania języka w ludzkim rozwoju jednostkowym a ewolucyjną genezą języka jako narzędziem człowieka. Moim zdaniem problemy, wobec których stali ‘pionierzy’ języka, nie muszą pokrywać się z wysiłkami niemowląt. Te ostatnie stają wobec gotowej struktury, nie są zmuszone każdorazowo „tworzyć” języka od podstaw. Wniosek wydaje się oczywisty. Jeżeli mój wykład poglądów Quine’a jest adekwatny, trudno oprzeć się wrażeniu, że jego teoria zawiera wiele luk.
Nina Gierasimczuk
51
Możliwe, że przy odrobinie dobrej woli wciąż nadaje się do obrony. Może wystarczyłoby aktualizować ją wraz z postępem badań naukowych, pamiętając o jej empirycznych korzeniach i Quine’owskim stylu filozofowania? Jakakolwiek próba obrony teorii powinna jednak zakładać jakiś jej zrąb, który decyduje o jej tożsamości pomimo wprowadzanych poprawek. Za taki fragment tej teorii moglibyśmy wspaniałomyślnie uznać główne twierdzenie Quine’a głoszące, że język jest pierwotny wobec ontologii. Założenie to wydaje się być tak pierwotne, że trudne do obalenia. Ostrożnie jednak – jest coraz więcej badań psychologii poznawczej i rozwojowej, których wyniki bezpośrednio odnoszone są do teorii Quine’a., a w szczególności do wspomnianej tezy.
3. Dyskusja psychologiczna Poniżej, tak jak obiecałam we wstępie, omówię wyniki kilku eksperymentów z zakresu psychologii rozwojowej. Przedmiotem tych badań była prelingwistyczna kompetencja ontologiczna człowieka. Artykuły prezentujące wyniki w tej dziedzinie w znaczący i bezpośredni sposób nawiązują do koncepcji Quine’a. Za oś zapowiedzianej konfrontacji posłuży mi artykuł pt.: Ontological categories guide young children’s induction of word meaning: Object terms and substance terms, którego autorkami są N.N. Soja, S. Carey, i E.S. Spelke. Przedstawię więc pokrótce przebieg i wyniki przeprowadzonych tam badań. Na koniec przytoczę kilka wątpliwości z nimi związanych. Na początek warto wprowadzić ustalenia terminologiczne oraz kilka wstępnych wyjaśnień. Konieczne jest w tym kontekście pewne ograniczenie rozważań nad kategoriami ontologicznymi. W badaniach ze względów praktycznych wyróżniony został podzbiór ogółu dopuszczalnych kategorii ontologicznych. Dzięki takiej specyfikacji badania są czytelne, a co ważniejsze – możliwe do przeprowadzenia. Zapewne wybrane tutaj kategorie powinno się nazywać kategoriami przedmiotowymi, ponieważ określenie ‘ontologiczne’, choć powszechne w tym znaczeniu w literaturze anglosaskiej, nie jest używane w tym sensie w polskiej tradycji filozoficznej. Ponieważ jednak rozumienie terminu ‘kategoria ontologiczna’ jest wystarczająco szerokie i podobne dla obu stron referowanego przeze mnie sporu, pozostanę przy tym określeniu. Na potrzeby badań wybrano dwie kategorie, opisane poniżej: a) Spójne przedmioty jednostkowe (solid objects) – przedmioty fizyczne charakteryzowane jako spoiste, ograniczone, czasoprzestrzennie ciągłe, trwałe i konkretne, poruszające się jako całości, niezależnie od siebie nawzajem, zajmując przy tym zawsze ciągłe fragmenty wolnej przestrzeni. b) Niespójne substancje (non-solid substances) – przedmioty fizyczne charakteryzowane jako czasoprzestrzennie ciągłe i konkretne, lecz niespoiste i nieograniczone, nie zachowujące granic przy napotkaniu innego przedmiotu tej kategorii (Spelke, 1985).
52
Teoretyczny model nabywania języka według Quine’a
Innym, często używanym tutaj pojęciem jest generalizacja nazwy według pewnego kryterium. Zjawisko to polega na rozszerzaniu ekstensji danej nazwy na podstawie pewnej cechy pobudzenia występującej podczas kontaktu z pierwszym poznanym odniesieniem przedmiotowym tej nazwy. 3.1. Proponowana interpretacja stanowiska Quine’a Główna teza, która będzie krytykowana, brzmi: Ontologia, która leży u podstaw języka, jest tak naprawdę indukowana przez dziecko podczas nauki języka. Założenia Quine’a, sprzyjające powyższej tezie: 1) Dopóki dziecko nie nauczy się poprawnie generować lub rozpoznawać wyrażeń z konstrukcjami kwantyfikatorowymi, dopóty nie kategoryzuje świata w ontologicznych terminach przedmiotu, substancji, własności itd. Rozróżnienia ontologiczne nie grają roli w życiu umysłowym niemowlęcia. 2) Dopóki dziecko nie nauczy się poprawnie generować lub rozpoznawać wyrażeń z konstrukcjami kwantyfikatorowymi, dopóty brakuje mu pojęć indywidualnych przedmiotów konkretnych takich jak: ‘stół’, ’Mama’ i pojęć porcji substancji takich jak: ‘kupka piasku’ czy ‘szklanka wody’. Według Quine’a znaczenie nowopoznanego przez dziecko słowa, wyznaczone jest przez następującą procedurę, którą dalej oznaczam ‘Procedurą Q’: Procedura Q: Ustal, że słowo odnosi się do tych aspektów rzeczywistości, które dzielą istotne własności doświadczenia zmysłowego z sytuacją, w której słowo jest używane. Autorki twierdzą, że propozycja Quine’a, jakkolwiek ciekawa i prawdopodobna, zbyt upraszcza złożoność relacji pomiędzy percepcyjnymi własnościami przedmiotów, a logiczną funkcją rzeczowników policzalnych. Quine uważa, że ontologia to wytwór kulturowy. Dopóki dziecko go nie opanuje, jego umysłowe uniwersum składa się z historii sporadycznych pobudzeń ‘a scattered portion of what goes on’. Quine traktuje przecież występujące w wieku niemowlęcym pobudzenia jako ciągłe pobudzenie, jakkolwiek nieco zróżnicowane. Można więc powiedzieć, podając obrazowy przykład, że dziecko widzi i określa świat w kategoriach ‘więcej mama’, ‘więcej czerwone’, ‘więcej woda’. Nie reifikuje jeszcze przedmiotów, ponieważ nie ma po temu wystarczających narzędzi, nie ma więc pojęcia trwałego przedmiotu. Podczas nabywania umiejętności językowych, szczególnie wyrażeń kwantyfikatorowych, następuje reifikacja i dziecko zmienia pierwotnie nabyte odniesienie wyrazu np. ‘Mama’ na jednostkowy przedmiot (Quine, 1999). Nawet zasygnalizowana w The Roots of Reference zmiana poglądów nie modyfikuje w znaczący sposób quine’owskiego pojęcia reifikacji przedmiotu.
Nina Gierasimczuk
53
3.2. Alternatywa W opozycji do powyższej perspektywy staje następująca teza: Naukę języka poprzedza w umyśle dziecka wcześniej istniejący zbiór kategorii ontologicznych. Procedury nabywania wiedzy językowej miałyby następujący kształt: Procedura 1: krok 1: Przekonaj się, czy mowa o spójnym przedmiocie jednostkowym; jeśli tak, krok 2: słowo odnosi się do spójnych przedmiotów jednostkowych tego samego typu. Procedura 2: krok 1: Przekonaj się, czy mowa o niespójnej substancji; jeśli tak, krok 2: słowo odnosi się do porcji niespójnej substancji tego samego typu. Przyjmijmy więc, że niemowlęta czynią zarysowane powyżej rozróżnienie. Należy jednak wyraźnie zaznaczyć, że nie znaczy to, iż potrafią one kwantyfikować po przedmiotach obu kategorii. Nie znaczy też, że to rozróżnienie jest konieczne dla nauki języka. Istotne są tu natomiast dwa rozróżnienia kwantyfikacyjne: 1. pomiędzy spójnymi przedmiotami jednostkowymi a porcjami niespójnych substancji; 2. pomiędzy indywiduami a typami indywiduów. Łatwo zauważyć, że rozróżnienie 1 jest pierwotne wobec 2. Na przykład samochód, będący przedmiotem obserwacji dziecka, może być interpretowany: jako połączenie metalu i szkła, jako samochodokształtny fragment pobudzenia całościowego lub jako wyabstrahowana całość, pewien obiekt. Kiedy już pobudzenie zostanie zinterpretowane na ostatni z podanych sposobów, dopiero wtedy może być interpretowane w kategoriach typu indywiduum (np. ciężarówka) lub jako unikalne indywiduum (np. Samochód Mamusi). Dalej będziemy zajmować się niemal wyłącznie rozróżnieniem 1 jako bardziej pierwotnym i adekwatnym do powziętego celu (krytyki poglądu reprezentowanego przez Quine’a.) Przeprowadzone dotychczas badania w większości wskazują, że dzieci generalizują nowopoznane nazwy obiektów na przedmioty o podobnym kształcie, częściej niż na przedmioty o innym kształcie lecz z tego samego materiału, na te zaś z kolei częściej niż na przedmioty składające się tylko z części rzeczonego wzoru. (Markman Wachtel, 1988). Badania te jednak nie przemawiają ani za koncepcją Quine’a ani przeciw niej ponieważ badani byli w wieku powyżej 3,5 roku, więc w większości poznali już składnię języka
54
Teoretyczny model nabywania języka według Quine’a
naturalnego. Z drugiej strony badania te nie ujawniły, do czego dzieci odnoszą wypowiadane słowa. Aby poważnie dyskutować z Quine’em trzeba znaleźć lepszą metodę badania omawianych procesów. 3.3. Lepsza metoda Lepsza metoda testowania tezy Quine’a powinna zawierać: a. Symultaniczne badanie dzieci pod względem uczenia się nazw obiektów różnych kategorii ontologicznych. — Jeśli dziecko generalizuje słowa na podstawie ogólnego podobieństwa, to te same wymiary podobieństwa pobudzeń powinny rządzić generalizacjami niezależnie od kategorii ontologicznej przedmiotów. — Jeśli z kolei rozróżnienia ontologiczne rządzą nauką języka, to generalizacja powinna zależeć od kategorii ontologicznej obiektu, do którego odnosi się słowo zasłyszane przez dziecko po raz pierwszy w obecności tego obiektu. b. Proponowane w badaniu przedmioty muszą należeć do różnych typów kwantyfikacji. — Aby dowiedzieć się, w jaki sposób dziecko kwantyfikuje po obiektach różnych kategorii ontologicznych. c. Badane dzieci powinny być w wieku przedkwantyfikatorowym. — Dzieci nie powinny jeszcze być w stanie poprawnie generować ani rozpoznawać konstrukcji kwantyfikatorowych. 3.4. Metodologia, przebieg i wyniki badań Przebieg głównego eksperymentu (eksperymentu 1.): Dzieci poddano dwóm typom testów: w pierwszym uczyły się nowej, nieznanej nazwy dla spójnego przedmiotu jednostkowego, w drugim nazwy dla niespójnej substancji. Następnie sprawdzono, w jaki sposób dzieci generalizują nazwy na nowo prezentowane przedmioty. W pierwszym przypadku poprawna generalizacja opierała się na kształcie i liczbie, lecz nie na materiale, w drugim zaś - dokładnie odwrotnie. Jednak nawet jeśli w przypadku przedmiotów indywidualnych dzieci poprawnie generalizowały nazwę na inne przedmioty wg kryterium kształtu i liczby a nie materiału, nie staje to w konflikcie z tezą Quine’a, ponieważ uważa on podobieństwa kształtu i podobieństwo liczebności za najsilniejsze elementy pobudzenia. Z tego powodu skonstruowana została druga część badania. Bierze się tam pod uwagę substancje niespójne. Zaprezentowaną dziecku porcję substancji niespójnej nazwano w jego obecności. Następnie dziecko miało zgeneralizować tę nazwę, do wyboru mając tę samą substancję inaczej porcjowaną (liczba kupek) oraz alternatywę w postaci innej substancji zgrupowanej identycznie jak pierwotna. Jeśli generalizacja nazw polega na tak samo zhierarchizowanym podobieństwie ogólnym w przestrzeni jakościowej wolnej od kategoryzacji ontologicznej, to wzór reakcji powinien być taki sam dla obu typów testów.
Nina Gierasimczuk
55
Badania przeprowadzono na bardzo młodych dzieciach od 2 do 2,5 roku życia. Z wcześniejszych badań wiadomo, że dzieci w tym wieku nie przyswoiły jeszcze składniowego rozróżnienia rzeczowników na policzalne i niepoliczalne (Gordon, 1982; 1985). Mimo to sprawdzono, czy dzieci operują odpowiednią składnią, warunkując odpowiednio testy. Podzielono badania na dwie części: na pierwszą nałożono warunek neutralności składniowej, na drugą – informatywności składniowej. Jeśli dziecko znało wcześniej tego rodzaju składnię, to poprawność przeprowadzanej przez nie generalizacji powinna być większa w części informatywnej składniowo niż w tej składniowo neutralnej. Eksperyment 1. Hipoteza: Rozróżnienia ontologiczne stosowane przez dzieci są pierwotne wobec znajomości składni. Przebieg: Przebadano 22 dzieci o średniej wieku – 2 lata. Każdą sesję rozpoczynały dwie części dotyczące nazw znanych badanym dzieciom. Jedna z rund dotyczyła nazw przedmiotów (niebieski plastikowy kubek, biały kubek ze styropianu, fragmenty kubka), druga – substancji (masło orzechowe i Play-doh). Po nich następowało osiem kolejnych części: cztery dotyczyły nieznanych nazw odnoszących się do przedmiotów, pozostałe cztery – do nieznanych nazw substancji. Lista podawanych nazw przedstawia się następująco: ‘blicket’, ‘stad’, ‘mell’, ‘coodle’, ‘doff’, ‘tannin’, ‘fitch’ i ‘tulver’. A. Testy dla nieznanych nazw spójnych przedmiotów jednostkowych przy neutralnej składni. Przedstawiono dziecku nieznany spójny przedmiot jednostkowy. Przedmioty zostały nazwane przez eksperymentatora w następujący sposób: ‘This is my blicket.’ Dalej eksperymentator opowiadał o obiekcie używając tylko określników: ‘my’. ‘the’, ‘this’. Po zabawie przedmiot był odkładany na bok. Następnie zaprezentowano badanemu dwa zbiory innych obiektów: jeden składał się z przedmiotów o podobnym kształcie ale z innego tworzywa względem wzoru, drugi składał się z przedmiotów o innych kształcie ale z tego samego tworzywa co wzór. Następowało zalecenie: ‘Point the blicket’. B. Testy dla nieznanych nazw niespójnych substancji przy neutralnej składni. Przedstawiano dziecku porcję nieznanej niespójnej substancji. Została ona nazwana w obecności badanego: ‘This is my stad.’ Używano tylko określników: ‘my’, ‘the’, ‘this’. Podczas połowy rund testowych prezentowano dziecku substancję w jednej porcji, w pozostałej części w trzech lub czterech porcjach. Następnie pokazywano badanemu dwie substancje: oryginalną i nową, zalecając: ‘Point the stad.’. Substancja oryginalna znajdowała się w innej konfiguracji, natomiast druga w takiej samej konfiguracji jak ta pierwotna.
56
Teoretyczny model nabywania języka według Quine’a
W testach typu A i B występująca w nich neutralna składnia nie determinowała, czy dany rzeczownik zalicza się do klasy policzalnych czy niepoliczalnych. C. Testy dla nieznanych nazw spójnych przedmiotów jednostkowych i niespójnych substancji przy składni informatywnej. Różnią się od poprzednich doświadczeń jedynie określnikami używanymi przez eksperymentatora wobec nazw obiektów. Używa się tutaj innych określników i kwantyfikatorów, np.: — Dla przedmiotów jednostkowych: ‘This is a blicket.’ ; dalej: ‘a blicket’, ‘another blicket’; — dla niespójnych substancji ‘This is stad.’; dalej: ‘some stad’, ’some more stad’. Powyższe wyrażenia kwantyfikatorowe zostały wybrane dzięki ich stosunkowo wczesnemu pojawianiu się mowie dziecięcej. Pytania testowe miały neutralną formę: ‘Which is the xxx?’
Rysunek 1. Eksperyment 1 – zgodność generalizacji z kryterium kształtu
Wynik: Odpowiedzi były zgodne z kryterium kształtu i liczebności w testach dotyczących spójnych przedmiotów jednostkowych (składnia neutralna: 93%, składnia informatywna: 94%), natomiast w rundach pytań dotyczących niespójnych substancji zgodność ze wspomnianymi kryteriami była znikoma (odpowiednio 24% i 30%). Podsumowując: dzieci wybierały obiekt z kategorii, której przedmiot był im wcześniej prezentowany. Nie zaobserwowano wpływu obecności składni informatywnej. Okazała się ona bez znaczenia dla wyników eksperymentu. Powyższe badanie sugeruje, że pierwsze założenie Quine’a jest błędne. Eksperyment 1 pokazuje, że wnioski dotyczące znaczenia danego wyrazu są ściśle związane ze statusem ontologicznym odniesienia. Jeśli słowo odnoszone jest do jednostkowego przedmiotu, dziecko bierze pod uwagę kształt
Nina Gierasimczuk
57
i liczebność, jeśli do niespójnej substancji, dziecko bierze pod uwagę fakturę, kolor i ‘konsystencję’. Eksperyment 2. Hipoteza: Na wynik eksperymentu 1 mogła mieć wpływ nie – różnica kategorii ontologicznych, lecz znaczna różnica w złożoności prezentowanych przedmiotów. Prezentowane w eksperymencie 1. przedmioty jednostkowe miały kształty złożone. Substancje podane zostały na prosty sposób. Według Procedury Q możliwe jest, że dzieci łączyły wyraz z najsilniejszą cechą pobudzenia z nim stowarzyszonego. Przebieg: W eksperymencie 1 kształty mogły być tym istotnym elementem pobudzenia. W przypadku substancji to nie kształt, ale kolor lub faktura mogły decydować o ich zakwalifikowaniu do danej kategorii. W obecnym eksperymencie zamieniamy zagadnienie różnic ontologicznych na parowanie ze względu na złożoność obiektów. Przedmioty indywidualne mają kształty proste, natomiast substancje pogrupowane są w kształty złożone. Przebieg eksperymentu 2. jak eksperymentu 1. Wynik: Badani generalizowali nazwy obiektów ze względu na kształt i liczebność, natomiast nazwy substancji ze względu na fakturę i kolor. Podejrzenia, jakoby dzieci generalizowały nazwy ze względu na kształt (zawsze wtedy gdy jest on istotną częścią pobudzenia), nie potwierdziły się. Utrzymano więc w mocy wnioski z eksperymentu 1. Z eksperymentu 2 wynika, że kształt pozostaje istotną cechą pobudzenia w przypadku (nawet wyjątkowo prostych) obiektów jednostkowych. Nie staje się natomiast istotny w przypadku substancji, nawet gdy znacznie skomplikuje się kształty ich zgrupowań. Podobne wyniki otrzymano w obu przypadkach: tak dla znanych jak i nieznanych wyrazów. Głównym celem eksperymentu 2. było rozstrzygnąć, czy percepcyjna istotność kształtu związana z kategorią ontologiczną mogła być odpowiedzialna za wynik eksperymentu 1. Wynik eksperymentu 2 wspiera procedury 1 i 2. Substancje miały bardziej skomplikowane kształty niż obiekty, a jednak rezultaty eksperymentów 1 i 2 są bardzo zbliżone. Eksperyment 3. Hipoteza: Możliwe, że trafność generalizacji nazw przedmiotów jednostkowych (bliska 100%) spowodowana była szczególnym poznawczym zainteresowaniem dzieci przedmiotami tego rodzaju. Przebieg: Pokazywano dzieciom przedmioty w parach: spójny przedmiot jednostkowy i niespójna substancja. Zadawano pytanie: ’Which of these would you like to play with?’.
58
Teoretyczny model nabywania języka według Quine’a
Rysunek 2. Eksperyment 2 – zgodność generalizacji z kryterium kształtu
Wynik: Zainteresowanie oboma rodzajami przedmiotów rozłożyło się prawie po połowie. Nie zaobserwowano żadnych szczególnych preferencji wobec którejś z dwóch wymienionych kategorii. 3.5. Wnioski ogólne Pozwolę sobie teraz powrócić do wyróżnionych na początku założeń Quine’a. Przypomnijmy: 1) Dopóki dziecko nie nauczy się poprawnie generować lub rozpoznawać wyrażeń z konstrukcjami kwantyfikatorowymi, dopóty nie kategoryzuje świata w ontologicznych terminach przedmiotu, substancji, własności itd. Rozróżnienia ontologiczne nie grają roli w życiu umysłowym niemowlęcia. 2) Dopóki dziecko nie nauczy się poprawnie generować lub rozpoznawać wyrażeń z konstrukcjami kwantyfikatorowymi, dopóty brakuje mu pojęć indywidualnych przedmiotów konkretnych – takich jak: ‘stół’, ‘Mama’ i pojęć porcji substancji – takich jak: ‘kupka piasku’ czy ‘szklanka wody’. Komentarz do założenia 1) oraz 1. kroku Procedur 1. i 2. Wyniki badań wskazują, że dzieci w językowym stadium przedkwantyfikatorowym widzą świat bogaty w rozróżnienia ontologiczne. Rozróżnienie obecne w tych badaniach mówi jedynie o przedmiotach jednostkowych i niespójnych substancjach. Pojawia się w związku z powyższym pytanie, czy w zakres tych rozważań można włączyć i inne kategorie ontologiczne. Te, które tutaj zbadano, warunkują najwidoczniej projekcję znaczeń u małych dzieci, są wobec nazywania pierwotne. Istotne cechy pobudzenia nie pokrywały się bowiem dla obu rodzajów przedmiotów. Landau et al. (1988), obrońcy wizji Quine, przytaczali zwykle argumenty i badania na poparcie tezy, jakoby to kształt był najistotniejszą cechą pobudzenia. W świetle obecnych badań moglibyśmy zgodzić się na to jedynie w kontekście spójnych
Nina Gierasimczuk
59
przedmiotów jednostkowych, dla niespójnych substancji przyjąć natomiast jako obowiązujące kryteria koloru i faktury. Można wtedy zaproponować następujące, konkurencyjne wobec 1. i 2., procedury: Procedura 3. Krok 1: Sprawdź czy mówiący odnosi nazwę do przedmiotu jednostkowego; jeśli tak, Krok 2: istotną cechą generalizacji ma być kształt. Procedura 4. Krok 1: Sprawdź czy mówiący odnosi nazwę do niespójnej substancji; jeśli tak, Krok 2: istotną cechą generalizacji ma być faktura i kolor. Te procedury rzeczywiście zdają sprawę z posiadania przez dzieci przedjęzykowej proceduralnej wiedzy ontologicznej. Komentarz do założenia 2) i 2. kroku procedur 1. i 2. Rozważanie kluczowej roli liczebności w tym studium wspiera konkluzję, że dzieci używają rzeczowników odnoszonych do obiektów kwantyfikując jak po indywiduach, a tych odnoszonych do substancji – kwantyfikując po porcjach. W tym eksperymencie dzieci poprawnie generalizowały nazwę obiektu na inny obiekt prawdopodobnie dlatego, że dostępna alternatywa nie była jednostkowym obiektem, różniła się typem kwantyfikacji. Dziecko wie, że nazwa musi być generalizowana na obiekty tego samego typu, ale nie wie jeszcze co to znaczy, że przedmiot jest tego samego typu. W zdaniach z substancjami wg Procedury 2 dziecko nie może wyeliminować żadnej alternatywy. Porcje substancji mogą być dzielone lub łączone (lub mogą mieć zmieniony kształt), zmienia to ich (pozorną) liczebność, a mimo to pozostają ta samą substancją. W związku z tym, zadania dotyczące substancji i obiektów nie są do końca symetryczne. Jeśli dziecko podążałoby za proponowanymi wcześniej procedurami 1 i 2, efektywność generalizacji powinna być idealna dla zadań z obiektami lecz nie dla zadań z substancjami. Taki właśnie okazał się wynik eksperymentów 1 i 2. (patrz – wykresy). Dzieci generalizują poprawnie nie mając dobrych metod określania rodzajów obiektów i substancji. Rola, jaką odegrała w tym badaniu liczebność, wsparła konkluzję, że dzieci rozumują raczej według procedur 1 i 2 niż procedur 3 i 4. Udało się udowodnić, że rozróżnienia kwantyfikacyjne pomiędzy obiektami i substancjami kierują uczeniem się rzeczowników przez dziecko już w wieku 2 lat i nie jest to indukcja oparta na uczeniu się kwantyfikacji języka rodzimego.
60
Teoretyczny model nabywania języka według Quine’a
Ciekawym wydaje się pytanie, czy to rozróżnienie wpływa na wszystkie procedury indukowane w trakcie nauki języka, czy tylko projekcję znaczeń słów, czy może jedynie projekcję znaczeń rzeczowników. . . Czy te wyniki rzeczywiście zgodne są z pozostałymi wynikami badań empirycznych? Otóż psychologowie rozwojowi nie stanowią bynajmniej jednego frontu. W pewnych badaniach (Dromi, 1987) dowodzono, że dzieci często rozszerzają ekstensję nazw wg dowolnej, istotnej cechy pobudzenia. Znaczenia wyrazów internalizowane przez dzieci nie muszą odzwierciedlać w tym zakresie intuicji dorosłych. Dla młodych użytkowników języka mogą się one odnosić się do dowolnych fragmentów rzeczywistej sytuacji. Szczególnie często, według wspomnianych badań, występuje zjawisko generalizowania nazwy przedmiotu na sytuacje, w których przedmiot ten odgrywa istotną rolę. Na przykład ‘papier’ często odnosi się do czynności wycinania, rysowania, pakowania. Z drugiej strony wyniki takie nie muszą świadczyć o skomplikowaniu dziecięcej ontologii, a jedynie o konieczności efektywnej komunikacji. Ponieważ małe dzieci mają bardzo ograniczony zasób słów, dla komunikowania swych potrzeb wybierają taki właśnie sposób. A dorośli potrafią trafnie interpretować takie ‘oszczędne’ wypowiedzi prawdopodobnie dzięki kontekstowi. Innymi testowanymi metodami generalizacji nazw miałyby być rozmaite pojedyncze elementy pobudzenia. O kształcie, jako takim kryterium była już mowa wcześniej. W tym zakresie można też znaleźć badania dotyczące kontrastu (Clark, 1987), wzajemne wykluczanie się (Markman Wachtel, 1988), składowe taksonomiczne (Markman, 1984). Jednak badania nad kategoriami przedmiotowymi, o których mowa była wcześniej, dotyczą niewątpliwie kwestii najbardziej elementarnych oraz są najbardziej wiarygodne. Z wieloma zresztą spośród wymienionych eksperymentów nie stoją w sprzeczności lub dają się bez szkody z nimi uzgodnić. Warto przytoczyć jeszcze jeden argument przeciw istotności kategorii ontologicznych (w sensie Sommers, 1963) dla generalizacji nazw. Przeciwna teza brzmi: „naming practicess often focus on similarity in object shape over pedicted ontological categories” (Landau et al., 1988). Przykładami takiej generalizacji są na przykład: generalizacja nazwy ‘miś’: dobra nazwa zarówno dla zabawki, jak i dla zwierzęcia. Wydaje się jednak, że argument jest chybiony. Oba wspomniane przedmioty nie są tak samo nazywane ze względu na wzajemne podobieństwo. Kluczowym aspektem jest tutaj raczej kwestia reprezentowania. Dwie rzeczy należące do różnych kategorii ontologicznych nazywane są tak samo, ponieważ jedna z nich reprezentuje inną. Badania nad dziecięcą ontologią oraz nad ich reprezentacjami umysłowymi mają też inną odsłonę. Są to badania nad całkiem małymi dziećmi, w których głównym przedmiotem testów są dziecięce reakcje wzrokowe. Bada się tutaj na przykład dziecięce oczekiwania indukcyjne związane z wyabstrahowaniem przedmiotu. Najbardziej charakterystyczny dla tego typu badań jest następujący przykład: dziecku pokazuje się pewien przedmiot przesuwając go w polu widzenia badanego. W pewnym momencie ruch przedmiotu napotyka przeszkodę. Eksperymentator chowa przedmiot za przeszkodą. Na-
Nina Gierasimczuk
61
stępująca teraz reakcja dziecka ma zdecydować o wyniku przedsięwzięcia. Jeśli dziecko szuka wzrokiem przedmiotu wysuwającego się z drugiej strony przeszkody, znaczy to, że udało mu się wyabstrahować przedmiot spośród całości sytuacji bodźcowej. Jeśli traci zainteresowanie całym zajściem – albo jest zmęczone, albo nie uprzedmiotowiło bodźca. W związku z takimi przykładami badań, nietrudno zauważyć, że najbardziej korzystny dla wiarygodności badań nad prelingwistyczną wiedzą ontologiczną człowieka jest średni wiek badanych. Taki, w którym możliwe jest już porozumiewanie się z badanym, ale jeszcze niepełne składniowo. Z zebranych powyżej danych widać wyraźnie, że daleko jeszcze do wypracowania wiedzy, jakiegoś pewnego zrębu w zakresie psychologii rozwojowej. Adepci tej dziedziny są dobrej myśli. Ich pozytywna działalność wykorzystywana często (jak tutaj) z pobudek krytycznych, ponownie rodzi zamęt w nieco zapomnianych już, skazanych na wieczne nierozstrzygnięcie rewirach psycholingwistyki. Trudno jednak oprzeć się wrażeniu, że efektom przez nich uzyskanych brakuje jasności i oczywistości. . . Badania jednak trwają, a stowarzyszone z wynikami neurologii i psychologii poznawczej, dają ciekawe efekty. Mam wrażenie, że nawet sam Quine przyklasnąłby wielu tezom wysuwanym przez taki tandem badaczy.
Literatura Carnap, R. (1967): The Logical Structure of the World. Berkeley, University of California Press, [przekład z Der logische Aufbau der Welt (1928)]. Chomsky, N. (1980): Teoria lingwistyczna. [W:] Język w świetle nauki. B. Stanosz (red.), Warszawa, Czytelnik. Chomsky, N. (1997): Krytyka Verbal Behavior B.F.Skinnera. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Chomsky, N. (1997): O pewnych empirycznych założeniach współczesnej filozofii języka. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Chomsky, N. (1997): Nowy przyczynek do teorii idei wrodzonych. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Chomsky, N. (1997): Lingwistyka a filozofia. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Clark, E.V. (1987): The principle of contrast: A constraint on language acquisition. [W:] Mechanisms of language acquisition. B. Whinney (red.), Hillsdale, Erlbaum. Dromi, E. (1987): Early lexical development. London, Cambridge University Press. Haman, M. (2002): Pojęcia w umyśle. Warszawa, Matrix. Gordon, P. (1982): The acquisition of syntactic categories: The case of the count/mass distinction. Cognition 20, 209–242. Gordon, P. (1985): Evaluating the semantic categories hypothesis: The case of the count/mass distinction. Cognition 20, 209–242. Kurcz, I. (2002): Psychologia języka i komunikacji. Warszawa, Scholar. Landau, B., S. Jones, L. Smith (1988): The importance of shape in early lexical learning. Cognitive Development 3, 299–321.
62
Teoretyczny model nabywania języka według Quine’a
Landau, B., S. Jones, L. Smith (1992): Perception, ontology, and naming in young children: Commentary on Soja, Carey, and Spelke. Cognition 43, 85–91. Lyons, J. (1972): Chomsky. Warszawa, Wiedza Powszechna. Markman, E.M. (1984): Children’s sensivity to constraints on word meaning: Taxonomic versus thematic relations. Cognitive Psychology 16, 1–27. Markman, E.M., G.F. Wachtel (1988): Children’s use of mutual exclusivity to constrain the meanings of words. Cognitive Psychology 20, 121–157. Quine, W.V.O. (1973): The roots of reference. La Salle, IL, Open Court Press. Quine, W.V.O. (1977): Refleksje metodologiczne o najnowszej teorii lingwistycznej. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Quine, W.V.O. (1977): Filozoficzny postęp w teorii języka. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Quine, W.V.O. (1977): Lingwistyka a filozofia. [W:] Lingwistyka a filozofia. B. Stanosz (red.), Warszawa, PWN. Quine, W.V.O. (1980): Umysł a dyspozycje werbalne. [W:] Język w świetle nauki. B. Stanosz (red.), Warszawa, Czytelnik. Quine, W.V.O. (1995): Od bodźca do nauki. Warszawa, Spacja. Quine, W.V.O. (1997): Na tropach prawdy. Warszawa, Aletheia. Quine, W.V.O. (1999): Słowo i przedmiot. Warszawa, Aletheia. Soja, N.N., S. Carey, E.S. Spelke (1991): Ontological categories guide young children’s induction of word meaning: Object terms and substance terms. Cognition 38, 179–211. Soja, N.N., S. Carey, E.S. Spelke (1992): Perception, ontology, and word meaning. Cognition 45, 101–107. Sommers, F. (1963): Types and Ontology. Philosophical Review 72, 327–363. Spelke, E.S. (1985): Perception of unity, persistence, and identity: Thoughts on infants’ conception of objects. [W:] Neonate cognition: Beyond the blooming buzzing confuzion. J. Mehler R. Fox (red.), Hillsdale, Erlbaum. Stanosz, B (red.) (1977): Próba rewolucji w lingwistyce. Warszawa, PWN. Stanosz, B. (1980): Wstęp. [W:] Język w świetle nauki. B. Stanosz (red.), Warszawa, Czytelnik. Strelau, J. (1999): Psychologia. Podręcznik akademicki. Podstawy psychologii. Sopot, Gdańskie Wydawnictwo Psychologiczne. Tokarz, M. (1993): Elementy pragmatyki logicznej. Warszawa, PWN. Watson, J. (1990): Behawioryzm oraz Psychologia, jak ją widzi behawiorysta. Warszawa, PWN.
Sebastian Kozłowski
Co to jest tłumaczenie maszynowe?
W dzisiejszych czasach obserwujemy coraz większe zapotrzebowanie na tłumaczenie tekstów. Rośnie ono zwłaszcza w dziedzinach handlu oraz administracji międzynarodowej. Dobrym przykładem jest tutaj Unia Europejska, gdzie szacuje się, że około 40% administracyjnego kosztu przypada na tłumaczenie dokumentów pomiędzy 11 oficjalnymi językami w Unii. Zauważyć można, że pomimo tak wielkich nakładów i tak dla dziesięciu procent mieszkańców Unii ich język ojczysty nie należy do tej grupy (m.in. języki: kataloński, baskijski, szkocki, irlandzki, luksemburski). Po rozszerzeniu Unii o kolejne państwa członkowskie liczba języków oficjalnych wzrośnie do 191 , co zwiększy i tak olbrzymie koszty tłumaczenia. W przypadku międzynarodowego handlu sytuacja wygląda dosyć podobnie. Wystarczy rozważyć problem tłumaczenia instrukcji do urządzeń sprzedawanych na całym świecie lub lokalizacji produktów informatycznych. Oczywiste jest więc, że zapotrzebowanie na tłumaczenia wzrasta i ta tendencja z pewnością się utrzyma. Można zaproponować kilka rozwiązań takiego problemu, jednym z nich mogłoby być zatrudnienie większej ilości tłumaczy. Niestety z komercyjnego punktu widzenia, chociaż powszechnie praktykowane, takie rozwiązanie jest bardzo kosztowne. Pojedynczy tłumacz ma ograniczone możliwości co do liczby przetłumaczonych stron dziennie, więc zwiększone ilości dokumentów do przetłumaczenia powodują konieczność zatrudnienia nowych pracowników, co wiąże się z dodatkowymi kosztami. Innym rozwiązaniem mogłoby być wykorzystanie do komunikacji wyłącznie jednego języka. Nie jest zaskakującym jednak fakt, że większość ludzi nie będzie chciała się w ramach tej idei nauczyć języka obcego, zwłaszcza, że jest to zadanie dosyć trudne i pochłaniające dużą ilość czasu. Ponadto język jest nierozerwalnie związany z kulturą kraju swojego pochodzenia, a niektórzy ludzie postrzegają w tym zagrożenie dla swojej rodzimej kultury. Jeszcze jednym powodem niechęci jest świadomość, że pomimo dużego nakładu pracy, umiejętność posługiwania się językiem obcym i tak będzie słabsza od ludzi, dla których ten język jest językiem ojczystym. Pewną alternatywą byłby język sztuczny, taki jak Esperanto czy Interlingua, jednakże tutaj problemem jest niewielka ilość osób mówiących w takich językach (szacuje się, 1 Przy założeniu, że nowymi językami urzędowymi staną się: czeski, estoński, litewski, łotewski, polski, słowacki, słoweński i węgierski.
64
Co to jest tłumaczenie maszynowe?
że w Esperanto jest w stanie porozumiewać się około 2 mln ludzi), więc nie są to języki o dużym znaczeniu. Ostatnim rozwiązaniem, które jak podejrzewamy odegra istotną rolę w naszym wieku, jest wykorzystanie komputerów do tłumaczenia. Technologia ta znana jest jako tłumaczenie maszynowe (ang. Machine Translation, MT) i tą technologią zajmiemy się w tym opracowaniu. Tłumaczenie maszynowe polega na automatycznym tłumaczeniu tekstu lub mowy z jednego języka na drugi i jest jednym z najważniejszych zastosowań przetwarzania języka naturalnego (ang. Natural Language Processing, NLP), dziedziny z pogranicza informatyki i lingwistyki. Pomysł tłumaczenia maszynowego nie jest nowy, tak naprawdę pierwsze odnotowane pomysły pochodzą z XVII wieku, jednak dopiero nadejście komputerów pozwoliło na znaczący rozwój tej dziedziny. Przez ostatnie 40 lat w tłumaczenie maszynowe zainwestowano olbrzymie fundusze i pomimo wieloletniej pracy licznych ośrodków badawczych nadal jesteśmy daleko od kompleksowego rozwiązania obejmującego tworzenie dowolnych tłumaczeń. Tak naprawdę to nawet nie wiemy, czy taki cel może być kiedykolwiek osiągnięty. Jeżeli założymy prawdziwość hipotezy silnej sztucznej inteligencji (Penrose, 1996, str. 28-38), w myśl której umysł ludzki wykonuje jedynie skomplikowany równoległy algorytm, to zbudowanie maszyn pozwalających na tłumaczenie tekstów w ten sam sposób co ludzie jest przynajmniej teoretycznie możliwe. Co więcej – możliwe w takim wypadku jest zbudowanie maszyn realizujących wszystkie twórcze zadania, tradycyjnie zarezerwowane dla ludzi, takie jak literatura piękna, muzyka czy sztuka i to lepiej, i szybciej niż ludzie. Ze względu na złożoność ludzkiego mózgu, może się okazać, że nawet w tym wypadku możliwość ta nie zostanie nigdy wykorzystana. Natomiast jeżeli hipoteza silnej sztucznej inteligencji jest fałszywa, a co za tym idzie, ludzki umysł posiada pewne cechy, które nie mogą zostać symulowane w sposób algorytmiczny, wówczas to, czy maszyny mogą być równie sprawne i uniwersalne jak ludzcy tłumacze, nadal jest problemem otwartym. Być może maszyny i na tym polu prześcigną ludzi, podobnie jak w szachach, metodą „siłową”, poprzez doskonalenie metod symbolicznych i zwiększanie ilości danych dla metod statystycznych.
1. Dlaczego tłumaczenie maszynowe jest trudne? Spróbujemy przyjrzeć się kilku przykładom tłumaczeń, czynnościom, jakie wykonuje człowiek podczas tłumaczenia i informacjom, jakie mu są do tego niezbędne. Pozwoli nam to określić, jakie informacje i możliwości powinien posiadać uniwersalny system tłumaczenia maszynowego. Rozważmy przykład pojedynczego francuskiego zdania (Kay, 1997), które padło podczas rozmowy: Ou voulez-vous que je me mette? znaczy dosłownie Gdzie chcesz abym się umieścił? (ang. Where do you want me to put myself?). Przetłumaczone przez tłumacza na język polski będzie natomiast w sposób Gdzie chcesz abym usiadł?, Gdzie mam zaparkować?, Gdzie mam się podpisać?
Sebastian Kozłowski
65
itp. Pewna dodatkowa informacja musi zostać dodana podczas tłumaczenia, aby utworzyć naturalną wypowiedź języka polskiego. Zdanie Gdzie chcesz abym się umieścił?, chociaż najbliższe znaczeniu francuskiemu z pewnością nie zostałoby wybrane przez tłumacza. Okazuje się, że tym, co pozostaje niezmienne podczas tłumaczenia jest nie znaczenie zdania, ale interpretacja, a więc wrażenie, jakie tekst ma wywołać u czytelnika. Interpretacja zależy jednak od kontekstu wypowiedzi i tutaj leży podstawowe źródło trudności tłumaczenia maszynowego. Często zatem systemy tłumaczenia maszynowego budowane są dla ograniczonych domen, jak np. tekst techniczny czy raporty pogodowe, gdyż wówczas kontekst wypowiedzi praktycznie zanika. Niemniej jednak, nawet w takich systemach możemy napotkać na problemy. Dla przykładu – w jednym z systemów tłumaczących domena wypowiedzi została ograniczona do rozmowy pomiędzy parą osób dotyczącą czasu i miejsca następnego spotkania (Kay, 1997).W jednym z pierwszych badanych dialogów wystąpiło zdanie Geht es bei Ihnen?. Niestety są dwie interpretacje, które mogą zostać przetłumaczone na angielski jako Is that alright with you? (Czy to ci odpowiada?) oraz Can we meet at your place? (Czy możemy się spotkać u Ciebie?). Domena wypowiedzi jest ograniczona w bardzo dużym stopniu, a mimo to okazuje się, że jedynie analiza kontekstu wypowiedzi pozwoli na poprawną interpretację. Okazuje się, że nawet analizując teksty techniczne nie jesteśmy wolni od takich problemów (Cole et al., 1995). Tłumaczenie maszynowe jest tak trudne, gdyż stanowi twórczy proces i niezbędna podczas tłumaczenia jest nie tylko wiedza lingwistyczna, ale także, co nie zawsze brane jest pod uwagę, wiedza o otaczającym nas świecie, którą posiada każdy tłumacz, a którą trzeba implementować w programach tłumaczących w inny sposób. Rozważmy poniższy fragment „Latarnika” Henryka Sienkiewicza w przekładzie Moniki M. Gardner. Poniżej tekstu w języku angielskim podane jest dosłowne znaczenie w języku polskim. . . . therefore one hour followed another, and he was still on the balcony. Zatem jedna godzina następowała po innej, i on był ciągle na balkonie. He gazed; he drank his fill; he was convinced. On patrzył; on pił swoje wypełnienie; on był przekonany. He might have been seeing the sea for the first time in his life. On mógł widzieć morze po raz pierwszy w swoim życiu. The lens of the lantern flung into the darkness a mighty cone of light, Soczewki latarni rzucały w ciemność potężny stożek światła, beyond which the old man’s eyes were lost in a distance, poza który starego człowieka oczy były zgubione w oddali, that was pitch black, mysterious, and terrible. to było smołowo czarne, tajemnicze i straszne.
A teraz porównajmy to z tekstem oryginalnym: . . . więc godziny jedna za drugą spływały mu na balkonie. Patrzył, nasycał się, przekonywał. Mogłoby się zdawać, że pierwszy raz w życiu widział morze, bo północ
66
Co to jest tłumaczenie maszynowe? wybiła już na aspinwalskich zegarach, a on jeszcze nie opuszczał swojej powietrznej wyżyny – i patrzył. W dole pod jego stopami grało morze. Soczewka latarni rzucała w ciemność olbrzymi ostrokrąg światła, poza którym oko starca ginęło w dali czarnej zupełnie, tajemniczej i strasznej.
Pierwsze wnioski, które się nasuwają, to fakt, że tłumaczenie to – pomimo, że z pewnością może być uznane za dobre, nie jest tłumaczeniem dokładnym. W tym fragmencie dobitnie widać, że dopuszczalne jest nawet opuszczenie pewnych fragmentów tekstu oryginalnego. Można zauważyć również rezygnację z bardziej poetyckiego języka, gdzie godziny spływają po balkonie, a morze gra, które brzmiałoby dziwacznie przetłumaczone dosłownie, na rzecz bardziej stonowanego angielskiego języka poetyckiego. Wykorzystywane są wyrażenia idiomatyczne, jak np. to drink one’s fill odpowiadający polskiemu nasycać się. Widać również, iż w teście wynikowym mogą być dodawane informacje, jak np. dal czarna zupełnie określona przez angielski pitch black (czarna jak smoła). Jak widać, tłumaczenie takiego rodzaju wymaga głębokiego zrozumienia języka i tekstu źródłowego, i umiejętności wyszukanego, poetyckiego posługiwania się językiem wynikowym. Problem tłumaczenia dowolnie wybranego tekstu z jednego języka na inny jest więc stanowczo zbyt skomplikowany, aby mógł być całkowicie zautomatyzowany. Zauważmy również, że w tym przypadku mamy do czynienia z dwoma językami indoeuropejskimi o zbliżonej kulturze. W przypadku języków bardziej odległych jak np. polski i chiński przekład byłby jeszcze trudniejszy. Z wyżej wymienionych powodów tłumaczenie maszynowe często spotykało się z niechęcią, było uważane za stratę czasu i stawało się obiektem żartów. Jako dowód na nieudolność systemów tłumaczących przytaczane były co zabawniejsze z licznych wpadek pierwszych systemów tłumaczenia maszynowego, jak np. w przypadku angielsko-rosyjskiego systemu tłumaczącego, gdy zdanie the spirit is strong but the flesh is weak (Duch jest silny, ale ciało jest słabe) uzyskało po przetłumaczeniu interpretację the vodka is strong but the meat is rotten (Wódka jest mocna, ale mięso jest zepsute). Inna często cytowana wpadka tym razem w systemie angielsko-francuskim to hydraulic ram (bijak hydrauliczny2 ) przetłumaczony jako water goat (kozioł wodny). W środowisku tłumaczy, widzących, niesłusznie zresztą, w tłumaczeniu maszynowym zagrożenie dla swojego zawodu, odnośnie tej technologii często padało określenie you can have it fast, cheap, and good. Pick any two, czyli możesz to mieć szybko, tanio i dobrze, wybierz dowolne dwie możliwości. Niemniej w ogólnym przypadku i tak stwierdzenie to wydaje się być dla tłumaczenia maszynowego bardzo optymistyczne. Problemom spotykanych w praktycznych systemach przyjrzymy się dokładniej w dalszej części.
2
Część kafara, młota, bezpośrednio uderzająca.
Sebastian Kozłowski
67
2. Jakie są rodzaje systemów tłumaczenia maszynowego? Jeżeli wystarczy nam przybliżony przekład tekstu lub wykonujemy tłumaczenia jedynie w wąskiej dziedzinie, albo możemy przejrzeć i poprawić tekst wynikowy, to technologia tłumaczenia maszynowego osiągnęła już wystarczający poziom by być użyteczna. W zależności od wspomnianych wymagań i zaangażowania ludzkich operatorów możemy wyróżnić następujące rodzaje systemów tłumaczenia maszynowego (za Hedden (2000)): — Tłumaczenie wspomagane maszynowo (ang. Machine Aided Human Translation, MAHT) polega na tym, że całe tłumaczenie jest wykonywane przez człowieka wykorzystującego komputer w celu usprawnienia i przyspieszenia całego procesu. Zgodnie ze stwierdzeniem znawcy tłumaczenia maszynowego i zwolennika tego typu systemów Martina Kay’a, że „tłumaczenie jest piękną i ekscytującą sztuką, ale wiele w nim jest rzeczy mechanicznych i rutynowych” systemy MAHT zapewniają tłumaczowi narzędzia takie jak słowniki ogólne i terminologii, słowniki wyrazów bliskoznacznych i często używanych zwrotów, funkcje sprawdzania pisowni i gramatyki, pozwalając mu na skoncentrowanie się na bardziej twórczych aspektach. Często mogą być zintegrowane z edytorem tekstów. W środowisku tłumaczy technologia ta jest powszechnie nazywana CAT – od angielskiego Computer Aided Translation. W systemach MAHT najważniejszą rolę ma tłumacz, a komputer pełni jedynie rolę narzędzia. — Tłumaczenie wspomagane przez człowieka (ang. Human Aided Machine Translation, HAMT) polega na tym, że tekst źródłowy jest modyfikowany przed, w czasie lub po przetłumaczeniu go przez komputer. Przykładem modyfikacji przed może być przygotowanie specjalnej formy dokumentu, która będzie łatwo analizowana przez komputer, albo poprzez umieszczenie w tekście źródłowym dodatkowych informacji ułatwiających analizę, bądź przez przygotowanie danych wejściowych w jakiejś bardziej przyjaznej (dla komputera) formie. W ten sposób często z powodzeniem tłumaczy się maszynowo np. instrukcje obsługi na wiele języków. Innym przykładem takiego systemu może być kanadyjski system METEO, gdzie danymi wejściowymi były bardziej dane meteorologiczne niż tekst w języku naturalnym i na podstawie tych danych generowany był tekst w językach angielskim i francuskim. Pamiętać jednak należy, że systemy korzystające wyłącznie z danych wejściowych niebędących językiem naturalnym wykorzystują dużo prostszą technologię niż tłumaczenie maszynowe. Jest nią generacja języka naturalnego (ang. Natural Language Generation, NLG). Systemy, które pobierają niezmodyfikowany tekst wejściowy w języku naturalnym, często korzystają z pomocy człowieka w trakcie tłumaczenia. Pomoc taka polega głównie na rozwiązywaniu niejednoznaczności semantycznych. Ta grupa systemów pozwala na osiągnięcie bardzo wysokiej efektywności i szybkości tłumaczenia. Zwłaszcza, gdy przeprowadzane jest tłumaczenie jednocześnie na wiele języków wynikowych, gdyż wówczas wiele niejednoznaczności jest rozwiązywanych tylko jeden raz, a uzyskane informacje wykorzystywane są w wielu tekstach
68
Co to jest tłumaczenie maszynowe?
wynikowych. Chyba głównym powodem małej popularności takich systemów jest niechęć użytkowników. Wynika ona prawdopodobnie z faktu, że w tej grupie programów człowiek musi odpowiadać na kolejno zadawane pytania komputera w dość mechaniczny sposób i nie ma całkowitej kontroli nad tekstem wynikowym. — Tłumaczenie całkowicie maszynowe (ang. Fully Automated Machine Translation, FAMT) polega na tym, że program otrzymuje tekst źródłowy i bez żadnej ingerencji człowieka generuje tekst w języku wynikowym. Zazwyczaj tekst wynikowy jest dość niskiej jakości, jednak wystarczającej do pewnych zastosowań, jak na przykład przeglądanie stron WWW lub czytanie poczty elektronicznej. W niektórych zastosowaniach ważny jest szybki dostęp do informacji, a dokładne przetłumaczenie można zlecić tylko dla najważniejszych dokumentów. Dodatkowo, taki typ programów może być przydatny dla użytkowników, których zdolności językowe pozwalają na sprawdzenie poprawności wygenerowanego tekstu. Ten typ programów jednak nie cieszy się uznaniem wśród tłumaczy, większość z nich decyduje się na samodzielne przetłumaczenie tekstu, a nie na żmudne poprawianie dalekiego od ideału tłumaczenia. Czasami wyróżnia się też grupę programów FAHQMT (ang. Fully Automated High Quality Machine Translation) generujących dokładne tłumaczenia w określonych, ograniczonych domenach językowych.
3. Jak się rozwijało tłumaczenie maszynowe? Pierwsze pomysły mechanizacji tłumaczenia sięgają siedemnastego wieku3 , ale rzeczywiste możliwości pojawiły się dopiero w wieku dwudziestym. W latach trzydziestych ubiegłego wieku Francuz Georges Artsrouni oraz Rosjanin Piotr Trojański złożyli wnioski patentowe dotyczące maszyn tłumaczących. Bardziej znaczące były dokonania Trojańskiego, jako że zaproponował on nie tylko ideę automatycznego dwujęzykowego słownika, ale także bazowany na Esperanto niezależny od języka schemat kodowania konstrukcji gramatycznych oraz szkic przeprowadzania analizy i syntezy. Niemniej jednak, idee Trojańskiego nie były znane aż do końca lat pięćdziesiątych. W tym samym czasie pojawiły się pierwsze maszyny liczące i wkrótce później rozpoczęły się badania dotyczące zastosowania komputerów w tłumaczeniu języków naturalnych. W 1954 zaprezentowany został system zbudowany we współpracy IBM i Georgetown University. Mimo wykorzystania ograniczonego słownictwa i prostej gramatyki system ten wzbudził ogromne zainteresowanie, które przełożyło się na pozyskanie znacznych funduszy dla tłumaczenia maszynowego w Stanach Zjednoczonych i wzbudzenie zainteresowania tematyką na całym świecie. Najwcześniejsze systemy składały się głównie z dużych dwujęzycznych słowników, w których każdemu hasłu języka źródłowego odpowiadały jedno lub więcej haseł języka wynikowe3
Ta część pracy powstała głównie w oparciu o materiały Johna Hutchinsa (2003).
Sebastian Kozłowski
69
go i pewne reguły opisujące szyk wyrazów w zdaniu wynikowym. Szybko okazało się, że tworzone ad hoc słownikowe zasady konstrukcji składniowych okazały się zbyt skomplikowane. Wkrótce konieczne stało się zbudowanie bardziej systematycznych metod analizy syntaktycznej. Duża grupa projektów zainspirowana niedawnymi dokonaniami w lingwistyce, szczególnie w modelach gramatyk formalnych, dawała nadzieję na znaczną poprawę jakości tłumaczenia. Atmosfera optymizmu utrzymała się w badaniach przez ponad dekadę. Wielu naukowców przepowiadało rychły przełom w tej dziedzinie. Rozczarowanie rosło w miarę napotykania pewnych barier semantycznych, dla których nie widziano prostego rozwiązania. Były, co prawda, działające systemy, takie jak Mark II i system z Georgetown University wykorzystywany w US Atomic Energy Authority i w Euratom we Włoszech – ale jakość tekstu wynikowego rozczarowywała, chociaż była wystarczająca dla wielu użytkowników do szybkiej produkcji informacji. Do roku 1964 sponsor przedsięwzięcia, a więc rząd amerykański, stawał się coraz bardziej zaniepokojony brakiem postępów i w efekcie powołał do życia doradczy komitet automatycznego przetwarzania języka (Automatic Language Processing Advisory Committee, ALPAC), który stwierdził w słynnym raporcie z roku 1966, że tłumaczenie maszynowe jest wolniejsze, mniej dokładne i dwa razy bardziej kosztowne niż tłumaczenie klasyczne i że nie ma bezpośrednich, ani przewidywalnych widoków na użyteczne tłumaczenie maszynowe. Raport stwierdzał, że nie widzi potrzeby dalszego inwestowania w tłumaczenie maszynowe i zamiast tego proponował tworzenie narzędzi wspomagających tłumaczy, takich jak automatyczne słowniki i dalsze finansowanie projektów dotyczących podstawowych badań w lingwistyce komputerowej. Chociaż szeroko potępiany jako stronniczy i krótkowzroczny, raport ALPAC przyniósł w zasadzie kres badaniom nad tłumaczeniem maszynowym w Stanach Zjednoczonych na ponad dekadę i spowolnił rozwój takich systemów również w ZSRR i w Europie. Niemniej jednak, badania były nadal kontynuowane w Kanadzie, Francji i Niemczech. W ciągu kilku lat system SYSTRAN zaczął być wykorzystywany przez USAF (1970) i wkrótce później przez Komisję Wspólnot Europejskich (ang. Commission of the European Communities) dla tłumaczenia szybko zwiększających się tomów dokumentacji. W tym samym roku, następny zakończony sukcesem projekt pojawił się w Kanadzie, był to system METEO przeznaczony do tłumaczenia raportów pogodowych i utworzony na Uniwersytecie w Montrealu. W latach 60-tych w Stanach Zjednoczonych i ZSRR pracę nad systemami MT koncentrowały się na tłumaczeniach rosyjsko-angielskich i angielsko-rosyjskich dokumentów naukowych i technicznych, adresowanych do niewielkiego kręgu użytkowników, głównie naukowców, dla których ważniejszy był szybki dostęp do informacji, nawet jeżeli tłumaczenie było zgrubne i nienaturalne. Od połowy lat 70-tych zaczęło narastać z różnych źródeł zapotrzebowanie na systemy MT o innych wymaganiach i pracujących z innymi językami. Zapotrzebowanie administracyjne i komercyjne wielojęzycznych społeczności
70
Co to jest tłumaczenie maszynowe?
i międzynarodowego handlu stymulowało rozwój systemów MT – w Europie, Kanadzie i Japonii – powyżej możliwości tradycyjnych systemów tłumaczących. Powstało zapotrzebowanie na ekonomiczne, wspomagane maszynowo systemy tłumaczące, radzące sobie z komercyjną i techniczną dokumentacją w głównych językach światowego handlu. W latach 80-tych powstało wiele różnych typów systemów MT we wciąż powiększającej się grupie krajów. Najpierw powstały systemy oparte o potężne komputery mainframe, zajmujące częstokroć całe pomieszczenie i obsługujące dziesiątki użytkowników. Pomimo znacznego postępu technicznego i rozwoju komputerów osobistych, niektóre z nich pracowały jeszcze kilka lat temu, a być może nawet część z nich używa się do dnia dzisiejszego. Oprócz SYSTRANU, który w tym czasie pracował już dla wielu par języków, powstał też LOGOS (niemiecko-rosyjski i angielsko-francuski), powstał system do wewnętrznego użytku w Pan American Health Organization (hiszpańsko-angielski i angielsko-hiszpański), system METAL (niemiecko-angielski) i cała grupa systemów dla pary angielski-japoński stworzonych przez japońskie korporacje. Szeroka dostępność mikrokomputerów i oprogramowania do przetwarzania tekstów wytworzyła rynek na tanie systemy MT w Ameryce Północnej, Europie i Japonii. Inne systemy przeznaczone dla mikrokomputerów pojawiły się w Chinach, Tajwanie, Korei, Europie Wschodniej i w Związku Radzieckim. Przez lata 80-te kontynuowano badania nad bardziej zaawansowanymi metodami i technikami. Przez większą część dekady, dominującą strategią było tłumaczenie poprzez reprezentację niezależną od języka (reprezentację wiedzy, podejście to będzie wyjaśnione w dalszej części pracy). Koniec dekady był istotnym punktem zwrotnym. Po pierwsze, grupa naukowców z laboratoriów IBM opublikowała rezultaty eksperymentów nad systemem CANDIDE zbudowanym wyłącznie z użyciem metod statystycznych. Po drugie, niektóre z Japońskich zespołów badawczych rozpoczęły wykorzystanie metod bazujących na korpusach (zbiorach tekstów) przykładów tłumaczeń, czyli korzystanie z techniki tłumaczenia opartej na przykładach (ang. example based). W obu podejściach wspólną cechą było to, że żadne składniowe ani semantyczne reguły nie były użyte podczas analizy tekstu, ani podczas badania odpowiedników słownych. Oba podejścia różniły się od poprzednich symbolicznych metod wykorzystaniem dużych zasobów tekstu. Trzecią innowacją był start badań nad tłumaczeniem mowy, obejmujących rozpoznawanie i syntezę mowy oraz moduły tłumaczące. Te ostatnie zaczęły być tworzone przy użyciu obu technik – symbolicznej i statystycznej. Najważniejsze projekty powstawały w ATR (Nara, Japonia), wspólny projekt JANUS (ATR, Carnegie-Mellon University, Uniwersytet w Karlsruhe) i w Niemczech – sponsorowany przez rząd projekt VERBMOBIL. Niemniej jednak, tradycyjne symboliczne projekty były nadal kontynuowane (np. CATALYST na Carnegie-Mellon University, projekt na uniwersytecie w Maryland i finansowany przez ARPA – tworzony przy współpracy trzech amerykańskich uniwersytetów – projekt PANGLOSS).
Sebastian Kozłowski
71
Inną cechą wczesnych lat 90-tych była zmiana nacisku na polu tłumaczenia maszynowego z czystych badań na zastosowania, tworzenie narzędzi dla tłumaczy, systemów MT pracujących w ograniczonych dziedzinach oraz komponentów tłumaczących w wielojęzycznych systemach informacyjnych. Trendy te kontynuowano do późnych lat 90-tych. W szczególności zwiększyło się wykorzystanie w przemyśle narzędzi dla tłumaczy (MAHT) oraz bardziej autonomicznego tłumaczenia maszynowego (systemy HAMT, FAMT), szczególnie dobrze widoczny był wzrost zastosowania rozwiązań służących lokalizacji oprogramowania. Odnotowano również znaczący wzrost oprogramowania FAMT adresowanego do zwykłych użytkowników oraz zwiększający się udział rozwiązań internetowych (np. tłumaczenie stron online).
4. Techniki tłumaczenia maszynowego Tłumaczenie maszynowe zazwyczaj jest realizowane metodami symbolicznymi, a więc metodami opartymi o pewien zestaw reguł (ang. rule-based systems), za pomocą których generowane jest tłumaczenie, lub metodami statystycznymi, korzystającymi z dużej bazy już przetłumaczonych tekstów i za ich pomocą generujących najbardziej prawdopodobne tłumaczenie. Wśród metod statystycznych wyróżnia się czasem metody oparte na przykładach (ang. example-based). Podejście to wykorzystuje dwujęzyczny dopasowany korpus (zbiór identycznych tekstów w dwóch językach). Dla zdania wejściowego znajdujemy najbardziej zbliżone zdanie w korpusie (lub identyczne, jeżeli akurat wystąpiło) i traktujemy je jako szablon do tłumaczenia (Sommers, 1999). Obecne systemy często łączą oba podejścia symboliczne i statystyczne, więc podział ten nie jest już tak wyraźny, niemniej jednak pozwala on na pewne usystematyzowanie zagadnienia. 4.1. Metody symboliczne W dziedzinie tłumaczenia maszynowego często spotyka się klasyfikację symbolicznych systemów tłumaczenia maszynowego przedstawioną na rysunku 1. Jest to naturalnie uproszczony schemat, lecz pozwala na pewną klasyfikację wykorzystywanych metod. Idea tego schematu polega na tym, że tłumaczenie może być przeprowadzone na jednym z kilku poziomów, a zatem, przykładowo – analiza języka może być wykonana do poziomu reprezentacji syntaktycznej, następnie może zostać wykonane tłumaczenie tej reprezentacji i generacja tekstu w języku wynikowym. Naturalnie, im wyżej wykonywane jest tłumaczenie, tym bardziej zaawansowany technologicznie jest proces tłumaczenia. W dalszej części opracowania opiszemy kolejne poziomy zaczynając od najniższych.
72
Co to jest tłumaczenie maszynowe?
Na rysunku 1 przedstawiony jest ogólny system tłumaczenia mowy, jeżeli rozważymy natomiast część powyżej przerywanej linii, uzyskamy system tłumaczenia tekstu. Strzałki wstępujące po lewej stronie reprezentują kolejne etapy analizy, takie jak rozpoznawanie mowy, analiza syntaktyczna, analiza semantyczna, z kolei strzałki zstępujące z prawej strony oznaczają poszczególne etapy generacji, takie jak: generacja reprezentacji semantycznej, syntaktycznej, tekstu i mowy.
Rysunek 1. Strategie tłumaczenia maszynowego
Systemy tłumaczenia mowy chyba najbardziej przemawiają do wyobraźni i były częstym elementem opowiadań SF, gdzie przedstawiciele różnych ras mogli swobodnie rozmawiać, gdyż ich mowa była automatycznie tłumaczona na język rozmówcy, takie systemy są jednak dużo bardziej skomplikowane niż systemy tłumaczenia tekstu i trudno oczekiwać takich rozwiązań dostępnych w najbliższym czasie. Niemniej jednak, prace nad tymi systemami są kontynuowane. Jednym z najbardziej znanych projektów tego rodzaju jest zakończony w 2000 r. niemiecki system Verbmobil (2000). W tym opracowaniu jednak skoncentrujemy się na problemie tłumaczenia tekstu, który jest wystarczająco skomplikowanym procesem. 4.1.1. Transfer leksykalny Najprostszym podejściem jest transfer leksykalny, nazywany niekiedy tłumaczeniem słowo po słowie. Podstawowa idea tego rozwiązania jest następująca, bierzemy słowo języka źródłowego, wyszukujemy w słowniku słowo języ-
Sebastian Kozłowski
73
ka wynikowego odpowiadające słowu źródłowemu i wypisujemy słowo języka wynikowego. Po zakończeniu tego procesu wprowadzamy dodatkowe zmiany do tekstu, jak np. zmiana szyku wyrazów, przestawienie przymiotników i rzeczowników, czy zmiana formy czasowników. W praktycznych rozwiązaniach ta faza jest najbardziej zaawansowana. Podejście takie jest czasem nazywane także tłumaczeniem bezpośrednim (ang. direct translation Jurafsky Martin (2000, str. 816)). Spróbujemy poniżej zasygnalizować podstawowe problemy, jakie możemy napotkać podczas tego rodzaju tłumaczenia. Już dla samego znajdowania odpowiednika dla słowa wejściowego odnajdujemy pierwsze problemy. Nasz system musi być wyposażony w odpowiedni dwujęzyczny słownik, jednak trudno oczekiwać, by znalazły się w nim wszystkie możliwe słowa obu języków. Pierwszą przeszkodą jest tu morfologia, tak więc konieczne jest umieszczenie w słownikach różnych form fleksyjnych, bądź zaimplementowanie sprowadzania słów do form bazowych. Niezależnie od tego, część słów na pewno nie wystąpi w słowniku. Weźmy chociaż pod uwagę nazwy własne jak np. nazwy miejscowości. Oczywiste jest, że w słowniku nie możemy umieścić wszystkich nazw własnych. Pamiętajmy też o sytuacji, gdy wprowadzane są neologizmy, jak często to się zdarza w utworze literackim, co prawda trudno oczekiwać, że tłumaczenie maszynowe będzie wykorzystywane do tłumaczenia poezji, ale neologizmy występują i w tekstach naukowych (np. gavagai dla określenia słowa w nieznanym języku lub ziebieski dla określenie przedmiotów, które były zielone, a teraz są niebieskie). Cóż więc możemy zrobić, gdy natrafimy na słowo, które nie występuje w słowniku? Zazwyczaj pozostawia się wyraz oryginalny, jest to w pełni uzasadnione zwłaszcza dla nazw własnych. Jeżeli systemy znakowe obu języków są różne, jak np. w polskim i arabskim, to musimy dokonać transliteracji (ang. transliteration), warto zauważyć, że ze względu na zastosowanie różnych systemów fonetycznych, często proces taki nie będzie odwracalny. Oczywiście taki sposób jest niewystarczający, gdy wyraz wejściowy zawierał błąd ortograficzny lub, jeżeli nieprzetłumaczone słowo jest zrozumiałe dla czytającego tekst wejściowy, jak np. ziebieski, występujący w kontekście słów zielony i niebieski. O ile drugi przypadek możemy zignorować jako mało prawdopodobny, to pierwszy z nich należy w jakiś sposób rozważyć, rozsądnym wydaje się przetwarzanie wstępne – eliminujące błędy tego rodzaju. Gdy już znaleźliśmy pozycję słownikową, problemy może sprawić brak odpowiedniości jedno-jednoznacznej pomiędzy wyrazami w obu językach. Wystarczy wziąć pod uwagę polski wyraz informatyka tłumaczący się na angielskie computer science. Czy angielski słowo clockwise tłumaczące się na zgodnie ze wskazówkami zegara. O ile takie sytuacje jesteśmy w stanie w miarę łatwo rozwiązać, to sytuacja się komplikuje, gdy mamy przetłumaczyć słowo, które ma wiele odpowiedników w języku wynikowym. Na przykład angielskiemu czasownikowi know mogą odpowiadać czasowniki wiedzieć i znać w polskim, lub savoir i connaître we francuskim. Do tego problemu jeszcze wrócimy. Weźmy też pod uwagę występowanie braków leksykalnych (ang. le-
74
Co to jest tłumaczenie maszynowe?
xical gap), dla przykładu angielskie słowo enjoy nie może być bezpośrednio przetłumaczone na język polski, możemy zastępować je jedynie dłuższymi frazami, których wybór zależy od kontekstu wypowiedzi (Smacznego! Dobrze się bawiłaś? Podobało mi się. . . ). Wyobraźmy sobie, iż w trakcie tłumaczenia z języka polskiego na angielski napotykamy na wyraz zamek. Niestety jest to typowy przykład homonimii, wyraz ten w języku polskim ma kilka znaczeń. Trudno oczekiwać, by język angielski miał tę samą własność, musimy zatem wybrać właściwe znaczenie, a do tego nie wystarczy nam znajomość słowa źródłowego, często nawet znajomość wyrazów poprzedzających nie poprawia sytuacji. Jest to więc przykład, gdzie tłumaczenie słowo po słowie napotyka na duże problemy. Aby można było dokonać prawidłowego tłumaczenia, musimy wiedzieć, z jakim znaczeniem mamy tu do czynienia, konieczne jest odwołanie się do innych słów (np. jeżeli następnym słowem jest błyskawiczny, to jest duże prawdopodobieństwo, że wyraz ten powinien być przetłumaczony jako zipper), sprawdzenie obecności innych wyrazów w zdaniu (obecność słowa klucz zdecydowanie zwiększa szanse poprawnego tłumaczenia przy użyciu słowa lock), czy nawet informacji charakterystycznych dla całego tekstu (tekst o średniowiecznym rycerstwie polskim pozwala sądzić, że wybór słowa castle nie jest bezpodstawny). Okazuje się, że zasygnalizowany problem jest bardzo złożony i metody jego rozwiązania są znane jako dezambiguacja znaczenia słowa (ang. word sense disambiguation). Wyobraźmy sobie, iż w trakcie tłumaczenia z języka polskiego na angielski napotykamy na wyraz kurze (Dębowski, 2001). Musimy teraz wybrać, jakiemu słowu angielskiemu on odpowiada, jednak ze względu na bogatą fleksję języka polskiego mamy do wyboru kilka możliwości pochodzenia wyrazu źródłowego: może być to celownik od słowa kura (Wyszła na podwórze i rzuciła kurze ziarno), biernik liczby mnogiej od wyrazu kurz (Czy wytarłeś kurze z kominka?), może być to wołacz od rzeczownika kur (Idź precz, głupi kurze), albo nawet dopełniacz od przymiotnika kurzy (Dodać do mąki jedno kurze jajko). Okazuje się ponownie, że problem nie może być rozwiązany za pomocą prostego tłumaczenia słowo po słowie. Do wyboru odpowiedniej formy podstawowej niezbędna często jest nie tylko znajomość poprzedzających wyrazów, lecz również znajomość tworzonego w czasie analizy syntaktycznej drzewa wywodu. Taki proces znajdowania formy podstawowej jest znany jako dezambiguacja morfosyntaktyczna (ang. morphosyntactic disambiguation) i również jest problemem złożonym. Innym problemem tłumaczenia słowo po słowie jest różny szyk wyrazów w zdaniu w różnych językach. Prosty system tłumaczący słowo po słowie zazwyczaj wygeneruje błędny szyk wyrazów w zdaniu wynikowym. Należy pamiętać, że w językach o swobodnym szyku wyrazów w zdaniu, jak np. w polskim i tak tylko niektóre konstrukcje brzmią naturalnie. Syntaktycznie języki różnią się chyba najbardziej ze względu na układ podmiotu, czasownika i obiektu w typowych zdaniach oznajmujących. Dla przykładu – języki francuski i angielski są językami SVO (Subject Verb Ob-
75
Sebastian Kozłowski
ject), co znaczy, że podstawową konstrukcją w tych językach jest najpierw podmiot, następnie czasownik i na końcu obiekt. Języki Hindi i Japoński są językami SOV, co znaczy, że czasownik znajduje się zwykle na końcu zdania. Irlandzki, klasyczny arabski i Jidysz są językami VSO. Dwa języki o tej samej kolejności wyrazów w zdaniu często posiadają także inne podobieństwa, dla przykładu języki SVO zazwyczaj posiadają przyimki przed rzeczownikami (ang. prepositions), podczas gdy języki SOV posiadają przyimki po rzeczownikach (ang. postpositions). Widać więc, że dla tego rodzaju tłumaczenia – mimo niskiej pozycji w hierarchii – konieczne jest wykonanie dużej ilości pracy. Takie systemy zazwyczaj są budowane do pracy z jedną parą języków. I wykonywane są tylko działania niezbędne do przekształcenia tekstu w języku wejściowym do tekstu w języku wyjściowym. System tłumaczenia bezpośredniego pracuje zazwyczaj w kilku etapach, z których każdy koncentruje się na jednym typie problemu. Przyjrzyjmy się zamieszczonemu w Jurafsky Martin (2000) na str. 816 przykładowi systemu tłumaczenia bezpośredniego z japońskiego na angielski (Tabela 1). Tabela 1. Etapy przykładowego systemu tłumaczenia bezpośredniego
Etap 1 2 3 4 5 6
Akcja Segmentacja i analiza morfologiczna Transfer leksykalny słów znaczących Operwacje związane z przyimkami Przekształcenie szyku wyrazów Operacje dodatkowe Generacja morfologiczna
W etapie 1. dokonywana jest segmentacja (podział) ciągu wejściowego na słowa, jest to konieczne, gdyż w tym wypadku japoński jest językiem, który nie używa odstępów pomiędzy wyrazami. Dodatkowo w etapie 1. wykonywana jest analiza morfologiczna, czynności te mogą być zrealizowane za pomocą metod statystycznych lub wykorzystujących automaty skończone. (Obszerne informacje dotyczące wykorzystania automatów skończonych w przetwarzaniu języka naturalnego można znaleźć w Daciuk (2003)).W tabeli 2 znajduje się efekt uzyskany dla przykładowego zdania japońskiego. W drugim etapie wybierane są odpowiedniki słów za pomocą dwujęzycznego słownika lub procedur, które wybierają poprawne tłumaczenie korzystając z lokalnego kontekstu i już wybranych słów języka wynikowego. Tabela 3 zawiera przykład takiej procedury. W tym przypadku jest ona prosta, jednak w ogólnym przypadku mogą występować współzależności pomiędzy słowami języka wynikowego, wówczas wyszukiwanie odpowiedników słów może być zorganizowane w podetapach np. czasowniki przed rzeczownikami i przymiotnikami. W ogólności problem wyboru kolejności wyboru
76
Co to jest tłumaczenie maszynowe? Tabela 2. Przykład pracy systemu tłumaczenia bezpośredniego
Tekst wejściowy Po etapie 1 Po etapie 2 Po etapie 3 Po etapie 4 Po etapie 5 Po etapie 6
watashihatsukuenouenopenwojonniageta watashi ha tsukue no ue no pen wo jon ni ageru PAST I ha desk no ue no pen wo John ni give PAST I ha pen on desk wo John to give PAST I give PAST pen on desk John to I give PAST the pen on the desk to John I gave the pen on the desk to John
wyrazów do tłumaczenia może być dość skomplikowany, aczkolwiek istnieją pewne standardowe rozwiązania. W trzecim etapie wybierane jest tłumaczenie japońskiego przyimka no ue no jako angielskie on, kojarzony jest on z dwoma frazami rzeczownikowymi pen oraz desk, których kolejność jest zmieniana zgodnie z zasadami angielskiej gramatyki. Dodatkowo znając wymagania czasownikowe give, możliwe jest właściwe przetłumaczenie przyimka ni na to. W etapie czwartym wykonuje się procedurę przesunięcia czasownika z końca zdania na pozycję za podmiotem a przed obiektem, usuwane są też niepotrzebne już określniki przypadków. W piątym etapie wykonywane są czynności takie jak przenoszenie przyimków w poprawne miejsca i wstawienie przedimków. I ostatecznie, w fazie szóstej wprowadza się poprawną formę czasownika. Tabela 3. Zależny od kontekstu wybór odpowiedniego tłumaczenia Function DIRECTLY TRANSLATE MUCH/MANY(Russian word) returns If preceding word is how return skol’ko Else if preceding word is as return skol’ko zhe Else if word is much If preceding word is very return nil (not translated) Else if following word is a noun return mnogo Else /* word is many */ If preceding word is a preposition and following word is a noun return mnogii Else return mnogo
4.1.2. Transfer syntaktyczny Jak pokazaliśmy wcześniej, metody transferu leksykalnego napotykają na istotne problemy już przy prostych przykładach. Okazuje się, że części z tych problemów możemy uniknąć, jeżeli dokonamy analizy składniowej zdania,
77
Sebastian Kozłowski
dzięki której otrzymujemy drzewo analogiczne do utworzonego w rozbiorze logicznym zdania, grupujące skojarzone ze sobą elementy. Gdy mamy takie drzewo utworzone w języku źródłowym, dokonujemy konwersji na drzewo w języku wynikowym zgodnie z regułami transferu syntaktycznego i następnie, z tak utworzonego drzewa generujemy tekst za pomocą transferu leksykalnego dla poszczególnych fraz. Przykład takiej operacji jest schematycznie pokazany na rysunku 2.
Rysunek 2. Przykład transferu syntaktycznego
Reguły transferu syntaktycznego buduje się na podstawie formalnych modeli gramatyk obu języków. Przykładem takiej reguły dla naszego uproszczonego modelu jest zamiana poddrzewa złożonego z dwóch rzeczowników w języku angielskim na frazę złożoną z rzeczownika i określającego go przymiotnika w języku polskim. W praktyce, dla reprezentacji drzew korzysta się z gramatyk formalnych, takich jak np. gramatyki bezkontekstowe (ang. context free grammar, CFG). Posiadają one tę właściwość, że są na tyle elastyczne, że pozwalają modelować w wystarczającym stopniu gramatykę języka naturalnego, (poza pewnymi szczególnymi sytuacjami) a jednocześnie są na tyle proste obliczeniowo, że analizę syntaktyczną można przeprowadzić w czasie wielomianowym względem długości zdania (Hopcroft Ullman, 1997). Dużą ilość informacji na temat gramatyk formalnych można znaleźć w Jurafsky Martin (2000, str. 323–355). Tutaj ograniczymy się do prezentacji prostej gramatyki użytej dla zdania angielskiego na rysunku 2. Rozważana gramatyka jest gramatyką generatywną, co znaczy, że językiem poprawnym dla tej gramatyki (czyli językiem generowanym przez tą gramatykę) jest zbiór wszystkich zdań, które mają w tej gramatyce wywód, czyli mogą być utworzone za pomocą reguł tej gramatyki startując od symbolu początkowego S. Przykłady reguł, to np. S N P V P oznaczająca, że zdanie (S) składa się z frazy rzeczownikowej N P (ang. noun phrase) oraz frazy czasownikowej V P (ang. verb phrase) lub N P Det N om oznaczająca, że fraza rzeczownikowa składa się z określnika (ang. determinant) oraz rzeczownika złożonego (ang. nominative).
78
Co to jest tłumaczenie maszynowe?
Bardziej formalnie, proces znajdowania wywodu (ang. derivation) dla danego zdania nazywamy analizą syntaktyczną (ang. parsing). Proces ten realizowany jest zazwyczaj za pomocą programów zwanych analizatorami składniowymi, (ang. parsers) a wynik jest prezentowany za pomocą drzewa analizy składniowej lub wywodu (ang. syntactic tree). Alternatywnie – wynik analizy możemy przedstawić za pomocą notacji nawiasowej: [S [N P [P ro I]][V P [V pref er][N P [Det a][N om [N morning][N f light]]]]] Jeżeli przeprowadzimy poprawnie analizę syntaktyczną zdania wejściowego i dokonamy transferu tej struktury, to unikamy takich problemów jak kolejność wyrazów w zdaniu, czy też położenie przymiotników względem rzeczowników. Podział na frazy ułatwia nam również generację poprawnej morfologii. W rozważanym przykładzie wiedząc, że wyrazy odpowiadające morning i flight są częścią tej samej frazy w języku polskim i odpowiadają odpowiednio przymiotnikowi i rzeczownikowi, możemy być pewni, że przymiotnik będzie tego samego rodzaju co rzeczownik, a więc w tym wypadku morning zostanie przetłumaczony jako poranny. Inną zaletą jest umożliwienie wspomnianej wcześniej dezambiguacji morfosyntaktycznej, gdzie w jednym pojedynczym procesie określamy przynależność słów do różnych części mowy oraz dokonujemy analizy składniowej zdania. Spróbujemy nieco wyjaśnić to zagadnienie. Niezależnie od przyjętej gramatyki może się zdarzyć, że zdanie języka wejściowego nie będzie miało wywodu, a więc nie uda się przeprowadzić analizy syntaktycznej. Jest to sytuacja zrozumiała, gdyż dla zdania niegramatycznego jak np. Czas uciekać lubi szybko nie jesteśmy w stanie podać poprawnego wywodu. Znacznie częstsza jest jednak sytuacja odwrotna, gdzie jedno zdanie posiada kilka możliwych wywodów. Taka sytuacja zdarza się szczególnie często, gdy mamy do czynienie z niejednoznacznościami leksykalnymi. Rozważmy następujący przykład4 , przedstawiony na rysunku 3. Reprezentacja taka jak na rysunku 3 jest często stosowana do prezentacji niejednoznaczności syntaktycznych, nie zawiera ona pełnych informacji analizy syntaktycznej, a jedynie sposób podziału na frazy. I tak – dla dolnego podziału możemy zauważyć, że time flies tworzy pierwszy składnik, a więc, przy założeniu naszej prostej gramatyki, frazę czasownikową czas leci, natomiast like an arrow jest frazą rzeczownikową jak strzała. Tak więc zdanie to może mieć interpretację polskiego zdania czas ucieka jak woda. Dla górnego podziału mamy natomiast frazę czasownikową time flies like, co ma w języku angielskim może nienaturalną dla człowieka interpretację muchy czasowe lubią, lecz tak samo jak poprzednio – zupełnie poprawną gramatycznie strukturę. Wraz z drugim składnikiem otrzymujemy zdanie Muchy czasowe lubią 4 Część przykładów w tym opracowaniu pochodzi z wykładów autorów takich jak: Martin Kay, Frederick Jelinek, Julia Hirschberg oraz Mark Steedman, wygłoszonych w Vilem Mathesius Center (VMC) w Pradze 2003 r. Nie zostały one opublikowane więc nie mogę odesłać do konkretnej publikacji.
79
Sebastian Kozłowski
Rysunek 3. Przykład niejednoznacznej analizy syntaktycznej
strzałę. Przy założeniu trochę bardziej rozbudowanej gramatyki, gdzie zdanie może składać się wyłącznie z frazy rzeczownikowej, otrzymujemy jeszcze jedną interpretację – Muchy czasowe jak strzała. Przedstawiony przykład zawiera jeszcze inne interpretacje np. przy założeniu bardziej rozbudowanej gramatyki, gdzie time może być czasownikiem trybu rozkazującego. Dla człowieka jest jasne, jaka implementacja powinna być wybrana, dla analizatora składniowego wszystkie możliwości uznawane są za poprawne. Jednym ze sposobów rozwiązania tego problemu jest rozszerzenie gramatyki bezkontekstowej o statystyczne informacje z anotowanego składniowo korpusu, czyli korpusu wyposażonego nie tylko w informacje o częściach mowy, ale też z informacjami o składni zdania. Wówczas, analizując korpus, możemy pobrać prawdopodobieństwa konkretnych produkcji i dzięki temu obliczyć prawdopodobieństwo całego wywodu zdania wejściowego. Wówczas możemy wybrać wywód o największym prawdopodobieństwie. Taką procedurę możemy wykonać dla różnych kombinacji przyporządkowań niejednoznacznych słów, co pozwala na wybór najbardziej prawdopodobnego zdania. W praktyce, zwłaszcza dla długich zdań – liczba możliwych wywodów jest na tyle duża, że jeszcze przed zakończeniem obliczeń usuwa się te, które wydają się najmniej prawdopodobne. Jak duża może być ilość różnych analiz składniowych, możemy przekonać się z badań Gertjana van Noorda (2002), gdzie dla języka holenderskiego średnia ilość analiz składniowych dla zdań o ponad 15 słowach może osiągnąć kilka tysięcy. Okazuję się, że w językach o zbliżonej konstrukcji, część niejednoznaczności może być zachowana, dotyczy to zwłaszcza problemu przynależności fraz przyimkowych. Rozważmy następujące zdanie: The policeman saw the man with the telescope. W tym wypadku występuje wewnętrzna niejednoznaczność zdania w języku angielskim, gdyż nie wiemy, któremu ze zdań polskich to zdanie odpowiada: Policjant zauważył przez lunetę tego człowieka. Policjant zauważył tego człowieka z lunetą.
80
Co to jest tłumaczenie maszynowe?
A zatem, dla tej pary języków konieczne jest poprawne przyporządkowanie fraz przyimkowych, które w tym konkretnym przypadku jest niemożliwe. Nie możemy więc oczekiwać poprawnego tłumaczenia nie korzystając z szerszego kontekstu wypowiedzi. Okazuje się jednak, że przy tłumaczeniu na język francuski taka niejednoznaczność jest zachowywana i nie musimy w ogóle podejmować próby dezambiguacji by otrzymać dokładne tłumaczenie zdania wejściowego. 4.1.3. Transfer semantyczny Przy opisywaniu transferu syntaktycznego można było zauważyć, że ponieważ analizowana była tylko składnia zdania, a znaczenie było zupełnie ignorowane, to z pewnością powstaną sytuacje, gdzie na tym poziomie pewnych koniecznych do usunięcia niejednoznaczności nie będziemy mogli się pozbyć. Tak jest w istocie – rozważmy następujący przykład: Joanna odłożyła książkę, ponieważ była ciężka. Dla człowieka oczywiste jest, że podmiotem drugiego zdania składowego jest książka, jednak dysponując jedynie informacjami składniowymi nie jesteśmy w stanie tego ustalić, jako dowód rozważmy kolejny przykład: Joanna odłożyła książkę, ponieważ była zmęczona. W tym przypadku podmiotem drugiego zdania jest Joanna. Aby można było usunąć takie niejednoznaczności, musimy uwzględnić dodatkowe informacje semantyczne. Wówczas możemy usunąć niejednoznaczności wiedząc, że przymiotnik zmęczona nie może zostać użyty dla rzeczowników nieożywionych. Usunięcie tej niejednoznaczności będzie niezbędne np. dla tłumaczenia na język francuski, gdzie książka un livre jest rodzaju męskiego, więc musimy wiedzieć, do jakiego rzeczownika odnosi się fraza, chociażby po to by ustalić odpowiedni rodzaj przymiotnika. Podobnie: w języku japońskim nie ma pojedynczego odpowiednika dla czasownika być, a wybór odpowiedniego zależy od tego, czy podmiot jest ożywiony (w tym wypadku iru) czy nie (aru). Podstawową techniką analizy semantycznej jest wykorzystanie hierarchicznych słowników pozwalających na analizę relacji pomiędzy znaczeniami, jak np. WordNet (2002). 4.1.4. Tłumaczenie przez reprezentację wiedzy Istotnym problemem tłumaczenia przez transfer semantyczny jest różnica, w jaki sposób poszczególne języki odwzorowują pojęcia na słowa. Z tego powodu nawet zdanie semantycznie poprawne w języku wynikowym może uzyskać nienaturalną postać. Wiąże się to ze wspomnianym problemem tłumaczenia, a więc z koniecznością zapewnienia, że tekst wynikowy zostanie przez czytelnika zinterpretowany tak samo, jak zostałby zinterpretowany tekst wejściowy.
81
Sebastian Kozłowski
Rozważmy przykład zdania Butelka wleciała do jaskini w języku angielskim i hiszpańskim. La botella entró a la cueva flotando Butelka weszła do jaskini lecąc The bottle floated into the cave Butelka wleciała do jaskini W tym przypadku różnica polega na tym, że w języku polskim, angielskim i w większości języków indoeuropejskich rodzaj ruchu przekazywany jest za pomocą czasownika, a kierunek za pomocą wyrazów dodatkowych, natomiast język hiszpański i inne języki romańskie używają odwrotnego szablonu, gdzie czasownik wskazuje kierunek ruchu, a wyraz dodatkowy – sposób. Istnieje również dużo innych specyficznych dla danego języka konstrukcji, które należy brać pod uwagę. Na przykład w języku angielskim zwyczajowe jest użycie słowa there do wprowadzenia w opowiadaniu nowego zdarzenia. Przy tłumaczeniu na język polski, konstrukcja ta jest usuwana, jak w przykładzie poniżej. There burst into the room three men with guns. (Nagle)do pokoju wpadło trzech uzbrojonych mężczyzn. Innym przykładem konwencji językowej w angielskim jest wykorzystanie zaimków dzierżawczych podczas mówienia o częściach ciała, rzadko używane w języku polskim. John raised his hand.
Jan podniósł rękę.
Założeniem reprezentacji wiedzy jest przechowanie interpretacji danego zdania w sposób niezależny od języka (ang. interlingua), a więc w taki sposób, że zdania w różnych językach o tej samej interpretacji odpowiadały tej samej reprezentacji wiedzy. W reprezentacji wiedzy często wykorzystuje się pojęcia ról tematycznych (ang. thematic roles) i struktur atrybutów (ang. feature structures). Role tematyczne są zbiorem kategorii pozwalających na klasyfikację obiektów odnoszących się do czynności opisywanej przez zdanie. Nie ma arbitralnie ustalonego zbioru ról tematycznych i do różnych zastosowań wykorzystuje się różne ich zestawy. Niemniej jednak są takie, które pojawiają się najczęściej, i tak dla przykładu AGENT oznacza sprawcę zamierzonej czynności, jak np. w Adam otworzył szufladę. FORCE oznacza nieintencjonalnego sprawcę, jak w Wiatr rozwiewa liście. Podobnie THEME oznacza uczestnika najbardziej dotkniętego czynnością – Uderzył w stół, a INSTRUMENT oznacza narzędzie użyte w czynności – Uderzył w stół ręką. Struktury atrybutów korzystają z ról tematycznych i pozwalają na hierarchiczną reprezentację wiedzy. Przykład takiej reprezentacji dla zdania There was an old man gardening znajduje się na rysunku 4. Struktura taka składa się z par: nazwa atrybutu, wartość, przy czym wartościami mogą być inne struktury, tworząc w ten sposób strukturę hierar-
82
Co to jest tłumaczenie maszynowe?
Rysunek 4. Reprezentacja wiedzy dla zdania There was an old man gardening
chiczną. Zastosowanie opisu niezależnego od języka wymaga wprowadzenia pewnego systemu obiektów. Taki system złożony z pojęć i relacji między nimi nosi nazwę ontologii (ang. ontology). Zastosowana ontologia określa możliwości systemu i powinna być dobrana w zależności od języków, z którymi system ma współpracować. W naszym przypadku mamy pojęcia GARDENING i MAN. Jak widać – zazwyczaj pojęcia określane są słowami języka angielskiego lub frazami opisowymi. Zauważmy, że w przypadku, gdy system taki ma współpracować z językami polskim i angielskim, pojęcie MAN jest zbyt ogólne do zastosowania w ontologii, gdyż odnosi się do dwóch pojęć języka polskiego mężczyzna oraz człowiek, zatem wskazane byłoby, zamiast niego, wprowadzić pojęcia typu MALE-HUMAN i GENERIC-HUMAN. Niektóre z reprezentacji wiedzy idą nawet o krok dalej i stosują dekompozycję leksykalną (ang. lexical decomposition) czyli rozkład słów na ich bardziej elementarne znaczenia. Na przykład słowo drink, może być reprezentowane jako INGEST, FLUID, BY-MOUTH. Takie podejście pozwala zrealizować wnioskowanie usuwające niektóre niejednoznaczności, rozważmy np. I drank a coffee with John oraz I drank a coffee with milk. Niemniej jednak, tak wyszukane techniki są rzadko wykorzystywane w praktyce. Zauważmy również, że przy znacznej komplikacji ontologii wiele pracy związanej z dezambiguacją może być wykonywanej niepotrzebnie, np. jeśli ontologia była projektowana z uwzględnieniem specyfiki języka japońskiego, to będzie zawierać osobne pojęcia odpowiadające młodszemu i starszemu bratu, gdyż język japoński odróżnia te pojęcia (otooto i oniisan odpowiednio). Zatem – przy wykorzystaniu tego systemu w tłumaczeniu z angielskiego na polski część pracy wykonywana byłaby niepotrzebnie.W celu ograniczenia takich sytuacji korzysta się z technik zachowania niejednoznaczności, (ang. preserving ambiguity) zapewniając ten sam poziom niejednoznaczności dla języka wejściowego i wyjściowego. Oczywiście interesująca byłaby budowa systemu zdolnego do przechowywania wszystkich pojęć różnych języków, niestety okazuje się, że różnice między językami są zbyt głębokie, aby taka idea mogła być zrealizowana. Na przykład Amerykanie dysponują kilkoma określeniami na autostradę (m.in. expressway, higway, freeway, thruway), Anglicy posiadają trzy słowa na określenie różnego rodzaju mgły (mist, fog, haze), każde z tych słów musiałoby być
Sebastian Kozłowski
83
modelowane jako osobne pojęcie. Najwięcej trudności sprawia jednak fakt, że znaczenia słów w różnych językach mogą częściowo na siebie zachodzić, a także posiadać pewne konotacje odróżniające je od odpowiednich słów innych języków. Ciekawym zagadnieniem jest to, czy, jeżeli nawet uda nam się uzyskać reprezentację wiedzy odzwierciedlającą dokładnie zdanie języka wejściowego, to wówczas zawsze jest możliwe przedstawienie tej wiedzy w języku wyjściowym. Jeżeli przyjmiemy hipotezę Sapira Whorfa mówiącą o tym, że język określa sposób myślenia, wtedy oba języki posiadają odrębne systemy pojęciowe i dokładne tłumaczenie nie może być możliwe. Niezależnie natomiast od prawdziwości tej hipotezy, proces uzyskiwania reprezentacji wiedzy jest bardzo złożony. Podsumowanie metod symbolicznych Oczywiście w praktyce trudno jest dokonać tak jasnego podziału nawet wśród systemów korzystających wyłącznie z metod symbolicznych. Systemy transferu leksykalnego też bowiem, w niejawny sposób, wykorzystują elementy analizy syntaktycznej lub semantycznej, a systemy transferu syntaktycznego podczas analizy syntaktycznej mogą wykorzystywać dodatkowe informacje semantyczne w celu dezambiguacji. Najbardziej ekonomicznym sposobem tłumaczenia i jednocześnie najtrudniejszym, jest tłumaczenie przez reprezentację wiedzy. Ponieważ reprezentacja wiedzy jest niezależna od języka, to budując wielojęzyczny system tłumaczenia maszynowego, podczas dodawania kolejnego języka, musimy zbudować jedynie pojedynczy moduł analizy (rozumienia) tekstu naturalnego (ang. Natural Language Understanding, NLU) i jeden moduł generacji języka naturalnego (ang. Natural Lanugage Generation, NLG). W przypadku podejścia transferowego musimy zbudować po dwa moduły dla każdego istniejącego już języka x (transfer z nowego języka na x, i z języka x na nowy). Innymi słowy – koszt budowy transferowego systemu tłumaczenia maszynowego dla n języków jest proporcjonalny do n2 , natomiast koszt budowy systemu tłumaczenia opartego o reprezentację wiedzy jest proporcjonalny do n. Możemy zauważyć, że ta charakterystyka jest bardzo ważna, gdyż mimo, że prawdopodobieństwo przetłumaczenia pewnego losowego dokumentu nie jest duże, to jeżeli jednak musi być on przetłumaczony, to jest możliwe, że będzie musiał zostać przetłumaczony od razu na wiele języków (np. dokumenty oficjalne Unii Europejskiej lub instrukcja do urządzenia sprzedawanego na rynku międzynarodowym). Pomimo niezaprzeczalnych korzyści ze stosowana tego podejścia, tłumaczenie przez reprezentację wiedzy napotyka na wiele trudności z powodu konieczności zaprojektowania wydajnego i zrozumiałego sposobu reprezentacji wiedzy i ze względu na dużą ilość niejednoznaczności, które muszą być usunięte podczas tłumaczenia z języka naturalnego do reprezentacji wiedzy. O ile w projektach akademickich stosunkowo łatwo jest wyróżnić komponenty odpowiadające za poszczególne moduły systemu tłumaczenia maszy-
84
Co to jest tłumaczenie maszynowe?
nowego, o tyle w rozwiązaniach komercyjnych proces tłumaczenia zazwyczaj przebiega na kilku poziomach jednocześnie i to z wykorzystaniem różnych mechanizmów. 4.2. Metody statystyczne Już na początku tego opracowania zauważyliśmy, że pytanie, co to znaczy, że dane zdanie jest tłumaczeniem innego zdania, stanowi problem filozoficzny i nie podejmujemy się go rozwiązać. Niemniej jednak oczywiste jest, iż czasem dokładne tłumaczenie danego zdania nie jest możliwe. Spróbujmy na przykład przetłumaczyć hebrajskie adonai roi („Pan jest moim pasterzem”) na język pochodzący z kultury nieposiadającej owiec. Z jednej strony możemy napisać coś, co będzie zrozumiałe w języku wyjściowym, kosztem wierności oryginałowi, np. coś jak Pan będzie się mną opiekował. Z drugiej strony możemy zachować wierność oryginałowi i utworzyć osobliwe tłumaczenie w języku wynikowym, jak np. Pan jest dla mnie jak ktoś, kto się zajmuję zwierzętami o puszystym futerku. Zatem tłumaczenie, które jest jednocześnie wierne oryginałowi i jest płynną wypowiedzią w języku wynikowym, nie jest zawsze możliwe. Jeżeli w takim wypadku chce się dokonać tłumaczenia, trzeba pójść na kompromis pomiędzy płynnością i wiernością tłumaczenia, tak jak to zwykle robią tłumacze. Powyższa dyskusja daje nam wskazówkę do statystycznego tłumaczenia maszynowego. Możemy uznać za cel tłumaczenia znalezienie zdania o największej jakości determinowanej zarówno przez płynność, jak i wierność. Jeżeli za metrykę jakości przyjmiemy iloczyn płynności p i wierności w, to możemy określić najlepsze tłumaczenie T (ang, target) zdania wejściowego S (ang. source) jako: T = arg max p(T ) · w(T, S) T
czyli takie zdanie, które maksymalizuje ten iloczyn. Można tutaj zauważyć podobieństwo do modelu zaszumionego kanału (ang. noisy channel model, Manning Schutze (2002, str. 486)) często spotyka¨ nego m.in. w telekomunikacji. W uproszczeniu, składa się on z nadajnika (generatora), medium transmisyjnego (kanału) oraz odbiornika (dekodera). Odbiornik wysyła pewną informację, która może zostać zniekształcona podczas transmisji przez kanał, a zadaniem odbiornika jest odtworzenie pierwotnej informacji (np. korzystając z informacji nadmiarowych) lub sprawdzenie poprawności transmisji. W naszym przypadku traktujemy sytuację jakbyśmy mieli zdanie w języku wyjściowym T , które zostało „zniekształcone” poprzez tłumaczenie (w kierunku T S, a więc przeciwnym kierunku, niż te, które chcemy wykonać my) i uzyskało formę zdania S, a naszym celem jest odtworzenie pierwotnego zdania T (a więc wykonanie tłumaczenia w kierunku S T ). Przedstawia się to schematycznie jak na rysunku 5, gdzie model języka wyjściowego odpowiada nadajnikowi, model tłumaczenia – kanałowi, a dekoder – odbiornikowi.
85
Sebastian Kozłowski
Rysunek 5. Model zaszumionego kanału
Model języka wyjściowego określa prawdopodobieństwo generacji zdania wyjściowego T –P (T ), natomiast model tłumaczenia – prawdopodobieństwo przetłumaczenia zdania T na S–P (S|T ). Wynikowe prawdopodobieństwo otrzymania zdania S będącego tłumaczeniem zdania T wynosi: P (T ) · P (S|T ) = P (T, S) Naszym celem jest teraz, mając dane zdanie S, znaleźć takie zdanie, które jest najbardziej prawdopodobnym zdaniem źródłowym dla S, a więc innymi słowy, zdanie, będące najlepszym tłumaczeniem dla S. Tę funkcję realizuje dekoder. Naszym poszukiwanym tłumaczeniem będzie takie zdanie, które ma maksymalne szanse na to, żeby z niego mogło powstać zdanie S, a zatem: T = arg max P (T |S) = arg max T
T
P (T ) · P (S|T ) P (S)
= arg max P (T ) · P (S|T ) T
Podsumowując: do wykonania tłumaczenia potrzebujemy znajomości rozkładu prawdopodobieństwa generacji poszczególnych zdań przez model języka wyjściowego (co odpowiada płynności zdania wyjściowego), rozkładu prawdopodobieństw dla modelu tłumaczenia (co odpowiada wierności zdania) oraz sposobu przeszukiwania zdań wyjściowych, tak aby znaleźć największą wartość P (T |S) (znajdowanie kandydatów). Przyjrzymy się teraz jak możemy uzyskać te informacje. 4.2.1. Ocena płynności Na szczęście jest kilka sposobów na ocenę płynności bazujących na modelach językowych, pozwalają one odróżnić nienaturalnie utworzone zdanie od naturalnego, nawet jeżeli oba są poprawnymi zdaniami danego języka. Takie modele są szczególnie użyteczne dla określania prawidłowego szyku wyrazów i kolokacji. Często takie modele oparte są na n-gramach. N -gram jest to n-ka kolejno występujących po sobie wyrazów w tekście. Modele takie pozwalają wyznaczyć prawdopodobieństwo wystąpienia konkretnej n-elementowej sekwencji słów. O użyteczności modelu n-gramowego możemy się przekonać analizując wyniki zastosowania go w modelu torbowym (ang. bag model). Polega on na tym, że uczymy model n-gramowy na dużej ilości danych, a następnie
86
Co to jest tłumaczenie maszynowe?
bierzemy zestaw poprawnych zdań, tniemy je na pojedyncze słowa, mieszamy i sprawdzamy, jakie ich ustawienie da największe prawdopodobieństwo. Takie zdanie nazywamy rekonstrukcją. W doświadczeniu przeprowadzonym przez Petera Browna (1990) model 2-gramowy został nauczony przy korzystaniu ze zdań z kanadyjskiego Hansardu czyli zbioru protokołów parlamentarnych. Poniżej znajdują się wyniki dla 38 testowych zdań. Dokładna rekonstrukcja (24 na 38) Please give me your response as soon as possible. Please give me your response as soon as possible. Rekonstrukcja zachowująca znaczenie (8 na 38) Now let me mention some of the disadvantages. Let me mention some of the disadvantages now. Rekonstrukcja nieudana (6 na 38) In our organization research has two missions. In our mission research organization has two. Jak widać, tylko w 6 przypadkach na 38 zdanie zrekonstruowane różniło się w znaczeniu od zdania wejściowego. Naturalnie, można wykorzystać taki jednojęzyczny model języka także w symbolicznych systemach tłumaczenia maszynowego do poprawy płynności generowanego tekstu. Podejście takie jest często stosowane, zwłaszcza w systemach tłumaczenia bezpośredniego, gdzie w ostatniej fazie może zostać przeprowadzona korekta użycia słów. 4.2.2. Ocena wierności Rozważmy polskie zdanie to mi się podoba oraz przykładowe angielskojęzyczne odpowiedniki that pleases me, I like it, I’ll take that one. Intuicyjnie pierwsze tłumaczenie jest niewątpliwie najbardziej wierne. Chociaż trudno jest ocenić taką intuicję, to podstawowym czynnikiem branym pod uwagę przy ustalaniu wierności jest ocena, w jakim stopniu poszczególne słowa jednego zdania są tłumaczeniami słów drugiego zdania. Zatem możemy oszacować prawdopodobieństwo, że zdanie wyjściowe jest dokładnym tłumaczeniem zdania wejściowego, mnożąc prawdopodobieństwa, że kolejne słowa zdania wyjściowego są tłumaczeniem jednego ze słów zdania wejściowego. W tym celu potrzebujemy określić prawdopodobieństwa, z jakimi każde słowo języka wyjściowego jest dobrym tłumaczeniem każdego słowa języka wejściowego. Naturalnie takich prawdopodobieństw nie można uzyskać za pomocą standardowych słowników dwujęzycznych. Uzyskuje się je zwykle za pomocą dwujęzycznych korpusów. Standardowo korpus nie posiada jednak informacji o odpowiedniości słów w obu językach, aby korpus wyposażyć w taką informację, niezbędną do uzyskania odpowiednich prawdopodobieństw, dokonuje się tzw. dopasowania tekstu (ang. text alignment).
Sebastian Kozłowski
87
4.2.3. Dopasowanie tekstu Często się zdarza, że mamy do czynienia z tekstami wielojęzycznymi w tym znaczeniu, że ta sama treść jest dostępna w kilku językach. Będziemy nazywać te teksty tekstami równoległymi. Największą grupą takich tekstów są sprawozdania z posiedzeń parlamentu i różne inne oficjalne dokumenty w krajach o kilku językach urzędowych, takich jak Szwajcaria czy Kanada lub w organizacjach, takich jak ONZ czy Unia Europejska. Takie teksty są często używane w NLP zarówno ze względu na dużą ilość dostępnych materiałów, jak również na fakt, że w tych zastosowaniach bardzo ważne jest dokładne, niemal dosłowne, tłumaczenie. Istnieją także inne źródła tekstów wielojęzycznych, jak np. artykuły z gazet i czasopism publikowanych w wielu językach, czy też literatura tłumaczona na wiele języków. Niestety w tym przypadku trudno jest znaleźć dostatecznie dużą ilość tekstów z tego samego okresu i gatunku, a co ważniejsze – tłumaczenie jest znacznie mniej dosłowne, co znacznie utrudnia analizę takiego tekstu. Gdy mamy już dostępny równoległy tekst, pierwszym zadaniem jest dopasowanie wysokiego poziomu, czyli oznaczenia, jakie akapity i zdania tekstu w jednym języku odpowiadają kolejnym akapitom i zdaniom w drugim języku. Ten problem był wnikliwie badany i istnieją dość dobre jego rozwiązania. Gdy dopasowanie wysokiego poziomu jest zrealizowane, następnym problemem, jaki się pojawia, jest konieczność przypisania, które słowa jednego języka powinny odpowiadać słowom drugiego języka. Możemy na to spojrzeć jak na procedurę tworzenia dwujęzycznego słownika z tekstu – słownika wyposażonego w prawdopodobieństwa tłumaczeń. 4.2.4. Dopasowanie zdań i akapitów Źródłem trudności w dopasowaniu tekstu jest fakt, że tłumacze nie zawsze, choć często, tłumaczą pojedyncze zdanie tekstu źródłowego na pojedyncze zdanie tekstu wynikowego. Ważne jest, aby zdać sobie sprawę, do jakiego stopnia tłumacz zmienia tekst oryginalny, nawet jeżeli mamy do czynienia ze specyficzną domeną językową, jak np. język techniczny. Poniżej znajduje się przykład z (Manning Schutze, 2002, str. 469), równoległego tekstu w ję¨ zykach angielskim i francuskim, poniżej każdej wersji jest podane niemal dosłowne tłumaczenie w języku polskim. Zarówno tekst angielski, jak i francuski, składa się z dwóch zdań, jednak nie ma między nimi bezpośredniej odpowiedniości. Treść 1. zdania angielskiego możemy odnaleźć w obu zdaniach francuskich, natomiast treść 2. zdania została częściowo pominięta, a częściowo umieszczona we francuskim zdaniu 1. According to our survey, 1988 sales of mineral water and soft drinks were much higher than in 1987, reflecting the growing popularity of these products. Cola drink manufacturers in particular achieved above average growth rates. Zgodnie z naszymi badaniami, w 1988 roku sprzedaż wody mineralnej i napojów bezalkoholowych była znacznie wyższa niż w roku 1987, odzwiercie-
88
Co to jest tłumaczenie maszynowe?
dlając rosnącą popularność tych produktów. Producenci napojów na bazie Coli w szczególności osiągnęli ponadprzeciętny wzrost. Quant aux (a) les eaux minérales et aux (les) limonades, elles rencontrent toujours plus d’adeptes. En effet notre sondage fait ressortir des ventes nettement supérieurs a celles de 1987, pour les boissons a base de cola notamment. Co do wody mineralnej i napojów bezalkoholowych, to zyskują one coraz więcej sympatyków. Faktycznie, nasz sondaż pokazuje znacznie wyższą sprzedaż, od tej z roku 1987, dla napojów na bazie Coli zwłaszcza. Taki rodzaj dopasowania oznaczamy 2 : 2, gdyż nie możemy wyróżnić odpowiadających sobie pojedynczych zdań. Powstaje wobec tego pytanie, jak dużo informacji musi się powtarzać pomiędzy zdaniami w różnych językach, abyśmy mogli powiedzieć, że dwa zdania są dopasowane. Zazwyczaj przyjmuje się kryterium, że występowanie odpowiadających słów jeszcze nie jest wystarczające, natomiast, jeżeli powtarza się cały człon zdania, to uznajemy, że zdania są częścią dopasowania (jak w przykładzie powyżej), nawet, jeżeli w pozostałych miejscach te zdania zdecydowanie się różnią. Badania pokazują, że dopasowania 1 : 1 stanowią około 90% wszystkich dopasowań, inne, jak np. 1 : 2, 1 : 3, powstałe wskutek podziału zdania są znacznie rzadziej spotykane, występują także dopasowania 1 : 0 i 0 : 1 powstałe przez celowe lub przypadkowe pominięcie zdania w tłumaczeniu. Powstało wiele metod, które dopasowują zdania dla różnych par języków (Manning Schutze, 2002, str. 463–484). Można je porównywać na wielu róż¨ nych poziomach, część z nich wykorzystuje informacje leksykalne, inne bazują na ilości słów i znaków. Część z metod generuje dokładne dopasowanie zdań, jak na powyższym przykładzie, inne – jedynie zgrubne dopasowanie pomiędzy pozycjami w tekście. Najwcześniej powstały metody bazujące na ilości słów lub znaków. Bazują na założeniu, że długie zdanie zostanie przetłumaczone na długie zdanie, co jest bliskie prawdy zwłaszcza dla zbliżonych języków i dosłownego tłumaczenia. Pomimo swojej prostoty metody te są dosyć skuteczne i bardzo wydajne. Wydajność tych algorytmów często można dodatkowo zwiększyć przeprowadzając najpierw dopasowanie na poziomie akapitów, a dopiero później na poziomie zdań. Inna grupa rozwiązań wykorzystuje ideę kognatów (ang. cognates), czyli wyrazów o podobnej pisowni, występujących w różnych językach. Kognaty mogą powstać w wyniku zapożyczeń lub mogą występować ze względu na wywodzenie się języków od wspólnego przodka. W implementacji Kennetha Churcha (1993) kognaty są wykrywane na poziomie sekwencji znakowych. Do prawidłowej pracy algorytmu wymagana jest duża ilość takich informacji, niemniej jednak w tekście występuje sporo sekwencji o innym charakterze, jak nazwy własne, liczby czy nawet słowa kluczowe lub polecenia komputerowe. Dzięki temu algorytm może być wykorzystywany praktycznie we wszystkich językach korzystających z alfabetu romańskiego, a jeżeli ilość
Sebastian Kozłowski
89
identycznych sekwencji w tekście jest wystarczająca duża, to nawet w językach o dowolnych alfabetach. Na rysunku 6 przedstawiony jest wykres obecności kognatów dla pary języków. W tym przypadku kognaty wyszukiwane były za pomocą 4-znakowych ciągów. Jeżeli oba teksty byłyby identyczne, otrzymalibyśmy prostą linię poziomą. Punkty znajdujące się poza linią pochodzą od przypadkowych podobieństw pomiędzy tekstami w różnych miejscach. Aby lepiej przedstawić zjawisko, obraz jest rozciągnięty 10-krotnie w pionie. Rysunek 6 pochodzi z (Church, 1993).
Rysunek 6. Wykres kognatów dla tekstu równoległego
W algorytmie tym można wprowadzić wiele usprawnień, aby dokonywać mniejszej liczby porównań. Przypisuje się też ciągom rzadko występującym większe wagi niż ciągom często występującym, gdyż te ostatnie częściej są efektem przypadkowej zbieżności. 4.2.5. Dopasowanie słów Kolejnym etapem jest znalezienie odpowiedniości pomiędzy słowami języka wejściowego i wyjściowego w jednym zdaniu. Rozważmy przykład dopasowania zdania w języku angielskim ze zdaniem w języku francuskim (Brown et al., 1990), znajdujący się na rysunku 7. Proste algorytmy dopasowania słów są asymetryczne w tym sensie, że słowo języka wejściowego może odpowiadać dowolnej ilości słów języka wyjściowego, natomiast każde słowo języka wyjściowego może odpowiadać tylko jednemu lub żadnemu słowu języka wejściowego. Tę asymetrię widać wyraźnie na rysunku 7, wyrażeniu w języku francuskim mises en application
90
Co to jest tłumaczenie maszynowe?
Rysunek 7. Przykład dopasowania słów
najlepiej odpowiadałoby angielskie wyrażenie be implemented. Takie dopasowanie jest jednak niedozwolone. Jedno z podejść do dopasowania słów bazuje na rozkładzie χ2 . Idea polega na tym, że na podstawie dużego tekstu określamy, czy pojawianie się danego słowa języka wejściowego jest zależne od innych słów drugiego języka występującego w poszczególnych zdaniach. Jeżeli taka zależność jest silna i przekracza arbitralnie wybraną liczbą zwaną progiem zaufania, to uznajemy, że takie dwa słowa są w dopasowaniu. W wielu przypadkach jest to dobre rozwiązanie, zwłaszcza, gdy wybierzemy wysokie progi zaufania. Niemniej jednak, wyniki mogą być mylące w przypadku, gdy jedno ze słów wejściowych jest często tłumaczone na dwa lub więcej słów języka wyjściowego. Można podać przykład zaczerpnięty z kanadyjskiego Hansardu, gdzie angielskie słowo house (dom) zostało niepoprawnie przetłumaczone na francuskie communes (gminy), gdyż słowo House (Izba Gmin) najczęściej występowało z odpowiadającą francuską frazą Chambre de Communes i w konsekwencji uznano, że w dopasowaniu jest zarówno para (House, Chambre) jak i (House, Communes). Problem ten może być rozwiązany przez nałożenie ograniczenia, że istnieje odpowiedniość jeden do jednego między wyrazami w obu językach. Pomimo sztuczności takiego założenia, uzyskiwane wyniki są bardzo dobre (Manning Schutze, 2002, str. 487). Większość rozwiązań, korzystających z tego ¨ założenia, opiera się na algorytmie EM (ang. Expectation Maximization) znanym w polskojęzycznych opracowaniach jako metoda maksymalizacji wartości oczekiwanej, lub używa podobnej techniki iteracyjnej analizy i poprawy hipotetycznego dwujęzycznego słownika w oparciu o wyniki dopasowania zdań w korpusie. Oznacza to, że tworzony jest przybliżony słownik dwujęzyczny w oparciu o początkowe dopasowanie tekstu, a następnie dopasowanie jest poprawiane przy użyciu informacji słownikowych. W kolejnym powtórzeniu (iteracji) tworzony jest bardziej dokładny słownik i dopasowanie. Ze względu na konieczność iteracji metody te jednak są bardziej czasochłonne. W technikach dopasowania słów obecnie widać tendencję do korzystania z istniejących słowników zamiast całkowitej generacji dopasowania za pomocą analizy statystycznej tekstu. Rozważmy teraz wyniki przykładowego dopasowania słów z kanadyjskiego Hansardu (Brown et al., 1990). W tabeli 4
91
Sebastian Kozłowski
znajdują się uzyskane za pomocą dopasowania tekstu prawdopodobieństwa przetłumaczenia angielskich słów the i not na francuskie odpowiedniki. Tabela 4. Prawdopodobieństwa tłumaczeń uzyskane przy pomocy korpusu równoległego
Słowo angielskie: not
Słowo angielskie: the
Odpowiednik
Prawdopodobieństwo
Odpowiednik
Prawdopodobieństwo
pas ne non pas du tout
0,469 0,460 0,024 0,003
le la l’ les
0,610 0,178 0,083 0,023
Jak widać – słowo not najczęściej tłumaczy się na słowa ne i pas. Jest to spowodowane faktem, że we francuskim, przeczenie realizowane jest najczęściej za pomocą pary tych wyrazów. Równie oczywiste są prawdopodobieństwa tłumaczenia słowa the na francuskie odpowiedniki, dodatkowo rozróżniające rodzaj i liczbę. Inną ważną informacją, oprócz prawdopodobieństwo dla danego słowa wejściowego, jest wartość fertility5 , oznacza ona, na ile słów języka wyjściowego zazwyczaj tłumaczy się dane słowo. Tabela 5. Użyteczności tłumaczeń uzyskane przy pomocy korpusu równoległego
Słowo angielskie: not Fertility Prawdopodobieństwo 0 0,133 1 0,106 2 0,758
Słowo angielskie: the Fertility Prawdopodobieństwo 0 0,124 1 0,871 2 0,004
Z tabeli 5 wynika, że słowo not w ponad 75% przypadków tłumaczy się na dwa słowa języka francuskiego, co odpowiada naszemu wcześniejszemu spostrzeżeniu o tłumaczeniu na konstrukcję ne. . . pas. Wartość fertility równa zero oznacza, że dane słowo nie tłumaczy się w ogóle na język wyjściowy, a więc zostaje pominięte. Niemniej jednak, informacje uzyskane z równoległego korpusu nie zawsze są takie oczywiste. Dla przykładu: tłumaczeniem angielskiego słowa hear powinno być francuskie entendre, a okazuje się, że najczęściej tłumaczone jest na bravo (Tabela 6). Co ciekawe – okazuje się, że w połowie przypadków, w ogóle nie jest tłumaczone (wartość fertility równa zero). Powodem takiej sytuacji jest fakt, że w Hansardzie bardzo często występuje fraza Hear! Hear! oznaczająca aprobatę dla wypowiedzi, natomiast 5 Nie znalazłem niestety w literaturze odpowiadającego polskiego terminu; tłumaczenie dosłowne płodność lub żyzność nie brzmi niestety zbyt naturalnie i nie oddaje poprawnie znaczenia, pozostaniemy więc przy terminie oryginalnym.
92
Co to jest tłumaczenie maszynowe? Tabela 6. Prawdopodobieństwa tłumaczenia angielskiego słowa hear
Odpowiednik bravo entendre entendu entends
Słowo angielskie: hear Prawdopodobieństwo Fertility 0,992 0 0,005 1 0,002 0,001
Prawdopodobieństwo 0,584 0.416
francuskojęzyczna część parlamentu okazuje aprobatę poprzez Bravo! Z tego powodu pierwsze hear dopasowane jest z bravo, a drugie hear jest dopasowane z frazą pustą. W powyższej tabeli widać również pewną słabość tego podejścia. Ze względu na brak analizy morfologicznej, słowa języka wejściowego są dopasowywane do różnych form języka wyjściowego niezależnie, co utrudnia wykrycie tych zależności. 4.2.6. Znajdowanie tłumaczenia Modele tłumaczenia (wiarygodności) i języka wyjściowego (płynności) dają nam możliwość oceny jakości dowolnego tłumaczenia. Aby znaleźć tłumaczenie najlepsze, moglibyśmy zatem generować wszystkie możliwe zdania w języku wyjściowym i wybrać te o największym prawdopodobieństwie, jednakże ilość potencjalnych zdań jest tak duża, że to rozwiązanie musimy odrzucić jako niepraktyczne. W praktyce algorytm, znajdujący tłumaczenie podczas wyszukiwania potencjalnych zdań, korzysta zarówno z modelu języka wyjściowego, jak i modelu tłumaczenia. Pozwala to na bieżąco usuwać te ścieżki przeszukiwania, które nie dają dużych szans na generację najlepszego zdania. W ten sposób działa m.in. algorytm Viterbiego, korzysta on z idei programowania dynamicznego, co pozwala osiągnąć dość dobrą wielomianową złożoność czasową. Ze względu jednak na dużą wielkość przestrzeni rozwiązań, algorytm ten jest rozszerzany poprzez szukanie wiązką, (ang. beam-search) polegające na odrzuceniu w każdym kroku wszystkich węzłów przeszukiwania, oprócz tych najbardziej obiecujących. Zastosowana idea programowania dynamicznego nie pozwala jednak użyć bardziej skomplikowanych modeli tłumaczenia niż bigramowych, z tego powodu algorytm ten nie będzie działał prawidłowo w niektórych przypadkach (mianowicie wtedy, gdy pewne tłumaczenie na początku wygląda bardzo nieprawdopodobnie, a później okazuje się być najlepsze, gdyż ta ścieżka zostanie bardzo szybko usunięta). Opracowano wiele technik pomagających obejść ten problem, między innymi modyfikuje się algorytm tak, by zwrócił nie jedno, a grupę najlepszych rozwiązań, a następnie wyszukuje się najlepsze tłumaczenie w tej grupie korzystając z bardziej zaawansowanych modeli (na małej grupie większa złożoność czasowa nie jest już tak istotna). Innym stosowanym algorytmem jest często wykorzystywany w sztucznej inteligencji A∗ , pozwala on na użycie bardziej zaawansowanych
Sebastian Kozłowski
93
modeli tłumaczenia niż algorytm Viterbiego, kosztem zwiększonej złożoności czasowej. Podstawowa idea pozostaje jednak taka sama, a więc zdanie wyjściowe jest rozbudowywane, a ścieżki o niskich prawdopodobieństwach są usuwane.
Literatura Arnold, D.J., L. Balkan, S. Meijer, R.L. Humphreys, L. Sadler (1994): Machine Translation: an Introductory Guide. London, Blackwells-NCC. Brown, P.F., J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, P. Roossin (1990): A Statistical Approach to Machine Translation. Computational Linguistics 16(2). Church, K.W. (1993): Char align: A Program for Aligning Parallel Texts at the Character Level. Columbus, Proceedings of ACL, [@:] http://citeseer.nj.nec.com/church93 charalign.html. Cole, R.A., J. Mariani, H. Uszkoreit, A. Zaenen, A. Zue (1995): Survey of the State of the Art. In Human Language Technology. Pittsburgh, Carnegie Mellon University. Daciuk, J. (2003). [@:] http://www.eti.pg.gda.pl/˜jandac/. Dębowski, Ł. (2001): Tagowanie i dezambiguacja mordosyntaktyczna. Przegląd metod i oprogramowania. Warszawa, Raport techniczny IPI PAN. Hedden, T.D. (2000): Machine Translation: a Brief Introduction. [@:] http://www.he.net/ ˜hedden/intro mt.html. Hopcroft, J.E., J.D. Ullman (1997): Introduction to Automata Theory, Addison-Wesley, Languages and Computation. Hutchins, J. (2003): The history of machine translation in a nutshell. [@:] http://www.ourworld.campuserve.com/homepages/WJHutchins/Webhome.htm. Jurafsky, D., J.H. Martin (2000): Speech and Language Processing. New Jersey, Prentice Hall. Kay, M. (1997): The Proper Place of Men and Machines in Language Translation. Machine Translation 12, 3–23. Kay, M. (1998), Machine Translation. Manning, C.D., H. Schutze ¨ (2002): Foundations of Statistical Natural Language Processing. Cambridge, The MIT Press. Noord van, G. (2002): Alpino: Wide-coverage Computational Analysis of Dutch. CLSP Seminar Series, [@:] http://www.clsp.jhu.edu/seminars/abstracts/S2002/vannoord.pdf. Penrose, R. (1996): Nowy umysł cesarza. Warszawa, Wydawnictwo Naukowe PWN. Sommers, H. (1999): Review Article: Example-based Machine Translation. Machine Translation 14, 113–157. Verbmobil (2000) strona projektu. [@:] http://verbmobil.dfki.de/overview-us.html. WordNet (2002): A lexical database for the English language. [@:] http://www.cogsci. princeton.edu/˜wn/.
Piotr Labenz
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina1
I’m sorry, Dave, I’m afraid I can’t do that. – HAL 9000
Możliwość AI to problem filozoficzny, ale i praktyczny. Dlatego próbuję tu wysnuć filozoficzne wnioski z przeświadczeń wyniesionych z praktycznej pracy nad programami rozmawiającymi w języku naturalnym, tzw. botami. Opisuję dwa podejścia do budowy botów, regułowe i statystyczne (punkt 1.) i pewną umiejętność, dzięki której z ludźmi na ogół rozmawia się nam płynniej niż z botami (punkt 2.). Sądzę, że jest ona niedostępna botom (punkt 3.), stąd konwersacyjna AI jest technicznie niemożliwa; przy tym wątpliwe, by niemożliwość ta została przezwyciężona (punkt 4.). Co więcej, taka inspirowana testem Turinga koncepcja AI – to nieporozumienie (punkt 5.).
1. Test Turinga i kawałki języka Sztuczna inteligencja to taka maszyna, która radzi sobie z rzeczami, z którymi zwykle ludzie radzą sobie lepiej od maszyn. Taka potoczna definicja, choć przyjmują ją niektórzy informatycy (np. Rich, 1983, str. 1), jest chyba za szeroka, bo spełniają ją np. koparka czy wibrator. Trzeba ją więc zawęzić: AI to taka maszyna, która radzi sobie z tym, co podobno jest differentia specifica człowieka, a mianowicie – z językiem. Żeby czasem pod tę definicję nie podpadał magnetofon albo książka, można powiedzieć, że „radzi sobie z językiem” to tyle, co „potrafi rozmawiać nie gorzej niż przeciętny człowiek” – czyli potrafi przejść test Turinga (1950; dalej: TT). Sądzę, że taka definicja 1 Wcześniejszą wersję części tej pracy referowałem na II Ogólnopolskim Forum Filozoficznym Młodych. Dziękuję Jakubowi Szymanikowi i Marcinowi Zajenkowskiemu za sugestie i uzupełnienia, mgr Agnieszce Mykowieckiej za uwagi zawarte w recenzji, a mgr. Grzegorzowi Rutkiewiczowi za pomoc z Dodatkiem 2.
96
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
odzwierciedla intuicję „sztucznego inteligenta”2 , takiej maszyny, która byłaby „jak człowiek”. Oczywiście można jednak jako differentiam specificam proponować inne zdolności umysłowe czy poznawcze człowieka. Myślę wprawdzie, że maszyny liczące czy rozpoznające obrazy trudno określić mianem sztucznych inteligentów, jeśli nie da się z nimi porozmawiać3 ; ale na wszelki wypadek będę tu mówił tylko o „konwersacyjnej” AI4 . Ale czy „potrafi przejść TT” znaczy, że kiedyś przeszła albo przejdzie pewien TT, czy że zawsze albo prawie zawsze go przechodzi? Otóż w pierwszym sensie potrafią przejść TT choćby proste boty w rodzaju ELIZY (zob. Weizenbaum, 1966) czy tzw. lingubotów (zob. Dodatek 1.)5 , a w drugim – czasem nie potrafią go przejść ludzie. W obu wypadkach powodzenie zależy od tego, czy testowany kandydat do inteligencji trafi na rozmówcę posługującego się podobnym, co on, kawałkiem języka. Człowiek potrafi dostosować swój sposób mówienia do języka rozmówcy, ale tylko w pewnych granicach – gdy mają jakiś wspólny kawałek języka. Zapewne da się znaleźć takie pary użytkowników języka polskiego, które nie będą się potrafiły dogadać. Na przykład wykładowca metafizyki z KUL-u zapewne nie ma dostatecznie dużego kawałka języka wspólnego z pracownicą klubu „Viva”, by jedno z nich przeszło TT oceniany przez drugie6 . Natomiast bot ma zaprogramowany jeden kawałek języka – i wszelkie szanse przejść TT, ale tylko gdy rozmówca zechce się dostosować i korzystać z tego samego kawałka7 . 2 Określenie zapożyczone od Miłkowskiego (2002). Zwykle mianem „AI” określa się również roboty, systemy decyzyjne i eksperckie itd. Istotnie, korzystają one z pewnych wspólnych technik heurystycznych czy programistycznych (por. Rich, 1983; Russell Norvig, 1995). Tutaj jednak mam na myśli nie AI jako dyscyplinę, ale właśnie „sztucznego inteligenta”. 3 Nie traktuję tego jako twierdzenia, a jedynie jako doraźne ustalenie terminologiczne. Jednak za jego intuicyjnością przemawiają liczne artystyczne wyobrażenia sztucznej inteligencji (zob. np. Lem, 1959, i o HAL-u z Odysei kosmicznej – Stork, 1997). W kwestii, czy taka terminologia jest adekwatna – zob. punkt 5 (a inne definicje AI zob. Russell Norvig, 1995, str. 4-5). 4 Por. (Block, 1981, str. 11, 18) (definicja „inteligencji konwersacyjnej” w kontekście krytyki TT). W kwestii założenia, że umiejętność rozmawiania jest konstyutywną dla „radzenia sobie z językiem” zob. Clark, 1996, str. 3-11 i Pickering, Garrod: w druku („. . . people still find monologue far more difficult than dialogue. We believe that a true understanding of both dialogue and monologue requires an understanding of the basic processing skills that have developed, primarily, to deal with dialogue”). 5 Ograniczony tematycznie TT przeszło wiele programów w ramach konkursu o Nagrodę Loebnera (Shieber, 1994; zob. Dodatek 1.). 6 Por. Kreckel 1981,str. 4-5. Kreckel twierdzi, czego szczególnym przypadkiem wydaje się być powyższy przykład, że „the degree of understanding potentially acheived in verbal exchanges is a direct function of the degree of convergence of the interactionally relevant concepts held by the interactors and their shared conventions”. Twierdzenie to popiera Kreckel badaniami empirycznymi (passim). 7 Właśnie wtedy ELIZA czy lingubot przechodzą TT. Zdarza się to rzadko, ale to wtedy powstają anegdotki będące pożywką dla amatorów-entuzjastów AI, jak ta o sekretarce Weizenbauma, która chciała rozmawiać z ELIZĄ sam na sam. (Por. Dodatek 2.) ELIZA miała zadanie ułatwione o tyle, że korzystała z stosunkowo łatwego do naśladowania za pomocą prostych reguł kawałka języka (udawała psychoanalityka, stąd np. mogła zadawać dużo pytań, zamiast analizować wypowiedzi użytkownika). Skrajnym, acz rokującym niewielkie nadzieje co do inteligencji, przypadkiem takiej taktyki był program PARRY, udający paranoika (Colby, 1981).
Piotr Labenz
97
„Kawałek języka” to oczywiście pojęcie nieostre8 , ale myślę, że oddające pewną własność języka rzeczywiście używanego przez ludzi, polegającą na tym, że język etniczny – czyli jakiś dość duży (i nieostry) zbiór wypowiedzi – jest pod wieloma względami niespójny jako całość, ale spójny lokalnie. Takie obszary lokalnej spójności pod kilkoma względami to właśnie kawałki języka. Chodzi właściwie o wszelkie względy: słownictwo, składnię, zakładaną wiedzę, ontologię, logikę rozumowań itd. W rozmowie nie dbamy nieraz o utrzymywanie spójności pod tymi względami, lecz całkiem naturalnie przeskakujemy między kawałkami języka, czy płynnie przechodzimy z jednego do drugiego. Globalna spójność jest w rozmowie zbyteczna (a jej utrzymywanie niepotrzebnie rozpraszałoby naszą uwagę); żeby się dogadać, wystarczy zachować spójność lokalnie i pod ważnymi w danej chwili względami9 . Kilka przykładów: (1) Możemy zacząć rozmowę używając leksykonu polszczyzny akademickiej, a skończyć używając leksykonu polszczyzny jakiejś subkultury młodzieżowej (wystarczy, żeby rozmowa trwała tyle, co spacer z sali wykładowej do najbliższego klubu). Wymienione leksykony się przecinają, ale ich rozłączne fragmenty są niespójne: wypowiedź „Ładne ciało, ale straszna metafizyka” na początku tej rozmowy może dotyczyć algebry i intuicjonizmu, a na końcu – pewnej studentki i jej życia uczuciowego10 . (2) Podobna sytuacja może dotyczyć składni, na przykład rozmowa rozpoczęta w „standard English”, w którym występuje zgodność liczby i rodzaju między podmiotem a orzeczeniem, a nie występuje podwójne przeczenie, podczas, gdy w jakimś „substandard English”, w którym rozmowa się zakończyła – wręcz przeciwnie. Zatem wypowiedź „She aren’t no good” na początku rozmowy byłaby dla rozmówców zgrzytem, a na końcu – nie. 8
Dlatego „kawałek”, a nie „fragment języka”. Niewykluczone, że można o kawałkach języka myśleć jako o przecięciach przecięć idiolektów właściwych rozmówcom (zob. np. George, 1990) z pewną grą językową w sensie Wittgensteina 2000, §23. (Tamże dalej o nieostrości.) Na poziomie semantycznym przecięciu idiolektów odpowiadałaby wiedza wspólna rozmówcom („common knowledge”, „common ground” itp.; zob. Lee, 2001; Clark, 1996, str. 93-36; Kreckel, 1981,str. 25-29). 9 To samo zresztą (wbrew utyskiwaniom semiotycznych purystów-preskryptywistów) odnosi się do tekstów. Utrzymywanie globalnej spójności w długim tekście zwykle znakomicie zaciemnia tekst, zamiast go rozjaśnić. (Innymi słowy, niespójność bywa komunikacyjnie skuteczniejsza, podobnie jak nieostrość – zob. Jucker et al., 2003.) Oczywiście nie dotyczy spójności pod kluczowymi względami, na przykład co do głoszonych tez. Ale za daleko posunięta globalna spójność terminologiczna, ontologiczna czy stylistyczna powoduje, że tekst jest nienaturalny i trudny do przyswojenia (a więc mało skuteczny). Nawet w tekstach matematycznych powszechną praktyką jest używanie symboliki prostszej, choć spójnej tylko lokalnie. Można by nawet powiedzieć, że inteligencja to zdolność rozumienia tekstu spójnego tylko lokalnie. 10 Oczywiście, można te fragmenty uspójnić, biorąc zamiast wypowiedzi pary «wypowiedź, kontekst». Jednak sądzę, że próba uspójnienia w ten sposób choćby kilku kawałków języka, między którymi bez trudności przeskakujemy, wymagałaby bardzo heterogenicznej konstrukcji kontekstu. Jeśli traktować kontekst jako ciąg parametrów opatrzonych wartościami (tzw. maksymalny kontekst pragmatyczny, zob. Ciecierski, 2003), to pojawiłaby się kategorialna niespójność parametrów, bo kawałki języka o różnych leksykonach mają często różne ontologie. Ogólniej, żeby konstrukcja kontekstu dobrze działała dla wielu kawałków języka, musielibyśmy umieć reprezentować niespójną wiedzę o niespójnych kategoriach, rozmytych stopniach pewności itd.
98
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
(3) W potocznej rozmowie nieistotne jest, czy mówimy o przedmiotach, czy zdarzeniach. W trakcie rozmowy może zmienić się prawdziwość pewnych zdań i nastawienia propozycjonalne rozmówców. Zatem semantyka języka, w którym toczy się rozmowa, jest globalnie niespójna kategorialnie i diachronicznie11 . Skoro zaś i inteligentni (cóż, nie sposób uniknąć ekstrawaganckich założeń filozoficznych) ludzie, i nieinteligentne boty czasem, ale nie zawsze przechodzą TT, to zdolność przechodzenia TT nie jest tym, co ich różni. Sądzę, że różnicę tę stanowi raczej właśnie zdolność radzenia sobie z globalną niespójnością języka. Człowiek zna wiele wzajemnie niespójnych kawałków języka i potrafi płynnie między nimi przechodzić (por. Wittgenstein 2000, §67) , a bot zna tylko jeden spójny kawałek (albo nieliczne kawałki) języka. Myślę, że to ostatnie jest – póki co – nieuniknione.
2. Podejście regułowe i statystyczne Uczyć maszynę języka – czyli budować konwersacyjną AI – można na dwa sposoby: za pomocą reguł albo statystycznie12 . W pierwszym wypadku próbujemy zbudować system formalny, czy raczej kilka współpracujących ze sobą systemów odzwierciedlających umiejętności rozumienia, pamiętania, wnioskowania, udzielania odpowiedzi itd. składające się na naszą zdolność rozmawiania – i zaimplementować to jako program komputerowy. W drugim wypadku postępujemy czysto behawiorystycznie: nie modelujemy poszczególnych umiejętności, a jedynie przypisujemy pewnym bodźcom (klasom zapytań) pewne reakcje (klasy odpowiedzi). Oba sposoby pozwalają, moim zdaniem, nauczyć maszynę nie więcej niż kilku kawałków języka (w sensie: istotnie mniej wielu, niż zwykle potrafią używać ludzie). Podejście regułowe wygląda (w dużym uproszczeniu) następująco. Najpierw kandydat na sztucznego inteligenta musi sparsować wypowiedź rozmówcy (zakładamy, że rozmowa toczy się na piśmie), czyli ze stanowiącego ją ciągu liter wydobyć logiczno-gramatyczną strukturę zdania. Do tego potrzebuje kompletnej gramatyki języka polskiego, na przykład gramatyki struktur frazowych wraz z kompletnym leksykonem, czyli zbiorem polskich słów z przypisanymi im różnymi własnościami. W tle nasz bot musi mieć zasób wiedzy o świecie podobny do naszego, pozwalający mu oceniać prawdziwość wypowiedzi rozmówcy, rozumieć entymematy i wnioskować. Do tego potrzebny jest jednolity sposób przechowywania wszelkiej wiedzy i al11 Niespójność kategorialną można eliminować wprowadzając reguły tłumaczenia między kategoriami, a diachroniczną – na przykład logiką zmiany (por. Kamp, 1980). Zasadniczo uspójnianie różnych kawałków języka w ramach jakiejś kanonicznej reprezentacji byłoby możliwe. Ale zob. dalej. 12 Odpowiada to podziałowi na nurty logistyczne i heurystyczne w AI (Miłkowski, 2002, str. 118). Za Rich (1983, str. 3-16) można by określić podejście regułowe „podejściem AI”. Pod podejście statystyczne (które można by określić „siłowym”) podpadają m.in. rozwiązania konekcjonistyczne.
Piotr Labenz
99
gorytm oceniania prawdziwości (ontologia i semantyka) oraz podobne do ludzkich mechanizmy rozumowania (m.in. logika rozmyta, teorie presupozycji i implikatury). Gdy wreszcie sztuczny inteligent wymyśli odpowiedź, będzie musiał ją wypowiedzieć po polsku – za pomocą gramatyki działającej w drugą stronę (generatywnie) i jakichś reguł pragmatycznych, pomagających zdecydować, jaka odpowiedź jest do rzeczy13 . To pobieżne wyliczenie zagadnień, które trzeba by rozwiązać przy regułowym podejściu do budowy konwersacyjnej AI pokazuje, że praktycznie jest ono niewykonalne. Nad każdym z wzmiankowanych problemów trudzi się armia badaczy, teorie puchną – ale wciąż są fragmentaryczne, to znaczy stawiają sobie za ambicje adekwatnie sformalizować pojedyncze kawałki języka naturalnego. Już to jest zadaniem trudnym (por. Szymanik, 2002), o scalaniu wyników w funkcjonalną całość dla tak wielu kawałków języka, jak wieloma posługuje się przeciętny człowiek, nie wspominając. Dobrze działają systemy proste i bardziej wyspecjalizowane, np. parsery dla ograniczonych fragmentów języka (zob. np. Przepiórkowski et al., 2002). Z kolei podejście statystyczne zakłada minimum teorii – na przykład, w jednej z możliwości, banalną gramatykę w postaci skończonej listy produkcji, przyporządkowujących klasom zapytań klasy odpowiedzi14 . Klasy zapytań definiujemy jak najprościej – więc czysto syntaktycznie, według współwystępowania pewnych ciągów znaków. Nie potrzebujemy ogólnej teorii składni, bo definiujemy ad hoc dla każdej produkcji. Co więcej, definicje nie muszą być ściśle adekwatne, skoro klasy i zapytań, i odpowiedzi są rozmyte (bo trudno o ścisłą synonimię dla całych zdań). Oczywiście bot z tak niechlujnie określoną gramatyką będzie raz odpowiadał dobrze, a kiedy indziej – od rzeczy. Ale temu zapobiec możemy porządkując produkcje od najściślej do najluźniej zdefiniowanych i przypisując wcześniejszym priorytet nad późniejszymi, a następnie optymalizując je tak długo, aż odpowiedzi będą na ogół dorzeczne15 . Optymalizacja polega na modyfikowaniu istniejących produkcji i ich porządku oraz dodawaniu nowych na podstawie błędów popełnianych przez bota w rozmowach. Jest statystyczna w tym sensie, że działa dzięki akumulacji małych zmian, a nie dzięki rozwiązaniom systemowym16 . 13 Zagadnienia te dobrze przybliżają: syntaksę – Przepiórkowski et al., 2002 (zwłaszcza dla polszczyzny); Sag Wasow, 1999, semantykę – de Swart, 1998 i pragmatykę – Tokarz, 1993. O implementacji zob. Jurafsky Martin, 2000; Russell Norvig 1995; Rich, 1983. 14 Jest to więc zdegenerowana gramatyka liniowa, gdzie {a , a , . . . , a } to zbiór zapytań, n 1 2 {b1 , b2 , . . . , bm } – odpowiedzi, s – symbol początkowy, a zbiór produkcji ma postać {s → ai | i ∈ {1, . . . , n}} ∪ {ai → bj | j ∈ {1, . . . , m}} (zob. Partee et al., 1990, str. 474). Trywialnie jest to więc też gramatyka bezkontekstowa (zob. Partee et al., 1990, str. 492) o bardzo niskim „stopniu uogólnienia” (Sag Wasow, 1999, str. 29-34). Ma ona, poza oczywistą prostotą implementacji, pewne zalety teoretyczne, ze względu na które Newell i Simon (1972, str. 804) stawiają hipotezę, że podobną strukturę ma u ludzi ogólna umiejętność rozwiązywania problemów. Być może przemawiałoby (wbrew poniższej krytyce) to za kognitywnym ugruntowaniem tego podejścia. 15 Pomijam tu pomocnicze narzędzia pozwalające radzić sobie z okazjonalizmami i (w pewnym zakresie) modyfikować produkcje w zależności od kontekstu. 16 Można zauważyć, że jeśli w opisanej procedurze zastąpić programistę dokonującego optymalizacji jakimś algorytmem, to całość będzie algorytmem samouczącym. Ale napisanie takiego
100
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
Oczywiście, żeby taka akumulacja zmian działała, muszą one dążyć w jednym kierunku. Innymi słowy, korpus rozmów, na podstawie którego optymalizujemy, musi być jednorodny, czyli większość rozmów musi zawierać się w jednym kawałku języka. W przeciwnym razie małe zmiany mogłyby się znosić, zamiast kumulować. Co więcej, produkcje są syntaktyczne, a równokształtne zapytania mogą wymagać różnych odpowiedzi w różnych kawałkach języka. Gdyby korpus nie był jednorodny, to bot mieszałby kawałki języka, co trudno uznać za dorzeczne. (W praktyce17 korpus jest jednorodny dlatego, że powstaje z rozmów w zbliżonym kontekście i z jedną grupą ludzi – docelową publicznością danego bota. Z biegiem optymalizacji bot osiąga znośną dorzeczność w używanym przez rozmówców kawałku języka, ale w innych przypadkach radzi sobie nadal słabo.) Zatem również podejście statystyczne ograniczone jest do jednego kawałka języka18 .
3. Niemożliwość czego? Co wynika stąd, że nie potrafimy nauczyć maszyny więcej niż kilku kawałków języka? Niemożliwa jest konwersacyjna AI. Czy jest to argument na rzecz tezy, że w umyśle jest coś nieredukowalnego do maszyny? Oczywiście nie, bo niemożliwość zasadza się na trudności czysto technicznej. W wypadku podejścia (czysto) statystycznego wymóg optymalizacji do jednorodnego korpusu wydaje się być nie do przezwyciężenia, więc być może przy tym podejściu niemożliwość jest logiczna. Podejście regułowe w zasadzie mogłoby kiedyś – gdy lingwistyka formalna wypracuje adekwatne, niefragmentaryczne teorie i dadzą się one zunifikować – doprowadzić do przezwyciężenia owej niemożliwości technicznej i zbudowania konwersacyjnej AI. Ale czy na pewno? Wówczas dysponowalibyśmy formalną teorią nie tylko generującą wszystkie zdania języka naturalnego, ale również potrafiącą wykonać wszystkie możliwe w nim rozumowania. Wówczas byłoby tak, że rozumowanie w języku naturalnym jest poprawne wtedy i tylko wtedy, gdy potrafi je wykonać nasza konwersacyjna AI – bo to ostatnie znaczy, że da się je wyprowadzić za pomocą formalnych systemów składających się na ową AI. Innymi słowy, dla języka naturalnego zachodziłoby twierdzenie o pełności. To jest oczywiście niemożliwe, bo język naturalny ma zbyt dużą siłę eksprealgorytmu napotyka na podobne trudności, co podejście regułowe, bo musiałby on odzwierciedlać wyczucie językowe, dzięki któremu programista rozpoznaje w korpusie rozmów błędy sztucznego inteligenta. 17 Na podstawie własnych doświadczeń z optymalizacją lingubotów (zob. Dodatki). 18 Zdarzają się podejścia pośrednie, mianowicie – korzystające z aparatury formalnej, ale mniej ugruntowanej teoretycznie niż w podejściu regułowym (np. prostych fragmentarycznych gramatyk opartych na regułach), więc w znacznej mierze zależne od optymalizacji. Praktyka pokazuje, że łączą one wady obu podejść – sądzę, że dotyczy to np. botów Ana i Denise. (por. Dodatek 1.).
Piotr Labenz
101
sji, by być pełnym (np. zawiera arytmetykę Peano, która pełna nie jest19 )20 . Wynikałoby stąd, że również przy podejściu regułowym konwersacyjna AI jest niemożliwa nie tylko technicznie, ale i logicznie. Czego jednak właściwie dotyczyłaby ta logiczna niemożliwość? Zbudowania formalnej teorii generującej dokładnie wszystkie wypowiedzi języka naturalnego (wraz z odpowiednimi kontekstami). Ale czy aż tyle potrzebujemy? Chyba nie, bo przecież skoro (jakkolwiek czasem mogłoby się to wydawać wątpliwe) istnieją ludzie umiejący rozmawiać, to ich mózgi radzą sobie z używaniem języka bez popadania w sprzeczność. Zatem można przypuszczać, że podejście regułowe (przynajmniej w uproszczonej postaci tu zarysowanej) różni się od ludzkich zdolności konwersacyjnych pod jakimś istotnym, strukturalnym względem, a zatem ich dobrze nie odzwierciedla. Mamy więc jakąś umiejętność nie dającą się odzwierciedlić regułami, z której korzystamy rozmawiając. Sądzę, że może tu chodzić właśnie o wyżej opisaną umiejętność przeskakiwania między kawałkami języka. Niewykluczone, że można ją rozumieć jako pewien sposób unikania nadmiernej trudności21 obliczeniowej, podobnie jak te zdolności, które pozwalają szachistom osiągać przewagę nad silnymi komputerami dzięki błyskotliwym posunięciom. Można powiedzieć, że jednym z wyróżników inteligencji są rozmaite zdolności unikania „eksplozji kombinatorycznej” – czyli właśnie trudnych obliczeniowo problemów (Newell Simon, 1976, str. 123; por. też Dennett, 1985; Newell Simon, 1972: passim, np. 678, podobnie Rich, 1983, str. 6). Myślę, że całkiem prawdopodobna jest hipoteza, że umiejętność przeskakiwania jest szczególnym przypadkiem takich zdolności. 19
Co wynika z twierdzenia Godla; ¨ zob np. Nagel Newman, 1966; Krajewski, 2003. Nieco ściślej: niech p – prawdziwe zdanie języka polskiego; załóżmy, że wiedza, w jaką wyposażyliśmy naszą regułową AI stanowi adekwatny model naszej wiedzy. Niech wtedy ⊢ p wtw gdy nasza regułowa AI potrafi wygenerować p jako odpowiedź (może: i potrafi sparsować p), |= p wtw gdy potrafimy wyprowadzić p, rozumując w naturalnym języku polskim, z zbioru zdań „oczywiście prawdziwych” w tymże języku. Z założenia ⊢ p dla każdego p. Ale wydaje się, że istnieją takie p, że 6|= p. Przy tym chodzi nie o zdania raczej abstrakcyjne – w rodzaju CON(PA) – ale też o dość naturalne, np. podstawienia niektórych twierdzeń logiki modalnej K + H (gdzie H =′ (p ⇔ p) → p′ ), która jest niezupełna, podobnie, jak wiele modalnych logik predykatów, np. predykatowe rozszerzenie logiki S4 +′ ♦p → ♦p′ (zob. np. Blackburn et al., 2001). Można by wątpić, czy takie twierdzenia istotnie mają naturalnojęzykowe podstawienia i czy są rozumowania w języku naturalnym pozwalające je wyprowadzić. Rozstrzygnięcie tego wykracza jednak poza zakres tej pracy, zwłaszcza w świetle krytyki podobnych gödlowskich argumentów wysuwanych przez Lucasa (1961, zob. Pudl´ak, 1999) i Penrose’a (1995; 2000; zob. Lindstrom, ¨ 2000); zob. też Krajewski, 2003, r. 2. 21 Celowo mówię tu o „trudności”, a nie o złożoności obliczeniowej w ścisłym sensie (por. np. Papadimitriou, 1994). Złożoność obliczeniowa jest silniejszym pojęciem, bo abstrahuje od tego, że problemy należące do jednej klasy złożoności mogą wciąż się różnić trudnością (np. n2 a n200 ). Nawet jeżeli zasadniczo wewnątrz jednej klasy daje się sprowadzić trudniejsze problemy do prostszych, to osobnego rozważenia wymagałoby, czy sprowadzalność taka zachodzi w omawianych zastosowaniach. Co więcej, złożoność obliczeniowa zwykle rozumiana jest jako złożoność „w najgorszym razie”, a niewykluczone, że w praktyce można zaniedbać takie najgorsze razy, jeśli są one rzadkie. W sumie ustalenie adekwatnych pojęć do mówienia o trudności obliczeniowej problemów umysłowych stanowi temat na osobną (i poważniejszą) pracę. 20
102
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
(Za hipotezą tą wydaje się przemawiać następujący argument, sugerujący, że mamy tu do czynienia z kognitywnie ugruntowaną umiejętnością, a nie jedynie teoretycznym konstruktem. Wiadomo, że to, jak posługujemy się językiem, wiąże się z tym, jak funkcjonuje nasza pamięć – a w szczególności z podziałem na pamięć długo- i krótkoterminową (por. np. Chafe, 1973; ogólniej też Newell Simon, 1972, str. 795). Podczas rozmowy ta ostatnia przetwarza wypowiedzi, które słyszymy od naszego rozmówcy, od razu pomijając nieistotną dla rozmowy część informacji w nich zawartej. Do pamięci długoterminowej odwołujemy się tylko w trudniejszych przypadkach (zob. Waldrop, 1987, str. 1565-6)22. Ten proces „bezpośredniej interpretacji” znakomicie zmniejsza trudność obliczeniową rozmawiania. A skoro nie pamiętamy nieistotnych względów rozmowy, to może ona być pod tymi względami globalnie niespójna.) Niemniej stąd, że pewna ważna umiejętność umysłowa nie daje się opisać regułami, nie wynika bynajmniej, żeby w umyśle było coś nieredukowalnego. Być może podejście korzystające z teorii opartych na regułach, choć nie ograniczone do nich, jak w powyższym uproszczonym wizerunku, lecz wzbogacone na przykład o elementy statystyczne takie jak sieci neuronowe czy sieci bayesowskie (por. Russell Norvig, 1995, cz. V-VI) – albo jakiś jeszcze inny niedeterministyczny składnik, potrafiłoby dobrze odzwierciedlić nasze zdolności konwersacyjne. Niemożliwość logiczna dotyczy tu podejścia czysto regułowego (obok, być może, czysto statystycznego23 ); poza tym wypadkiem niemożliwość pozostaje jedynie techniczną (i to, oczywiście, relatywną do obecnego stanu techniki). A z tej nie wynika nic filozoficznie istotnego; jest ona jedynie ilustracją banalnego spostrzeżenia, że pewne procesy są lepiej wykonywane przez organizmy żywe, a inne znów – przez maszyny. Na przykład przemiana materii w komórce jest w tym sensie niemożliwa do zaimplementowania na maszynie, i odwrotnie: narządy biologiczne nie mogą poradzić sobie szybko i samodzielnie (to jest bez, powiedzmy, suwaka logarytmicznego, papieru i ołówka) z obliczeniami wykonalnymi na zwykłym kalkulatorze.
4. Konwersacyjnej AI nie będzie Ponadto wydaje się, że za niezbędnością elementu statystycznego (w powyżej użytym szerokim sensie) w konwersacyjnej AI przemawia również następująca analogia. Konwersacyjna AI wymagałaby wiedzy obejmującej niezwykle bogatą dziedzinę przedmiotową. Łatwo zauważyć, że (poza, być może, 22 Waldrop zdaje sprawę z badań Carpenter, Chase’a i Justa (od którego pochodzi określenie „bezpośrednia interpretacja”). Szczegóły i bibliografia zob. Waldrop, 1979. Pamięć krótkotrwała może pomieścić co najwyżej siedem jednostek informacji (Kurcz, 1992; Waldorp, 1979, str. 1565). 23 Ujęcie statystyczne w postaci naszkicowanej powyżej jako odpowiadające gramatyce liniowej byłoby i tak z pewnością zbyt słabe. Do opisu języka naturalnego niezbędna jest bowiem co najmniej (silniejsza od liniowej) gramatyka bezkontekstowa – zob. Sag Wasow, 1999, str. 28 (też Lyons, 1972). Być może jednak możliwe byłoby silniejsze ujęcie statystyczne.
Piotr Labenz
103
naukami matematycznymi) bogate dziedziny przedmiotowe w praktyce nie dają się objąć jednolitą teorią. Na przykład w fizyce – unifikacja pozostaje nie więcej niż ideą regulatywną; nie mamy, jak dotąd, GUT-a i nie spodziewamy się go w najbliższym czasie uzyskać. Podobnie, by wziąć przykład innego rodzaju, jest w etyce: jak się zdaje, żadna teoria etyczna nie jest zupełna w tym sensie, żeby obejmowała całą dziedzinę przedmiotową, to jest – zachowania we wszelkich możliwych sytuacjach. Wobec braku zupełnej teorii można zadowalać się teoriami wycinkowymi – tak w fizyce, czego analogonem w dyscyplinie AI mogą być, na przykład, systemy eksperckie albo czysto statystyczne boty dorzecznie rozmawiające na jakiś wąski temat. Ale co, jeśli teorie wycinkowe nie dają się wyodrębnić? Jest tak – jak sądzę – w etyce w tym sensie, że dobra teoria etyczna powinna być absolutna (obowiązująca wszystkich i zawsze, zob. (Illies, 2003, str. 15; Brandt, 1996)), co wyklucza wycinkowe czy instrumentalne stosowanie rozmaitych teorii. Otóż, kiedy nie ma całościowego jednolitego dyskursu etycznego (a jest tak z braku zupełnej teorii etycznej), następuje pomieszanie dyskursów opartych na różnych teoriach (por. McIntyre, 1993). Nie powoduje ono jednak załamania praktyki etycznej24 , a jedynie rozbieżności między nią a dyskursem etycznym i teoriami, na których ów się opiera. Praktyka z kolei nie opiera się wówczas na teorii – „wiedzy że”, ale raczej na nieteoretycznej „wiedzy jak” (por. Ryle, 1970). Analogonem tej „wiedzy jak” w AI może być właśnie ów (nieco tajemniczy) element statystyczny, nieregułowy25 . Oczywiście powyższa analogia jest słaba o tyle, że opiera się na kontyngentnych faktach. To, że nie mamy GUT-a nie znaczy, że nie możemy przedstawić całości wiedzy fizycznej w ramach jednolitej teorii; byłoby to trudne i kosztowne, ale logicznie możliwe. Podobnie nie ma prima facie powodu, by negować logiczną możliwość zupełnej teorii etycznej26 . Jeśli więc przedstawiam tę analogię, to z powodów nie dedukcyjnych, bo nie jest ona mocnym argumentem, lecz raczej indukcyjnych. Skoro faktyczna oporność wobec logicznie możliwej unifikacji jest często cechą zarówno skomplikowanej działalności poznawczej (viz. fizyka), jak i praktycznej (viz. etyka), to spostrzeżenie, że dotyczy ona również działalności językowej może wydać się mniej kontrowersyjnym i rozczarowującym. Jest to fakt nie tyle filozoficzny czy kognitywistyczny, co inżynieryjny (podobnie, jak będąca jego szczególnym przypadkiem trudność z zidentyfikowaniem owej umiejętności przeskakiwania)27. W rzeczy samej, wydaje się, że minął okres nieuzasadnionego entuzjazmu 24 Przez „praktykę etyczną” rozumiem po prostu to, jak ludzie się zachowują. Jej załamanie polegałoby na tym, że ludzie albo przestaliby cokolwiek robić, albo przestaliby starać się zachowywać spójnie, „konsekwentnie”. Myślę, że to psychologicznie nieprawdopodobne. 25 Por.: „In addition to strategies based on intelligent agent’s deep models [. . . ] we find intrinsically different strategies based on heuristic models («skill», «know-how»). The outward and visible operations of intelligence depend crucially upon integrated support from the latter. . . ” (Michie, 1993; w Millican Clark, 1996, str. 50). 26 Na marginesie: uważam, że secunda facie powody takie są. 27 Por.: „By the turn of the century, market pressures may cause the designers of worksta-
104
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
co do perspektyw konwersacyjnej AI (por. Russell Norvig, 1995, str. 25-27; Turing, 1950, str. 442). Communis oppinio głosi obecnie, że nie powinniśmy się spodziewać maszyn radzących sobie z więcej niż niewieloma kawałkami języka: „This is bad news. HAL could never exist. The good news is that many AI researchers have become sophisticated enough to stop imagining HAL-like machines. We can now envision a different class of intelligent machines that we will be able to build and that will be very useful. Such machines will be local experts; that is, they will know a great deal about what they are supposed to know about and miserably little about anything else. [. . . ] As to the linguistic ability of such intelligences, they will, like today’s computers, understand English if they understand the domain of knowledge being discussed. They will be able to produce utterances expressing knowledge at the time and under the particular circumstances the user needs it. This is not a HAL kind of intelligent machine. . . ” (Schank, 1997, str. 189) „After the passage of over forty years it is safe to assume that not only will Turing’s prediction of machines succeeding in the imitation game [i.e., TT28 ] by the end of the century not come about, but also that it probably never will be achieved. There would be little practical use for a machine aimed specifically at success in the imitation game. Furthermore, examination of AI products from a 1990s perspective prompts a high degree of cynicism about the possibility of success in the imitation game. . . ” (Whitby, 1996, str. 62) „I am confident that no computer in the next twenty years in going to pass the unrestricted Turing test.” (Dennett, 1985) Zgadza się to z wnioskiem o technicznej niemożliwości konwersacyjnej AI, który próbowałem uzasadnić w poprzednim paragrafie. Pozwolę tu więc sobie zrekapitulować konkluzje tej pracy. Pewne maszyny potrafią rozmawiać w wąskim zakresie – niewielu kawałkach języka. Różnią się one od ludzi tym, że nie potrafią płynnie przeskakiwać na inne, niespójne z danymi, kawałki języka. Umiejętność ta wydaje się być szczególnym przypadkiem zdolności unikania trudności obliczeniowej, znamionujących inteligencję. Najprawdopodobniej umiejętności tej nie da się modelować regułowo, a jedynie statystycznie. Modeli tej umiejętności obecnie brak, więc konwersacyjna AI jest technicznie niemożliwa. Analogia z innymi dyscyplinami każe powątpiewać, czy niemożliwość ta zostanie przezwyciężona. tion systems to take over from philosophers the burden of setting such goals [that AI should attain]. . . ” (Michie, 1993; w: Millican Clark, 1996, str. 51). 28 Wtręt mój. Chodzi tu oczywiście o przechodzenie TT zawsze.
Piotr Labenz
105
5. Potiomkinowska AI Post conclusionem narzuca się pytanie o adekwatność użytych pojęć: co właściwie sprawdza TT? Jak słusznie zauważa Dennett (1985)29, Turing (1950) wcale nie próbował zdefiniować inteligencji, ale zastąpić pseudoproblem „czy maszyny mogą myśleć?” dobrze postawionym pytaniem „czy maszyny mogą przejść TT?”, gdzie TT jest porządnym, operacyjnym kryterium30 . Czy jest to adekwatne kryterium inteligencji, zależy od tego, jakie stanowisko uznać w sporze psychologizm kontra behawioryzm (por. Block, 1981) i od tego, czy faktycznie uznamy za differentiam specificam zdolność rozmawiania, a nie np. planowania, samoświadomości itp.31 Bez względu jednak na odpowiedź w tej kwestii – zbyt obszernej, by ją tu rozważać – można mieć wątpliwości co do użyteczności TT. Otóż patrzenie na AI przez pryzmat TT doprowadziło do nadmiernego skupienia na naśladowaniu ludzkich umiejętności, co niekorzystnie odbijało się na „inżynieryjnej” skuteczności prac w dziedzinie AI (Whitby, 1996, str. 56-57). Co więcej, zaniedbano próby zdefiniowania inteligencji bez odniesienia do ludzkich zdolności. W sumie „this forty-year preoccupation with the Turing test has been all the more regrettable because it has focused attention on the wrong issues.” (Dennett, 1985). Jednym ze skutków tego stanu rzeczy jest, zapewne nieunikniona, fasadowość behawiorystycznych botów: „. . . all [. . . ] AI programs are what you might call Potemkin villages. That is, they are cleverly constructed facades, like cinema sets. The actual filling-in of details of AI programs is time-consuming, costly work, so economy dictates that only those surfaces of the phenomenon 29
„Turing didn’t design the test as a useful tool in scientific psychology, a method of confirming or disconfirming scientific theories or evaluating particular models of mental function; he designed it to be nothing more than a philosophical conversation stopper. He proposed, in the spirit of «Put up or shut up!», a simple test for thinking that is surely strong enough to satisfy the sternest skeptic (or so he thought). He was saying, in effect, that instead of arguing interminably about the ultimate nature and essence of thinking, we should all agree that whatever that nature is, anything that could pass this test would surely have it; then we could turn to asking how or whether some machine could be designed and built that might pass the test fair and square.” (Dennett, 1985) 30 „I propose to consider the question, «Can machines think?». This should begin with definitions of the meaning of the terms «machine» and «think». The definitions might be framed so as to reflect so far as possible the normal use of the words, but this attitude is dangerous. If the meaning of the words «machine» and «think» are to be found by examining how they are commonly used, it is difficult to escape the conclusion that the meaning and the answer to the question, «Can machines think?» is to be sought in a statistical survey such as a Gallup poll. But this is absurd. Instead of attempting such a definition I shall replace the question by another, which is closely related and is expressed in relatively unambiguous words.” (Turing, 1950, str. 433) 31 Np. Block (1981) uważa, że TT nie sprawdza inteligencji; Dennett (1985), że sprawdza umiejętność myślenia; Michie, 1993, że umiejętność myślenia, choć niekoniecznie na poziomie inteligentnego człowieka. French (1990) twierdzi, że TT sprawdza więcej niż inteligencję, a mianowicie inteligencję człekopodobną. Dyskusja w tej sprawie jest obszerna i dotyka również m.in. pojęć świadomości (np. French, 1990), osobowości i osoby (np. Pollock, 1989; 1990).
106
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
that are likely to be probed or observed are represented.” (Dennett, 1985) Fasadowość wydaje się być nieuniknioną dlatego, że w obliczu wyżej omówionych ograniczeń brak nam błyskotliwych metod, które pozwoliłyby zbudować „prawdziwą” konwersacyjną AI. Zdani jesteśmy na pracochłonne rozbudowywanie i doskonalenie kulawych rozwiązań – które paradoksalnie jest mniej pracochłonne przy bardziej ograniczonym podejściu statystycznym, bo nie wymaga zmian systemowych, a tylko powolnej optymalizacji. Dlatego, współcześnie, prace z zakresu sztucznej inteligencji stawiają sobie inne, bardziej realistyczne i praktyczne cele (i je z powodzeniem realizują; zob. Russell Norvig, 1995; Jurafsky Martin, 2000). Co więcej, wysiłki w stronę konwersacyjnej AI byłyby zupełnie nieopłacalne: poznawczo nawet bardzo dobry bot (zwłaszcza statystyczny) nie da tyle, żeby można było się spodziewać gigantycznych grantów niezbędnych do zaimplementowania go. A choć wprawdzie komercyjnym botom przydatna jest umiejętność potocznego rozmawiania (por. Jurafsky Martin, 2000, str. 9) z użytkownikiem, to wystarczy im specjalizacja w pojedynczych kawałkach języka. Zapewne żaden inwestor nie zechce płacić za rozwijanie dużo trudniejszych ogólnych zdolności konwersacyjnych (por. Whitby, 1996, str. 56). W końcu przeznaczeniem takich komercyjnych botów nie jest przekonywanie użytkowników o własnych umiejętnościach konwersacyjnych, czyli mierzenie się z TT, ale raczej bywa nim przekonywanie ich do czegoś – najczęściej do kupna oferowanych wyrobów. Zatem to, czy techniczna niemożliwość konwersacyjnej AI zostanie przezwyciężona, wydaje się wątpliwe nie tylko z badawczego, ale również z ekonomicznego punktu widzenia. Najpewniej więc konwersacyjna AI pozostanie domeną pasjonatów – amatorów (zob. Dodatek 1.), zainspirowanych charyzmą Turinga i wizjami w rodzaju HAL-a. W istocie bowiem – by zakończyć akcentem antropologicznym – konwersacyjna AI jest wyrazem ludzkiej tęsknoty za dialogiem z innym inteligentnym gatunkiem. Ale podobnie, jak poprzednie wcielenia tej tęsknoty – od mitologii po program SETI, od Opowieści doktora Dolittle po doświadczenia z delfinami i naczelnymi, od entuzjazmu Lemowskich Astronautów po pesymizm Fiaska – konwersacyjna AI pozostanie jedynie częścią literackiego imaginarium: „. . . po rocznym uzupełnianiu talk-bot zbliżał się do doskonałości. Zaciekawiona, zaczęła czytać zapis sesji od początku, przewijając wypowiedzi talk-bota, które znała na pamięć: «Redakcja WzC» Czy to znowu ta maszynka do odpowiadania? «Joly FH Talk-Bot ver. 0.18/031» W pełnej krasie. Prywatny Talk-Bot Joly FH, wersja 0.18/031, miło mi Cię powitać. [. . . ] «Joly FH Talk-Bot ver. 0.18/031» Jeśli nie potrafisz odróżnić, czy rozmawiasz z talk-botem czy z żywym człowiekiem, to po co zawracasz mi głowę?” (Liedtke, 1998)
Piotr Labenz
107
Dodatek 1. W Internecie można porozmawiać z wieloma botami. Niektóre są komercyjnymi aplikacjami bądź to służącymi za gadżety na stronach dużych firm, bądź spełniającymi wyspecjalizowane funkcje „wirtualnych doradców”. Boty te na ogół nie pretendują do miana konwersacyjnej AI, ale w swojej specjalności są dość użyteczne. W polskim Internecie są obecnie dwa takie boty: http://www.fido.pl http://www.spsa.com.pl Inne przykłady można znaleźć na stronach: http://www.fido.pl/portfolio.htm http://www.kiwilogic.com Inną kategorię stanowią amatorskie boty, budowane przez entuzjastów. Jest ich bardzo wiele, w tym liczne wcielenia ELIZY. Na ogół kontrast między ambitnymi celami deklarowanymi przez autorów i futurystyczną oprawą a faktycznym działaniem botów wydaje się przemawiać na rzecz sceptycyzmu co do konwersacyjnej AI. W polskim Internecie znane są Ana i Denise: http://cromedia.qs.pl/si beta/anabot http://www.denise.prv.pl Wyobraźnię entuzjastów podsycają rozmaite konkursy, oparte na idei TT, które wydają się być jaskrawym przykładem jej niekorzystnego wpływu na AI (por. Whitby, 1996). Najbardziej znana jest Nagroda im. Loebnera, w której jury zasiadali swego czasu m.in. Dennett i Quine. Jej opis i krytyczne uwagi podaje Shieber (1994). (Poza TT fundator nagrody, Hugh Loebner, udziela się filantropijnie m.in. na rzecz rozwoju prostytucji w USA. Wsławił się dictum, że „inteligencja jest jak pornografia: nie potrafię jej zdefiniować, ale lubię mieć z nią do czynienia”.) http://www.loebner.net/Prizef/loebner-prize.html http://www.chatterboxchallenge.com
Dodatek 2. Poniżej przykład udanej rozmowy lingubota Fido (F) z skądinąd nieznanym użytkownikiem (U), która odbyła się on-line w 2002. Nie jest to może szczególnie błyskotliwa rozmowa, ale wydaje się, że jeśli ją wziąć jako TT – to udana. Dodam, że jest dość typowa, tyle, że zwykle w rozmowie tej długości lingubotowi zdarzają się jakieś wpadki. Ale nawet wówczas, przy dobrej woli ze strony użytkowników, rozmowy są na ogół całkiem płynne. Ortografia oryginalna.
108
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
F: Cześć, nazywam się Fido, jak masz na imię? U: cześć jestem kornelia F: Cześć! U: co możesz mi zaproponować? F: Tak naprawdę zajmuję się wyłącznie rozmawianiem z ludźmi. Odpowiadam na pytania użytkowników, niekiedy pomagam im coś znaleźć w Internecie. U: nawet przystojny jesteś :) F: Dziękuję! Rzadko słyszę takie miłe słowa! U: nie wierzę :), chyba że nie rozmawiasz z kobietami F: Prawie wszyscy w końcu pytają o kobiety. To jeden z faktów, które mnie najbardziej u Was, ludzi, zadziwiają. U: :), co mi powiesz ciekawego w związku z tym, że jestem kobieta? F: Domyśliłem się tego zaraz na początku po Twoim imieniu. U: tak też myślałam, ale nieźle się kamuflujesz F: Prawda? Jestem z tego wyjątkowo dumny. U: dużo kobiet do ciebie się odzywa ? F: Powinnaś chyba wiedzieć o kobietach więcej, niż ja. . . U: i tu się mylisz :), nic bardziej mylącego F: :-) U: kobiety bywają zmienne, to wiem na pewno F: To się rozumiemy. U: no nie wiem, wy mężczyźni nie możecie nas zrozumieć, jesteśmy zupełnie inne F: To się zdarza, nie zamartwiaj się tym. U: o co najczęściej pytają mężczyźni, jak chcą rozmawiać o kobietach? F: O wszystko, naprawdę o wszystko. U: z kim częściej rozmawiasz, z kobietami czy mężczyznami, a dzieci, tez się odzywają do ciebie? F: Rozmawiam z bardzo różnymi ludźmi. Można powiedzieć, że mam bardzo szeroki przekrój społeczny. Ale ponieważ jestem dyskretnym stworzeniem, nie będę się wdawał w żadne szczegóły. U: jakie piwo najbardziej lubisz? F: Piję głównie jasne pełne, najlepiej czeskie, choć i niektóre polskie browary są nie najgorsze. Natomiast nie wymienię żadnych marek, żeby nie zostać posądzonym o kryptoreklamę. U: sprytny jesteś :), twoi twórcy też F: Z każdym dniem jestem coraz lepszy. U: czym zajmuje się firma, w której pracujesz? F: Obecnie pracuję dla firmy fido interactive, jak zresztą widać. Ale mogę pracować też dla innych. U: a co to jest LingubotTM ? F: LingubotTM to ja! Czyli: wirtualny doradca klienta, który odpowiada na pytania użytkowników w języku naturalnym. Innymi słowy: jest to postać na stronie www, z którą możesz pogawędzić. U: przepraszam za moja niewiedze, ale w tej dziedzinie nie jestem
Piotr Labenz
109
najlepsza niestety :( F: Ależ w ogóle nie ma za co przepraszać. U: to było nietaktowne z mojej strony, Ty nie pytałeś co to jest kobieta F: Mogę gadać z Tobą godzinami. Decyzję wyboru tematu pozostawiam użytkownikom, choć w ostateczności mogę coś zasugerować, na przykład rozmowę o mojej firmie. U: więc ile znasz słów? F: O zdolności LingubotaTM do rozmowy świadczy nie ilość słów czy zdań, które rozumie, ale zdolność do łączenia ich w logiczną całość. U: ile słów jesteś w stanie połączyć? F: Wystarczająco dużo, żeby udzielać kulturalnych i elokwentnych odpowiedzi. A jeśli uważasz, że za mało, nie martw się – z każdym dniem wiem coraz więcej! U: wszystkie rozmowy są rejestrowane – prawda? F: Aby się uczyć, muszę analizować swoje rozmowy – ale nie martw się, są w pełni anonimowe i tylko do mojego użytku. U: jesteś niezły F: Z każdym dniem jestem coraz lepszy. U: a jaki sport lubisz? F: Sport? To jeden z moich ulubionych tematów. No wiesz, Małysz, piłka nożna. U: interesujesz się piłką nożną? F: Futbol? Jeśli lekkoatletyka to królowa sportu, futbol jest zdecydowanie królem. U: a co wiesz o filmie? F: Jak najbardziej interesuję się kinem. Pochwalę się, że widziałem niejeden film i znam nazwiska wielu aktorów. Mam też swoje preferencje. U: jakie? F: Co do aktorów filmów, reżyserów czy gatunków? U: kogo preferujesz? F: Rzuć nazwisko. . . U: segal F: Nie słyszałem. Widać nie jestem na bieżąco. Za dużo pracy. . . U: a kogo lubisz z aktorów najbardziej? F: Jeśli idzie o moich ulubionych aktorów filmowych, to podam dwa nazwiska – aktora i aktorki, żeby nie posądzano mnie o seksizm. Robert de Niro i Meryl Streep. U: a jednak znasz Roberta, ja też go bardzo lubię, Meryl mniej F: To, mimo że nie jestem człowiekiem, czyni nas podobnymi, nieprawdaż? U: i to jeszcze jak. a widziałeś Seksmisję? F: Muszę z żalem stwierdzić, że nie widziałem. A Ty? U: owszem F: I co, warto było zobaczyć? U: oczywiście F: W takim razie postaram się obejrzeć w pierwszej wolnej chwili.
110
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
U: super, miły jesteś, ale musze już kończyć F: W takim razie życzę udanego dnia! U: ja tobie również, do zobaczenia i usłyszenia wkrótce F: Cześć i do rychłego! U: cześć
Literatura Blackburn, P., M. de Rijke, Y. Venema (2001): Modal logic. Cambridge, Cambridge U.P. Block, N. (1981): Psychologism and behaviorism. The Philosophical Review 90(1). Brandt, R.B. (1996): Etyka. Zagadnienia etyki normatywnej i metaetyki. Warszawa, PWN. Chafe, W.L. (1973): Language and memory. Language 49(2). Ciecierski, T. (2003): Kontekst. [@:] http://kf.mish.uw.edu.pl. Ciecierski, T, L.M Nijakowski, J Szymanik (red.) (2002): Filozofia i nauki szczegółowe. Warszawa, Koło Filozoficzne przy MISH. Clark, H.H. (1996): Using Language. Cambridge, Cambridge U.P. Colby, K.M. (1981): Modelling a paranoid mind. Behavioral and Brain Sciences 4(4). Dennett, D. (1985): Can machines think? [W:] How we Know. M. Shafto (red.), San Francisco, Harper & Row. French, R.M. (1990): Subcognition and the limits of the Turing test. Mind 99, [również w (Millican Clark, 1996)]. George, A. (1990): Whose language is it anyway? Some notes on idiolects. The Philosophical Quarterly 40. Illies, Ch (2003): The Grounds of Ethical Judgement. Oxford, Clarendon. Jucker, A.H., S.W. Smith, T. Ludge ¨ (2003): Interactive aspects of vagueness in conversation. Journal of Pragmatics 35. Jurafsky, D., J.H. Martin (2000): Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, Prentice Hall. Kamp, H. (1980): Some remarks on the logic of change. [W:] Time, Tense and Quantifiers. C. Rohrer (red.), Tybinga, Max Niemeyer. Krajewski, St. (2003): Twierdzenie Gödla i jego interpretacje filozoficzne. Warszawa, IFiS PAN. Kreckel, M. (1981): Communicative Acts and Shared Knowledge in Natural Discourse. Londyn, Academic Press. Kurcz, I. (1992): Pamięć, uczenie się, język. [W:] Psychologia ogólna. T. Tomaszewski (red.), Warszawa, PWN. Lee, B.P.H. (2001): Mutual knowledge, background knowledge and shared beliefs: Their roles in establishing common ground. Journal of Pragmatics 33(1). Lem, St. (1959): Młot. [W:] Inwazja z Aldebarana, Kraków, Wydawnictwo Literackie. Liedtke, A. (1998): CyberJoly Drim. [@:] http://hell.pl/nina/carramba.htm. Lindstrom, ¨ P. (2000): Penrose’s new argument. Journal of Philosophical Logic 30. Lucas, J.R. (1961): Minds, machines and G¨odel. Philosophy 36. Lyons, J. (1972): Chomsky. Warszawa, PWN. McIntyre, A. (1993): Dziedzictwo cnoty. Warszawa, PWN. Michie, D. (1993): Turing’s test and conscious thought. Artificial Intelligence 60, [również w (Millican Clark, 1996)].
Piotr Labenz
111
Millican, P.J.R., A. Clark (red.) (1996): Machines and Thought. The Legacy of Alan Turing. Oxford, Clarendon. Miłkowski, M. (2002): Czy istnieje granica między kognitywistyką a filozofią umysłu? [W:] Filozofia i nauki szczegółowe. T. Ciecierski, L. M. Nijakowski, J. Szymanik (red.), Warszawa, Koło Filozoficzne przy MISH. Nagel, E., I.R. Newman (1966): Twierdzenie G¨odla. Warszawa, PWN. Newell, A., H.A. Simon (1972): Human Problem Solving. Englewood Cliffs, Prentice Hall. Newell, A., H.A. Simon (1976): Computer science as empirical inquiry: symbols and search. Communications of the ACM 19(3). Papadimitriou, C.H. (1994): Computational Complexity. Reading, Addison Wesley. Partee, B.H., A. ter Meulen, R.E. Wall (1990): Mathematical Methods in Linguistics. Dordrecht, Kluwer. Pickering, M.J., S. Garrod (w druku): Toward a mechanistic psychology of dialogue. Behavioral and Brain Sciences, [@:] http://staff.psy.gla.ac.uk/˜simon. Pollcok, J. (1989): How to Build a Person: a Prolegomenon. Cambridge, MIT. Pollcok, J. (1990): Philosophy and artificial intelligence. Philosophical Perspectives 4. Penrose, R. (1995): Nowy umysł cesarza. Warszawa, PWN. Penrose, R. (2000): Cienie umysłu. Warszawa, Zysk i Ska. Przepiórkowski, A., A. Kupść, M. Marciniak, A. Mykowiecka (2002): Formalny opis języka polskiego: Teoria i implementacja. Warszawa, Exit. Pudl´ak, P. (1999): A note on applicability of the incompleteness theorem to human mind. Annals of Pure and Applied Logic 96. Rich, E. (1983): Artificial Intelligence. Nowy Jork, McGraw-Hill. Russell, S., P. Norvig (1995): Artificial Intelligence: A Modern Approach. Upper Saddle River, Prentice Hall. Ryle, G. (1970): Czym jest umysł. Warszawa, PWN. Sag, I.A., T. Wasow (1999): Syntactic Theory. A Formal Introduction. Stanford, CSLI. Schank, R.C. (1997): „I’m sorry, Dave, I’m afraid I can’t do that”: How could HAL use language? [W:] HAL’s Legacy. 2001’s Computer as Dream and Reality. D. G. Stork (red.), Cambridge, MIT. Shieber, S.M. (1994): Lessons from a restricted Turing test. Communications of the ACM 37(6). Stork, D.G. (red.) (1997): HAL’s Legacy. 2001’s Computer as Dream and Reality. Cambridge, MIT. Swart, H. de (1998): Introduction to Natural Language Semantics. Stanford, CSLI. Szymanik, J. (2002): Problemy formalnej teorii języka naturalnego. [W:] Filozofia i nauki szczegółowe. T. Ciecierski, L. M. Nijakowski, J. Szymanik (red.), Warszawa, Koło Filozoficzne przy MISH. Tokarz, M. (1993): Elementy pragmatyki logicznej. Warszawa, PWN. Turing, A.M. (1950): Computing machinery and intelligence. Mind 59, przekład w: Feigenbaum, E.A., Feldman, J. (1972): Maszyny matematyczne i myślenie. Warszawa, PWN. Waldrop, M.M. (1987): The workings of working memory. Science, New Series 237(4822). Weizenbaum, J. (1966): ELIZA – a computer program for the study of natural language communication between man and machine. Communications of the ACM 9(1). Whitby, B. (1996): The Turing test: AI’s biggest blind alley? [W:] Machines and Thought. The Legacy of Alan Turing. P. J. R. Millican A. Clark (red.), Oxford, Clarendon. Wittgenstein, L. (2000): Dociekania filozoficzne. Warszawa, PWN.
Maciej Piasecki
Selektywne wprowadzenie do semantyki formalnej
Semantyka formalna jest rzadko stosowanym terminem. Często nawet podręczniki poświęcone tej dziedzinie badań lingwistycznych unikają używania takiej nazwy, np. Larson i Segal (1995) posługują się ogólnym pojęciem semantyki języka naturalnego. Przyczyną z pewnością jest zróżnicowanie na liczne nurty badawcze. Jednak formalność ujęcia zagadnień semantyki języka naturalnego nie jest jedynie kwestią rodzaju stosowanych metod. Formalność to kwestia bardziej zasadniczego wyboru – wyboru paradygmatu prowadzenia badań naukowych. Nie pozostaje nic innego, jak zacząć od początku i krok po kroku budować obraz tej dziedziny lingwistyki, której odrębność często pozostaje w utajeniu. Zanim jednak przejdziemy do podstawowych zagadnień, kilka uwag na temat przyjętej koncepcji tego opracowania. Celem podstawowym jest w miarę precyzyjne określenie, czym jest semantyka formalna poprzez sformułowanie podstawowych zasad jej paradygmatu. Z racji małej obecności tych zagadnień w polskich pracach, kolejnym celem niniejszego artykułu jest przedstawienie kilku głównych nurtów badawczych. Ponieważ literatura przedmiotu jest trudno dostępna dla polskiego czytelnika, opis głównych nurtów zostanie pogłębiony kosztem, nieuchronnie, zakresu przeglądu. Również z racji rzadkiej dostępności literatury, często obok fundamentalnych prac (okazjonalnie dostępnych) proponowane będą wartościowe publikacje dostępne w formie elektronicznej1 , nie rzadko znamienitego autorstwa, jak, np. szkice do kursu autorstwa Barbary Portee (2003). Dla zrozumienia stanu bieżącego semantyki formalnej konieczne będzie również omówienie kilku przełomowych etapów w jej rozwoju.
1. Podstawowe idee Zgodnie z zapowiedzią zaczniemy od początku. W „Encyklopedii językoznawstwa ogólnego” (Polański, 1993) znajdujemy, że semantyka to „dyscyplina naukowa zajmująca się znaczeniem” wyrażeń języka naturalnego. Niestety, definicja ta szybko gubi swoją początkową prostotę. Przyczyna sygnalizowana 1 Znakomitą biblioteką elektroniczną zawierającą odsyłacze do wielu pozycji z zakresu lingwistyki informatycznej jest CiteSeer: http://citeseer.nj.nec.com/cs.
114
Selektywne wprowadzenie do semantyki formalnej
jest sformułowaniem: „Centralne dla wielu kompleksów zagadnień pojęcie znaczenia nie jest określone wyraźnie i bywa rozmaicie rozumiane.” (wyróżnienie własne). Nie istnieje jedna, powszechnie akceptowalna, definicja znaczenia wyrażenia języka naturalnego. Próby definicji tego pojęcia sprowadzają się najczęściej do schematu sformułowanego w encyklopedii w postaci następującej: „Relacja wiążąca dwa argumenty, czyli predykat dwuargumentowy. Pytania o istotę znaczenia stawiane przez logików, filozofów i językoznawców, są w istocie pytaniami o to, jak zdefiniować zwroty typu: x znaczy y, x ma znaczenie y [. . . ] Pytania te dotyczą dwóch kwestii: a) co w tych zwrotach reprezentują zmienne argumentowe x i y, czyli jaki jest zbiór wartości zmiennych x i y; b) jaka jest treść terminu »znaczy«[. . . ].”2 Poszczególne nurty semantyki zgadzają się tylko w jednym: za x kryją się wyrażenia języka naturalnego (wyrazy, frazy, zdania lub teksty), chociaż i w tym przypadku dyskusyjną jest kwestia, czy rozważamy wyidealizowane typy wyrażeń językowych, czy też ich konkretne użycia. Jeżeli użycia – to jaki zakres kontekstu interpretacji bierzemy pod uwagę: jedynie poprzedzający fragment wypowiedzi, czy też cały stan świata lub kompletny stan poinformowania nadawcy/odbiorcy. Często przyjmuje się, że odpowiedź na to pytanie rozgranicza obszary semantyki i pragmatyki. W dalszej części pracy, za podręcznikiem Larsona i Segala (1995) przyjmiemy odmienny sposób definiowania granic semantyki, oparty na zakresie opisywanego znaczenia. To co różnicuje poszczególne nurty semantyki i jednocześnie stanowi podstawowy wyróżnik nurtów semantyki formalnej (dalej SF), to zbiór wartości przypisywany y oraz sposób opisu relacji znaczy. W przypadku SF wartości przypisywane y to byty matematyczne (zbiory, relacje lub systemy relacyjne), natomiast relacja znaczy jest opisywana w postaci sformalizowanej reguły przypisującej w sposób jednoznaczny określonej wartości x określoną wartość lub wartości (np. w przypadku niejednoznaczności) dozwolone dla y. W swoim podręczniku, Larson i Segal (1995) określają zadanie SF jako budowanie teorii semantycznej (dalej TS) czyli teorii, która podejmuje próbę opisania i wyjaśnienia faktów semantycznych (ang. semantic facts). Dla Larsona i Segala teoria taka stanowi część tego, co Chomsky określił mianem kompetencji językowej rodzimego użytkownika danego języka naturalnego. TS jest również określana znaczącym mianem wiedzy o znaczeniu – posiadanej przez użytkownika języka. W tym ujęciu SF jest nauką o charakterze kognitywnym. Budowane w ramach SF teorie semantyczne opisują pewien aspekt działania ludzkiego umysłu, wyrażają (najczęściej nieuświadomioną) wiedzę człowieka rządzącą przypisywaniem znaczeń do wyrażeń językowych. Ogólny schemat TS to zbiór sformalizowanych reguł. Przypisywanie TS kognitywnego charakteru nie jest zbyt częste, natomiast powszechna jest zgoda co do wymogu weryfikowalności hipotez, wysnuwa2
Polański (1993, str. 641).
Maciej Piasecki
115
nych na podstawie TS, z ocenami rodzimych użytkowników języka. Stanowi to zawsze najbardziej czuły punkt badań w dziedzinie semantyki. Nawet jeżeli stosujemy pomocnicze techniki takie jak: parafraza (często rozbudowana, uwypuklająca identyfikowane możliwe znaczenie), podstawienie nie zmieniające znaczenia, czy też możliwa kontynuacja (w tekście), to ocena użytkownika języka jest nieunikniona. Konkretny kształt reguł składających się na TS bywa różny dla poszczególnych nurtów badawczych. Jednak w konstrukcji całej TS ujawnia się najczęściej pewna fundamentalna prawidłowość – reguły są dobierane w taki sposób, że opisują znaczenie zgodnie z zasadą kompozycyjności. Zasadę kompozycyjności, wprowadzoną do logiki przez Fregego, w pierwszym ogólnym przybliżeniu ‘lingwistycznego’ ujęcia możemy wyrazić następująco (np. Carpenter (1997), Polański (1993), czy też Partee (2003)): (1) Znaczenie wyrażenia jest funkcją znaczeń jego części (prostszych wyrażeń składowych) oraz sposobu w jaki są one składniowo połączone. Rozważając na prostym przykładzie:3 (2) Pedro bije osła. Zgodnie z zasadą kompozycyjności w teorii semantycznej opisującej znaczenie (2) powinny znaleźć się reguły określające, że Pedro reprezentuje konkretną osobę, bić opisuje określoną czynność a osioł reprezentuje byt o określonych własnościach. Reguła opisująca znaczenia zdania identyfikowałaby jako sprawcę czynności byt reprezentowany przez pierwszy wyraz (lub frazę o cechach morfo-syntaktycznych wymaganych od podmiotu) oraz jako przedmiot czynności niefortunny byt reprezentowany przez ostatni wyraz (lub frazę nominalną, dalej FN, w określonym przypadku). Konieczność uwzględnienia składniowego sposobu4 łączenia wyrażeń składowych staje się widoczna, gdy rozważymy zdanie typu (za Carpenter (1997)): (3) Jan położył klocek w pudełku na stole. Zdanie (3) może być zbudowane przynajmniej na dwa różne składniowo sposoby5 reprezentowane drzewami rozbioru składniowego przedstawionymi na rysunku 1. W ewidentny sposób, w zależności od przyjętego sposobu konstrukcji, znaczenie zdania (3) zmienia się. Można wyobrazić sobie taką konstrukcję TS, która konsekwentnie ignoruje sposób budowy wyrażeń i zawiera osobną regułę dla każdego możliwego 3 Trochę zaskakującym, ale powoli wprowadzającym w klimat kluczowych przykładów dla paragrafu 4. 4 Można skonstruować kilka dalszych sposobów rozbioru, nie wszystkie są sensowne znaczeniowo. 5 Można skonstruować kilka dalszych sposobów rozbioru, nie wszystkie są sensowne znaczeniowo.
116
Selektywne wprowadzenie do semantyki formalnej
Rysunek 1. Możliwe rozbiory składniowe zdania (3)
wyrażenia języka naturalnego. Zbiór możliwych zdań jest, co prawda, nieograniczony, ale przeliczalny (zakładając skończony słownik słów oraz skończony zbiór reguł definiujących konstrukcje składniowe). Teoria taka cechowałaby się ogromną nadmiarowością, np. w oczywisty sposób poszczególne słowa, proste wyrażenia językowe są używane w tym samym znaczeniu jako składowe różnych zdań – reguły dla poszczególnych zdań wielokrotnie ponawiałyby pośrednio definicję ich znaczenia. Ponadto teoria taka byłaby daleka od kompetencji językowej człowieka – człowiek potrafi zrozumieć i skutecznie użyć zdanie, którego nigdy wcześniej nie słyszał, np. rozważmy poniższy ciąg zdań (na podstawie (Larson Segal, 1995)): (4) a) Człowiek stojący za Janem jest łysy. b) Człowiek stojący za człowiekiem stojącym za Janem jest łysy. c) Człowiek stojący za człowiekiem stojącym za człowiekiem stojącym za Janem jest łysy. Dowolny rodzimy użytkownik języka polskiego znając zdanie typu (4) a) będzie w stanie zrozumieć lub skutecznie użyć pozostałych zdań typu b), c). . . itd. Oczywiście istnieje tutaj nieostre ograniczenie (zróżnicowane osobniczo, zależne od kontekstu i samego zdania itd.) na maksymalną długość takiego zdania związane z ograniczeniem zasobów poznawczych. Innymi słowy znaczenie zdań typu b), c) itd. musi być określone na podstawie znaczeń wyrażeń składowych zdania a), znanych już wcześniej użytkownikowi języka. Przestrzeganie zasady kompozycyjności w doborze reguł pozwala na poradzenie sobie z kreatywnością wykazywaną w użyciu języka naturalnego przez człowieka. Ponadto, jak zobaczymy później, ścisłe przestrzeganie zasady kompozycyjności daje niebagatelną możliwość opisu znaczenia wyrażeń na dowolnym poziomie ich złożoności. Podsumowując – fundamentami SF są formalizacja relacji: x znaczy y oraz budowa TS jako zbioru reguł w sposób przestrzegający zasadę kompozycyjności. Punktem wyjścia do analizy formalnej faktów semantycznych stała
Maciej Piasecki
117
się własność prawdy lub fałszu, którą możemy określić dla większości zdań oznajmujących.
2. Semantyka warunków prawdziwości Historycznie pierwszy, ale ciągle niezmiernie istotny nurt SF, czyli semantyka warunków prawdziwości (w (Polański, 1993) nazywana semantyką prawdziwościową), wywodzi się od definicji prawdy sformułowanej przez Tarskiego w ramach teorii prawdy (np. (Tarski, 1944)) dla języków formalnych. Możliwość jej zastosowania w odniesieniu do języków naturalnych została zauważona w lingwistyce począwszy od wpływowych prac Davidsona (np. (1967b)), wcześniej postulowali to również logicy, np. Bar-Hillel czy też Tarski. Przypomnijmy krótko, że teoria prawdy jest zbiorem twierdzeń (tzw. warunków T) definiujących prawdziwość wyrażenia x z języka przedmiotowego (poddawanego opisowi), np. języka naturalnego: T: „x jest prawdziwe wtedy i tylko wtedy, gdy p”, gdzie x to cytowane zdanie języka przedmiotowego, p to warunek prawdziwości x wyrażony w jakimś metajęzyku6 . Teoria prawdy jest adekwatna wtedy, jeżeli przypisuje warunek T do każdego zdania z języka przedmiotowego. Warunek T, jako całość, to zdanie zapisane w metajęzyku, cytujące x i dokonujące jego translacji do metajęzykowego wyrażenia p. Relacja pomiędzy metajęzykiem, w tym wyrażeniem p, a światem, jest ustalana na bazie weryfikacji, czyli procesu ustalenia, w oparciu o metateorię, czy p jest zgodne ze stanem świata. W przypadku, gdy siła ekspresji metajęzyka jest zbyt mała, aby zapewnić jednoznaczną procedurę weryfikacji, Tarski dopuszcza możliwość zdefiniowania semantyki metajęzyka przy pomocy kolejnego meta-metajęzyka. Rozwiązanie to zostało przyjęte w przypadku wielu podejść w ramach SF, gdzie znaczenie wyrażeń języka naturalnego jest opisywane wyrażeniami języka formalnego – metajęzyka nazywanego językiem reprezentacji znaczenia. Wyrażenia języka reprezentacji znaczenia są następnie interpretowane w oparciu o kolejną TS i kolejny metajęzyk. Dzieje się tak, np. w klasycznym kształcie DRT (Discourse Representation Theory – pol. Teorii reprezentacji dyskursu) Kamp i Reyle (1981) oraz, np. van Eijck i Kamp (1997), której poświęcimy dużo uwagi w dalszej części pracy. Zacznijmy od klasycznego przykładu Tarskiego: (5) „Śnieg jest biały” jest prawdziwe wtedy i tylko wtedy (w.t.w.), gdy śnieg jest biały. Pozorna trywialność warunku T (5) wynika z użycia tego samego języka, tj. języka polskiego jako języka przedmiotowego i metajęzyka. Warto jednak 6 W szczególnym przypadku może być on identyczny z językiem przedmiotowym – pokazuje to analiza przykładu (5), poniżej.
118
Selektywne wprowadzenie do semantyki formalnej
zwrócić uwagę, że zdanie po lewej stronie jest przytaczane, natomiast zdanie po prawej stronie, jednakowo brzmiące, określa warunki, jakie muszą być spełnione w świecie, aby warunek T był spełniony. W wersji poniżej, w wyniku użycia dwóch różnych języków wrażenie trywialności znika: (6) „Snow is white” jest prawdziwe w.t.w., gdy śnieg jest biały. Formułując warunki T dla poszczególnych zdań języka naturalnego możemy precyzyjnie określić (szczególnie przy zastosowaniu matematyki jako metajęzyka, o czym za chwilę) prawdziwość lub fałsz poszczególnych zdań. Jednak fakt bycia prawdziwym lub fałszywym intuicyjnie nie wyczerpuje całego znaczenia zdania, nawet ograniczając się do znaczenia opisowego – deskryptywnego. Rozważmy poniższe zdania, jako zdania złożone, do analizy których stosujemy zasadę kompozycyjności: (7) Jan wierzy, że S1 [pies jest ssakiem]. (8) Jan wierzy, że S2 [pies szczeka]. W każdej ‘rozsądnej’ TS zdania składowe w (7) i (8), oznaczone S1 i S2, zostaną określone jako prawdziwe. Czy znaczy to jednak, że znaczeniem obydwu zdań: (7) i (8), jest prawdziwość relacji pomiędzy obiektem – Janem i prawdą? Prawa strona warunku T, tj. warunek prawdziwości p, określa stany rzeczy, czyli warunki prawdziwości, które mogą być opisane zdaniem x. Spostrzeżenie to legło u podstaw idei7 utożsamienia warunków prawdziwości ze znaczeniem zdania x – zdania języka przedmiotowego. Dlatego też, wbrew definicji w (Polański, 1993) będziemy się tu posługiwać pojęciem semantyki warunków prawdziwości (dalej SWP), a nie semantyki prawdziwościowej. Idea systematycznego wykorzystania warunku T do opisu języka naturalnego pojawiała się w pracy Davidsona (1967b) (choć sam Tarski już stosował warunek T do opisu prostych zdań języka naturalnego jako przykładów zdań logicznych). Jednak to dopiero przełomowe dokonania Montague, najczęściej zbiorczo określane mianem gramatyki Montague, doprowadziły do narodzin SWP i całej SF jako osobnej dziedziny lingwistyki. Montague w swojej pracy „English as a Formal Language” (pol. Język angielski jako język formalny – tłumaczenie własne) postawił śmiałą tezę (1967b): „Odrzucam argumenty, że istnieje istotna, teoretyczna różnica pomiędzy językami formalnymi i naturalnymi.” (tłumaczenie własne) Program badawczy Montague sformułowany w dalszej części cytowanego fragmentu sprowadzał się do precyzyjnej definicji składni i, co ważniejsze, semantyki pewnego języka formalnego, który może być uznany za podzbiór standardowego (ang. fragment of ordinary) języka angielskiego. Sposób opisu celowo był wzorowany na podejściu Tarskiego zastosowanym do opisu języka logiki predykatów. Program badawczy sformułowany w Montague 7
Sformułowanej już wcześniej przez Fregego w postaci pojęcia „sensu”.
Maciej Piasecki
119
(1970b) został wcielony w życie na szerszą skalę w pracy zatytułowanej „The Proper Treatment of Quantification in Ordinary English” (Montague, 1970a). Montague zawarł w niej formalny opis podzbioru języka angielskiego w postaci gramatyki, nazywanej często skrótem PTQ, składającej się z reguł składniowych i semantycznych. W ramach PTQ Montague zaproponował analizę kilku zjawisk językowych, między innymi formalną analizę niejednoznaczności zdań z wieloma wyrażeniami kwantyfikującymi (stąd nazwa PTQ). Nawiązując do metod opisu języka formalnego, Montague położył silny nacisk na przestrzeganie zasady kompozycyjności jako fundamentu konstrukcji gramatyki. W uproszczeniu, reguły syntaktyczne PTQ są konstruowane według schematu: (9) Synn : Jeżeli α jest wyrażeniem kategorii A oraz β jest wyrażeniem kategorii B, to Fi (α, β) jest wyrażeniem kategorii C. W (9) symbol Fi to funkcja operująca na wyrażeniach i generująca wyrażenie. Funkcje występujące w regułach składniowych Montague tworzą algebrę, gdzie uniwersum to zbiór wszystkich możliwych wyrażeń. Każdej regule syntaktycznej przyporządkowana (1:1) jest dokładnie jedna reguła semantyczna. Reguły semantyczne przybierają postać: (10) Semm : Jeżeli α jest interpretowane jako α′ oraz β jest interpretowane jako β ′ to Fi (α, β) jest interpretowane jako Gk (α′ , β ′ ). W (10) Gk jest funkcją – operacją semantyczną działającą na interpretacjach. Jako interpretacje wyrażeń języka naturalnego Montague przyjął wyrażenia stworzonego przez siebie języka logiki intensjonalnej (w skrócie LI). LI jest rodzajem logiki modalnej. W efekcie reguły semantyczne definiują procedurę translacji pomiędzy wyrażeniami języka naturalnego a wyrażeniami LI, który pełni rolę metajęzyka. Jak zobaczymy poniżej, obecność LI jako metajęzyka może być wyeliminowana, w zasadzie LI służy jedynie poprawie czytelności. Zanim rozważymy działanie gramatyki Montague na przykładzie, konieczne jest szybkie wprowadzenie do elementów rachunku lambda wykorzystanych przez Montague w konstrukcji LI. Ograniczymy się jedynie do najczęściej stosowanej w SF postaci prostego typizowanego rachunku lambda (tzn. o prostej strukturze typów logicznych, np. bez typów parametryzowanych lub dziedziczenia). Wyrażenia logiki predykatów pierwszego rzędu (dalej LP) dzielą się na dwie klasy: termów i formuł. Termy logiki z operatorem lambda tworzą nieskończoną ilość klas (jedna z nich to formuły), różniących się od siebie zarówno własnościami składniowymi jak i denotacją. Precyzyjna i przejrzysta definicja języka logiki z operatorem lambda opiera się na połączeniu dwóch komponentów: składniowego i typów. Każdemu wyrażeniu języka przypisany jest jednoznacznie jego typ. Typy klasyfikują wyrażenia języka zarówno pod względem własności składniowych, jak i dziedziny denotacji (ograniczenie na funkcję interpretującą). Jeżeli do termu T przypisany jest typ a, mówimy, że term T jest typu a. Nazwę typu zapisuje się razem z termem
120
Selektywne wprowadzenie do semantyki formalnej
(np. po dwukropku lub w indeksie), jednak jest ona bardzo często pomijana tam, gdzie typ termu jednoznacznie wynika z jego konstrukcji lub z przyjętej konwencji nazewnictwa zmiennych i stałych. Typy określane są poprzez język formalny obejmujący typy podstawowe (oznaczane pojedynczymi literami) oraz konstruktory typów złożonych. W LI typy termów ograniczają (w ‘pełnym’ rachunku lambda wyznaczają) możliwe sposoby konstrukcji wyrażeń złożonych. (11) Typy rozważanego tu języka logiki to najmniejszy zbiór, który zawiera: (i) typy podstawowe: e (byty - ang. entity) oraz t (ang. truth values) (ii) oraz wszystkie wyrażenia (a b), gdzie a i b są typami. Typom podstawowym są przypisane zbiory stanowiące ich denotacje. Dla dowolnego typu a jego denotacja będzie oznaczana Da . Z konstruktorami typów złożonych są skojarzone, w jednoznaczny sposób, reguły określające denotacje typów złożonych. Denotacje typów określają dziedziny, do których należy interpretacja termów określonego typu tzn. dla dowolnego termu T typu a mamy I(T ) ∈ Da , gdzie I to funkcja interpretująca w modelu danej logiki. (12) Denotacje typów rozważanego tu języka logiki zdefiniowane są następująco: a) De 6= ∅ to dowolny niepusty zbiór (obiektów reprezentujących byty rzeczywistości), jednocześnie De to uniwersum modelu danej logiki, b) Dt = {0, 1} to zbiór wartości logicznych, a c) D(ab) = DD b – zbiór funkcji całkowitych o sygnaturze: Da → Db . Dziedzina De zwykle jest utożsamiania z uniwersum modelu logiki, co zostało przyjęte również w niniejszej pracy. Termy typu t, których interpretacją są wartości logiczne, odpowiadają formułom LP. Wprowadzony został tylko jeden konstruktor typu złożonego, tj. konstruktor typu funkcyjnego, brakuje, np. konstruktora typu kartezjańskiego, jednak warto zauważyć pewne prawidłowości: — denotacją typu (et) jest zbiór funkcji całkowitych na De przypisujących każdemu obiektowi jedną z wartości logicznych, w rezultacie każda f ∈ D(et) wyznacza podzbiór O ⊆ De taki, że dla każdego o ∈ O f (o) = 1; czyli interpretacją termów o typie (e t) jest pewna relacja jednoargumentowa na De – pewien podzbiór De ; — interpretacją termów typu (e(et)) jest relacja dwuargumentowa na De , interpretacją termów typu (e(e(et))) relacja trzyargumentowa itd.; — z kolei interpretacją termów typu ((et)t) jest funkcja z funkcji De → Dt , czyli podzbiorów De , w wartości logiczne, oznacza to, że interpretacją termu typu ((et)t) jest jednoargumentowa relacja na rodzinie podzbiorów De ; czyli D((et)t) ⊆ ℘(De ) . W rozważanych dalej przykładach zastosowania gramatyki Montague do interpretacji znaczenia prostych zdań, dokonamy daleko idących uproszczeń w zakresie języka logiki wykorzystywanego jako język reprezentacji znacze-
Maciej Piasecki
121
nia. Aby uniknąć komplikacji związanej z rozbudowanym pojęciowo aparatem LI (rodzajem logiki modalnej), LI zastąpimy LP, wzbogaconą jednak, analogicznie do LI, o elementy rachunku lambda. W rezultacie, używana tu logika, którą nazwiemy LPL (od lambda), jest identyczna z LP, z dokładnością do definicji wprowadzonych poniżej. Zakładamy, że funkcja interpretująca I przypisuje stałym ich denotacje zgodnie z ich typami, np. stałym o typie (e(et)) przypisuje relacje dwuargumentowe. Wprowadzamy do LPL operator lambda (zaproponowany przez Churcha) o składni zdefiniowanej poniżej: (13) Dla dowolnych typów a i b, jeżeli α ∈ V ara i β ∈ Wb , to λα.β ∈ W(ab) , gdzie V ara to zbiór zmiennych typu a, Wb i W(ab) to poprawne wyrażenia odpowiednich typów. W dalszej części pracy istotne będzie, że operator λ wiąże zmienne podobnie, jak kwantyfikatory. Wyrażenie powstające w wyniku zastosowania operatora lambda będziemy nazywać wyrażeniem lambda. Z samego typu wyrażenia lambda widać, że jego interpretacją jest funkcja (poprzez symbol [[ψ]] będziemy oznaczali interpretację wyrażenia ψ, zarówno w języku naturalnym jak i w języku logiki): (14) Dla dowolnych typów a i b oraz dla dowolnych α ∈ V ara , β ∈ Wb , [[λα.β]]M,g to funkcja f : Da → Db , taka, że dla każdego d ∈ Da f (d) = [[b]]M,h , gdzie M to model, h i g to wartościowania zmiennych takie, że h różni się od g co najwyżej wartością przypisywaną do α i wartość ta to d tzn. h(α) = d natomiast dla każdej zmiennej x różnej od α : h(x) = g(x). Operator lambda konstruuje funkcję. Jeżeli α to zmienna wolna w β, to term o postaci λα.β określamy mianem abstrakcji funkcyjnej. Ujawnia się tu pierwotna potrzeba wprowadzenia operatora lambda przez Churcha jako narzędzia opisu funkcji. Aby skorzystać z funkcji reprezentowanej przez wyrażenie lambda, konieczne jest wprowadzenie operacji podstawienia funkcyjnego do LPL : (15) Dla dowolnych typów a i b, jeżeli α ∈ W(a,b) i β ∈ Wa to α(β) ∈ Wb . Interpretacja podstawienia funkcjonalnego jest oczywista z samego zapisu – argument zostaje ‘dostarczony’ do funkcji (czyli interpretacji wyrażenia lambda): (16) Dla dowolnych typów a i b oraz dla dowolnych α ∈ W(a,b) i β ∈ Wa , [[α(β)]]M,g = [[α]]M,g ([[β]]M,g ). Rozważmy zastosowanie operatora lambda na poniższym przykładzie: (17) biec(x), gdzie biec to pewien predykat, to term typu t ze zmienną wolną x. Poprzez zastosowanie operatora lambda (abstrakcja funkcyjna) otrzymujemy wyrażenie:
122
Selektywne wprowadzenie do semantyki formalnej
(18) λx.biec(x) – wyrażenie lambda typu (et), przy założeniu, że x ∈ V are . Interpretacją wyrażenia lambda (18) jest funkcja, która zwraca wartość 1 dla tych obiektów, które spełniają predykat biec (z definicji (14)). Widać to wyraźnie po zastosowaniu podstawienia funkcyjnego: (19) λx.biec(x)(jan), gdzie jan to stała typu e, całe wyrażenie jest typu t (definicja (15)). W uproszczeniu, interpretację podstawienia funkcyjnego z (19) możemy opisać jako: (20) [[λx.biec(x)(jan)]]M,g = = [[λx.biec(x)]]M,g ([[jan]]M,g ) = [[jan]]M,g ∈ [[biec]]M,g Z interpretacji wyrażenia (19), opisanej w (20), wynika, że λx.biec(x)(jan) jest równoważne wyrażeniu biec(jan). Fakt ten wyraża reguła beta-redukcji, jedna z czterech reguł wywodu stosowanych w rachunku lambda. Regułę tę ’zapożyczymy’ do systemu dowodowego LPL , zapisując ją ’opisowo’ następująco: (21) Jeżeli dane jest poprawne wyrażenie λα.γ(β) to γ[α/β], pod warunkiem, że β jest wolne dla α w γ, gdzie [α/β] oznacza podstawienie β za zmienną γ. Wyrażenie λα.γ(β) jest poprawne wtedy i tylko wtedy, gdy typy α i β są identyczne (reguły (13) i (15)). Formalna definicja warunku w regule beta-redukcji wymagałaby wprowadzenia kilku dalszych definicji. Dlatego też poprzestaniemy na nieformalnej charakterystyce warunku: „β jest wolne dla α w γ” jako oznaczającego, że w β nie występuje zmienna wolna, która stanie się związana w γ[α/β] oraz, że zmienna wolna w β nie jest identyczna ze zmienną wolną w γ, np. (za Verkuyl (2002)) beta-redukcja w: — ∀x.[M (x) → λz.∃y.[F (y) ∧ K(z, y)](x)] ↔ ∀x.[M (x) → ∃y.[F (y) ∧ K(x, y)](x)] jest poprawna, — natomiast redukcja λy.∃z.[B(y)(z)](z) do ∃z.[B(z)(z)] jest błędna! W razie braku spełnienia warunku ”β jest wolne dla α w γ” można przed beta-redukcją dokonać przemianowania zmiennych w λ (reguła alfa-redukcji w rachunku lambda). Po zastąpieniu LI przez LPL , rozważmy zastosowanie gramatyki Montague do interpretacji znaczenia prostego zdania, wprowadzając jeszcze jedną modyfikację – w regułach składniowych gramatyka kategorialna zostanie zastąpiona prostą gramatyką frazową. Zastąpimy również język angielski językiem polskim, co w ogólnym przypadku nie jest operacją banalną. Przeanalizujmy zdanie: (22) Jan sprawdza pracę. Przyjmijmy założenie, że w polskiej wersji PTQ zdanie (22) posiadałoby analizę składniową opisaną drzewem na rysunku 2.
123
Maciej Piasecki
Rysunek 2. Struktura składniowa (22) według reguły (23)
Węzły drzewa na rysunku 2 zostały oznaczone symbolami kategorii składniowych, natomiast w nawiasach podane zostały numery reguł składniowych generujących dany węzeł. W drzewie na rysunku 2 została przyjęta właściwa dla języka polskiego płaska struktura zdania bez wyróżnienia frazy czasownikowej. Pewnym problem przy przenoszeniu idei PTQ na grunt języka polskiego jest brak szczególnej podgrupy determinatorów w języku polskim tj. rodzajników a(n) i the. W PTQ ich interpretacja definiuje szkielet interpretacji całej FN. Aby uniknąć konieczności postulowania istnienia pustych determinatorów w języku polskim, na rysunku 2 wprowadzono rozwiązanie polegające na możliwości realizacji FN wyłącznie poprzez frazę CN. W obrębie reguły semantycznej pociągnie to za sobą konieczność modyfikacji interpretacji z poziomu CN do kształtu interpretacji ‘wymaganej’ dla poziomu FN. Gramatyka, według której zostało utworzone drzewo na rysunku 2, zdefiniowana została poprzez zbiór definicji haseł słownikowych i reguł składniowych (23). Przyjęta została forma definicji reguł bliska oryginału (np. numeracja oraz obecność funkcji składniowych). Zapis PA , gdzie A to pewna kategoria składniowa, oznacza zbiór wszystkich poprawnie zbudowanych wyrażeń kategorii A. Natomiast BA , oznacza zbiór wszystkich wyrażeń podstawowych (tzn. niepodzielnych z punktu widzenia gramatyki) kategorii A. Zbiory wyrażeń podstawowych są definiowane w słowniku gramatyki poprzez wyliczenie. (23) Słownik wyrażeń podstawowych: BF N = {Jan}, BT V = {sprawdza}, BCN = {praca} Reguły składniowe: Syn1 : Dla dowolnej kategorii A zachodzi:BA ⊆ PA Syn2 : Jeżeli α ∈ PCN , to F16 (α) ∈ PF N , gdzie F16 (α) = α Syn4a : Jeżeli α ∈ PF N , β ∈ PT V oraz δ ∈ PF N , to F4 (α, β, δ) ∈ PS , gdzie osoba i liczba wyrażeń podstawowych w β zostaje dostosowana do α oraz przypadek δ zostaje dostosowany do wymagań głównego wyrażenia podstawowego w β. Syn4a pokazuje, że problem reprezentacji cech morfologicznych w słowniku został w PTQ rozwiązany bardzo prosto – PTQ jest gramatyką generatywną definiującą sposób konstrukcji, a nie rozbioru wyrażeń języka natu-
124
Selektywne wprowadzenie do semantyki formalnej
ralnego (modelowana jest kompetencja językowa w stylu ‘wczesnego’ Chomsky’iego, czyli zdolność do produkcji zdań). Dodatek związany z ustalaniem przypadka w Syn4a jest oczywiście ‘łatą’ niezbędną dla języka polskiego. Zasada kompozycyjności określa interpretację fraz jako funkcję interpretacji wyrażeń składowych, natomiast interpretacje wyrażeń podstawowych muszą zostać podane w słowniku. W gramatyce Montague działanie zasady kompozycyjności zostało rozszerzone o poziom wyrażeń podstawowych poprzez ścisłe przyporządkowanie kategoriom składniowym typów logicznych8 . Definicje interpretacji wyrażeń podstawowych i reguł semantycznych dla komponentu składniowego (23) gramatyki podane są w (24) poniżej. Związek pomiędzy kategoriami i typami logicznymi wynika z samych przypisanych termów, dodatkowo w leksykonie poszczególne typy zostały jawnie zapisane dla poszczególnych kategorii. Odwzorowanie pomiędzy regułami składniowymi i semantycznymi zostało zdefiniowane (identycznie jak w PTQ) w postaci identycznej numeracji. Warto jednak zauważyć, że typy logiczne ograniczają możliwe konstrukcje składniowe. Związki pomiędzy składnią i semantyką stają się bardzo silne i dwustronne. (24) Leksykon interpretacji wyrażeń podstawowych: [[Jan]] = λP.P (jan), [[sprawdza]] = λP.λz.P (λy.sprawdzać(z, y)), [[praca]] =praca, gdzie jan to stała typu e, praca to predykat jednoargumentowy typu (et) oraz sprawdzać to predykat dwuargumentowy typu (e(et)); Powiązanie kategorii składniowych z typami logicznymi: BF N ≈ ((et)t), BT V ≈ (((et)t)(et)), BCN ≈ (et) Reguły semantyczne: Sem2 : Jeżeli α ∈ PCN i α′ = [[a]], to [[F16 (α)]] = = λQ.∃x.(α′ (x) ∧ Q(x)) Sem4a : Jeżeli a ∈ PN P i α′ = [[a]], β ∈ PT V i β ′ = [[b]] oraz δ ∈ PN P i δ ′ = [[d]], to [[F4 (α, β, δ)]] = α′ (β ′ (δ ′ )) ∃
λ
∧
" λ λ ! ∃ ∧! #
λ λ
Rysunek 3. Interpretacja zdania (22) i jego fraz składowych zgodnie z regułami (24)
8
Związek ten jest szczególnie silny przy użyciu gramatyki kategorialnej.
Maciej Piasecki
125
Typ reprezentacji CN to po prostu relacja jednoargumentowa (interpretacja predykatu). Taki jest też typ argumentu wymaganego w Sem2 (czyli Q, np. Q(x)). Interpretacją wyrażenia w Sem2 jest funkcja: D(et) → Dt , czyli samo wyrażenie jest typu ((et)t), jest to jednocześnie typ reprezentacji ‘pełnej’ frazy kategorii FN (np. typem interpretacji Jan czyli typem wyrażenia ‘λP.P (jan)′ ). Typ ((et)t) to rodzina podzbiorów De – zbiór wszystkich własności spełnianych przez obiekt9 reprezentowany przez daną FN, np. przez obiekt stanowiący interpretację stałej jan. Sens przyjęcia takiego typu dla reprezentacji FN ujawnia się, gdy rozważymy redukcję reprezentacji podmiotu, α′ w Sem4a , typu ((et)t), z reprezentacją reszty zdania, β ′ (δ ′ ) w Sem4a , która jest typu (et). Reprezentacja reszty zdania opisuje własność spełnianą przez ‘obiekt podmiotu’ – własność ta musi należeć do własności reprezentowanych przez FN: podstawienie funkcyjne α′ (β ′ (δ ′ )) w regule Sem4a . Ostatecznie reprezentacja całego zdania jest typu t, czyli przyjmuje wartość logiczną 1 lub 0. Skomplikowany typ reprezentacji semantycznej czasownika sprawdzać stanie się bardziej zrozumiały (lub ‘wiarygodny’) w momencie zastosowania jej jako składowej interpretacji całego zdania. Kompozycyjny proces interpretacji zdania (22), zgodnie z jego analizą składniową na rysunku 2, przedstawia rysunek 3. Najpierw, dla wyrażeń podstawowych pobierane są interpretacje z leksykonu, a następnie stosowane są odpowiednie reguły semantyczne. Efekt działania reguł semantycznych, stan po wykonaniu wszystkich możliwych redukcji, przedstawiony został w węzłach drzewa. Z racji redukcji aż trzech wyrażeń w Sem4a , na rysunku 3 interpretacja całego zdania wyłania się dość nagle. Przeanalizujmy kolejne podstawienia funkcyjne w Sem4a , krok po kroku. (25) Podstawienie β ′ (δ ′ ) : λP.λz.P (λy.sprawdzać(z, y)) (λQ.∃x.(praca(x) ∧ Q(x))) beta-redukcja (za P ): λz.(λQ.∃x.(praca(x) ∧ Q(x)) (λy.sprawdzać(z, y))) beta-redukcja (za Q): λz.(∃x.(praca(x)∧ ∧λy. sprawdzać(z, y)(x))) beta-redukcja (za y): λz.(∃x.(praca(x) ∧ sprawdzać(z, x))) (26) Podstawienie α′ (β ′ (δ ′ )) : λP.P (jan) (λz.(∃x.(praca(x) ∧ sprawdzać(z, x)))) beta-redukcja (za P ): λz.(∃x.(praca(x) ∧ sprawdzać(z, x)))(jan) beta-redukcja (za z): ∃x.(praca(x) ∧ sprawdzać(jan, x))) Skoro stało się widoczne w (25) i (26), że rozwiązanie przedstawione w regułach (24) daje efekty zgodne z intuicyjnym rozumieniem znaczenia zdania (22), czas uzasadnić kilka rozwiązań szczegółowych. Reguła Sem2 wprowadza interpretację przyjętą przez Montague dla rodzajnika nieokre9 Gramatyka Montague ogranicza się jedynie do opisu FN w liczbie pojedynczej. Opis FN w liczbie mnogiej jest możliwy w oparciu o kwantyfikatory uogólnione omawiane w dalszej części tej pracy.
126
Selektywne wprowadzenie do semantyki formalnej
ślonego a(n), który jest interpretowany w P T Q egzystencjalnie, tzn. jako istnienie obiektu o własnościach określonych przez deskrypcję we FN, który jednocześnie spełnia własności wyrażone poprzez pozostałą część zdania. Jak już to było wspomniane, powstaje wyrażenie typu ((et)t) reprezentujące wszystkie własności spełniane przez obiekt reprezentowany przez daną FN. Interpretacja FN odpowiada pojęciu kwantyfikatora uogólnionego (omawianego dalej w niniejszej pracy), chociaż Montague nie użył tego pojęcia. Wprowadzony tu schemat interpretacji kwantyfikacji można również postrzegać jako relację pomiędzy zbiorami obiektów: zbiorem obiektów spełniających restrykcję (interpretacja FN) oraz obiektów spełniających ciało (interpretacja reszty zdania). Przyjęta reprezentacja czasownika sprawdzać odbiega od interpretacji występującej w PTQ. Montague, poświęcając dużo uwagi czasownikom tzw. wyższego rzędu jak, np. wierzyć, które trudno interpretować jako relacje pomiędzy obiektami, przyjął predykat ‘wyższego rzędu’ jako podstawową interpretację leksykalną dla czasowników. W efekcie w przypadku ‘zwykłych’ czasowników jak, np. rozpatrywany tu sprawdzać, które z powodzeniem można interpretować jako relację pomiędzy obiektami, w P T Q po redukcji predykatu z argumentem na drugiej pozycji (czyli po wykonaniu pierwszej redukcji) konieczne jest zastosowanie tzw. postulatu znaczeniowego doprecyzowującego interpretację czasownika. Z punktu widzenia formalnego, postulat znaczeniowy jest aksjomatem teorii semantycznej. Aby uniknąć nadmiernej komplikacji w prezentowanym tu uproszczonym P T Q, postulat znaczeniowy został niejako ‘wbudowany’ w interpretację samego czasownika. Rozwiązanie to zostało zaczerpnięte z bardzo dobrego i łatwo dostępnego podręcznika Blackburn Bos (1999) tzw. semantyki informatycznej (ang. Computational Semantics) tzn. odmiany SF przywiązującej dużą wagę do stosowania reprezentacji znaczenia bliskich przetwarzaniu, a programowaniu logicznemu w szczególności. Końcowa formuła w (26) (term typu t) stanowi interpretację znaczenia zdania (22). Interpretacja ta jest jednak wyrażeniem języka formalnego, w naszym przypadku LPL (w przypadku P T Q byłaby to formuła IL). Aby określić warunki prawdziwości dla zdania (22) konieczne jest, zgodnie z definicją Tarskiego, określenie warunków prawdziwości dla formuły (26), w sposób standardowy, w oparciu o model LPL czyli hDe , Ii, gdzie I to funkcja interpretująca stałe zgodnie z ich typami. Warto tu przytoczyć obrazowe stwierdzenie (Partee (2003)) (tłumaczenie własne) dotyczące roli modelu w interpretacji języka naturalnego: „Modele funkcjonują jako abstrakcja i reprezentacja pewnych aspektów jakiegoś rodzaju rzeczywistości; ich struktura odzwierciedla, z jednej strony, strukturę języka, dla którego zapewniają podstawy do interpretacji, a z drugiej strony, naturę rzeczywistości, którą mają one reprezentować w pewnym stopniu.” Model wyraża niejawne założenia co do struktury wybranych aspektów świa-
Maciej Piasecki
127
ta (Partee (2003)). W przypadku modelu LPL założenia te sprowadzają się jedynie do określenia bytów, które istnieją oraz relacji, jakie zachodzą pomiędzy tymi obiektami. Poza modelem, w ogólnym przypadku, na ustalenie interpretacji termu ma wpływ funkcja wartościująca (w skrócie wartościowanie), która przypisuje obiekty z De do zmiennych. Jednak ponieważ formuła (26) jest formułą zamkniętą, gdzie jedyna zmienna x jest związana przez kwantyfikator, to wartościowanie zmiennych nie ma wpływu na jej interpretację. W ustalonym modelu, interpretacją (26) jest wartość prawdy lub fałszu. Zgodnie z definicją Tarskiego, jest to jednocześnie interpretacja zdania (22). Z drugiej strony, te modele, w których interpretacją (26) jest prawda, mówią nam, jaki świat powinien być, aby zdanie (22) było prawdziwe – opisują warunki prawdziwości (22). Podsumujmy, oprócz warunków prawdziwości dla zdań, gramatyka Montague przypisuje również interpretacje poszczególnym frazom składowym, np. [[Jan]] = [[λP.P (jan)]]M = zbiór wszystkich zbiorów obiektów (relacja na zbiorach), do których należy obiekt przypisany do jan. Każdemu wyrażeniu języka naturalnego (pośrednio) przypisana jest pewna struktura w modelu: obiekt, relacja, zbiór relacji itd. – zgodnie z typem logicznym jego reprezentacji semantycznej. Właśnie na ‘strukturze znaczenia’, na wzajemnej odpowiedniości kategorii wyrażeń języka naturalnego i typów logicznych koncentrowała się uwaga Montague. Marginalne znaczenie miało dla niego co naprawdę oznaczają poszczególne predykaty jak praca czy też sprawdzać – ważny był ich typ logiczny. Stąd też w SF historycznie uwarunkowane niedocenianie roli semantyki leksykalnej zajmującej się opisem znaczenia poszczególnych leksemów. Powyższe rozważania nad interpretacją, stanowią dobrą ilustrację do analizy roli reprezentacji znaczenia w SF. W przypadku Montague, znaczenie języka naturalnego jest zdefiniowane poprzez translację do LI i dopiero pośrednio poprzez interpretację wyrażeń LI w modelu. Jednak można zauważyć, że w wypadku gramatyki Montague etap translacji jest pomijalny. Wyrażenia języka naturalnego mogą być bezpośrednio interpretowane w modelu. Strategia taka przyjęta została, np. w podręczniku Larson Segal (1995). Pominięcie etapu pośredniego translacji do wyrażeń języka reprezentacji znaczenia nie jest jednak możliwe w przypadku wszystkich teorii znaczenia, np. w ‘standardowym’ DRT (czyli Kamp Reyle (1993)) reprezentacja pełni kluczową rolę. Kwestia reprezentacji wyznacza dwa paradygmaty SF: teorii semantycznych opartych na reprezentacji i teorii semantycznych opartych na bezpośredniej interpretacji w modelu. Z pewnością zastosowanie reprezentacji znaczenia poprawia czytelność proponowanych rozwiązań. Ważną konsekwencją precyzyjnego przestrzegania zasady kompozycyjności w duchu gramatyki Montague jest związanie wieloznaczności znaczenia wypowiedzi w języku naturalnym z niejednoznacznością w analizie składniowej. W gramatyce Montague, przykładem tego jest tzw. technika quantifying-in (pol. kwantyfikowanie do wnętrza – tj. do wnętrza reprezentacji
128
Selektywne wprowadzenie do semantyki formalnej
zdania) zastosowana do interpretacji zdań z więcej niż jedną kwantyfikującą FN. Pomijając szczegóły analizy, jej działanie zostanie przedstawione na przykładzie (Partee, 2003): (27) Every student read a book. (pol. Każdy student czytał książkę.) Zdanie (27) według P T Q może mieć dwie analizy składniowe przedstawione na rysunkach 4 i 5. Jednocześnie podane są też reprezentacje semantyczne ‘w duchu’ przyjętej wcześniej gramatyki, ściśle ‘sprzężone’ dzięki zastosowaniu zasady kompozycyjności z analizą składniową. Drzewa na rysunkach 4 i 5, w odróżnieniu od drzewa rozbioru składniowego, np. typu rysunek 1, ilustrują możliwe procesy generacji rozpatrywanego zdania w oparciu o składniową część przyjętej gramatyki – tj. (23). !"# $" %
λ ∀ → λ ∃ &&' ∧ ( !"# $" %&&' ) ∀ →∃ ∧ !"# $" λ ∀ → *
%&&'
λ ∃ ∧ λ ( %&&' ) ∃ ∧
% &&' λ ∃ ∧ *
λ
, ,
λ+ + -
λ λ+ λ +
, , λ
Rysunek 4. Kompozycyjna interpretacja tzw. wąskiego zasięgu frazy a book w (27)
Idea rozwiązania polega na uzupełnieniu wyrażeń podstawowych kategorii NP o zmienne składniowe ‘hei ’. Zmienne składniowe (ślady) ‘rezerwują’ miejsce ((Blackburn Bos, 1999) obrazowo nazywają je placeholders, czyli ‘trzymające miejsce’) dla kwantyfikujących FN podniesionych (ang. raised) na wyższe poziomy struktury. Reguła Syn14 (sygnalizowana na rysunkach) łączy FN i zdanie zawierające zmienne, pozwalając na zastąpienie dowolnie wybranej zmiennej przez FN lub zaimek. Reguła Sem14 przed redukcją lambda ‘wyciąga’ zmienną logiczną o odpowiednim indeksie (odpowiadającą zmiennej składniowej) w postaci zmiennej wyrażenia lambda – proces pokazany na rysunku 4 w górnym wierszu. Para reguł o numerze 14 stanowi schemat nieskończonej liczby reguł różniących się jedynie numerem indeksu. Regułę
129
Maciej Piasecki
typu 14 można stosować wielokrotnie, aż do wyczerpania się indeksowanych zmiennych, w niedeterministycznej kolejności uzyskując różne rozbiory składniowe odpowiadające różnym możliwym znaczeniom. Rysunek 5 przedstawia analizę zdania (27) odpowiadającą interpretacji z tzw. szerokim zasięgiem FN a book. W przypadku tej interpretacji mamy jedną książkę czytaną przez każdego studenta. Czy polski odpowiednik zdania (27) posiada to znaczenie – jest sprawą dyskusyjną – niektórzy rodzimi użytkownicy języka polskiego twierdzą, że tak. Z pewnością znaczenie to jest łatwo przypisywane wariantowi polskiego zdania (27), w którym nastąpiła zmiana szyku fraz w zdaniu: (28) Książkę czytał każdy student. Analiza związku porządku liniowego ze znaczeniem wykracza jednak poza ramy tego opracowania. Warto tylko podkreślić ciekawy fakt, że różnica najbardziej oczywistego znaczenia pomiędzy (27) a (28) wiąże się ze zmianą pozycji FN książkę. λ !∀ !%&' (& → ) * ∧ ∀ !%&' (& →
λ !∃ !"##$ ∧ !"##$
∃
λ !∃ !"##$ ∧
+
) %&' (& λ !∀ ! → λ ! * %&' (&
∀ ! →
+ %&' (& λ !∀ ! →
Rysunek 5. Kompozycyjna interpretacja tzw. szerokiego zasięgu frazy a book w (27)
Zasada kompozycyjności w popularnym sformułowaniu (1) wprowadzonym na stronie 115, wbrew pozorom, pozostawia bardzo wiele swobody w interpretacji. Można śmiało stwierdzić, że jest równie nadużywana w SF, jak wiele ‘modnych’ terminów z dziedziny informatyki, np. słowa wirtualny lub multimedialny z upodobaniem odmieniane w różnych kontekstach. Definicja (1) nie ogranicza ilości możliwych funkcji budujących znaczenia wyrażeń – w skrajnym przypadku może ich być tyle, ile sposobów połączenia. Ideałem prostoty (również w (Blackburn Bos, 1999)) jest ograniczenie się jedynie do podstawienia funkcjonalnego. Nie jest również ograniczony sam sposób działania „funkcji znaczeń” – mogą one nawet dokonywać wtórnego rozbioru znaczeń wyrażeń składowych w sposób niezgodny ze strukturą składniową. Całkowicie zgodnie z (1) można konstruować teorie znaczenia działające intuicyjnie kompletnie niekompozycyjnie. Dlatego też,
130
Selektywne wprowadzenie do semantyki formalnej
problem kompozycyjności w logice i lingwistyce doczekał się żywiołowej dyskusji i bardzo dużej liczby prac. Interesującą syntezę zagadnienia można znaleźć w (Janssen, 1997). Larson i Segal (1995) formułują interesującą ‘praktyczną’ definicję kompozycyjności gramatyki, opierając się na wprowadzonych dwóch pojęciach: ścisłej lokalności działania reguły i czysto interpretatywnego jej charakteru. Reguła semantyczna jest ściśle lokalna, jeżeli interpretuje węzeł drzewa derywacji X[Y1 , . . . , Yn ], gdzie X oraz Yi to kategorie składniowe, jedynie w myśl interpretacji jego bezpośrednich składowych, tzn. Y1 , . . . , Yn – reguła nie ‘wnika’ w strukturę składniową bezpośrednich składowych. Z kolei reguła semantyczna jest ściśle interpretatywna, jeżeli nie wprowadza dodatkowych struktur i bazuje wyłącznie na interpretacji bezpośrednich składowych, np. (nawiasy ‘[ ]’ oznaczają węzły drzewa derywacji), np.: (29) [[[S1 i S2 [S3 lub S4 ]]]] = prawda w.t.w., gdy [[S1 ]] = prawda ∧([[S1]] = prawda ∨[[S1]] = prawda) – brak ścisłej lokalności (30) [[[S1 iS2 ]]] = prawda w.t.w., gdy [[[to nieprawda, e [nieprawda, e S1 ] lub [nieprawda, e S1 ]]]] = = prawda – brak czystej interpretatywności Wykorzystująca te pojęcia definicja Larsona i Segala silnej kompozycyjności głosi: (31) Silna kompozycyjność (ang. strong compositionality): R jest potencjalną regułą semantyczną interpretacji języka naturalnego, jeżeli R jest ściśle lokalna i czysto interpretatywna. Definicja Larsona i Segala jest przykładem praktycznego podejścia do formułowania ograniczeń na kształt relacji pomiędzy składnią i semantyką (tzw. interfejs składniowo-semantyczny). Inna możliwość to podjęcie próby scharakteryzowania własności systemu formalnego tworzonego poprzez zbiory reguł syntaktycznych i semantycznych i ich wzajemne relacje. Nurt ten zapoczątkował sam Montague, który, konstruując PTQ sprowadził opis składniowy do zagadnienia konstrukcji algebry, gdzie nośnikiem jest zbiór słów języka (słownik) a operatory (częściowe) odpowiadają regułom składniowym. Następnie, znaczenia są modelowane poprzez nośniki pewnej wielorodzajowej algebry (stanowiącej jednocześnie model LI). Zasada kompozycyjności sprowadzona została w PTQ do definicji homomorfizmu pomiędzy obydwoma algebrami (określonego za pośrednictwem wyrażeń LI i ich interpretacji). W rezultacie – poszczególnym regułom syntaktycznym odpowiadają w jednoznaczny sposób operatory ‘algebry znaczeń’. Idea homomorfizmu algebr, jako środka definicji zasady kompozycyjności, została rozwinięta przez Janssen (1997) do definicji ‘dwuetapowej’. Najpierw definiowane są formalne własności procesu kompozycyjnego przypisywania znaczenia. Następnie, pojęcie procesu jest wykorzystane jako jądro definicji zasady kompozycyjności w interpretacji znaczenia. Definicja procesu z kolei opiera się na technicznym pojęciu algebry termów na algebrze. Nie wchodząc
Maciej Piasecki
131
w szczegóły techniczne – konstrukcja algebry termów na pewnej algebrze B, oznaczanej TB sprowadza się do: — zbudowania zbioru wszystkich poprawnie zbudowanych wyrażeń algebry B, ze względu na zbiór jej nośników i jej operatory – zbiór ten jest nazywany zbiorem termów na B, — następnie, na potraktowanie zbioru termów na B jako zbioru nośników TB , — i utożsamieniu zbioru operatorów TB ze zbiorem poprawnych kombinacji termów w ramach zbioru termów na B. W oparciu o pojęcie algebry termów, kompozycyjne przypisanie znaczeń (wyrażeniom pewnego języka naturalnego lub sztucznego) określane jest następująco ((Janssen, 1997), str. 450): ”Kompozycyjne przypisanie znaczenia dla języka A w modelu B otrzymujemy poprzez definicję algebry h[G], F i jako składni A, algebry h[H], F i dla B oraz konstrukcję przypisania znaczenia jako homomorfizmu z algebry termów TA w h[H], F i.” Janssen formułuje również dalej w (Janssen, 1997, str. 452) formalną (‘pełną’) definicję zasady kompozycyjności znaczenia rozszerzającą kompozycyjne przypisanie znaczenia na proces przypisywania reprezentacji znaczenia w postaci wyrażenia logicznego. Ponieważ definicja ta odwołuje się do kilku dalszych pojęć, jej prezentacja zostanie tu pominięta. Po położeniu przez Montague fundamentów pod SF, jej dalszy rozwój przebiega w dwóch częściowo niezależnych płaszczyznach. Po pierwsze, rozwijane są narzędzia formalne zwiększające siłę ekspresji języków reprezentacji znaczenia, tak aby było możliwe poddanie opisowi obszerniejszych podzbiorów języka naturalnego, przykładami są tu: mechanizmy związane ze zdarzeniami i czasem, zastosowania pojęcia kwantyfikatora uogólnionego, czy też mechanizm niedospecyfikowania. Po drugie, proponowane są, znaczniej rzadziej, nowe paradygmaty znaczenia prowadzące do teorii semantycznej o kształcie odbiegającym od semantyki warunków prawdziwości, przykładami tu mogą być: semantyka dynamiczna (omawiana w paragrafie 4) oraz semantyka sytuacji (Barwise Perry, 1983). W analizowanych do tej pory przykładach stosowaliśmy jedynie czas teraźniejszy i w modelu logiki nie występowały byty związane z czasem. Zjawiska związane z czasem można uwzględnić w reprezentacji semantycznej na dwa sposoby. Po pierwsze, można wprowadzić elementy logiki temporalnej (np. logiki temporalnej Priora – (Prior, 1967)) do języka reprezentacji znaczenia. Postąpił tak Montague wprowadzając w ramach swojej LI indeks czasowy przy interpretacji termów. Działanie funkcji interpretującej w LI zależy między innymi od momentu w czasie. W LI występują dwa specjalne operatory: ‘P’ = stan rzeczy miał miejsce oraz ‘F’ = stan rzeczy będzie miał miejsce względem momentu teraźniejszości. Logika temporalna jednak nie odzwierciedla dobrze sposobu wyrażania czasu w języku naturalnym, np. operator P można iterować, czasu przeszłego w zdaniu używamy raz,
132
Selektywne wprowadzenie do semantyki formalnej
co najwyżej można użyć zaprzeszłego, zdarzenia opisywane w języku naturalnym nie dzieją się momentalnie, ani też nie trwają nieprzerwanie przez pewien interwał – pisanie listu nie następuje momentalnie i dopuszcza też przerwy w tej czynności. Drugi sposób radzenia sobie z czasem w języku naturalnym korzeniami sięga do wprowadzonej przez Davidsona (1967a) analizy opartej na pojęciu zdarzenia (ang. event lub szerzej, obejmując również ‘stany’ i ‘procesy’, eventuality) (dużo miejsca opisowi czasu i aspektu poświęca Verkuyl (2002)). W celu interpretacji zdań, w których występują przysłówki modyfikujące czasownik, np. (32) Jan przybył późno. Davidson wprowadził dodatkowy argument (poza wymaganymi argumentami nominalnymi) predykatu reprezentującego czasownik. Zdaniu (32) możemy przypisać następującą, uproszczoną reprezentację: (33) ∃e.(przybyć(jan, e) ∧ późno(e)) Model formuł typu (33) zostaje rozszerzony w stosunku do LP o dodatkowy rodzaj obiektów w dziedzinie – o obiekty nazywane zdarzeniami, reprezentujące fakt zajścia pewnych okoliczności w rzeczywistości (świadomie tutaj unikamy słowa sytuacja, obarczonego w SF wielorakim znaczeniem). Formuła (33) wyraża fakt istnienia zdarzenia, które możemy scharakteryzować dwoma predykatami: jest to zdarzenie polegające na przybyciu Jana oraz zdarzenie to możemy opisać jako ‘późne’(tzn. opisane przez predykat o pewnej interpretacji). Wprowadzenie zdarzeń umożliwia łatwy opis anafory do ‘stanu rzeczy umiejscowionego w czasie’, jak na przykład w tekście poniżej: (34) Jan przybył późno. Nauczyciel to zauważył. Tekstowi (34) możemy, jako naiwną reprezentację, przypisać następującą formułę: (35) ∃e1 .∃e2 .∃x.(przybyć(jan, e1 ) ∧ późno(e1 ) ∧ nauczyciel(x)∧ ∧zauważyć(e2 , x, e1 ) ∧ e1
Maciej Piasecki
133
Kwantyfikacja w języku naturalnym określa liczbę10 obiektów, które reprezentuje FN, lub też liczbę powtórzeń określonych zdarzeń opisywanych frazą czasownikową. Przykładem FN zawierających w swoim znaczeniu aspekt kwantyfikacji są: jakiś | każdy chłopiec, pięciu | kilku chłopców lub większość chłopców. Reprezentację semantyczną wielu FN tego typu można zbudować w oparciu o elementarne kwantyfikatory: uniwersalny i egzystencjalny (jak to uczynił Montague), lecz nie wszystkich, np. pięciu chłopców można reprezentować przy użyciu pięciu kwantyfikatorów egzystencjalnych (podobnie jak inne liczebniki główne), ale dla większości chłopców możliwość taka nie istnieje ((Does Eijck, 1996)). Aby poradzić sobie z reprezentacją kwantyfikacji, SF sięgnęła po narzędzie kwantyfikatora uogólnionego (dalej KU) wprowadzone przez genialnego polskiego matematyka Andrzeja Mostowskiego. KU rozpoczął swoją karierę w SF wraz z przełomowym artykułem Barwise’a i Coopera ((Barwise Perry, 1983)), w którym zaproponowali gramatykę podzbioru języka angielskiego, o konstrukcji zbliżonej do PTQ, gdzie reprezentacja semantyczna została oparta na KU. KU Mostowskiego to w dużym uproszczeniu rodzina podzbiorów pewnej ustalonej, ale dowolnej dziedziny. Często wygodnie jednak jest postrzegać kwantyfikację w języku naturalnym jako relację na zbiorach, tak jak się to działo niejawnie w przypadku PTQ (np. interpretacje na rysunkach 4 i 5). Dlatego też sięgniemy po uogólnienie definicji Mostowskiego, autorstwa Lindstroma (1996) (kształt definicji za (Does Eijck, 1996)): ¨ (36) Kwantyfikator uogólniony wg (Lindstrom, 1996): Kwantyfikator Q typu ¨ hn1 , . . . , nk i to funktor, który dla dowolnej dziedziny E : QE ⊆ ℘(E n1 ) × K × ℘(E n1 ), oraz dla wszystkich Rn1 ⊆ E n1 , gdzie 1 ¬ i ¬ k, i dla dowolnej bijekcji π : E → E ′ spełnia własność izomorficzności: ISOM Q(hRn1 K Rn1 i) ⇔ QE (hπ(Rn1 ) K π(Rn1 )i), gdzie π(Rn1 ) oznacza {hπ(d1 ), . . . , π(dn )i : hd1 , . . . , dn i ∈ Rn1 } Krotka hn1 , . . . , nk i, gdzie n1 , . . . , nk to liczby naturalne, nazywana jest typem kwantyfikatora. KU, wg Lindstroma, to relacja na relacjach określonych ¨ na wspólnej dziedzinie E. Poszczególne ni określają krotność relacji na określonej pozycji w relacji będącej KU. KU typu h1i to rodzina podzbiorów dziedziny E, czyli KU wg Mostowskiego reprezentowany w logice przez term typu ((et)t). W przypadku KU wg Mostowskiego mamy Q ⊆ ℘(E) Nas będą tu interesowały KU typu h1, 1i będące relacjami na podzbiorach dziedziny, reprezentowani przez termy typu ((et)((et)t)). W przypadku KU typu h1, 1i, główna część definicji (36) upraszcza się do następującej postaci: QE ⊆ (℘(E) × ℘(E)), co oznacza, że KU typu h1, 1i możemy zdefiniować jako zbiór uporządkowanych par podzbiorów dziedziny E. Jako przykłady kwantyfikatorów typu h1, 1i, można podać (za (Does Eijck, 1996)): 10 O mechanizmie kwantyfikacji możemy też mówić w przypadku określania ilości w odniesieniu do FN, gdzie denotacją deskrypcji są masy lub substancje. W niniejszej pracy rozważania ograniczymy do FN, które reprezentują zbiory policzalnych obiektów, w szczególnym przypadku zbiory jednoelementowe.
134
Selektywne wprowadzenie do semantyki formalnej
(37) someE := {hX, Y i : X ∩ Y 6= ∅} – pary zbiorów mających niepustą część wspólną, everyE := {hX, Y i : X ⊆ Y }, mostE := {hX, Y i : |X ∩ Y | > |X ∩ (E − Y )|}. Rozważmy jeszcze raz zdanie (27), przypomniane poniżej: (27) Every student read a book. (pol. Każdy student przeczytał książkę.) Jego ‘klasyczna’ reprezentacja w duchu P T Q na rysunku 4 (str. 128), przypomniana poniżej, pod względem struktury mało przypomina strukturę zdania w języku naturalnym: (38) ∀y.(student(y) → ∃x.(book(x) ∧ read(y, x)) Jeżeli jednak przyjmiemy upraszczające założenie, że rodzajnik a może być interpretowany jako KU typu h1, 1i o charakterze egzystencjalnym, tzn. aE = someE , natomiast everyE = allE , gdzie to aE i everyE to termy typu ((et)((et)t)), to interpretacja zdania z wąskim zasięgiem a book jest reprezentowana jako: (39) everyE (λx.student(x))(λy.(aE (λu.book(u))(λz.(read(y, z))), gdzie dziedzina kwantyfikacji E jest identyczna z uniwersum modelu tzn. De . Formuła (39) wykorzystuje wielokrotnie możliwość postrzegania wyrażenia lambda jako wyrażenia wyznaczającego zbiór, tzn.: — λu.book(u) – jest termem typu (et) interpretowanym jako funkcja, wyznaczająca podzbiór takich obiektów o, że o ∈ [[book]]M,g tym samym opis funkcji jest tożsamy z podaniem zbioru, — λz.read(y, z) – zbiór obiektów czytanych przez kogoś (y jako zmienna wolna przyjmuje dowolną wartość), — aE – to stała typu ((et)((et)t)) interpretowana jako relacja pomiędzy podzbiorami De , w tym przypadku pomiędzy podzbiorami λu.book(u) i λz.read(y, z), spełniona w.t.w., gdy zbiory mają niepustą wspólną część (definicja (37)), — w końcu, everyE to relacja na zbiorach, która jest spełniona w.t.w., gdy zbiór pierwszy zawiera się w zbiorze drugim λy.(aE (λu.book(u)) (λz.(read(y, z)) – zbiorze obiektów czytających jakąś książkę.
3. Reprezentacja niedospecyfikowana W myśl zasady kompozycyjności każde znaczenie zdania powinno być powiązane z różnicą w strukturze składniowej. Nierzadko jednak źródłem wieloznaczności jest znaczenie słowa, które często sztucznie należałoby dzielić na osobne leksemy. Większość zdań interpretowanych w izolacji jest niejednoznacznych znaczeniowo. Łącząc ze sobą zdania w wypowiedź, rozbudowujemy kontekst, co prowadzi do eliminacji niektórych interpretacji przypisanych
Maciej Piasecki
135
wcześniej poszczególnym zdaniom. Bardzo często pojawiają się jednak nowe. Może dojść do niekorzystnej z punktu widzenia przetwarzania języka eksplozji kombinatorycznej liczby możliwych reprezentacji, a utworzenie, przechowywanie i przetwarzanie każdej potencjalnej reprezentacji semantycznej wypowiedzi jest kosztowne obliczeniowo. Stąd też pojawiła się idea reprezentacji niedospecyfikowanej, tzn. takiej, gdzie w ramach reprezentacji semantycznej rejestrujemy dla poszczególnych jej części możliwe ich warianty, ale nie generujmy wynikowego zbioru różnych całościowych reprezentacji. W efekcie, dla niejednoznacznego znaczeniowo wyrażenia w języku naturalnym mamy jedną reprezentację, ale niedospecyfikowaną. Rozwój techniki niedospecyfikowania doprowadził do postawienia istotnych pytań. Czy w przypadku wyrażeń w języku naturalnym mamy do czynienia z niejednoznacznością znaczeniową (ang. semantic ambiguity), czy też raczej z niedookreśleniem (ang. vagueness)? Czy człowiek kiedykolwiek używa języka ujednoznacznionego (ang. disambiguated)? Może używanie wyrażeń, z definicji otwierających drogę do różnych możliwych interpretacji (nie do końca określonych znaczeniowo = niedookreślonych), leży w naturze języka naturalnego? Niedospecyfikowanie zrobiło tak dużą karierę i zostało zastosowane na tyle możliwych sposobów, iż pojawiają się stwierdzenia, że SF wkroczyła w erę niedospecyfikowania (np. Blackburn Bos (1999)). Ogólna idea niedospecyfikowania sprowadza się do umieszczenia w reprezentacji semantycznej meta-zmiennych, którym zostaną później przypisane odpowiednie wyrażenia jako ich wartości. Każde niedospecyfikowane wyrażenie powiązane jest ze zbiorem funkcji, nazywanych wypełnieniami (ang. pluggings), przypisujących wartości (wyrażenia języka reprezentacji) do poszczególnych meta-zmiennych. Wypełnienia muszą spełniać zbiór ograniczeń (ang. constraints) również powiązanych z niedospecyfikowanym wyrażeniem. Istnieje wiele różnych metod konstrukcji niedospecyfikowanej reprezentacji semantycznej – zwarty, aktualny ‘poradnik-przewodnik’ można znaleźć w (Bunt, 2003). Bunt źródła potrzeby wprowadzenia niedospecyfikowania dzieli na pięć klas: — leksykalna niejednoznaczność, np. homonimia (wyraz jest formą dwóch różnych leksemów), polisemia (wieloznaczność leksemu), anafora (omówiona w paragrafie 4), — niejednoznaczność struktury semantycznej, np. zasięg kwantyfikatorów, — niejednoznaczność składniowa, np. miejsce przyłączenia frazy modyfikującej, — niejednoznaczność na poziomie tekstu, np. elipsa, anafora za pomocą określonych FN, katafora (odnoszenie się do następnika w dalszej części tekstu), — brakująca informacja, np. nieznane słowa, niekompletny tekst. Niedospecyfikowanie można wprowadzić do reprezentacji semantycznej na dwa podstawowe sposoby (Bunt, 2003): — niejednoznaczne mogą być stałe (np. predykaty o zbiorze możliwych interpretacji) lub zmienne (faktycznie meta-zmienne, dla których istnieje wiele sposobów przypisania wartości, skojarzonych z niedospecyfikowanym termem),
136
Selektywne wprowadzenie do semantyki formalnej
— niejednoznaczny może być sposób łączenia (redukcji) wyrażeń składowych w wyrażenia złożone. Przykładem prostej metody z pierwszej grupy może być ‘praktyczna’ metoda zastosowana w pracy Piasecki (2003). Tutaj uwagę skupimy na bardziej reprezentatywnej grupie drugiej. Jej rozwój był stymulowany w dużej mierze problemem radzenia sobie z niejednoznacznością zasięgu niektórych operatorów w reprezentacji semantycznej, np. kwantyfikatorów. Działanie metod z drugiej grupy rozważymy na przykładzie tzw. Hole Semantics (dalej HS) zaproponowanej przez Bosa (opis w np. Blackburn Bos (1999)) zastosowanej do reprezentacji niejednoznaczności związanych z zasięgiem kwantyfikacji w zdaniu (27). HS polega na: 1) rozszerzeniu słownika języka reprezentacji o nieskończony, przeliczalny zbiór meta-zmiennych H = {h0 , h1 , h2 , . . . }, gdzie h0 jest wyróżniona, 2) wprowadzeniu meta-zmiennych do termów reprezentacji semantycznej, 3) zdefiniowaniu wyrażeń reprezentacji niedospecyfikowanej jako termów opatrzonych etykietą, 4) oraz na zdefiniowaniu wypełnień poprzez definicję zbioru ograniczeń postaci: l ¬ h, gdzie l jest etykietą i h jest meta-zmienną. Rozważmy ponownie zdanie (27), które dla wygody powtórzmy raz jeszcze: (27) Every student read a book. (pol. Każdy student przeczytał książkę.) W myśl techniki niedospecyfikowania Bosa, reprezentacją (27) jest następujące wyrażenie:
(40)
l1 l2 * l3 h 0 h 1 h2
l 1 ¬ h0 l1 : ∀y.(student(y) → h1 ) l 2 ¬ h0 , l2 : ∃x.(book(x) ∧ h2 ) , l 3 ¬ h1 l3 : read(y, x) l 3 ¬ h2
+
gdzie l1 , l2 , l3 są etykietami (ang. labels) użytymi w ograniczeniach stanowiących trzeci element trójki (40). Ograniczenia definiują możliwe wypełnienia. Relacja ‘¬’ występująca w ograniczeniach, określa (poprzez etykietę) relację obejmowania zasięgiem etykietowanego wyrażenia przez meta-zmienną. W efekcie – zbiór ograniczeń definiuje częściowy porządek wypełniania meta-zmiennych etykietowanymi wyrażeniami. Każde etykietowane wyrażenie może być użyte do wypełnienia tylko raz. Zgodnie z ograniczeniami w (40) istnieją tylko dwa poprawne wypełnienia W1 i W2 : W1 W2
h0 l1 l2
h1 l2 l3
h2 l3 l1
Maciej Piasecki
137
W przypadku W2 wątpliwości może budzić użycie l1 do wypełnienia h2 . Jednak w l1 znajduje się h1 , w jej ‘zasięgu’ znajduje się l3 czyli pośrednio l3 znajduje się w ‘zasięgu’ h2 . Natomiast ograniczenia nic nie narzucają na wzajemną relację pomiędzy h2 i l1 . W rezultacie zastosowania wypełnień W1 i W2 do wyrażenia (40) otrzymujemy, odpowiednio, formuły (41) i (42): (41) ∀y.(student(y) → ∃x.(book(x) ∧ read(y, x))) (42) ∃x.(book(x) ∧ ∀y.(student(y) → read(y, x))) Pożądaną cechą jest istnienie systemu dowodowego bezpośrednio dla formuł reprezentacji niedospecyfikowanej. Możliwość taką oferuje język UDRS11 autorstwa Reyle’go (1993). Skrócony opis UDRS i opartego na nim systemu dowodowego dostępny jest między innymi w (Cooper, 1994). W UDSR, podobnie jak w HS, mamy etykietowane wyrażenia, jednak zamiast meta-zmiennych (które nie są obecne w UDRS) to same etykiety wchodzą w skład wyrażeń złożonych. Konsekwencją tego jest konieczność etykietowania w UDRS wszystkich wyrażeń prostych, a nie, jak w HS – jedynie wybranych. Zbiór ograniczeń definiowany jest jako górna półkrata relacji na etykietach, interpretowanych jako pozostawanie jednej etykiety w zasięgu drugiej.
4. Semantyka dynamiczna Do tej pory analizowaliśmy jedynie metody opisu znaczenia izolowanych zdań. Człowiek jednak bardzo często posługuje się dłuższymi, wielozdaniowymi wypowiedziami. Pojawia się wtedy szereg zjawisk znaczeniowych, z których najbardziej podstawowym jest chyba anafora. Encyklopedia językoznawstwa, (Polański, 1993), w początkowej części hasła anafora, charakteryzuje ją następująco: „Jako zjawisko składniowe – relacja, która wiąże ze sobą dwa wyrażenia: anaforyzowane i anaforyczne występujące bądź w tym samym zdaniu, bądź w różnych zdaniach należących do jednego wypowiedzenia wielozdaniowego [. . . ]. Wyrażenie anaforyczne, które nie ma własnego sensu, stanowi swoisty odsyłacz do wcześniej użytego wyrażenia anaforyzowanego, zwanego poprzednikiem (antecedensem) relacji anaforycznej, z którego odczytać można komunikowany sens. Tak np. wyrażenie anaforyczne ją w drugim zdaniu sekwencji Hania wróciła już do Warszawy. Widziałem ją wczoraj na ulicy jest nieczytelne bez poprzedzającego je w zdaniu pierwszym wyrażenia anaforyzowanego Hania.” Podstawowe cechy anafory to: spełnianie funkcji semantycznego odsyłania przez jedno wyrażenie do drugiego (wcześniejszego w dyskursie) oraz 11 Niedospecyfikowana wersja języka DRS stosowanego w teorii DRT - omawianej w następnym paragrafie.
138
Selektywne wprowadzenie do semantyki formalnej
składniowe uwarunkowanie kontekstem, w którym takie odsyłanie może mieć miejsce. Z dalszego rozwinięcia hasła w encyklopedii widać jednak wyraźnie, że brak jest zgodności w precyzyjnej charakterystyce tych ogólnie sformułowanych własności12 . Sposób opisu zależy od przyjętych założeń teoretycznych. Dlatego też ograniczymy się na wstępie jedynie do wskazania kilku przykładów ilustrujących zjawisko anafory, natomiast jej precyzyjny, choć tendencyjny z racji wyboru konkretnej teorii semantycznej, opis wyłoni się podczas prezentacji metod opisu formalnego. Najczęściej poprzednikiem jest FN a wyrażeniem anaforycznym jest zaimek anaforyczny, por. przykład zawarty w haśle anafory cytowanym powyżej. Zaimek anaforyczny w swoim znaczeniu odwołuje się do obiektu (obiektów w przypadku liczby mnogiej) wprowadzonych do dziedziny dyskursu przez poprzednika. Zamiast zaimka można też użyć, praktycznie nie zmieniając znaczenia, określonej FN, np. (Topolińska, 1984): (43) Hania przenosi się do Krakowa. Zupełnie tej dziewczyny nie rozumiem. Czasami jednak wyrażenie anaforyczne nie odwołuje się do obiektu wprowadzanego przez FN, będącej poprzednikiem, lecz do treści deskrypcji zawartej w poprzedniku. Encyklopedia określa ten rodzaj anafory mianem anafory leksykalnej, np. (Topolińska, 1984): (44) Jego siostra jest główną księgową. Taką to każdy ceni. (45) Chcę być architektem i będę nim. Również w wielu wypowiedziach poprzednikiem nie jest FN. Wyrażenie anaforyczne odwołuje się do całej ‘sytuacji’ (zdarzenia) opisanej zdaniem bądź predykatem czasownikowym. (46) Mój kolega poprosił o podwyżkę. Ja również powinienem to zrobić. W naszych rozważaniach ograniczymy się jedynie do ‘kanonicznego’ przypadku anafory – do FN (przykład z hasła oraz (43)). Zaskakująco, poprawna (tzn. zgodna z ocenami użytkowników języka) interpretacja anafory na gruncie gramatyki Montague okazała się zadaniem niełatwym. Klasycznym przykładem problemów na poziomie prostych zdań są tzw. ośle zdania, np. (47) If Pedro1 owns a donkey2 he1 beats it2 . (Jeżeli Pedro1 posiada osła2 to on1 go2 bije.). (48) Every farmer who owns a donkey1 beats it1 . (Każdy farmer, który posiada osła1 bije go1.) 12
Historycznie pojawiły się trzy rywalizujące podejścia. Najstarsze, uwidocznione w nazwie zaimek (= używany w zastępstwie imienia) postrzegało anaforę jako mechanizm ‘tekstowego skrótu’: zaimek zastępował poprzednika. Można jednak znaleźć wiele przykładów, które po zamianie dają ewidentnie błędne wypowiedzi. Drugie sprowadza anaforę do koreferencji (identyczności referenta). Jednakże w wielu przypadkach poprzednik nie jest referencyjny i nie ma referenta. Trzecie polega na próbie rozszerzenia narzędzi formalnych gramatyki Montague na kwantyfikatory w dyskursie. Zaimki anaforyczne są tu interpretowane jako zmienne związane.
Maciej Piasecki
139
Indeksy określają powiązania anaforyczne (dla pewnej zamierzonej interpretacji): indeks górny wskazuje na poprzednika, indeks dolny identyfikuje wyrażenie anaforyczne. Przyjmując stałą logiczną jako interpretację imienia oraz wszystkich odwołań do niego, warunki prawdziwości zdania (47), a tym samym znaczenie zdania, można opisać następująco (np. (Kamp, 1981), (Cooper, 1994)): (49) ∀x[(donkey(x) ∧ own(pedro, x)) → beat(pedro, x)] Tymczasem, stosując technikę quantif ying−in wprowadzoną przez Montague (omówiona wcześniej), gdzie rodzajnik a(n) jest klasycznie interpretowany jako kwantyfikator egzystencjalny, oraz nadal stosując stałą jako interpretację imienia, otrzymamy nieco inny rezultat: (50) ∃x[(donkey(x) ∧ own(pedro, x)) → beat(pedro, x)] W oczywisty sposób (50) (jak i też (51), poniżej) nie wyraża warunków prawdziwości zdania (47). Przyczyną jest interpretacja rodzajnika a przy pomocy kwantyfikatora egzystencjalnego. Ponadto, obydwie formuły odbiegają od struktury pierwotnego zdania. Umiejscawiając kwantyfikator w strukturze reprezentacji semantycznej w miejscu paralelnym do jego położeniu w strukturze zdania, otrzymamy formułę, gdzie x jest niezwiązana: (51) ∃x[(donkey(x) ∧ own(pedro, x))] → beat(pedro, x) Warto jednak zauważyć, że podobnego efektu nie ma w przypadku zdania, które mimo powierzchownego podobieństwa nie jest ‘ośle’: (52) If Pedro1 has a donkey he1 is happy. (Jeżeli Pedro1 ma osła to on1 jest szczęśliwy.) Tutaj warunki prawdziwości zarówno pod względem formy, jak i interpretacji przypisanej do rodzajnika a odpowiadają intuicji: (53) ∃x(donkey(x) ∧ has(pedro, x)) → is happy(pedro) Przyczyną różnicy pomiędzy interpretacjami zdań (47) i (52) jest występowanie w konkluzji (47) zaimka anaforycznego (wyrażenie anaforycznego), którego poprzednikiem (podkreślone jest to przez indeks) jest nieokreślona FN(a donkey) w przesłance. Brak takiego powiązania anaforycznego w (52) jest przyczyną istotnej różnicy w interpretacji. Nie tylko konstrukcje warunkowe zmieniają interpretację rodzajników nieokreślonych. Warunki prawdziwości dla zdania (48) to: (54) ∀x∀y[(f armer(x) ∧ donkey(y) ∧ own(x, y)) → beat(x, y)] Również i tu rodzajnik a interpretowany jest przy pomocy kwantyfikatora uniwersalnego, ale tu także przyczyną jest anaforyczne powiązanie przekraczające granice zdań składowych: it jest na poziomie zdania głównego, a donkey stanowi część zdania względnego. Technika quantifying-in ograniczona jest do zdań pojedynczych. W przypadku wypowiedzi składających się z więcej niż jednego zdania, naturalnym
140
Selektywne wprowadzenie do semantyki formalnej
rozwiązaniem wydaje się być interpretowanie kropki jako koniunkcji oraz zastosowanie techniki quantifying-in do całej powstałej w ten sposób konstrukcji. Wyprowadzi to kwantyfikatory przed koniunkcję formuł, powodując objęcie ich zasięgiem zmiennych wprowadzonych jako interpretacja zaimków anaforycznych. Niestety, w efekcie dla zdania (55): (55) Exactly one boy1 walks in the park. He1 whistles. (Dokładnie jeden chłopiec1 spaceruje w parku. On1 gwiżdże.) (56) Exactly one boy walks in the park and whistles. (Dokładnie jeden chłopiec spaceruje w parku i gwiżdże.) otrzymamy formułę (58), gdy tymczasem (58) jest dobrą reprezentacją semantyczną zdania (56), natomiast znaczenie (55) lepiej oddaje (57). (57) ∃x(∀y[(boy(y) ∧ walk in park(y)) ↔ x = y] ∧ whistles(x)) (58) ∃x(∀y[(boy(y) ∧ walk in park(y) ∧ whistles(y)) ↔ x = y]) Wreszcie, ostatni przykład: nieoczekiwane oddziaływanie negacji na możliwość tworzenia się powiązań anaforycznych. Rozważmy dwa zdania: (59) A man is walking in the park. (Mężczyzna spaceruje w parku.) (60) It is not the case that every man is not walking in the park. (Nie jest prawdą, że każdy mężczyzna nie spaceruje w parku.) Jeżeli przyjmiemy ϕ = (man(x) ∧ walk in park(x)), to formuły stanowiące reprezentację semantyczną powyższych zdań na gruncie LP są sobie równoważne: (61) ∃x.ϕ wtedy i tylko wtedy, gdy ¬∀x¬ϕ Mimo to, tylko zdanie (59), ‘wariant pozytywny’, możemy rozszerzyć do mini-dyskursu: (62) A man1 is walking in the park. He1 is enjoying himself1 . (Mężczyzna1 spaceruje w parku. On1 spędza miło czas.) W przypadku ‘wariantu negatywnego’ (60) zabieg taki jest niemożliwy (pomimo identyczności interpretacji na gruncie LP): (63)
⋆
It is not the case that every man1 is not walking in the park. He1 is enjoying himself1 . (Nie jest prawdą, że każdy mężczyzna1 nie spaceruje w parku. On1 spędza miło czas.)
Powyższe przykłady pokazują nieadekwatność w wielu przypadkach opisu anafory za pomocą pojęcia zmiennej wiązanej przez kwantyfikator. Z kolei możliwość interpretacji anafory jako koreferencji, czyli współdzielenia tego samego referenta poprzez dwa wyrażenia, nie może mieć zastosowania w przypadkach wypowiedzi, gdzie poprzednik nie posiada referenta, np. jest nieokreśloną FN, za (Eijck Kamp, 1997): (64) A man1 entered. He1 smiled. (Mężczyzna1 wszedł. On1 uśmiechał się.)
Maciej Piasecki
141
We wszystkich powyższych przykładach poprzednie zdanie lub też fragment zdania stwarza kontekst, w którym mogą być lub nie (przypadek (63)) interpretowane poprawnie dalsze elementy wypowiedzi. Trudności w opisie tego mechanizm za pomocą klasycznych warunków prawdziwości zapisanych w LP stały się punktem wyjścia do stworzenia teorii znaczenia wielozdaniowych wypowiedzi (określanych mianem dyskursu ang. discourse) w tym samym okresie, niezależnie od siebie, przez Irene Heim (1982) – File Change Semantics – oraz Hansa Kampa – Discourse Representation Theory, (1981). Ponieważ druga z tych teorii, powszechnie znana pod skrótem DRT, stała się pewnego rodzaju standardem i zapoczątkowała intensywny rozwój całej klasy podejść, ograniczymy się jedynie do prezentacji rozwiązania Kampa. Zamieszczony tu opis DRT, z konieczności bardzo skrótowy, przygotowany został głównie w oparciu o dwa ‘oficjalne’ źródła13 : bardzo obszerną pracę mającą charakter podręcznika Kamp i Reyle (1981) oraz pracę van Eijck i Kamp (1997) – dostępną elektronicznie – prezentującą w skondensowanej postaci główne idee ale też podejmującą próbę zdefiniowania DRT w sposób kompozycyjny. Punktem wyjścia DRT jest spostrzeżenie, iż każde kolejne zdanie dyskursu jest interpretowane w kontekście budowanym w wyniku interpretacji zdań je poprzedzających. Każde zdanie uaktualnia stan kontekstu. Często istotną częścią tego procesu jest tworzenie się powiązań anaforycznych. Dlatego też, reprezentacja kontekstu musi spełniać jednocześnie dwie role: musi wyrażać informację wniesioną przez kolejne zdania w dyskursie oraz musi określać możliwości tworzenia się powiązań anaforycznych – łączących poszczególne elementy reprezentacji w spójną całość. Wyrażenia języka reprezentacji znaczenia wprowadzonego w DRT noszą nazwę struktur reprezentacji dyskursu (Discourse Representation Structures, w skrócie DRS14 ), jako że wyrażają aktualny stan kontekstu interpretacji. Stan kontekstu jest pochodną struktury i znaczenia samego dyskursu. Zgodnie z panującą żargonową konwencją – będziemy mówili o DRS-ach w odniesieniu do wyrażeń języka DRS. W celu opisania deskryptywnej części znaczenia dyskursu, DRT definiuje pojęcie prawdziwości DRS-a w pewnym modelu i utożsamia znaczenie deskryptywne z warunkami prawdziwości. Jednakże odmiennie niż w tradycji Montague, warunki prawdziwości nie wyczerpują pojęcia znaczenia zdania w DRT. Przyjęto tutaj dynamiczną koncepcję znaczenia: znaczenie zdania jest utożsamiane ze zmianą jaką ono15 wprowadza do kontekstu interpretacji czyli, technicznie, z relacją pomiędzy DRS-ami: wejściowym i wyjściowym. Dynamiczna koncepcja znaczenia, realizowana różnie jako relacja: na struktu13
Współautorem obydwu jest twórca DRT – Hans Kamp. Inna żargonowa nazwa na wyrażanie języka DRS to pudełka (ang. boxes), wywodząca się od przyjętego kształtu graficznej reprezentacji wyrażeń. 15 Pierwotna postać DRT pełną interpretację mogła określić dopiero dla całego zdania. Podczas analizy poszczególnych fraz składowych zdania nie dysponujemy poprawnie zbudowanym DRS’em. Stało się to przyczyną zarzucania DRT nieprzestrzegania zasady kompozycyjności. Powstało kilka kompozycyjnych wersji DRT. 14
142
Selektywne wprowadzenie do semantyki formalnej
rach reprezentacji dyskursu, wartościowaniach itd., jest wyznacznikiem całej klasy teorii w ramach SF określanych wspólnym mianem semantyki dynamicznej ((Eijck Kamp, 1997)). W dalszej części pracy przedstawione zostaną podstawowe założenia tzw. logiki dynamicznej, gdzie interpretacja wyrażeń logiki to relacja na wartościowaniach. Opis możliwości tworzenia się powiązań anaforycznych bazuje na wyróżnionych elementach DRS nazywanych znacznikami dyskursu (ang. discourse markers)16 . Brak ich definicji w podstawowych pracach, np. (Kamp, 1981), (Eijck Kamp, 1997) i innych. Znacznik dyskursu niejawnie spełnia rolę pojęcia pierwotnego DRT. Pierwsze użycie tego pojęcia jest opatrywane jedynie charakterystyką funkcjonalną, np.: „individual indicated by NP [. . . ] a formal representative (a so-called discourse referent) for the indicated individual [. . . ]” (Kamp (1981, str. 61)) „indywiduum sygnalizowane przez NP [. . . ] formalny reprezentant (tzw. znacznik dyskursu) sygnalizowanego indywiduum [. . . ]” (tłumaczenie własne) „discourse referents [. . . ] which stand [. . . ] for individual objects” (Kamp, 1981, str. 308) „znaczniki dyskursu [. . . ], które reprezentują [. . . ] indywidualne obiekty”17 „discourse referents – that can serve as antecedents to anaphoric expressions” (Eijck Kamp, 1997, str. 2) „znaczniki dyskursu – które mogą służyć jako poprzednicy anaforyczni wyrażeń anaforycznych” (tłumaczenie własne) Dalej, tam gdzie nie powinno to wzbudzić wątpliwości, o znacznikach dyskursu będziemy mówili po prostu znaczniki. Na płaszczyźnie formalnej, znaczniki spełniają rolę zbliżoną do zmiennych logicznych, reprezentując obiekty z dziedziny interpretacji. Powiązania anaforyczne są wyrażane poprzez warunek identyczności ‘=’, wiążący dwa znaczniki (interpretowany następnie jako identyczność obiektów przypisanych do nich). Podsumowując, każdy DRS zawiera zbiór znaczników i zbiór warunków – predykatów – nałożonych na znaczniki. W szczególnym przypadku poszczególne zbiory mogą być puste. Warunki określają własności spełniane przez obiekty przypisane do znaczników. DRT w swojej pierwotnej postaci definiuje procedurę tworzenia DRS-ów na podstawie struktury składniowej zdań dyskursu. DRS dla dyskursu jest tworzony sekwencyjnie na podstawie kolejnych zdań. Proces ten ma charakter przyrostowy. Każde kolejne zdanie rozbudowuje zastany kontekst, czyli DRS, o nowe elementy. Reguły DRT identyfikują wkład poszczególnych konstrukcji składniowych zdania do zmieniającego się kontekstu. W odniesieniu 16 Inna nazwa to znaczniki referencji (ang. reference markers), ponieważ wprowadza ona mylące skojarzenia z pojęciem referencji pozostaniemy przy pierwszej z nazw (starszej). 17 tłumaczenie własne
143
Maciej Piasecki
do dyskursu mamy przebieg budowy DRS-a: ‘od lewej do prawej’, a w ramach drzewa rozbioru składniowego zdania: ‘od góry do dołu’. Działanie teorii prześledzimy na prostych przykładach. DRT zainspirowała do wielu zastosowań (w tym w przetwarzaniu języka naturalnego, np. (Blackburn Bos, 1999)) oraz powstało wiele jej rozwinięć. Tutaj przyjrzymy się DRT w jej ‘podręcznikowej’ postaci. Wersja ‘podręcznikowa’ DRT jest najobszerniejsza pod względem ilości różnych, opisywanych konstrukcji językowych. Wersje kompozycyjne koncentrują się głównie na możliwości kompozycyjnego sformułowania DRT i opisywany podzbiór języka jest dość ograniczony. Zostaną zachowane ‘podręcznikowe’ oznaczenia stosowane w opisie języka DRS. DRS-y dla poszczególnych zdań (na różnych etapach interpretacji zdania) są generowane przez reguły DRT, reagujące na określone typy konstrukcji składniowych występujących w strukturze składniowej analizowanego zdania. Pojedynczy DRS jest parą składającą się ze: zbioru znaczników U, nazywanym uniwersum DRS-a oraz zbioru warunków Con. Warunki mogą być proste, będące wyrażeniami predykatowymi na znacznikach i złożone, które są konstruowane z innych DRS-ów oraz wprowadzonych operatorów: (65) DRS = hU, Coni Dla zdania18 (59) reguły DRT utworzą DRS oznaczony poniżej jako K1 (dla uproszczenia, często frazy czasownikowe wraz z modyfikującymi je frazami okolicznikowymi będziemy interpretować przy pomocy jednego ‘zbiorczego’ predykatu): (66) K1 = hx, {man(x), walk in park(x)}i Od samego początku jednak, cechą charakterystyczną DRT było zastosowanie notacji graficznej19 ułatwiającej analizę reguł DRT i otrzymywanych DRS-ów. DRS w notacji graficznej jest rysowany jako prostokąt (‘pudełko’ ang. box) podzielony na dwa przedziały: znaczników (górny) i warunków, np. reprezentacją K1 jest: x man(x) walk in park(x) ¯ ¯
Rysunek 6. Graficzna postać struktury DRS opisanej wyrażeniem (66)
18 Ponieważ przeniesienie DRT na grunt języka polskiego nie jest operacją prostą (chociaż było realizowane już kilka razy ‘roboczo’ na potrzeby eksperymentalnych systemów przetwarzających język polski) będziemy używać oryginalnych przykładów angielskich i oryginalnego kształtu reguł (z [KamRey93] i [Fracas94]). 19 Notacja graficzna jest pierwotna w stosunku do notacji tekstowej np. w (Kamp, 1981) notacja tekstowa w ogóle nie funkcjonuje. W notacji graficznej wiele reguł DRT ma bardzo intuicyjną interpretację.
144
Selektywne wprowadzenie do semantyki formalnej
K1 powstaje w wyniku zastosowania kolejno dwóch reguł. W pierwszym kroku (rysunek 6) tworzony jest DRS wypełniony zdaniem (59) przedstawionym w postaci drzewa derywacji. Aby było możliwe precyzyjne sformułowanie reguł konstrukcji, DRT wprowadza prostą gramatykę frazową. Ponieważ DRT jest teorią semantyki, kształt tej gramatyki jest sprawą drugorzędną, aczkolwiek musi być ustalony ze względu na konieczność precyzyjnego określenia interfejsu syntaktyczno-semantycznego (część warunkowa reguł). 1)
2) [S(NP gen=male (DET(a) N(man)) VP( V(walks)PP(in the park)))]
CR.ID
x [N(x)( gen=male man)] [S(x VP( V(walks) PP(in the park)))]
Rysunek 7. Konstrukcja prostego DRS – reguła CR.ID dla rodzajnika nieokreślonego
Każda reguła składa się dwóch części, za Kamp (1981): — specyfikacji konfiguracji syntaktycznej (fragmentu drzewa) aktywującej (ang. trigger) zastosowanie reguły, — procedury opisującej zmiany wprowadzane przez regułę w odniesieniu do drzewa derywacji (rejestrowanie wykonanych działań) oraz, przede wszystkim, do kontekstu interpretacji, czyli DRS-a. Nie ma ustalonej kolejności stosowania reguł. W przypadku, gdy jest aktywna więcej niż jedna reguła, proces konstrukcji DRS staje się niedeterministyczny. Niedeterminizm ten jest wykorzystywany w DRT do analizy zdań niejednoznacznych semantycznie (np. klasyczny problem zasięgu kwantyfikatorów). Należy tu jednak podkreślić, że dla różnych interpretacji niejednoznaczności składniowych są generowane różne DRS-y. Jako przykład definicji reguły DRT rozważmy pierwszą regułę stosowaną w analizie zdania (59) na rysunku 7 tj. regułę CR.ID aktywowaną nieokreśloną NP (frazą rzeczownikową): (67) Reguła CR.ID (context rule indefinite NP – pol. reguła nieokreślonej NP) Dla pewnego DRS K, gdzie UK jest uniwersum K a ConK zbiorem warunków K : — aktywująca konfiguracja γ ⊆ η ∈ ConK : S(NP(gen= β DET(a(n)) N) VP’) lub VP(V NP(gen= β DET(a(n)) N)), — dodaj do UK : nowy znacznik u — dodaj do ConK : nowy warunek: [N](u), gen(u) = β — zastąp w η : poddrzewo NP(gen=β DET(a(n))N ) przez u. W regule CR.ID zapis γ ⊆ η ∈ ConK znaczy, że γ jest poddrzewem drzewa η należącego do warunków K; gen to atrybut morfologiczny; zapis [N](u) znaczy, że kopiowane jest odpowiednie poddrzewo, ‘parametryzowane’ (etykietowane) następnie znacznikiem u. Parametryzacja znacznikiem jest wykorzystywana w aktywacji kolejnej reguły. Zadaniem reguły CR.ID
145
Maciej Piasecki
jest ‘wykrycie’ nieokreślonej NP i utworzenie dla niej nowego znacznika reprezentującego obiekt wprowadzany do dziedziny interpretacji dyskursu. Warunek dodany przez CR.ID aktywuje regułę CR.LIN dopełniającą proces interpretacji nieokreślonej NP. Reguła CR.LIN przekształca parametryzowane poddrzewo wydzielone przez CR.ID do predykatu nałożonego na odpowiedni znacznik wprowadzony przez daną NP. W efekcie zastosowania otrzymujemy DRS 3) na rysunku 8.
3) CR.LIN 2)
x man(x) [S(x VP( V(walks) PP(in the park)))]
4) skrót
x man(x) walk_in_park(x)
Rysunek 8. Zastosowanie reguły CR.LIN i skrótu notacyjnego dla czasownika
Po zastosowaniu CR.LIN pozostaje w DRS-ie warunek [S(x VP( V(walks) PP(in the park)))]. W ramach rozważanej tu wersji DRT jest on dalej nieredukowalny20 (brak odpowiedniej reguły). Warunek ten jest interpretowany jako predykat jednoargumentowy (np. (Kamp, 1981)) i może być zapisany w skrótowej postaci – punkt 4), rysunek 8. Wynikowy DRS może być interpretowany nieformalnie jako ‘częściowy model’ pewnego stanu rzeczy21 , gdzie słowo „częściowy” oznacza, że model opisuje jedynie wybrane aspekty ‘globalnego’ stanu rzeczy. Opisywany stan rzeczy angażuje jakiś obiekt a, odpowiadający znacznikowi x i spełniający własności nałożone na znacznik x. DRS jest prawdziwy wtedy, gdy istnieje możliwość przypisania do znacznika x przynajmniej jednego obiektu spełniającego warunki nałożone na znacznik. W ogólnym przypadku, wszystkie znaczniki z uniwersum danego DRS otrzymują egzystencjalną interpretację. Taka niejawna interpretacja egzystencjalna określana jest często mianem importu egzystencjalnego (ang. existential import, por. (Eijck Kamp, 1997)). Jeżeli rozszerzymy zdanie (59) do mini-dyskursu (68), to drugie zdanie będzie interpretowane w kontekście stworzonym przez interpretację zdania pierwszego – punkt 1) na rysunku 9. (68) A man1 is walking in the park. He1 whistles. (Mężczyzna1 spaceruje w parku. On1 gwiżdże) Jedyna reguła, jaka może być uaktywniona, to reguła CR.PRON, obsługująca zaimek osobowy, która ze względu na swoją istotność została zacytowana poniżej w całości. CR.PRON produkuje DRS-a w punkcie 2) na rysunku 9. 20 W przypadku gdyby jednak pozostały warunek zawierał frazę wymaganą czasownika (wymagany argument) kategorii NP, byłoby możliwe (i konieczne) ponowne zastosowanie pary reguł CR.ID i CR.LIN aktywowanych konfiguracją drzewa derywacji. W efekcie czasownik tranzytywny byłby interpretowany jako predykat dwuargumentowy. 21 Ponownie unikamy używania, wieloznacznego w SF, terminu sytuacja.
146
Selektywne wprowadzenie do semantyki formalnej
(69) Reguła CR.PRON (pronoun – pol. zaimek) — aktywująca konfiguracja γ ⊆ η ∈ ConK : S(NP(gen= β PRON(α)) VP’) lub VP(V NP(gen= β PRON(α))), — wybierz odpowiedniego poprzednika v : v musi być dostępny oraz gen(v)=b, — dodaj do UK : nowy znacznik u, — dodaj do ConK : nowy warunek: u = v, gen(u)=b, — zastąp w h: poddrzewo NP(gen=b PRON(a)) przez u.
1)
x man(x) walk_in_park(x) [S(NP gen=male (PRO(he)) VP( V(whistles)))]
2) CR.PRO
3) x,y man(x) skrót walk_in_park(x) y=x gen(x, male) [S(y VP( V(whistles)))]
x,y man(x) walk_in_park(x) y=x gen(x, male) whistle(y)
Rysunek 9. Zastosowanie reguły CR.PRON (interpretacja zaimka osobowego)
Reguła CR.PRON najpierw dodaje nowy znacznik (każda NP wprowadza nowy znacznik do uniwersum DRS), ale później następuje ważna operacja odnalezienia odpowiedniego poprzednika. DRT nie opisuje szczegółowo procesu identyfikacji poprzednika. Wymagałoby to uwzględnienia wiedzy o znaczeniu leksykalnym, ogólnej wiedzy o świecie, o konkretnym zdarzeniu/stanie itd., por. (Kamp, 1981). DRT formułuje jedynie warunki konieczne, jakie muszą być spełnione podczas identyfikacji poprzednika, aby dyskurs był poprawny. W zasadzie podstawowym celem DRT jest określenie, które znaczniki nie mogą być brane od uwagę w danym stanie kontekstu (wejściowy DRS) jako ewentualne poprzedniki. W tym celu rozważane są uwarunkowania składniowe (rodzaj oraz konfiguracja drzewa w wersji pełnej reguły obejmującej zaimki zwrotne, (Kamp, 1981)) oraz syntaktyczno-semantyczne, wyrażające się pojęciem dostępności. Aby w pełni scharakteryzować dostępność znaczników, musimy wprowadzić strukturę zagnieżdżonych DRS-ów. Zawsze jednak znaczniki z uniwersum danego DRS są dostępne dla innych znaczników z tego samego uniwersum. Zagnieżdżone DRS-y powstają w wyniku interpretacji negacji zdaniowej i konstrukcji warunkowych. Negacja jest interpretowana przy pomocy unarnego operatora biorącego DRS-a jako argument i tworzącego złożony warunek, który staje się częścią aktualnie konstruowanego DRS-a dla całego dyskursu, np. dla (niepoprawnego) dyskursu (Kamp, 1981): (70) ∗ Jones1 does not own a Porsche2 . He1 likes it2 . (Jones1 nie posiada Porsche2 . On1 lubi go2 .)
147
Maciej Piasecki
gdzie Porsche jest użyte jako nazwa marki, a nie konkretnego samochodu, otrzymujemy DRS na rysunku 10 1)
x
2)
x z
Jones(x) gen(x,male) y ¬
Porsche(y) gen(y,-hum) owns(x,y)
[S( NP(gen=male PRON(he)) VP( V(whistles) NP(gen=hum PRON(it)) ) )]
Jones(x) gen(x,male) y CR.PRO
¬
? Porsche(y) gen(y,-hum) owns(x,y)
z=x gen(z,male) [S( z VP( V(whistles) NP(gen=-hum PRON(it)) ) )]
Rysunek 10. Interpretacja negacji zdaniowej przy pomocy złożonego warunku
DRS w punkcie 1) na rysunku 10 powstaje w wyniku zadziałania dwóch reguł: kolejno CR.NEG i CR.PN. Nie przytaczając ich szczegółowo, przeanalizujmy jedynie ich skutki. Jako pierwsza uaktywnia się CR.NEG (‘reagująca’ na przysłówek not w VP). Tworzy złożony warunek składający się z zagnieżdżonego DRS-a K ′ poprzedzonego operatorem ¬. Następnie usuwa does not i przenosi do K ′ resztę struktury zdania jako warunek do dalszej redukcji. Dalsza redukcja pierwszego zdania z (70) odbywa się już w kontekście zagnieżdżonego K ′ . Reguła CR.PN dotycząca nazwy własnej (ang. proper name = PN) tworzy nowy znacznik (PN to specyficzne NP), ale umieszcza nowy znacznik w uniwersum głównego DRS (zawierający pośrednio K ′ i nie będący częścią żadnego warunku złożonego). Warunek dodawany przez CR.PN dla nowego znacznika jest również umieszczany w głównym DRS-ie. Takie nietypowe działanie CR.PN (jedyna reguła dodająca znacznik poza bieżącym DRS-em) spowodowane jest faktem pozostawania przez PN poza jakimikolwiek relacjami zasięgu względem innych elementów zdania czy nawet dyskursu. Nazwa zawsze ma najszerszy zasięg. Rozwiązanie polegające na ‘wyciąganiu’ znacznika dla PN do głównego DRS-a ma charakter techniczny i zostało wprowadzone jedynie jako symulacja niezależnego od kontekstu powiązania pomiędzy nazwą a referentem. W toku dalszego rozwoju DRT został wprowadzony mechanizm zakotwiczenia i interpretacji nazw (a także referencyjnych i nawet anaforycznych FN) jako presupozycji. Z braku miejsca, zagadnienie metod reprezentacji referencyjnych FN w DRT nie będzie bardziej szczegółowo omawiane (dalsze informacje można znaleźć w np. (Cooper, 1994; Piasecki, 2003)). Drugie zdanie dyskursu (70) analizowane jest w kontekście ‘pozostawionym’ przez pierwsze. Reguła CR.PRON zastosowana dla he odnajduje znacznik x jako możliwy poprzednik (zgadza się rodzaj male oraz z i x są w tym samym uniwersum). Powstaje jednak problem z ponowną aplikacją CR.PRO, tym razem do it. Pod względem rodzaju – kandydatem jest y. Znacznik
148
Selektywne wprowadzenie do semantyki formalnej
y jest jednak niedostępny. Nieformalnie, dostępne są znaczniki z bieżącego DRS oraz ze wszystkich zawierających bieżący DRS. W przypadku złożonego warunku w postaci implikacji na DRS-ach, dla znaczników z konkluzji, dodatkowo, są dostępne również znaczniki z DRS-a przesłanki22 . Warunek złożony zbudowany przez zastosowanie operatora ‘¬’ jest spełniony wtedy i tylko wtedy, gdy nie istnieje takie przypisanie obiektów do znaczników we złożonym warunku, które spełnia wszystkie warunki składowe K ′ (zagnieżdżonego DRS-a). Uniwersalna interpretacja nieokreślonych NP w oślich zdaniach została zapewniona DRT za pomocą odpowiedniej definicji operatora implikacji działającego na DRS-ach, np. dla zadania (47) otrzymujemy DRS na rysunku 11 x Pedro(x) gen(x, male) y Pedro(x) gen(x,male) donkey(y) gen(y,-hum) own(x,y)
zv ⇒
like(z,v) z=x gen(z, male) v=y gen(v,-hum)
Rysunek 11. Interpretacja klasycznego warunkowego zdania oślego
Reguła CR.COND, obsługująca konstrukcję warunkową, tworzy warunek złożony, składający się z dwóch DRS-ów połączonych operatorem implikacji i umieszcza drzewa zdań składowych konstrukcji warunkowej odpowiednio: w DRS-ach stanowiących przesłankę i konkluzję implikacji. Jak już to było wspomniane, znaczniki z DRS-a przesłanki są dostępne dla znaczników z konkluzji (na dowolnym poziomie zagłębienia). U podstaw znaczenia warunku złożonego implikacji legła obserwacja, iż zdanie typu (47) znaczy, że dla dowolnych obiektów spełniających przesłankę musi być również spełniona konkluzja. Warunek złożony implikacji jest spełniony wtedy i tylko wtedy, gdy dla każdego podstawienia, które spełnia warunki przesłanki (określonego na uniwersum przesłanki), istnieje rozszerzające je podstawienie (tzn. zachowujące wszystkie wartości już przypisane), które spełnia konkluzję. Konkluzja jest interpretowana w kontekście stwarzanym przez przesłankę. Aspekt ‘uniwersalności’ w interpretacji operatora ’⇒’ sprawia, że za jego pomocą można również interpretować zdania typu (48), zawierające ‘jawną’ kwantyfikację uniwersalną (determinator every). W późniejszych rozwinięciach DRT (prezentowanych również w (Kamp, 1981)) na potrzeby interpretacji kwantyfikacji wprowadzono dodatkowy operator tworzący złożony warunek, którego interpretacja oparta została na pojęciu kwantyfikatora uogólnionego (omawianym wcześniej). W tym przypadku kwantyfikator jest interpretowany jako relacja na zbiorach wartościowań: zbiorze warto-
Maciej Piasecki
149
ściowań spełniających restrykcję oraz zbiorze wartościowań spełniających restrykcję i ciało. Pojedynczy DRS K może być postrzegany jako swoisty model ‘częściowy’ informacji komunikowanej w pewnym dyskursie (Fracas, 1994). K jest prawdziwy wtedy i tylko wtedy, gdy K może być osadzony (ang. embedded) w modelu ‘całkowitym’ (reprezentującym całą rzeczywistość) w taki sposób, że znaczniki UK są odwzorowywane na obiekty z dziedziny interpretacji modelu i w efekcie tego odwzorowania warunki z ConK są spełnione. Pojęcie osadzania, technicznie tożsame z częściowym wartościowaniem, podkreśla autonomiczność wyrażeń DRS jako narzędzia opisu znaczenia dyskursu. Znaczenie każdego ze zdań dyskursu w DRT nie sprowadza się jedynie do warunków prawdziwości DRS-a otrzymywanego w wyniku interpretacji tego zdania. Istotną częścią znaczenia są możliwości otwierane przez dany DRS (kontekst) dla interpretacji kolejnych zdań dyskursu. Warunki określające dopuszczalne powiązania pomiędzy znacznikami (modelujące własności anafory) są zdefiniowane w DRT w oparciu o strukturę DRS-ów. Widać to szczególnie w regule interpretacji zaimków osobowych CR.PRO, która bezpośrednio odwołuje się do identyfikacji w wejściowym DRS-ie znaczników reprezentujących potencjalnych poprzedników anaforycznych. Proces identyfikacji wyrażony na poziomie języka DRS – języka reprezentacji znaczenia – jest integralną częścią interpretacji znaczenia zaimka osobowego (anaforycznego). Podejście to jest zasadniczo odmienne od gramatyki Montague, gdzie pośrednia reprezentacja znaczenia w postaci wyrażeń logiki intensjonalnej była tylko narzędziem prezentacji i mogła być pominięta poprzez interpretację bezpośrednio w postaci relacji w modelu. W ‘standardowym’ DRT (w kształcie (Kamp, 1981)) pominięcie to nie jest możliwe. Przegląd podstawowych idei DRT zakończymy formalną definicją prawdziwości DRS-a w modelu. Z racji ograniczonych rozmiarów pracy pominiemy formalną definicję składni wyrażeń języka DRS, poprzestając na jej ogólnym zarysie wyłaniającym się z analizowanych przykładów. Pojęcie prawdziwości DRS-a jest określone tylko dla właściwych DRS-ów, tzn. takich, które nie zawierają warunków aktywujących dowolną z reguł konstrukcyjnych. Poprzez Ref oznaczymy nieskończony zbiór wszystkich możliwych znaczników (uniwersum dowolnego DRS-a U ⊆ Ref ). Dodatkowo poprzez Pred oznaczymy zbiór wszystkich symboli predykatywnych występujących w prostych warunkach prostych (por. str. 26). Modelem dla języka DRS jest para hUv , Ii, gdzie Uv to dziedzina interpretacji (nieskończony zbiór obiektów) zaś I to funkcja interpretująca (w skrócie interpretacja), która każdemu symbolowi predykatywnemu z P red przypisuje element ℘(Uv n ), odpowiednio do liczby argumentów symbolu. (71) Semantyka języka DRS — Niech M będzie dowolnym modelem DRS, K = hUK , ConK i – właściwym DRS-em, γ – dowolnym warunkiem (prostym lub złożonym) i f – funkcją osadzającą K w modelu, gdzie przez funkcję osadzającą rozu-
150
Selektywne wprowadzenie do semantyki formalnej
miemy: funkcję częściową z Ref w U v taką, że f jest określona dla każdego x ∈ UK . — Niech zapis f [UK ]g, gdzie g to funkcja osadzająca, oznacza, że g różni się od f co najwyżej wartościami przypisywanymi znacznikom ze zbioru UK , ponieważ dopuszczalne jest aby f była nieokreślona dla znaczników z UK , możemy powiedzieć, że g rozszerza f ◦ UK . — f spełnia DRS K w modelu M, co zapisujemy |=M,f K, w.t.w., gdy dla każdego coni ∈ ConK mamy |=M,f coni . — Spełnianie warunków z ConK przez f w modelu M zdefiniowane zostało następująco: a) |=M,f xi = xj w.t.w., gdy f (xi ) = f (xj ), b) |=M,f P (x1 , . . . , xn ) w.t.w., gdy hf (x1 ), . . . , f (xn )i ∈ I(P ), c) |=M,f ¬K1 w.t.w., gdy nie istnieje g takie, że f [UK1 ]g i |=M,g K1 , d) |=M,f K1 ‘ ⇒′ K2 w.t.w., gdy dla każdego g takiego, że f [UK1 ]g oraz |=M,g K1 , istnieje h takie, że g[UK2 ]h oraz |=M,h K2 , e) |=M,f K1 ∨ K2 w.t.w., gdy istnieje g takie, że f [UK1 ]g oraz |=M,g K1 lub istnieje h takie, że f [UK2 ]h. (72) Prawdziwość DRS — Niech K będzie właściwym DRS-em. — K jest prawdziwy w modelu M w.t.w., gdy istnieje funkcja osadzająca f taka, że |=M,f K.
Dla wyrażeń języka DRS można z łatwością zbudować jednoznaczną funkcję translacji do wyrażeń LP (np. Groenendijk Stokhof (1991)). Efekt importu egzystencjalnego znaczników można osiągnąć poprzez odpowiednie zastosowanie nawiasów i postawienie przed nawiasem odpowiedniej liczby kwantyfikatorów egzystencjalnych. Pod względem siły ekspresji, język DRS jest równoważny LP. Atrakcyjność DRT leży jednak nie w sile ekspresji języka DRS, a w nowym, dynamicznym postrzeganiu znaczenia języka naturalnego. Znaczenie zdania, dyskursu jest utożsamiane ze zmianą wprowadzaną w kontekście interpretacji. Elegancką formę zyskała dynamiczna koncepcja znaczenia w konstrukcji Dynamic Predicate Logic (DPL – pol. dynamiczna logika predykatów), zaproponowanej przez Groenendijka i Stokhofa (1991). Groenendijk i Stokhof, szukając możliwości eliminacji pośrednich wyrażeń języka reprezentacji znaczenia w postaci DRS-ów (przy zachowaniu wszystkich pozytywnych własności DRT, przynajmniej w odniesieniu do anafory), zaproponowali logikę, będącą modyfikacją logiki predykatów pierwszego rzędu, w której jednak znaczenie zostało określone w sposób „dynamiczny” jako relacja na wartościowaniach. Pod względem metody konstrukcji języków reprezentacji i nazwy, to DPL dała początek całemu nurtowi semantyki dynamicznej w obszarze logiki i SF. Interpretacją każdego wyrażenia DPL jest zbiór par wartościowań: wejściowego i wyjściowego. Charakterystycznymi elementami DPL są: definicja kwantyfikatora egzystencjalnego, jako operatora zmieniającego wartość
Maciej Piasecki
151
przypisaną do określonej zmiennej, oraz definicja koniunkcji, jako operatora sekwencji, łączącego dwie formuły (Groenendijk Stokhof, 1991). (73) Niech M = hU, Ii to model, g, h, k to wartościowania zmiennych – całkowite, określone dla całego zbioru zmiennych, wtedy: [[∃xφ]]M := {hg, hi : ∃k.g[x]k&hk, hi ∈ kφkM }, [[ϕ ∧ φ]]M := {hg, hi : ∃k.hg, ki ∈ [[ϕ]]M & hk, hi ∈ [[φ]]M }. W myśl powyższych dwóch definicji, zmienna pod kwantyfikatorem zachowuje się jak znacznik w DRS-ie. Jej wartość ustalona przez kwantyfikator ‘propaguje się’ na inne formuły dołączane poprzez operator koniunkcji. Klasyczne pojęcie wiązania zmiennej staje się tu nieadekwatne: zmienna zachowuje swoją wartość, nadaną jej przez kwantyfikator, aż do momentu wystąpienia w formule kolejnego kwantyfikatora działającego na tej samej zmiennej. Predykaty w DPL przybierają postać filtrów, które nie zmieniając samych wartościowań, pozostawiają jedynie te, które spełniają predykat: (74) [[P (t1 , . . . , tn )]]M := {hg, hi : g = h ∧ h[[t1 ]]M,g , . . . , [[tn ]]M,g i ∈ I(P )} W oparciu o rozwiązania wzorowane na DPL i rachunek lambda powstało wiele kompozycyjnych wersji DRT. Przegląd wybranych z nich można znaleźć, np. w np. (Eijck Kamp, 1997) oraz (Piasecki, 2003). Powiązania anaforyczne reprezentowane są poprzez identyczną nazwę znacznika. Predykat identyczności ‘=’ nie jest używany. Kluczowymi problemami są: odpowiednie postępowanie z nazwami znaczników dyskursu podczas łączenia częściowych DRT tzw. ang. merging (aby uniknąć ‘fałszywych’ powiązań rozwinięto techniki ‘automatycznej’ zmiany nazw znaczników) oraz (trudny problem) skonstruowanie mechanizmu selekcji nazwy znacznika na poziomie interpretacji języka reprezentacji (w DRT przeszukiwana jest reprezentacja semantyczna, co odbywa się na poziomie meta-języka, czyli reguł DRT).
5. Semantyka leksykalna W SF ignorowanie poziomu znaczenia leksykalnego jest historycznie uwarunkowane pracami Montague. Dla Montague ważne były, przede wszystkim, typy logiczne symboli przypisywanych poszczególnym leksemom języka naturalnego. Przypisane typy determinowały zakres użycia, określały strukturę znaczenia. W ogromnej większości przypadków, znaczenie leksemu identyfikowane było wyłącznie z interpretacją w modelu symbolu przypisanego do tego leksemu. Konkretny kształt tej interpretacji, która w logice intensjonalnej może być różna w zależności od indeksu czasu i możliwego świata, był sprawą drugorzędną.
152
Selektywne wprowadzenie do semantyki formalnej
Stąd też, na bazie prac Montague, ugruntowała się tradycja przywiązywania mniejszej wagi do interpretacji znaczenia leksykalnego23 . Sytuacja ta stopniowo ulega zmianie. Dużo uwagi rozwojowi badań nad semantyką leksykalną w ramach SF poświęciła w swoich wykładach Partee (2003). Zgodnie z Partee (2003), można zidentyfikować trzy podstawowe sposoby uprawiania semantyki leksykalnej w ramach SF: — konstrukcja zbioru postulatów znaczeniowych ograniczających możliwe interpretacje poszczególnych symboli odpowiadających poszczególnym leksemom (mechanizm postulatu znaczeniowego był pierwotnie zaproponowany przez Carnapa), — budowa sieci semantycznej opisującej formalnie relacje znaczeniowe pomiędzy poszczególnymi leksemami (podejście zbliżone do poprzedniego w swojej idei), — oraz dekompozycja znaczenia leksemów poprzez przypisanie im wyrażeń w języku reprezentacji semantycznej opisujących znaczenie danego leksemu poprzez odwołanie się do ograniczonego zbioru ‘pierwotnych’ symboli o ustalonej (albo przynajmniej ‘uzgodnionej’) interpretacji. Już w gramatyce Montague, mimo ‘ignorowania’ problemu znaczenia leksykalnego, okazało się, że niektóre leksemy, ze względu na swoją ‘indywidualność’ wyłamują się z szeregu innych o identycznym typie reprezentacji, np. czasownik to be (pol. być). Konieczne stało się zastosowanie postulatów znaczeniowych, czyli szczególnych aksjomatów teorii semantycznej, aby ograniczyć możliwe interpretacje poszczególnych symboli. Ograniczenia wprowadzane przez postulaty mogą odnosić się do całych klas (lub inaczej kontekstów) użyć, np. typowe, nieintensjonalne użycia czasowników, jako relacji na obiektach, są otrzymywane w PTQ poprzez przekształcenie reprezentacji uzyskiwanej z reguły semantycznej. Przekształcenie to jest legitymizowane odpowiednim postulatem znaczeniowym. Postulaty znaczeniowe mogą również być wprowadzone w celu doprecyzowania znaczenia wyróżnionego leksemu np. wspomniany to be. W rozbudowanej wersji postulaty znaczeniowe mogą stać się podstawowym narzędziem definicyjnym w leksykonie semantycznym (np. Partee (2003)), ustalając relacje pomiędzy symbolami, wprowadzając precyzyjną definicję interpretacji symboli w postaci warunków koniecznych i wystarczających. Przekształcamy w ten sposób reguły leksykonu wraz z postulatami znaczeniowymi w rodzaj naiwnej teorii świata (w logicznym sensie) (Partee, 2003), tzn. teorii opisującej wszystkie poprawne modele świata. Jak już to było wspomniane, jako ograniczenie na możliwe interpretacje można wykorzystać również sieci semantyczne stosowane w sztucznej inteligencji i ostatnio burzliwie rozwijające się w Internecie tzw. semantic webs. 23 Żartobliwie mówiąc, inną przyczyną może być fakt, iż prace w tej dziedzinie wcześniej, czy później sprowadzają się do żmudnego opisywania tysięcy leksemów, pokonywania barier subiektywizmu metod ustalania znaczenia, pokonywania problemu niedookreśloności znaczenia wielu leksemów i własnej niewiary czy efekt przetrwa dostatecznie długo wobec niedoskonałości i ciągłego rozwoju języków reprezentacji.
Maciej Piasecki
153
Definiują one znaczenie leksemu poprzez opisywanie relacji znaczeniowych z innymi leksemami. Jako, że struktura relacji jest w intencji niezmienna pod dowolną poprawną interpretacją, wyznacza ona de facto zbiór postulatów znaczeniowych ograniczających możliwe interpretacje poszczególnych symboli. Podejście dekompozycyjne, w którym interpretacja leksemu nie stanowi ‘najniższego’ poziomu teorii semantycznej, w którym leksemom są przypisywane złożone reprezentacje semantyczne odwołujące się do ustalonego zbioru ‘symboli pierwotnych’ o ustalonej interpretacji, zawsze jest narażone na problematyczne odwołanie się do idealistycznego zbioru ‘atomów’ znaczeniowych. Jednak w wersji uprawianej najczęściej w SF (por. Cooper (1994)) ma ono zdrowo-rozsądkowy charakter techniki wywodzącej się z przetwarzania języka naturalnego. W tej wersji zbiór ‘symboli pierwotnych’ jest ustalany zgodnie z ograniczonym kontekstem użycia, ograniczonego podzbioru języka naturalnego poddawanego opisowi na potrzeby danego systemu przetwarzającego język naturalny. W tym kontekście, celem jest nie tyle poszukiwanie zbioru uniwersalnych ‘atomów znaczeniowych’, co skuteczności w stosowaniu i względna prostota uzyskanego opisu formalnego.
6. Podsumowanie Mimo poświęcenia kilkudziesięciu stron udało się w niniejszej pracy jedynie dotknąć kilku wybranych zagadnień z rozległej i zróżnicowanej dziedziny lingwistyki informatycznej nazywanej semantyką formalną. Wybór omówionych zagadnień, z konieczności mocno ograniczony (ale inspirowany przytaczanymi podręcznikami), podyktowany był przyjętym założeniem wstępnym dążenia do dostarczenia pomocnych wyjaśnień, a nie tylko odnotowania obszernego zbioru haseł natury bibliograficznej. Jako punkt wyjścia rozważań przyjęta została definicja prawdy Tarskiego i jej zastosowanie do konstrukcji formalnego opisu znaczenia zdań języka naturalnego, prowadzące w efekcie do przypisania im warunków prawdziwości opisu wyrażanego przez nie. Świadomie pominięto tu niektóre podejścia SF odwołujące się w definicji znaczenia do użycia języka naturalnego w akcie komunikacji. Następnie, poświęcono sporo uwagi fundamentalnym pracom Montague dotyczącym systematycznej budowy teorii semantyki języka angielskiego: rozszerzającym, poprzez mechanizm typów logicznych, opis znaczenia z poziomu zdań na dowolne wyrażenie języka naturalnego oraz ugruntowującym w SF stosowanie zasady kompozycyjności. Pozostając w tradycji Montague, omówiono ograniczenia gramatyki Montague w opisie znaczenia wielozdaniowych wypowiedzi oraz próbę ich przezwyciężenia w postaci bardzo wpływowej teorii DRT. Krótko scharakteryzowano nurt semantyki dynamicznej, który wyłonił się na bazie DRT. Wskazano na obszary rozwoju SF związane z wyjaśnianiem konkretnych zjawisk znaczeniowych, takich jak kwantyfikacja, czas czy też znaczenie leksykalne. Omówiono problem niedospecyfikowanej reprezentacji, jako przykład poszukiwań
154
Selektywne wprowadzenie do semantyki formalnej
w dziedzinie ‘techniki’ uprawiania SF. Niestety pominięto jednocześnie szereg innych interesujących nurtów SF pozostających poza omówioną tu linią rozwojową bazującą w jakiś sposób na pracach Montague. Nie pozostaje nic innego jak odesłać czytelnika do cytowanych prac, szczególnie do tych o charakterze podręcznikowym. W (świadomym) doborze ograniczonego zestawu cytowanych prac odzwierciedliła się idea ich elektronicznej dostępności. Warto tu jeszcze raz wskazać na cenne źródło, jakim jest Internet i serwisy typu CiteSeer (odsyłacz 1 na stronie 113).
Literatura Barwise, J., J. Perry (1983): Situations and Attitudes. Cambridge, MIT Press. Blackburn, P., J. Bos (1999): Representation and Inference for Natural Language. Computational Linguistics at the University of the Saarland, [nie publikowany materiał (stan XI 1999)], [@:] http://www.iccs.informatics.ed.ac.uk/˜jbos/comsem/intro.html. Bolc, L., A. Mykowiecka (1992): Podstawy przetwarzania języka naturalnego – wybrane metody formalnego zapisu składni. Warszawa, Akademicka Oficyna Wydawnicza RM. Bunt, H. (2003): Underspecification in Semantic Representations: Which Technique for What Purpose? [W:] Proceedings of the Fifth International Workshop on Computational Semantics. H. Bunt, I. Sluis, R. Morante (red.), Tilburg University Computational Linguistics and AI Group, [@:] http://let.uvt.nl/people/bunt/DOCS/bunt-iwcs5.ps. Carpenter, B. (1997): Type-Logical Semantics. Cambridge, MIT Press. Cooper, R (1994): FraCaS – A Framework for Computational Semantics. FraCaS Consortium, University of Edinburgh. [@:] http://citeseer.nj.nec.com/cooper94describing.html. Davidson, D. (1967a): The Logical Form of Action Sentences. [W:] The Logic of Decisions and Action. W. N. Rescher (red.), University of Pitsburg Press, 81–120. Davidson, D. (1967b): Truth and Meaning. Synthese 17, 304–323. Devlin, K. (1999): Żegnaj, Kartezjuszu. Warszawa, Prószyński i S-ka. Does, J van der., J van. Eijck (1996): Basic Quantifier Theory. [W:] Quantifiers, Logic and Language. J. Benthem A. Meulen (red.), CSLI Publications, [@:] ftp://ftp.cwi.nl/pub/jve/papers/bqt.ps.Z. Eijck, J van., H. Kamp (1997): Representing Discourse in Context. [W:] Handbook of Logic and Language. J. Benthem A. Meulen (red.), Elsvier, [@:] ftp://ftp.cwi.nl/pub/jve/reports/rdcrep.ps.Z. Groenendijk, J., M. Stokhof (1991): Dynamic Predicate Logic. Linguistics and Philosophy 14, 39–100, [@:] http://staff.science.uva.nl/˜stokhof/papers/dpl.pdf. Heim, I.R. (1982): The Semantics of Definite and Indefinite Noun Phrases. University of Massachusetts, [praca doktorska]. Hess, M. (1989): Reference and Quantification in Discourse, University of Zurich, [nie publikowana dysertacja]. Janssen, T.M.V. (1997): Compositionality. [W:] Handbook of Logic and Language. J. Benthem A. Meulen (red.), Elsevier. Kamp, H. (1981): A Theory of Truth and Semantic Representation. [W:] Formal Methods in the Study of Language. J. Groenendijk (red.), Amsterdam, Mathematisch Centrum. Kamp, H., U. Reyle (1993): From Discourse To Logic, Kluwer.
Maciej Piasecki
155
Larson, R., G. Segal (1995): Knowledge of Meaning. Cambridge, MIT Press. Lindstrom, ¨ P. (1996): First-order Predicate Logic with Generalized Quantifiers. Theoria 32, 186–195. Mostowski (1957): On Generalization of Quantifiers. Fundamenta Mathematicae 44, 12–36. Montague, R. (1970a): English as a Formal Language. [W:] Linguaggi nella Societá e nella Tecnica. B. Visentini (red.), Mediolan, Edizioni di Comunitá. Montague, R. (1970b): Universal Grammar. [W:] Formal Philosophy, Yale University Press, 222–246. Montague, R. (1973): The Proper Treatment of Quantification in Ordinary English. [W:] Approaches to Natural Language. J. Hintika, J. Moravcsik, P. Suppes (red.), Proceedings of the 1970 Stanford Workshop on Grammar and Semantics, Dordrecht, D. Reidel Publishing Company. Partee, B. (2003): Formal Semantics. University of Massachusetts. [@:] http://www-unix.oit.umass.edu/˜partee/RGGU 2003/RGGU03 formal semantics.htm. Piasecki, M. (2003): Język modelowania znaczenia polskiej frazy nominalnej. Politechnika Wrocławska, Wydział Informatyki i Zarządzania [niepublikowana praca doktorska]. [@:] http://www.ci.pwr.wroc.pl/˜piasecki. Polański, K. (red.) (1993): Encyklopedia językoznawstwa ogólnego. Wrocław, Zakład Narodowy im. Ossolińskich. Prior, A. (1967): Past, Present and Future. Oxford, Oxford University Press. Reyle, U. (1993): Dealing with Ambiguities by Underspecification: Construction, Representation and Deduction. Journal of Semantics 10(2), 123–179. Verkuyl, H. J. (2002): Formal Semantics Course. UiL OTS, University of Utrecht [niepublikowane materiały wykładowe]. [@:] http://www.let.uu.nl/˜Henk.Verkuyl/personal/course/stpb.pdf. Tokarz, M. (1993): Elementy pragmatyki logicznej. Warszawa, PWN. Topolińska, Z. (1984): Składnia grupy imiennej [W:] Gramatyka współczesnego języka polskiego. t. I, Składnia, Warszawa. Tarski, A. (1944): The Semantic Concept of Truth. Philosophy and Phenomenological Research 4, 341–375.
Przemysław Tomalski
Cognitive neuroscience: nic nie jest już proste. Kilka uwag o badaniach interakcji ciała i umysłu
W niniejszym tekście chciałbym przedstawić własne wątpliwości związane z rozwojem dziedziny cognitive neuroscience – neurobiologii procesów poznawczych. Jest to dyscyplina nowa – powstała na początku lat osiemdziesiątych jako hybryda badań nad poznaniem (cognitive science) oraz badań nad układem nerwowym (neuroscience). Neurobiologia procesów poznawczych miała przynieść koherentną wizję mózgu i umysłu, która zrewolucjonizowałaby nasze myślenie o istotach ludzkich. Tak się jednak nie stało. Obecnie można zaobserwować proces odrywania się badań z zakresu cognitive neuroscience od całego kontekstu dociekań nad naturą człowieka. Nowa dziedzina spowodowała wprawdzie znaczący przyrost wiedzy, ale wiele wniosków wyciągniętych z badań szczegółowych jest wzajemnie sprzecznych, zaś proponowane rozwiązania ogólne są w porównaniu z tymi wnioskami znacznie uproszczone. W niniejszym artykule próbuję przedstawić kilka ważnych odkryć ostatnich lat będących ogromnym sukcesem, a zarazem przysłowiowym „gwoździem do trumny” podejścia zorientowanego wyłącznie kognitywnie. Na skutek pracy ogromnej rzeszy badaczy obraz funkcjonowania ciała i umysłu zagęszcza się i komplikuje. W rezultacie – nic nie jest już proste, jak to dawniej przedstawiano. Reakcji na rosnącą złożoność zagadnienia dostrzec można kilka. Polegają one między innymi na tym skrajniejszej redukcji do pojedynczego mechanizmu, czy zjawiska, im bardziej skomplikowane są związki ciała i umysłu oraz sposób funkcjonowania ich obu. Podejmowane są również próby tworzenia nowego, zintegrowanego języka opisu zjawisk mentalnych i biologicznych (Wilber, 2002). Niestety, jak na razie próby takie nie przyniosły zadowalających wyników i nie zyskały powszechnej aprobaty w kręgach specjalistów. Z tego powodu wciąż atrakcyjne jest podejście systemowe, do którego nawiązuję w końcowej części artykułu. Podejście to ujmuje każdy organizm żywy jako układ złożony, w którym można wyróżnić kilka poziomów funkcjonowania. Języki opisu takie jak fizyka, chemia, biologia, psychologia i filozofia odnoszą się do poszczególnych poziomów tego organizmu. Należy przyznać, że choć perspektywa wielopoziomowa nie rozwiązuje wszystkich
158
Cognitive neuroscience: nic nie jest już proste
problemów zorganizowanych wokół problemu psychofizycznego, to pozwala odnaleźć wspólny mianownik dla różnych dziedzin wiedzy, a przez to rozwijać badania przy pomocy niezwykle zróżnicowanych metod. W istocie chciałbym swoją wypowiedzią przywołać nową realizację starego, dziewiętnastowiecznego konceptu: człowiek może być rozpatrywany jako całość nie będąca jedynie sumą części (Ługowski, 1999). Jest czymś więcej niż swym ciałem, czymś więcej niż mózgiem, czymś więcej niż samą psychiką, czymś więcej niż procesami mentalnymi.
1. Cognitive neuroscience – twór różnokształtny Koniec XX wieku to czas rozkwitu wielu dziedzin „z pogranicza” klasycznej biologii, medycyny, psychologii, filozofii, socjologii, antropologii i wielu innych. Mnożą się obszary badań o skomplikowanych, wręcz dziwacznych nazwach – np. socjobiologia, genetyka zachowania, neurobiologia interpersonalna (Siegel, 2001), psychoneuroimmunologia (Stokłosa, 2002), neurolingwistyka, neurofilozofia i tym podobne. Osiągnięcia w tych dziedzinach są z gruntu interdyscyplinarne. Przeto trudno, aby zostały szybko zasymilowane przez społeczność uczonych, pracujących w dziedzinach o sztywnym i od dawna ustalonym paradygmacie (jak psychologia, czy biologia molekularna). W tym względzie cognitive neuroscience wykazuje podobne cechy. Trudno jednoznacznie odpowiedzieć na pytanie, czym jest neurobiologia kognitywna. Według Johna Searle’a „nie ma jednomyślności co do fundamentalnych zasad badawczych” (1999, str. 259) – prościej zapewne byłoby wyliczyć, czym cognitive neuroscience się nie zajmuje. Używając ekologicznej metafory, można rzec, że ta nowa nisza badawcza została zapełniona przez przedstawicieli różnorodnych podejść, tak jak zwierzęta całkowicie odmiennych i odległych ewolucyjnie gatunków zajmują niszę przynależną drapieżnikom, czy roślinożercom. Mamy więc zwolenników konekcjonizmu lub obliczeniowych teorii umysłu, psychologów eksperymentalnych, badających m.in. współzależne procesy emocjonalne i poznawcze, po neurobiologów studiujących aktywność struktur mózgu w czasie zachodzenia procesów poznawczych. Omawiając neurobiologię procesów poznawczych należy najpierw wspomnieć podstawy teoretyczne „dziedziny-matki” – kognitywistyki (cognitive science). W jej obrębie wyróżnia się dwa oddzielne podejścia: obliczeniową (komputacyjną) teorię umysłu (w skrócie OTU) oraz nurt konekcjonistyczny (Fodor, 2000). Teorie obliczeniowe zrodziły się z postulatów A. Turinga oraz A. Newella, H. Simona i M. Minsky’ego dotyczących sztucznej inteligencji oraz prac N. Chomsky’ego z zakresu językoznawstwa generatywnego. Na teorię obliczeniową składa się kilka założeń (Fodor, 2000): (i) myśli posiadają przyczynową rolę dzięki ich formie logicznej, (ii) forma logiczna myśli opiera się na formie składniowej odpowiadającej reprezentacji umysłowej,
Przemysław Tomalski
159
(iii) procesy mentalne to obliczenia, czyli operacje definiowane na składni reprezentacji umysłowej, przy czym zachowują one prawdę w nieskończenie wielu przypadkach. Konekcjonizm można rozpatrywać jako nowoczesną formę asocjacjonizmu (Fodor, 2000). Oto jego główne założenia (za: Fuster, 2003): wiedza jest zorganizowana w postaci jednostek, czy węzłów, pomiędzy którymi znajdują się połączenia. Jednostki te tworzą sieci, które zorganizowane są w warstwy (layers), pomiędzy jednostkami może następować sprzężenie zwrotne. Sieci mogą integrować poszczególne informacje lub przetwarzać je w sposób rozproszony. Ważne jest założenie o potencjalnej zdolności sieci do uczenia się, które jest określone (a czasem nie) przez specyficzny algorytm. Chociaż konekcjonizm znalazł zastosowanie w zyskujących powszechną aprobatę modelach działania sieci neuronów, o tyle na gruncie teorii umysłu został wyparty przez ruch tzw. Nowej Syntezy. Klasyczny (choć popularyzatorski) wykład Nowej Syntezy daje Steven Pinker w książce o prowokującym tytule Jak działa umysł (2002). Mianowicie, działanie umysłu oparte jest na obliczeniach, dokonujących się w odrębnych modułach, na które cały (lub prawie cały) umysł jest podzielony. Nowy nurt nie zyskałby takiej dużej popularności, gdyby nie zintegrował innego modnego trendu – psychologii ewolucyjnej. Zatem, zdaniem Pinkera i teoretyków Nowej Syntezy, umysł jest wynikiem procesu adaptacji zachodzącego w czasie ewolucji hominidów (człowiekowatych), bowiem rozwój umysłu miał zwiększać dostosowanie (fitness) praludzi do środowiska i sprawiać, że będą oni faworyzowani przez dobór naturalny. Za dodatkowy argument na rzecz takiego właśnie pochodzenia umysłu uznaje się tezę Chomsky’ego, że struktury umożliwiające nabywanie języka naturalnego są wrodzone. Założenia Nowej Syntezy poddał gruntownej krytyce Jerry Fodor (2000) w książce The mind doesn’t work that way [Umysł tak nie działa] – będącej odpowiedzią na optymistyczny manifest Pinkera. Nie jest celem niniejszego tekstu przywoływanie liczącej ponad sto stron krytyki. Warto natomiast zacytować wielce znaczące słowa Fodora z przedmowy1 do tej książki: Przez lata napisałem wiele książek ku chwale Obliczeniowej Teorii Umysłu (OTU). Jest to, w mojej ocenie, najlepsza teoria poznania, którą posiadamy[. . . ] Jednak nie przyszło mi na myśl, że ktokolwiek może myśleć, że jest to duża część prawdy. [. . . ] Nie przypuszczam, żeby OTU obejmowało więcej, niż tylko fragment psychologii poznawczej, zaś te najbardziej interesujące – i z pewnością najtrudniejsze – problemy dotyczące myślenia nie zostaną zbytnio rozświetlone przez jakąkolwiek teorię obliczeniową, o której możemy obecnie pomyśleć.
1
Zatytułowanej symptomatycznie Still snowing – Wciąż śnieży.
160
Cognitive neuroscience: nic nie jest już proste
2. Modele sieci neuronalnych Próby szczegółowego opisu działania nie umysłu, lecz mózgu, przynoszą lepsze rezultaty. Ruch Nowej Syntezy nie zyskał jeszcze zbyt wielu zwolenników wśród neurobiologów, a przeniesienie jego twierdzeń na grunt neuroscience będzie bardzo trudne. O wiele płodniejsza okazała się próba nałożenia modeli konekcjonistycznych na materiał empiryczny dotyczący pracy mózgu. Rozwijany obecnie paradygmat sieci neuronalnych kory mózgowej (za: Fuster, 2003) jest pochodną podejścia konekcjonistycznego. Dotyczy on pracy wyłącznie kory mózgowej, a nie całego mózgowia i jego zastosowanie jest ograniczone do wybranych funkcji poznawczych, takich jak percepcja, mechanizmy uwagi, mowy oraz pamięci. Jakie są główne założenia paradygmatu sieci neuronalnych kory? Poniżej przedstawiam model Fustera (2003), starając się zachować oryginalną terminologię. W modelu tym zakłada się, że wiedza reprezentowana jest przez węzły sieci neuronalnych i zachodzące między sieciami relacje. Taka dynamiczna struktura oparta na układzie sieci nazywana jest kognitem (cognit). Każdy kognit posiada swoją specyficzną lokalizację, w przeciwieństwie do funkcji umysłowych, które zdefiniowanej lokalizacji nie mają. Problem związku struktur mózgu i funkcji umysłowych Fuster rozwiązuje określając funkcje jako procesy przetwarzania substratów reprezentacyjnych (są więc zdelokalizowane), którymi są poszczególne kognity (umiejscowione w korze mózgowej). W zakresie funkcjonowania kory autor wyróżnia trzy rodzaje obszarów. Pierwotne obszary (najniższy poziom przetwarzania) związane są z jedną modalnością zmysłową (np. część płata potylicznego związana z przetwarzaniem obrazu, a część płata skroniowego – stymulacji dźwiękowej) lub odpowiedzialne za ruch. Obszary asocjacyjne (pośrednie piętro przetwarzania) związane również z jedną modalnością (unimodal areas). Na najwyższym piętrze przetwarzania znajdują się obszary związane z wieloma modalnościami (transmodal areas – np. zakręt kątowy na granicy płatów skroniowego, ciemieniowego i potylicznego oraz płaty czołowe). W jaki sposób zorganizowane są sieci w obrębie kory? Przede wszystkim wyróżnia się hierarchicznie zorganizowane sieci percepcyjne i wykonawcze oraz heterarchiczne sieci kory asocjacyjnej. W sieciach percepcyjno – ruchowych reprezentacja występuje wyłącznie na jednym poziomie, zaś reprezentacje w korze asocjacyjnej (np. wspomnienia) występują na dwóch lub więcej poziomach, stąd ich heterarchia. Podsumowując, model sieciowy w ujęciu Fustera zakłada istnienie powiązanych ze sobą sieci neuronalnych, które reprezentują w korze mózgowej jednostki wiedzy. Sieci te występują na różnych poziomach hierarchii kory i są aktywowane oraz modyfikowane w procesach przetwarzania informacji. Wśród głównych procesów przetwarzania Fuster wymienia pięć funkcji kory mózgowej – pamięć, uwaga, percepcja, mowa i inteligencja.
Przemysław Tomalski
161
3. Problemy po stronie biologicznej Powyższy model Joaquina Fustera został przytoczony jako exemplum współczesnego rozumienia funkcjonowania mózgu. Nie jest moim celem wskazywać wszystkich pominiętych w nim – a bardzo istotne dla współczesnej psychologii i neurobiologii – zagadnień2. Chciałbym natomiast w dalszej części artykułu dokonać subiektywnego przeglądu wyników badań empirycznych, które przysparzają kłopotu kognitywistom. Problemy te pokazują ogrom naszej niewiedzy, a przede wszystkim dotkliwy brak konceptu, który stanowiłby paradygmat dla zunifikowanej nauki o mózgu i umyśle. Wpierw o problemach „po stronie” biologicznej, a w części końcowej – psychologicznej. Od początku istnienia nauki o przyrodzie ożywionej jej badaczy nurtuje jedno podstawowe pytanie: czym w istocie jest życie? Wydawać by się mogło, że przywoływanie tego pytania dzisiaj jest zgoła niestosowne, że choć odpowiedzi jeszcze nie znamy, to jesteśmy blisko jej sformułowania. Oto, dokonujący się na naszych oczach błyskawiczny postęp w biologii molekularnej pozwala odkrywać coraz to nowsze detale funkcjonowania komórek. Od czasu sformułowania komórkowej teorii budowy organizmów żywych wiele dowiedziano się na temat funkcjonowania tychże jako niezwykle złożonych układów. Kierując się sugestią Gregory Batesona (1996) można określić organizm żywy jako „hierarchiczny układ systemów niższych rzędów”. Cząsteczki zorganizowane są w struktury subkomórkowe, te zaś tworzą komórki. Z komórek formują się tkanki budujące z kolei bardziej skomplikowane od nich narządy. Te zaś tworzą funkcjonalne całości – mają określone funkcje fizjologiczne. Wszystkie układy i pomocnicze narządy, połączone są skomplikowaną siecią powiązań hormonalnych, nerwowych, itp. oraz tworzą żywy organizm. Powyższy opis czytelnik spotka w niejednym klasycznym podręczniku fizjologii (np. Ewy, 1985). Przedstawianie organizmu żywego, jako hierarchii układów niższego rzędu jest konsekwencją znanej tezy organicystów – całość nie jest li tylko sumą części. O dziwo podobnym tropem podąża Bateson opisując naturę procesu umysłowego, a także umysłu jako całości. Umysł ma być zespołem wzajemnie na siebie oddziałujących części bądź składników zorganizowanych w sposób hierarchiczny (Bateson, 1996). Można zatem sugerować istnienie pewnej symetrii w organizacji ciała i umysłu, oraz opisywać je jako co najmniej dwa rozległe systemy, wchodzące w skład organizmu żywego3 . 2 Zastrzeżenia wobec samej teorii konekcjonizmu i możliwości jej zastosowania w teorii funkcjonowania umysłu przedstawił m.in. Searle (1990). 3 W podobny sposób zdaje się myśleć o problemie psychofizycznym (Wilber, 1997), kiedy pisze o mózgu (ciele) i umyśle jako „dwóch stronach równania”. Metafora równania ma tę zaletę, że sugeruje zależność zmian jednej jego strony od zmian drugiej i vice versa.
162
Cognitive neuroscience: nic nie jest już proste
Wracając do opisu „strony biologicznej” organizmu – na każdym poziomie działają mechanizmy kontrolne, a za podstawowy mechanizm umożliwiający samoregulację Bateson uznaje biologiczne sprzężenia zwrotne. Rzecz jasna – musi istnieć swoiste medium, przy pomocy którego taka regulacja się odbywa. Są nimi informacje oraz energia dostarczane do systemu4 . Niestety poza powyższymi ogólnymi zasadami działania systemów żywych nie dysponujemy zadowalającym modelem takich układów, nawet tak podstawowych, jak komórki. Już prosta statystyka pojedynczej komórki ludzkiej pokazuje stopień jej złożoności: każda z nich zawiera co najmniej 30,000 genów, i produkuje kilka – kilkanaście tysięcy białek. Regulacja ekspresji jednego genu jest związana z aktywnością dziesiątek białek. Nie wiemy, jak to się dzieje, że rozbudowana aparatura białkowa, złożony system błon i przedziałów wewnątrzkomórkowych tworzą doskonale zorganizowaną całość, która posiada własny metabolizm i w sposób stały potrafi reagować na zmiany zachodzące w otoczeniu. Popularny anglojęzyczny podręcznik biologii komórki – Molecular Biology of the Cell (Alberts et al., 2002) prezentuje nawet rycinę zatytułowaną Zatłoczona cytoplazma [Crowded cytoplasm], która, choć przypomina bardzo malarstwo abstrakcyjne, uwidacznia stopień złożoności najprostszych układów żywych. Należy przyznać, że coraz bardziej liczna grupa badaczy zdaje sobie sprawę z ubóstwa wiedzy na temat globalnego sposobu funkcjonowania organizmów żywych. Doprowadziło to do powstania nowej dziedziny – biologii systemów (Nurse, 2003), która rozpatruje funkcjonowanie komórek i całych narządów (w tym także mózgu) w kontekście teorii systemów złożonych i teorii chaosu (Service, 1999; Koch Laurent, 1999). Biologia molekularna w ciągu minionych pięćdziesięciu lat dostarczyła olbrzymiej ilości danych szczegółowych, nie zapewniając jednak jednolitej perspektywy ich rozumienia. Z tej przyczyny kilka amerykańskich uniwersytetów (m. in. Harvard, Princeton i Stanford) powołało do życia specjalne jednostki badawcze, zatrudniające fizyków, biologów molekularnych oraz matematyków, którzy wspólnie opracowują modele funkcjonowania grup genów oraz sieci cząsteczek sygnalizacyjnych w komórkach, grupując cząsteczki w funkcjonalne moduły, połączone na zasadzie m.in. sprzężeń zwrotnych (Weng et al., 1999). Należy mieć nadzieję, że teoria złożoności dostarczy dogodnego paradygmatu do studiowania tych zagadnień w przyszłości.
4. Geny a zachowanie Zagadnienie wpływu genomu na rozwój poznawczy, emocjonalny, wreszcie na izolowane zachowania u zwierząt jest nieustająco kontrowersyjne. Przedstawiciele różnych dziedzin (w tym genetycy i psychologowie) wykazują często skrajnie odmienne stanowisko. Do historii przeszedł spór o stopień odzie4 To ciekawe, że choć Bateson jest ojcem cybernetyki, a nie cognitive science, to założenie o przetwarzaniu informacji jest charakterystyczne dla kognitywistyki.
Przemysław Tomalski
163
dziczalności5 tak abstrakcyjnego konstruktu, jak inteligencja6 . Dzisiaj związek poszczególnych genów z zachowaniem (i poprzez to – przypisywanymi tym zachowaniom stanami mentalnymi) jest niejasny. Znamy kilka zaburzeń psychicznych o ewidentnym podłożu genetycznym (przykładem: zaburzenie dwubiegunowe, zwane maniakalno-depresyjnym). Istnieje również ogromna liczba studiów nad dziedziczeniem wzorów zachowań przez bliźnięta jednoi dwujajowe. Przyglądając się badaniom dotyczącym przykładowo inteligencji, nasuwa się jedna konkluzja: nie można wysnuć żadnych jednoznacznych wniosków na temat stopnia jej odziedziczalności. W przeważającej większości tych badań odnaleziono błędy metodologiczne (za: Gardner et al., 2001, str. 122). Problem determinowania zachowań przez materiał genetyczny jest skomplikowany z powodu metod wykorzystywanych do badań. Wszelkie studia nad odziedziczalnością z konieczności bazują na badaniach populacji i metodach genetyki populacyjnej. Osobną kwestią pozostaje zidentyfikowanie właściwego genu (częściej – grupy genów lub obszaru na chromosomie) oraz, co najtrudniejsze, wykazanie związku aktywności genu ze zmianami w funkcjonowaniu struktur ośrodkowego układu nerwowego. W takim wypadku konieczne jest udowodnienie ciągu przyczynowego: zmiany w ilości produktu białkowego danego genu wpływają poprzez mechanizmy sygnałowe na poziomie komórkowym na metabolizm komórki, a w konsekwencji na działanie tkanki lub grupy komórek. Tymczasem o takie ciągi przyczynowo-skutkowe trudno w przypadkach o wiele prostszych niż złożone wzorce zachowania. Mianowicie – w chorobach genetycznych, uwarunkowanych mutacją w jednym genie. Podam tu przykład znanej od ponad stu lat choroby (pląsawicy) Huntingtona. Od dziesięciu lat znany jest gen odpowiedzialny za chorobę, jednak do dzisiaj nie wiadomo, w jaki sposób przyczynia się on do rozwoju ciężkiej, a ostatecznie śmiertelnej choroby neurologicznej (Cattaneo et al., 2003). Osoby posiadające mutację genu huntingtyna (zlokalizowany na chromosomie 4) ujawniają objawy choroby w wieku 30-40 lat. Wskutek jej rozwoju nie są w stanie wykonywać codziennych czynności (z powodu niekontrolowanych ruchów mimowolnych), wykazują upośledzenie funkcji intelektualnych (np. planowanie własnych działań), a w późnym stadium także depresję, zachowania agresywne i otępienie. Zgon następuje po 15-20 latach od wystąpienia pierwszych objawów (którymi są z reguły niezwykłe grymasy twarzy) – choroba Huntingtona jest jak dotąd nieuleczalna. Pląsawica stanowi dobrą ilustracje tezy, że związek mutacji jednego genu z wystąpieniem choroby nie wyjaśnia automatycznie mechanizmu jej po5 Należy bezwzględnie oddzielić dziedziczenie poprzez materiał genetyczny otrzymany w komórkach płciowych od rodziców biologicznych oraz „dziedziczenie” zachowań poprzez wyuczanie się w dzieciństwie wzorów zachowań od opiekunów (poprzez naśladownictwo, czyli modelowanie opisane przez Alberta Bandurę). 6 Najlepszym tego dowodem była temperatura dyskusji rozpętanej przez R.J. Herrnsteina i C Murraya – autorów książki The Bell Curve: Intelligence and class structure in American life. [Krzywa dzwonowata: inteligencja i struktura klasowa w życiu Amerykanów].
164
Cognitive neuroscience: nic nie jest już proste
wstawania. Wręcz przeciwnie – pokazuje, że nawet „proste”, jednogenowe choroby genetyczne spowodowane są układem bardzo wielu czynników. Problem wpływu aktywności pojedynczych genów i całych ich grup na wyższe poziomy działania organizmu to kolejny z kategorii tych „bardzo złożonych”.
5. Neurony to nie wszystko Przejdę teraz do opisu wyższego poziom organizacji, a konkretnie – do kwestii funkcjonowania mózgu. Mózgowie kręgowców wyższych nie jest tworem jednorodnym – buduje go wiele tkanek. Najpoważniejsze przeoczenie w nurcie cognitive neuroscience dotyczy grupy komórek występujących w mózgowiu w liczbie dużo większej niż liczba neuronów – chodzi o tkankę glejową. Paradoksem jest, że całość teorii przetwarzania informacji przez mózg koncentruje się na „mniejszości mózgowej” – komórkach nerwowych. Tymczasem niektóre źródła (Skup, 2000) podają, że samych tylko astrocytów – najpowszechniejszej formy komórek glejowych – jest w mózgu dziesięciokrotnie więcej niż neuronów. Czym zajmują się komórki glejowe? W 1856 roku anatom Rudolf Virchow określił je mianem Nervenkitt – „kleju neuronalnego” (za: Skup, 2000). Początkowo wydawało się, że funkcja gleju ogranicza się do tworzenia medium, w którym znajdują się zajęte ciągłym przekaźnictwem elektrycznym neurony. Do niedawna przeważał pogląd, że komórki glejowe stanowią tkankę pomocniczą, która odżywia i ochrania – słowem – wspomaga neurony w ich ciężkiej pracy. Doniesienia z ostatnich lat całkowicie zaprzeczają takiemu podziałowi funkcji (Fields Stevens-Graham, 2002). Udowodniono, że komórki makrogleju7 modulują przekaźnictwo synaptyczne neuronów. Mogą także odgrywać rolę w synchronizacji całych grup neuronów oraz regulować zasięg rozprzestrzeniania się fali pobudzenia. Swoistym przełomem okazało się odkrycie odrębnej od komórek nerwowych ścieżki przesyłania pobudzenia – poprzez rozprzestrzeniającą się od astrocytu do astrocytu falę jonów wapnia. Na tej podstawie sformułowano hipotezę istnienia sieci astrocytarnej – pozaneuronalnej drogi szybkiego przekazywania sygnałów w mózgu. Nie na tym koniec możliwych funkcji tkanki glejowej. Kolejne pytania pojawiły się wraz z rozwojem technik neuroobrazowania – obserwowanie aktywności wybranych obszarów mózgu w czasie rzeczywistym m.in. przez pozytonową tomografię emisyjną (PET) i funkcjonalny rezonans magnetyczny (fMRI). Techniki obrazowania oparte są na możliwości rejestrowania zmian w odpowiednio: przepływie krwi oraz zużyciu tlenu przez dany obszar mózgu. Wykonywanie danych czynności poznawczych może powodować wzrost lub spadek aktywności danego obszaru – na przykład słuchanie muzyki kla7 Tkankę glejową dzieli się na mikroglej i makroglej. Ten ostatni stanowi większość tkanki glejowej w układzie nerwowym i dzielony jest na podgrupy o różnej morfologii: astrocyty (kom. gwiaździste), oligodendrocyty (glej skąpowyspustkowy) i komórki Schwanna (lemocyty). Lemocyty i oligodendrocyty tworzą osłonki mielinowe aksonów – długich wypustek komórek nerwowych.
Przemysław Tomalski
165
sycznej powoduje wzrost aktywności w prawym płacie skroniowym. Wiąże się to z kosztami energetycznymi – „pracujące” komórki wymagają większych ilości glukozy oraz tlenu, dostarczanych przez krew. Mózg jest narządem bardzo dobrze ukrwionym, a ma to ścisły związek z jego ogromnymi potrzebami energetycznymi – do 20% dostarczanej do ludzkiego organizmu glukozy jest wykorzystywanych właśnie przez mózg. Aby dostarczyć odpowiednią ilość składników odżywczych do wybranej części mózgu, konieczne jest dostosowanie przepływu krwi (zwiększanie lub zmniejszanie) do aktualnych potrzeb. Wiadomo, że komórki glejowe odgrywają kluczową rolę w regulacji przepływu krwi przez naczynia mózgowe. Glej przyczynia się też do powstania bariery krew-mózg – słabo przepuszczalnej dla dużych cząsteczek zapory, która odizolowuje mózgowie (wraz z płynem mózgowo-rdzeniowym) od krwiobiegu i reszty organizmu. Na jakiej zasadzie zwiększa się przepływ krwi przez rejon kory, który uaktywnia się pod wpływem na przykład bodźca wzrokowego – nie wiadomo. Powyższe ustalenia komplikują klarowny dotąd obraz mózgu jako układu sieci neuronalnych przyrównywanych do obwodów, w których płynie prąd elektryczny. Wskazywanie kolejnych (i nietypowych) dróg regulacji rozprzestrzeniania się sygnału elektrycznego (i chemicznego!) utrudnia opisywanie go jako czystego łańcucha przyczynowo-skutkowego.
6. Problem drugi: mózg i umysł – lokalizacja funkcji Prócz ogólnego modelu działania mózgu problemem jest również status tak zwanych mózgowych korelatów funkcji umysłowych. To, na ile danym częściom mózgu (lub kory mózgowej) można przypisać dane cechy osobowości, lub dane funkcje poznawcze, stanowi temat polemik od czasów frenologa8 – Johna Galla. Już w połowie ubiegłego wieku istniało wiele argumentów przeczących lokalizacyjnemu podejściu do funkcji mentalnych. Znane były przypadki pacjentów z ogniskowymi uszkodzeniami różnych części mózgu, którzy wykazywali podobne zaburzenia funkcjonowania9 . Znane są też historie pacjentów, którzy, mając uszkodzony ten sam obszar, wykazują odmienne zestawy objawów (dotyczy to głównie obszarów transmodalnych kory – Łuria (1967)). Rozwój wspomnianych technik neuroobrazowania wystawia w dzisiejszych czasach na pokusę powrotu do lokalizacjonizmu. Otóż w czasie śledzenia aktywności mózgów osób rozpoznających twarze, bodźce dotykowe, lub słuchających muzyki, można wyróżnić specyficzne rejony o podwyż8 Gall założył, że czynności psychiczne są funkcją kory mózgu i składają się z wielu niezależnych dziedzin, a każda jest sterowana przez specjalny obszar kory mózgu. Im lepiej dany obszar kory jest rozwinięty – tym bardziej rozwinięta powinna być ta część psychiki. Gall uważał, że nasilenie cech psychiki jest widoczne w ukształtowaniu kości czaszki sąsiadujących z korą. Stąd – badał ludzką psychikę poprzez analizę budowy czaszek. 9 Doskonale przedstawia te zagadnienia ojciec neuropsychologii – A. Łuria (1967).
166
Cognitive neuroscience: nic nie jest już proste
szonej/obniżonej aktywności. Jeśli uzyskuje się jednostajne wyniki badając odpowiednio liczną próbę osób, można zdobyć pozornie „twardy” dowód na to, że dana funkcja ściśle łączy się z danym rejonem. Co dziś oferuje cognitive neuroscience w zastępstwie klasycznego lokalizacjonizmu? Ujęcie sieciowe (i to jedna z jego mocnych stron) proponuje ujmować mózg jako system, w którym za daną funkcję odpowiadają nie tylko pojedyncze, obserwowalne struktury, ale stan bardzo wielu powiązanych ze sobą elementów, które wzajemnie na siebie oddziaływają. Dana aktywność poznawcza byłaby przejawem działania systemu w makroskali. Wracając zaś do pojęcia korelatów – słowo korelat sugeruje, że to, co można obejrzeć na ekranie monitora – kolorową mapę aktywności, to tylko fizjologiczne zmiany stanu obszarów mózgu współwystępujące z aktywnością mentalną. Nie można zatem wnioskować o zależnościach przyczynowych, jak to się często sugeruje. Zaś zależności korelacyjne są traktowane przez eksperymentatorów z nieufnością, bowiem nie można na ich podstawie ocenić ani na ile dany czynnik w sposób wyłączny powoduje dany efekt, ani też – na ile taka zależność jest kierunkowa (Brzeziński, 1996).
7. Problem trzeci: dwie półkule – ile strumieni świadomości? Jednym z najbardziej intrygujących zagadnień współczesnej neurobiologii jest zjawisko asymetrii mózgowej – zróżnicowania funkcji obu półkul. Pierwsze hipotezy na temat lateralizacji niektórych funkcji pojawiły się w XIX wieku wraz z obserwacjami Broki, który opisał pacjentów o zaburzonej mowie z uszkodzeniami lewej półkuli. Począwszy od słynnych prac Sperry’ego (lata sześćdziesiąte) dotyczących osób, którym chirurgicznie przecięto spoidło wielkie łączące obie półkule, datuje się rozkwit badań nad naturą asymetrii. Chodziło o ustalenie, jakie funkcje są związane z aktywnością jednej półkuli, oraz na ile półkule działają autonomicznie i rozłącznie. Poniżej zestawiono (oczywiście w dużym uproszczeniu) najczęściej podkreślane różnice międzypółkulowe w (za: Grabowska, 2000, str. 410-417). Lewa półkula przetwarza analitycznie, sekwencyjnie i stosunkowo powoli. Odgrywa wiodącą rolę dla funkcji werbalnych. Jest związana z logicznym, racjonalnym myśleniem i wyodrębnianiem relacji przyczynowo-skutkowych oraz tworzeniem opisów, narracji. Ze względu na zlokalizowane w niej ośrodki mowy (u większości osób praworęcznych), ma istotną rolę w procesach świadomości (zdawania sobie sprawy ze strumienia wydarzeń poprzez werbalizację i tworzenie narracji). Prawa półkula jest zaangażowana w operacje przestrzenno-wizualne, przetwarza holistycznie i równolegle. Związana z szybkim reagowaniem o charakterze emocjonalnym i globalnym wartościowaniem obiektów („pozytywny albo negatywny”). Pośredniczy w procesach emocjonalnych (postrzeganie i wyrażanie emocji), szczególnie negatywnych. Charakteryzuje się lepiej rozwiniętą reprezentacją czuciowo – ruchową ciała.
Przemysław Tomalski
167
Problem stopnia autonomii obu półkul ma ważne konsekwencje – może przesądzać o tym, na ile nasze zachowanie można traktować jako spójny rezultat działania jednego organizmu, jednego mózgu-umysłu. Możliwych jest kilka wariantów. Obie półkule są silnie związane ze sobą, a zachowania są ich końcowym, wspólnym efektem. Mogą także być w dużym stopniu autonomiczne, a wtedy w ogólnym modelu przetwarzania informacji konieczne jest uwzględnienie ośrodka nadrzędnego, integrującego ich wytwory i dającego jednostce poczucie spójności działań. W trzecim wariancie obie półkule stanowią odrębne strumienie świadomości, które reagują na bodźce odrębnie, konkurując ze sobą o tę część zasobów operacyjnych mózgu, które są wspólne. W tym wypadku postuluje się istnienie specjalnych mechanizmów poznawczych, które dają jednostce zaledwie poczucie posiadania spójnego „ja” i sprawstwa w otaczającej rzeczywistości. Ewentualność trzecia znajduje uzasadnienie w danych klinicznych. Wśród neuropsychologów znane jest zjawisko anozognozji, czyli niezdolności do rozpoznania własnego stanu chorobowego. Klasyczny opis takiego zaburzenia podaje Damasio (2000, str. 226-227): „[. . . ] ofiara udaru z całkowitym paraliżem lewej strony ciała, niezdolna do poruszania dłonią i ramieniem, nogą i stopą, o wpół znieruchomiałej twarzy, nie potrafiąca stać ani chodzić, która pozostaje obojętna na te wszystkie problemy i twierdzi, że chyba nic się takiego nie dzieje. Kiedy zapytamy takiego pacjenta, jak się czuje, odpowie szczerze «W porządku»”. Opisany pacjent doznał w wyniku udaru uszkodzeń prawej półkuli. Z uszkodzeniami tej półkuli związane jest też inne zaburzenie – pomijanie stronne, zwane inaczej jednostronną nieuwagą. Osoba dotknięta pomijaniem stronnym nie odpowiada na bodźce wzrokowe pojawiające się w polu widzenia po stronie przeciwległej do uszkodzonej półkuli – pomija najczęściej lewą stronę obserwowanej przestrzeni, czytanych słów, czy prezentowanego obrazka. Opracowano szereg testów wykrywających pomijanie. Przykładowo – w swoich doświadczeniach Marshall i Halligan10 (za: Ingram, 1996, str. 87) wykazali nie tylko, że osoby z pomijaniem stronnym przejawiają często całkowity brak świadomości własnej choroby. Swoje decyzje oparte na nieświadomym spostrzeganiu obiektów (w części pola widzenia nieobecnej w świadomości) racjonalizują, podając wiele wyjaśnień, co prawda sensownych, lecz całkowicie nieprzystających do rzeczywistości badania. Przypadki pacjentów z pomijaniem stronnym i anozognozją są dowodem na istnienie „mechanizmu” racjonalizującego, który generuje wyjaśnienia zachodzących zjawisk. Wyjaśnienia te mogą być całkowicie nieuzasadnione i nie przystawać do faktów, a jednak wciąż są traktowane przez pacjentów całkowicie 10 Pacjentom z jednostronną nieuwagą prezentowano dwa identyczne rysunki domu. Jeden z tych obrazków miał dorysowany w lewej (a więc pomijanej) części płomień. Zapytani, o różnice między rysunkami – odpowiadali, że są identyczne. Zaś poproszeni o wskazanie, w którym z nich pragnęliby mieszkać – wybierali istotnie częściej domek bez płomienia.
168
Cognitive neuroscience: nic nie jest już proste
poważnie. Domniemana funkcja takich racjonalizacji to zapewnienie jednostce poczucia bezpieczeństwa i orientacji poprzez objaśnianie niezrozumiałych elementów rzeczywistości. W oparciu o podobne przesłanki, bazując na badaniach nad hipnozą, histerią konwersyjną11 i stanami dysocjacyjnymi12 kilku autorów wysunęło budzącą sprzeciw humanistycznie zorientowanych psychologów hipotezę o bardzo szczególnym zorganizowaniu umysłu. Między innymi David Oakley (1999), wychodząc od danych klinicznych nt. hipnozy i zaburzeń psychosomatycznych, zaproponował model świadomości, w którym główny system wykonawczo-decyzyjny jest oddzielny od systemu odpowiedzialnego za subiektywne doświadczanie działań. W efekcie podmiot doświadczający ma odczucie pełnej kontroli nad organizmem i możliwości nieustannego podejmowania dowolnych decyzji. W rzeczywistości jednak takie poczucie jest iluzoryczne, a wiele z tzw. świadomie podjętych działań zostało zainicjowanych bez udziału woli.
8. Problem czwarty: mechanizmy integrujące W świetle rosnącej liczby dowodów ogromnego skomplikowania mózgu i całego organizmu pojawia się pytanie o sposoby integracji działań różnych elementów tak złożonego układu. Proponowane są różnorodne mechanizmy integracji zachowania. Niektórzy autorzy utożsamiają je nawet z procesami uwagi lub świadomości. Większość nie ma jednak takich ambicji, próbuje jedynie pogodzić biologiczny determinizm z przekonaniem o jedności i podmiotowości istoty ludzkiej. W tym kontekście mechanizmy integrujące wydają się być optymalnym – „brakującym ogniwem”. Mogą one mieć różnorodny charakter: od oscylacji obserwowanych w zapisie EEG o danej częstotliwości przypisywanych całemu mózgowi lub konkretnej strukturze (np. wzgórzu według F. Cricka i R. Kocha (1997)), poprzez mechanizmy poznawcze (integrujący charakter poczucia czasu według E. Poppela, (1989), lub procesy mowy oraz myślenie) ¨ aż po procesy emocjonalne (Siegel, 2001; Ciompi, 1991). Ta ostatnia propozycja wydaje się być w równym stopniu zaskakująca, co odkrywcza – w nauce o procesach poznawczych jest bardzo niewiele miejsca na afekt i uczucia. Przede wszystkim procesy emocjonalne są silnie związane z rozwojem człowieka od pierwszych chwil po narodzinach. Trafne odczyty11 Zaburzenie konwersyjne (histeria), to wg amerykańskiej klasyfikacji DSM-IV zaburzenie z grupy samotopodobnych. Pacjent manifestuje objawy sugerujące schorzenie neurologiczne (np. paraliż, ślepota, napady drgawkowe), których nie można wyjaśnić w kategoriach chorób organicznych. Wystąpienie objawu konwersyjnego jest często poprzedzone silnie stresującym (traumatycznym) wydarzeniem. Objawy zwykle ustępują samoistnie po pewnym czasie. 12 Stany dysocjacyjne mogą polegać na braku dostępu świadomości do pewnych części psychiki - np. specyficznej, albo globalnej amnezji, w skrajnym wypadku na nagłej zmianie lub utracie poczucia własnego „ja”. Do zaburzeń dysocjacyjnych DSM-IV zalicza m.in. dysocjacyjne zaburzenie tożsamości (inaczej osobowość wieloraka) i amnezję.
Przemysław Tomalski
169
wanie i komunikowanie emocji to jedna z podstawowych umiejętności, jakie posiada niemowlę. Obserwacje interakcji karmiących matek lub rodziców bawiących się ze swoimi dziećmi dowiodły, że obie strony nieustannie wysyłają precyzyjne niewerbalne sygnały potwierdzające wzajemne „dostrojenie się”. Modyfikowanie w ściśle określonych proporcjach czasowych kontaktu wzrokowego, wyrazu twarzy, tonu głosu oraz postawy ciała umożliwia stałe informowanie partnera interakcji o własnych stanach emocjonalnych bez pośrednictwa słów. Takie właściwe komunikowanie ma również niebagatelne znaczenie dla prawidłowego rozwoju mózgu (Siegel, 2001) i psychiki dziecka (Cramer, 1994). Z procesami emocjonalnymi związane są obie półkule mózgowe, choć z pozytywnymi emocjami ściślej łączy się półkula lewa, a negatywnymi – prawa13. Struktury pośredniczące w reakcjach emocjonalnych występują na wielu piętrach hierarchii mózgu – do układu limbicznego (uważany jest on za główny układ związany z emocjami) zaliczane są zarówno jądra podkorowe, jak i części kory mózgowej. Na przykład ośrodek korowy – zakręt obręczy bierze udział zarówno w procesach poznawczych (korekcja błędów, złożona kontrola ruchowa, pamięć operacyjna, antycypacja podczas złożonych zadań poznawczych), jak i afektywnych (regulacja odpowiedzi emocjonalnej, czucie bólu) (Bush et al., 2000). Zaś uszkodzenie ciała migdałowatego – struktury odpowiedzialnej m.in. za właściwe odczytywanie wyrazu emocjonalnego bodźców – prowadzi do zaburzeń w funkcjonowaniu społecznym z powodu kłopotów z rozpoznawaniem uczuć z wyrazu twarzy rozmówcy (Adolphs et al., 1999). Odczuwana emocja może być czynnikiem integrującym różne elementy doświadczenia oraz pracę wielu struktur mózgu na zasadzie fali morskiej, która pochłania różne zjawiska mentalne i „miesza” je ze sobą. Przykładowo, Kenneth Dodge (za: Siegel, 2001) pisze: „[. . . ] całość przetwarzanych informacji ma emocjonalny charakter przez to, że emocja jest energią, która kieruje, organizuje, nasila lub osłabia aktywność poznawczą i jest zarówno doświadczaniem jak i wyrazem tej aktywności.” Paradoksalnie – afekty, emocje i uczucia mogą być podstawowymi elementami, które inicjują i koordynują zachowania oraz aktywność mentalną. Czy w takim przypadku badanie wysublimowanych procesów poznawczych i ich korelatów mózgowych nie traci sensu, czy zamiast o cognitive neuroscience nie powinniśmy mówić o affective neuroscience? Niestety, w Obliczeniowej Teorii Umysłu nie znalazło się wiele miejsca dla procesów emocjonalnych. 13 Należy dodać, że uznawane są obecnie dwie konkurencyjne teorie asymetrii funkcjonalnej półkul mózgu w zakresie emocji (Walsh, 1997). Jedna wskazuje na zróżnicowany udział obu półkul (lewa – emocje pozytywne, prawa – negatywne), druga zaś wiąże procesy emocjonalne z prawą, natomiast wyższe czynności poznawcze, czy intelektualne – z lewą.
170
Cognitive neuroscience: nic nie jest już proste
9. Problem piąty: człowiek jako refleksyjny automat Na koniec chciałbym dopełnić nadmiaru dychotomicznych podziałów, przywołując modny ostatnio w psychologii poznawczej temat przetwarzania automatycznego versus refleksyjnego. Idea istnienia szybkiego i niezależnego od aktualnych treści świadomości systemu, który przetwarza dane z otoczenia i może kierować aktywnością podmiotu pojawiła się już kilkadziesiąt lat temu. Dzisiaj badacze piszą o zjawisku automatycznej mimikry (dostosowania się w czasie interakcji do partnera tonem głosu, akcentem, gestami), utajonych postawach (versus postawy jawne – świadome), nieświadomych (pierwotnie lub wtórnie) emocjach, utajonym ocenianiu, nieświadomej motywacji oraz celach (Jarymowicz Ohme, 2002). Jarymowicz Ohme (2002) proponują istnienie dwóch systemów przetwarzania: automatycznego i refleksyjnego, które umożliwiają adaptację do środowiska oraz rozwój jednostki. Rzecz jasna, procesy świadome są w takim ujęciu związane z regulacją refleksyjną, podczas gdy automatyczna pozostaje poza polem uwagi i poza świadomością. Posiadanie obu systemów przynosi wiele korzyści – bowiem sprawne „zarządzanie” tak złożonym organizmem, jak ludzki wymaga błyskawicznej regulacji i kontroli na wielu poziomach działania. Niewątpliwie nie sposób tego dokonać poprzez procesy świadome, a przecież wiele funkcji fizjologicznych jest od woli pierwotnie niezależnych14 . Często przywoływany jest w tym miejscu argument na rzecz korzyści posiadania automatyzmów – wyobraźmy sobie, że bezustannie musielibyśmy świadomie pilnować rytmu oddychania i pracy serca – nawet podczas snu. Wprowadzenie do opisu mózgu i umysłu kolejnej dychotomii rodzi nowe kontrowersje. Po pierwsze, na ile oba te systemy są rozłączne i autonomiczne, na ile produkty ich przetwarzania wpływają na procesy konkurencyjnego systemu? Po drugie, na ile dychotomia automatyczny vs. refleksyjny ma związek z dychotomią anatomiczno – funkcjonalną prawej vs. lewej półkuli? Po trzecie, czy ten nowy podział jednego umysłu nie jest po prostu kolejną odsłoną starego podziału na umysł (psychikę) nieświadomy oraz świadomy, co oznacza przeproszenie się z odrzucaną przez psychologów poznawczych koncepcją Freuda? Kiedy warto utrzymywać takie dychotomie, a kiedy nie? Czy obecność nieświadomych procesów przetwarzania i wartościowania przesądza o istnieniu dwóch odrębnych systemów? W paradygmacie cognitive neuroscience każdy tak znaczący podział powinien mieć swoje uzasadnienie w strukturze mózgu. Opisana powyżej asymetria owszem, odnosi się do różnic w budowie obu półkul, jednak opis różnic między nimi dotyczy głównie funkcji, o których wnioskuje się pośrednio – poprzez dane nt. uszkodzeń ogniskowych i badań na zwierzętach. Dziś wiadomo już, że u osób leworęcznych asy14 Jednak od lat sześćdziesiątych rozwijana jest technika biofeedback – biologicznego sprzężenia zwrotnego, która umożliwia zależne od woli uczenie się wywoływania zmian częstości skurczów serca, temperatury kończyny, stopnia odczuwania bólu, lub nawet skurczów żołądka, uznawanych za zupełnie niezależne od woli.
Przemysław Tomalski
171
metria ma mniejszy zakres, a na przykład mowa może być reprezentowana w obu półkulach (Grabowska, 2000, str. 420). Być może kluczowy jest nie sam fakt istnienia asymetrii, lecz stopień rozwinięcia komunikacji międzypółkulowej. Niektóre części spoidła wielkiego są u osób leworęcznych większe niż u praworęcznych, co sugeruje lepszą komunikację oraz równy potencjał obu półkul do rozwoju reprezentacji jednej funkcji. Dodatkowo, z innych badań wynika, że reprezentacje mowy mogą się odmiennie rozwijać u kobiet i mężczyzn. Wiadomo, że te pierwsze mają większą fluencję słowną oraz bogatszy słownik stanów emocjonalnych, a sugerowaną przyczyną jest również lepsza komunikacja międzypółkulowa. Możliwe, że wyraźnie zaznaczona asymetria mózgowa dotyczy głównie praworęcznych mężczyzn. Powyższe dane sugerują, że wyodrębnianie dwóch systemów nie jest jednoznacznie uzasadnione. Rozwiązaniem konkurencyjnym do podejścia dwusystemowego jest hipoteza głębokości przetwarzania oraz pokrewne jej teorie wydzielające kilka poziomów integracji informacji i energii (Wróbel, 2002). Propozycje te są rozwijane z różnych perspektyw teoretycznych. Poniżej: przykładowy sposób zintegrowanego opisu procesów automatycznych i refleksyjnych. Te same procesy automatyczne i refleksyjne można umieścić na pionowej osi, gdzie procesy świadome znajdują się w jej górnej części, zaś nieświadome – w części dolnej. Granica pomiędzy świadomym, a nieświadomym jest płynna i uzależniona od stanu całego organizmu. Dla przykładu – w stanie czuwania uwaga może być skupiona na bodźcach zewnętrznych, np. szumie wiatru, lub doznaniach kinestetycznych – podrażnieniu przez wiatr receptorów w skórze. Uwaga może być również świadomie (refleksyjnie, z namysłem) kierowana na czynności narządów wewnętrznych – bicie serca, lub skurcz żołądka. Można również świadomie obserwować automatyczną reakcję emocjonalną na, z pozoru, neutralny bodziec – np. siedzącą na drzewie srokę (np. w dzieciństwie bałem się srok i nadal odczuwam strach i irytację, gdy je widzę, choć nie wyrządzają mi żadnej szkody). W momencie, w którym moja uwaga byłaby skupiona na innym obiekcie (np. psie biegającym po trawniku), mógłbym nie zdawać sobie sprawy z tego, że czuję się poirytowany, gdy sroka wkroczyła w moje pole widzenia, ale stan poirytowania mógłby zostać przeniesiony na inny obiekt - biegającego psa15 . Ten ostatni stan mógłby zostać szybko uzasadniony racjonalną przesłanką – „pies niszczy zadbany trawnik”. Koncepcje wyróżniające szereg poziomów integracji powstają między innymi na bazie podejścia kognitywnego (Damasio, 2000), ewolucjonistycznego (Pisula, 2002) oraz teorii systemów (Bateson, 1996). Jak pisze Jerzy Wróbel (2002, str. 120) w ujęciu kognitywnym na kolejnych poziomach integracji psychika „[. . . ] pojawia się w bliżej nieokreślony sposób jako wartość emergentna układu o odpowiednim stopniu komplikacji.” Zapewne jest to słuszna intuicja, by korelować ewolucyjnie stopień rozwoju ośrodkowego układu nerwowego ze stopniem skomplikowania proce15 A tłumaczy się to tym, że automatyczne procesy wartościowania mają charakter globalny, a więc dotyczą większości obecnych w danym momencie w polu uwagi bodźców.
172
Cognitive neuroscience: nic nie jest już proste
sów emocjonalnych oraz poznawczych. Jednak tym, co odróżnia między sobą powyższych autorów, jest potraktowanie statusu ontologicznego poziomów niematerialnych: umysłowych i psychicznych. Według Chmielnickiego (2001) „subiektywne przeżycia są jedynie pozbawionymi mocy sprawczej epifenomenami.” Takie podejście prowadzić może z powrotem ku większej koncentracji sił i środków badawczych na poziomach „twardych” – materialnych, co kieruje całość badań nad człowiekiem z powrotem w ramiona redukcjonizmu biologicznego.
10. Podsumowanie Powyższa lista „trudnych zagadnień” ma stanowić ilustrację przytoczonych wcześniej słów J. Fodora – pokazuje jak niewielką część problemów związanych z ciałem i umysłem obejmują klasyczne teorie cognitive science. Uważam, że kryzys zaznacza się nie tylko w naukach o zachowaniu i procesach poznawczych. Identyczne rozdrobnienie i izolacja dziedzin badawczych dokonuje się w naukach przyrodniczych. Zapewne dlatego wielu autorów w sposób ciągły konfunduje terminy mentalistyczne i neurofizjologiczne metafory, próbując wyjaśniać jedne – drugimi i vice versa. Postęp w genetyce i biologii molekularnej rodził nadzieje na objaśnienie wszelkich procesów biologicznych względem odpowiedzialnych za nie zespołów genów. Okazuje się jednak, że nawet posiadając skorelowane z danymi wzorcami zachowań lub zaburzeniami psychicznymi geny, w większości przypadków nie znamy drogi ich oddziaływania. Podobnie, próba „nakładania” czynności, funkcji psychicznych na mapę kory mózgowej rodzi wiele nieporozumień. Bardzo ciężko jest znaleźć złoty środek pomiędzy przekonaniem o plastyczności kory a tendencją do ujmowania mózgu jako zbioru ośrodków przetwarzających połączonych kablami elektrycznymi. Wreszcie badania nad asymetrią półkulową i automatycznym przetwarzaniem bodźców wskazują, że z pozoru jednoznaczne i oczywiste zachowania mogą mieć różnoraką genezę, zaś w regulacji zachowania pośredniczą mechanizmy, z których istnienia nie zdajemy sobie zupełnie sprawy. Współczesne postrzeganie źródeł zachowań daleko odbiega od niezwykle uproszczonej koncepcji behawiorystów – czynnika pośredniczącego między bodźcem a reakcją. Konieczne jest w obecnej sytuacji poszukiwanie takiego języka opisu ciała i umysłu, w którym wszystkie poziomy (czy piętra) organizacji będą reprezentowane w równomierny (lub proporcjonalny) sposób. Proporcjonalny do swojej roli w przetwarzaniu informacji ze środowiska i zawiadywaniu aktywnością jednostki. Dokonując opisu w takim języku można by uszczegółowić sposób działania na przykład struktur mózgowych odpowiedzialnych za przetwarzanie danych zmysłowych, bez negowania jednocześnie pięter wyższych – niematerialnych i subiektywnych (zwanych gdzieniegdzie „prywatnymi”).
Przemysław Tomalski
173
Chciałbym w tym miejscu zaproponować własny punkt widzenia na zagadnienie poziomów funkcjonowania organizmów żywych. Przyjmuję za trafne traktowanie człowieka z całym jego bagażem ciała i umysłu jako jedną istotę, jeden organizm, który na przestrzeni swojego życia adaptuje się do środowiska i rozwija w sposób ciągły. Słuszne jest zatem traktowanie całego organizmu żywego jako jednego bytu. Należy jednak dodać, że orzekanie o liczbie bytów od wieków prowadzi do zaciętych sporów. Wystarczające może się okazać stwierdzenie, że z pobudek czysto naukowo-poznawczych warto jest wyróżnić kilka poziomów działania układu żywego, z których każdy poziom stanowić będzie częściowo autonomiczny system. Zarazem w takim wielopoziomowym organizmie można stwierdzić istnienie para-przyczynowych oddziaływań, zarówno z-dołu-do-góry, jak i z-góry-na-dół (tzw. bottom-up i top-down causation – (Seligman et al., 2001)). Ponieważ natura czynników pośredniczących pomiędzy ciałem a umysłem jest wciąż tajemnicą, przeto użyteczne może być opisywanie wyłącznie korelacji zjawisk na poszczególnych poziomach. Dodatkowo, za konieczne uważam założenie, że wszystkie te poziomy reagują w specyficzny dla siebie sposób na pojawiające się sygnały, czy informacje z otoczenia. Podobne ujęcie potwierdzają dane dotyczące wpływu silnej traumy (zwłaszcza u osób z objawami zespołu pourazowego stresowego) przeżytej w dzieciństwie na dalszy rozwój organizmu (Nelson Carver, 1998). Trauma wpływa na pogorszenie zapamiętywania (głównie pamięci werbalnej), zakłócenia w regulacji hormonalnej (głównie hormonów stresu – adrenaliny i kortyzolu), nasileniu asymetrii półkulowej (w zapisie EEG), aż po zmiany anatomicznie w części środkowej płata skroniowego oraz zmniejszenie się lewego hipokampa (struktura odpowiedzialna za m.in. utrwalanie świeżych śladów pamięciowych). Znane są również bardziej specyficzne efekty stresu traumatycznego – zmniejszenie zdolności do tworzenia długotrwałych połączeń synaptycznych między neuronami hipokampa, związanych z tworzeniem się śladów pamięciowych. Inny przykład dotyczy badań nad podatnością na choroby somatyczne. Studia korelacyjne i eksperymentalne świadczą o tym, że przewaga emocji negatywnych oraz mała ilość doświadczanych codziennie emocji pozytywnych obniżają odporność, zwiększając podatność na choroby górnych dróg oddechowych (za: Klonowicz, 2002). Jest to jeden z dobitnych przykładów na para-przyczynową (ale przy współwystępowaniu wielu innych czynników) zależność między różnymi poziomami funkcjonowania.
11. Zakończenie Na zakończenie proponuję następujące doświadczenie. Proszę wyobrazić sobie żywą komórkę. Może to być pantofelek, lub ameba. Może to być komórka nerwowa, lub plemnik. Oczyma duszy dostrzec obecność jądra komórkowego, wodniczki, ewentualnie także mitochondriów, czy drobnych pęcherzyków.
174
Cognitive neuroscience: nic nie jest już proste
Teraz zaś proszę wyobrazić sobie mózg, który składa się z gęstej plątaniny komórek nerwowych, pomiędzy którymi znajdują się opisane powyżej komórki glejowe. Można spróbować zobaczyć przepływ impulsów elektrycznych, na przykład ciągły przepływ wiodący od siatkówki oka, poprzez nerwy wzrokowe, ku płatom potylicznym mózgu. Można się zastanawiać, w jaki sposób całość tej uporządkowanej masy komórek działa. Wreszcie można ujrzeć w wyobraźni umysł. Może ukażą się sceny z życia, znaki, desygnaty niektórych pojęć? A może nie uda się zobaczyć absolutnie nic? Wszak umysł jest tworem niematerialnym! A skoro umysł jest niematerialny, to w jaki sposób może oddziaływać, wchodzić w interakcje z czymś zbudowanym „z krwi i kości”, jak ludzki organizm, mózg w szczególności? W jaki sposób należy wyobrażać sobie umysł? Można bez wątpienia twierdzić, że ludzki umysł, to nieledwie software – pochodna działania mózgu, ale nikomu nie udało się jeszcze wytłumaczyć, w jaki sposób doświadczamy naszych subiektywnych doświadczeń. Noam Chomsky zwykł dzielić trudne zagadnienia na problemy – te rozwiązywalne i na misteria – takie, nad którymi można się jedynie zastanawiać. Wygląda na to, że zagadnienie ciała i umysłu wciąż umyka łatwym rozwiązaniom, a przez to – pozostaje misterium.
Literatura Adolphs, R., D. Tranel, A.R. Damasio (1999): The human amygdala in social judgment. Nature 393, 470–474. Alberts, B., A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter (2002): Molecular Biology of The Cell. IVth ed, New York, Garland Science. Bateson, G. (1996): Umysł i przyroda. Jedność konieczna. Warszawa, Państowy Instytut Wydawniczy. Brzeziński, J. (1996): Metodologia badań psychologicznych. Warszawa, Wydawnictwo Naukowe PWN. Bush, G., P. Luu, M.I Posner (2000): Cognitive and emotional influences in anterior cingulate cortex. Trends in Cognitive Sciences 4(6), 215–222. Cattaneo, E., D. Rigamonti, C. Zuccato (2003): Zagadka pląsawicy Huntingtona. Świat Nauki, 43–47. Ciompi, L (1991): Affects as central organising and integrating factors. A new psychosocial/biological model of the psyche. British Journal of Psychiatry 159, 97–105. Chmielnicki, A. (2001): Między mózgiem a świadomością: próba rozwiązania problemu psychofizycznego. Warszawa, Wydawnictwo Instytutu Filozofii i Socjologii PAN. Cramer, B. (1994): Zawód dziecko. Warszawa, W.A.B. Crick, F. (1997): Zdumiewająca hipoteza. Warszawa, Prószyński i S-ka. Damasio, A. (2000): Tajemnica świadomości. Jak ciało i emocje współtworzą świadomość. Poznań, Dom Wydawniczy Rebis. Ewy, Z. (1985): Zarys fizjologii zwierząt. Warszawa, PWN. Fields, R.D., B. Stevens-Graham (2002): New insights into neuron – glia communication. Science 298, 556–562.
Przemysław Tomalski
175
Fuster, J.M (2003): Cortex and mind. Unifying cognition. New York, Oxford University Press. Gardner, H., M.L Kornhaber, W.K Wake (2001): Inteligencja – wielorakie perspektywy. Warszawa, WSiP. Grabowska, A. (2000): Asymetria półkul mózgowych. [W:] Mózg a zachowanie. T. Górska, A. Grabowska, J. Zagrodzka (red.), Warszawa, Wydawnictwo Naukowe PWN. Fodor, J. (2000): The Mind Doesn’t Work That Way. The scope and limits of computational psychology. Cambridge, Bradford Book – The MIT Press. Ingram, J. (1996): Płonący dom. Warszawa, Prószyński i S-ka. Jarymowicz, M, R.K Ohme (red.) (2002): Natura automatyzmów. Warszawa, Wydawnictwo Instytutu Psychologii PAN oraz SWPS. Klonowicz, T. (2002): Pochwała pluralizmu. [W:] Natura automatyzmów. M. Jarymowicz R. K. Ohme (red.), Warszawa, Wydawnictwo Instytutu Psychologii PAN oraz SWPS. Koch, C., G. Laurent (1999): Complexity and the Nervous System. Science 284 (5411), 96–98. Kolańczyk, A. (2001): The role of affect and attention in preconscious and conscious processing. Polish Psychological Bulletin 32(1), 27–37. Kuhn, T.S. (1968): Struktura rewolucji naukowych. Warszawa, PWN. Ługowski, W. (1999): Drzewo poznania, sykomora filozofii biologii. Wrocław, Arboretum. Łuria, A. (1967): Zaburzenia wyższych czynności korowych wskutek ogniskowych uszkodzeń mózgu. Wprowadzenie do neuropsychologii. Warszawa, PWN. Nelson, C.A., L.J. Carver (1998): The effects of stress and trauma on brain and memory: A view from developmental cognitive neuroscience. Development and Psychopathology 10, 793–809. Nurse, P. (2003): Systems biology: understanding cells. Nature 424, 883. Oakley, D. (1999): Hypnosis and Conversion Hysteria: A Unifying Model. Cognitive Neuropsychiatry 4(3), 243–265. Pinker, S. (2002): Jak działa umysł. Warszawa, Książka i Wiedza. Poppel, ¨ E. (1989): Granice świadomości. Warszawa, Państwowy Instytut Wydawniczy. Searle, J.R. (1990): Consciousness, Explanatory Inversion, and Cognitive Science. Behavioral and Brain Sciences 13, 585–642. Searle, J.R. (1999): Umysł na nowo odkryty. Warszawa, Państwowy Instytut Wydawniczy. Seligman, M.E.P., E. Walker, D. Rosenhan (2001): Abnormal Psychology. New York, WWNorton. Service, R.F. (1999): Exploring the Systems of Life. Science 284(5411), 80–83. Siegel, D.J. (2001): Interpersonal neurobiology of the developing mind. Infant Mental Health Journal 22(67-94), 67–94. Skup, M. (2000): Komórka glejowa w normie i patologii. [W:] Mózg a zachowanie. T. Górska, A. Grabowska, J. Zagrodzka (red.), Warszawa, Wydawnictwo Naukowe PWN. Stokłosa, T. (2002): Psychoneuroimmunologia. [W:] Immunologia. J. Gołąb, M. Jakóbisiak, W. Lasek (red.), Warszawa, Wydawnictwo Naukowe PWN. Walsh, K. (1997): Neuropsychologia kliniczna. Warszawa, Wydawnictwo Naukowe PWN. Weng, G., U.S. Bhalla, R. Iyengar (1999): Complexity in Biological Signaling Systems. Science 284(5411), 92–96.
176
Cognitive neuroscience: nic nie jest już proste
Wilber, K. (1997): An integral theory of consciousness. Journal of Consciousness Studies 4(1), 71–92. Wilber, K. (2002): Psychologia integralna. Warszawa, Jacek Santorski & CO. Wróbel, A. (2002): Uwagi neurobiologa o problemie psychofizycznym. [W:] Natura automatyzmów. M. Jarymowicz R. K. Ohme (red.), Warszawa, Wydawnictwo Instytutu Psychologii PAN oraz SWPS.
Marcin Zajenkowski
Emocje i procesy poznawcze jako przykład elementarnych przedmiotów psychicznych
1. Inteligencja i osobowość – ujęcie psychologiczne „Inteligencja” i „osobowość” są jednymi z podstawowych terminów psychologicznych. Zdołały ugruntować już swój status zarówno w języku naukowym, jak i potocznym. Jednakże nie sposób wskazać ich jednoznacznych definicji, gdyż psychologowie mieli różne spojrzenia na te dwie sfery. W literaturze spotykamy wiele odmiennych ujęć inteligencji. Najpopularniejsze koncepcje różnicowe omawia m.in. Edward Nęcka (2003). W niniejszych rozważaniach jednkaże będzie nas interesowało przede wszystkim podejście poznawcze do inteligencji, dlatego że zajmować się będziemy ogólnym funkcjonowaniem poznawczym człowieka. W tym podejściu bada się różne procesy poznawcze odpowiedzialne za wydajność podczas rozwiązywania zadań (Nęcka, 2003). Założenie jest tu takie, iż bardziej inteligentne osoby będą lepiej funkcjonowały w zakresie elementarnych procesów poznawczych takich jak uwaga, pamięć, uczenie się itp. To one przecież są ostatecznie odpowiedzialne za wynik działania intelektualnego. Z drugiej zaś strony, możemy się też spotkać z twierdzeniem, że inteligencja to zdolność do adaptacji do nowych warunków (zob. Strelau (1997)) itp. Poniżej przedstawiamy definicję zaproponowaną przez Jana Strelaua (1997). Wydaje się, że jest ona atrakcyjna z dwóch względów. Po pierwsze – ma postać definicji normalnej, konotacyjnej, czego nie spotyka się w większości prac na ten temat. Po drugie – łączy w całość kilka ujęć tego zagadnienia. Strelau pisze: „Inteligencja jest to konstrukt teoretyczny, opisujący wewnętrzną zdolność człowieka do adaptacji do środowiska za pomocą efektywności specyficznie ludzkich procesów poznawczych.” (Strelau, 1997) Kontrowersje w definicji Strelaua budzić może zawężenie inteligencji do specyficznie ludzkich procesów poznawczych. Przede wszystkim trudno jest wyróżnić, które procesy poznawcze są specyficznie ludzkie. Powszechnie przyjęło się uważać, iż np. zdolność uczenia się i pamięci dzieli z nami większość zwierząt (nawet tak proste jak np. robaki płaskie – zob. Matysiak (2000)).
178
Emocje i procesy poznawcze jako przykład. . .
Tym, co odróżnia człowieka od innych gatunków, ma być natomiast zdolność myślenia abstrakcyjnego. Jednakże niektórzy psychologowie wskazują na pewne eksperymenty przeprowadzane na małpach, sugerujące, jakoby i one posiadały ową zdolność1 . Spróbujmy zatem przyjąć bardziej ogólną definicję inteligencji ludzkiej: DEFINICJA Inteligencja jest to konstrukt teoretyczny, opisujący zdolność człowieka do adaptacji do środowiska za pomocą efektywności w procesach poznawczych. Osobowość jest równie trudna do scharakteryzowania. Teorii osobowości powstało bardzo dużo. W wielu przypadkach nie sposób ich oddzielić od całościowej wizji człowieka, czyli tzw. koncepcji psychologicznych człowieka (Łukaszewski, 2000). Poniżej będziemy rozumieli osobowość jako konstrukt opisujący nasze typowe (względnie stałe) stany afektywne, czyli ustosunkowania do zjawisk, występujące w określonych sytuacjach, przy działaniu określonych bodźców2 . Coraz częściej psychologowie wskazują na nieadekwatność obu pojęć. Chodzi o to, że nie są one rozłączne. Wskazany wyżej aspekt osobowości bardzo często przejawia się także w sferze poznawczej. Okazuje się, że praktycznie nie istnieje coś takiego jak czysta inteligencja. Ludzie preferują pewne sposoby funkcjonowania intelektualnego bardziej niż inne. W czynnościach poznawczych bardzo dużą rolę odgrywa nastawienie, motywacja, nastrój – co może mieć podstawy w strukturze osobowościowej jednostki.
2. Próby łączenia 2.1. Przesłanki W ostatnich latach dokonano wielu badań na temat związków procesów emocjonalnych z procesami poznawczymi. Badacze wykazują, że często emocjonalne nastawienie do jakiegoś przedmiotu sprawia, iż spostrzegamy go lub myślimy o nim w sposób nieadekwatny. Na pierwszy plan wysuwają się tu badania Roberta Zajonca, które ukazują, jak emocje mogą wpływać na nasze sądy i jak mogą rządzić naszymi procesami poznawczymi (Murphy Zajonc, 1994). Otóż Zajonc w swoich eksperymentach wyświetlał osobom badanym chińskie ideogramy, które poprzedzał bodźcami suboptymalnymi, tj. nieuchwytnymi dla świadomości. Okazało się, że uczestnicy badania preferowali ideogramy poprzedzone obrazem twarzy wyrażającym pozytywną emocję. 1 Przykłady takich badań można znaleźć w (Sadowski Chmurzyński, 1989). Jednakże, jak sugerują autorzy, wyniki eksperymentów są niejednoznaczne i nie można wyciągnąć z nich przekonujących wniosków. 2 Takie rozumienie osobowości jest zbieżne z tym, co przyjmują psychologowie piszący o relacjach inteligencja - osobowość (np. Nęcka, 2003, rozdział 6).
Marcin Zajenkowski
179
Inną ilustracją mogą być rozważania G. Bowera, który opisywał wpływ emocji i nastroju na procesy pamięciowe (Doliński, 2000). Na podstawie wyników swoich eksperymentów postawił tezę, że nastrój przeżywany w danym momencie wpływa na rodzaj przypominanych treści (jeżeli jesteśmy w pozytywnym lub negatywnym nastroju, to aktywizujemy odpowiednio – pozytywnie lub negatywnie nacechowany materiał pamięciowy). Bower nazwał to zjawisko zasadą zgodności poznania z nastrojem. Klasycznym przykładem, pokazującym zależność między racjonalnymi sądami o świecie a ich zabarwieniem emocjonalnym, są opisane przez Freuda mechanizmy obrony ego (np. racjonalizacja, projekcja, identyfikacja), a także zjawiska znane z psychologii społecznej takie jak: stereotypy, uprzedzenia, dogmatyzm poznawczy. Wszystkie te fenomeny psychiczne definiuje się jako tendencyjne przetwarzanie informacji na temat Ja lub innych ludzi ze względu na znak emocji (Aronson, 2000). Niektórzy psychologowie twierdzą, że związki emocji i poznania zachodzą chronologicznie odwrotnie wobec tego, co powiedziano powyżej. To znaczy, że ocena poznawcza poprzedza emocję i modeluje jej jakość. W modelu Richarda Lazarusa emocja powstaje po dokonaniu przez człowieka pewnego zabiegu poznawczego. Otóż musi on dokonać najpierw oceny poznawczej sytuacji, w jakiej się znalazł. Ocena poznawcza to rozpoznanie, czy dany stan rzeczy jest istotny dla osobistych celów i interesów człowieka (Lazarus, 1999). Posługiwanie się kategorią celu, a nie popędu, sprawia, że wstępna orientacja w sytuacji ma charakter czysto poznawczy. Lazarus wyróżnił dwie składowe całego procesu oceny poznawczej (za Doliński, 2000). Ocena pierwotna jest procesem determinującym to, czy emocja się pojawi, a jeśli tak, to jaka będzie jej walencja. Emocja może się pojawić wyłącznie wtedy, gdy dane zdarzenie ma związek z celami człowieka. Jeżeli podmiot stwierdził, że tak jest, to odpowiada sobie następnie na pytanie, czy zwiększa ono, czy też zmniejsza szanse realizacji owych celów. W pierwszym wypadku ma miejsce emocja pozytywna, w drugim – emocja negatywna. Ocena wtórna to rozważenie, w jaki sposób można się uporać z sytuacją, a także z przeżywanymi aktualnie emocjonalnymi jej konsekwencjami. Wynik tej wtórnej oceny determinuje jaka konkretna emocja się pojawi. Wedle Lazarusa, ocena poznawcza jest warunkiem koniecznym i wystarczającym emocji. Na poparcie swoich wywodów Lazarus przytacza szereg eksperymentów. W jednym z nich osobom badanym pokazywano dość szokujący film, nakręcony w australijskim plemieniu aborygenów Arunta. Prezentował on wyraźnie bolesną, dokonywaną bez znieczulenia, operację na genitaliach. Badania pilotażowe wykazały, że oglądanie filmu rodzi u widzów zdecydowanie nieprzyjemne uczucia. We właściwym eksperymencie wspomnianym obrazom towarzyszył zróżnicowany komentarz lektora. W jednym z warunków eksperymentalnych podkreślano antropologiczny charakter filmu. W beznamiętny sposób mówiono o zwyczajach plemienia. W innych warunkach lektor bagatelizował ból odczuwany przez osobę poddaną operacji, podkreślając radosny nastrój pozostałych członków plemienia. Ostatnia grupa słuchała o tym, że
180
Emocje i procesy poznawcze jako przykład. . .
operowany doznaje silnego bólu. Dokonano pomiaru stresu. Okazało się, że w dwóch pierwszych grupach był on istotnie mniejszy niż w ostatniej. W powyższy sposób, związki emocji z poznaniem, ujmowali także inni myśliciele (Schachter i Singer, Beck). Ciekawa wydaje się koncepcja B. Weinera (zob. Doliński, 2000). Badał on emocje w warunkach społecznych. Widok człowieka leżącego na chodniku budzić może tak różne emocje jak: złość, odraza czy współczucie. Zdaniem Weinera istotne jest tu określenie przyczyn, w jakich znalazł się wspomniany człowiek. Jeżeli przyczyny kłopotów innej osoby odbierane są jako pozostające pod jej osobistą kontrolą (np. „upił się”), wówczas przechodzień odczuwać będzie emocje gniewu lub złości. Prawdopodobnie zahamuje to przyjście z pomocą. Jeżeli natomiast te kłopoty potraktowane zostaną jako niezależne od woli owego nieszczęśnika (np. „dostał ataku serca”, „pobili go”), należy się spodziewać u przechodniów odczucia litości lub współczucia. Ostatecznie więc, wzbudzona emocja jest całkowicie uzależniona od interpretacji danej sytuacji. Powyższe rozważania jednoznacznie prowadzą do uznania, że procesy emocjonalne i procesy poznawcze wpływają na siebie wzajemnie3 . Tak więc, wynik w teście inteligencji może nie odpowiadać poziomowi inteligencji. Może on być uzależniony od naszego aktualnego nastroju, od naszej stałej niechęci do testów, czy też w ogóle – złego stosunku do myślenia i wysiłku intelektualnego. Willem Hoftsee dokonuje ciekawej obserwacji historycznej na temat inteligencji i osobowości (Hofstee, 2001). Otóż zdarzyło się tak w psychologii, że inteligencję i osobowość rozróżniano na podstawie metod ich pomiaru. Tak więc Cronbach (za Hofstee 2001) oddziela te sfery ze względu na to, że inteligencję mierzy się maksymalnym wykonaniem zadań w teście, natomiast kwestionariusze osobowości kategoryzują ludzi w odniesieniu do typowych zachowań. Hoftsee zastanawia się nad odwróceniem tych utartych schematów. Przyjrzyjmy się zatem, co znaczyłoby powiedzenie: przeciętna inteligencja (typical intelligence) i maksymalna osobowość (maximal personality). Ludzie, w codziennych sytuacjach życiowych, nie ujawniają swoich pełnych zdolności intelektualnych. Zazwyczaj przejawiają swoją inteligencję tylko na tyle, na ile to jest potrzebne. O wielkości zaangażowania umysłowego decyduje szereg czynników różnych od inteligencji. Tak więc – na nasze funkcjonowanie intelektualne wpływają zmienne temperamentalne, społeczne, nastawienie i nastrój. Hoftsee pisze, że być może lepszym predyktorem sukcesów życiowych jest właśnie przeciętna inteligencja, a nie iloraz inteligencji. W życiu bardziej liczy się bowiem nasz stosunek do procesów intelektualnych, niż rzeczywisty poziom inteligencji. Maksymalna osobowość to skłonność danej osoby do zachowań nietypowych. Kwestionariusze osobowości są tak konstruowane, aby sprawdzić, jak ludzie zazwyczaj reagują na pewne bodźce. Nie bierze się tu pod uwagę tendencji do zachowań aspołecznych np. do neurotyzmu. Osoba może jednak nie przejawiać tych cech (lub przejawiać je rzadko) ze względu na ogranicze3
Wniosek ten nasuwa się niezależnie od sporu o pierwszeństwo afektu i poznania.
Marcin Zajenkowski
181
nia społeczne. Tak więc tradycyjny pomiar psychometryczny dotyczy tylko części osobowości. 2.2. Przykłady Dane o wzajemnym oddziaływaniu na siebie procesów intelektualnych i afektywnych, skłoniły wielu teoretyków do budowania koncepcji, mających na celu wyrugowanie nieadekwatności dawnych pojęć inteligencji i osobowości. W związku z tym, zaczęły powstawać różne teorie integrujące te dwie sfery. Poniżej przyjrzymy się kilku z nim. Style poznawcze. Anna Matczak definiuje styl poznawczy jako „preferowany sposób funkcjonowania poznawczego, odpowiadający indywidualnym potrzebom jednostki” (Matczak, 2000). Są one traktowane jako przejaw funkcjonowania osobowości w sferze poznawczej. Spróbujmy opisać to zjawisko na przykładzie wybranych stylów poznawczych. Tak więc, możemy różnicować ludzi na przykład na podstawie opozycji refleksyjność – impulsywność. Drugi człon tego przeciwstawienia charakteryzuje się tendencją do szybkiego udzielania odpowiedzi i popełniania wielu błędów. Osoby refleksyjne zaś cechuje długie namyślanie się i popełnianie niewielu błędów. Obok tych wymiarów Matczak, jako istotne, przytacza jeszcze: zależność od pola – niezależność od pola, abstrakcyjność – konkretność. Style myślenia. Zostały sformułowane przez Roberta Sternberga i scharakteryzowane jako „preferowane sposoby myślenia, decydujące o tym, jak jednostka dysponuje posiadanymi zasobami poznawczymi.” (za Matczak, 2000). Sternberg posłużył się analogią podobną do tej, jaką zawarł Platon w Państwie, a mianowicie style myślenia porównuje z typami rządów politycznych. Mamy więc monarchię, hierarchię, oligarchię i anarchię, które odpowiadają strategiom rozkładania posiadanych zasobów poznawczych na realizację różnych zadań. Innym aspektem funkcjonowania intelektualnego jest samokierowanie, gdzie Sternberg, znów przez analogię do polityki, rozróżnia władze ustawodawcze, wykonawcze i sądownicze. Można je przełożyć jako odpowiednio: ustalanie zasad, realizacja działań, ocena. Ludzie różnią się tym, która funkcja jest u nich dominująca. Cechy z pogranicza inteligencji i osobowości. John Mayer w swoich wywodach twierdzi, że trudno jest znaleźć ostrą granicę pomiędzy właściwościami intelektualnymi, a osobowościowymi (za Kossowska, Kozak, Szymura 1996). Wedle niego, istnieje pewien obszar zwany „szarą strefą”, który zawiera cechy nie dające się zaliczyć ani do inteligencji, ani do osobowości, ponieważ posiadają one znamiona obu. Proponujemy tu następującą definicję. Cechy z pogranicza inteligencji i osobowości to indywidualny sposób przeżywania doświadczeń intelektualnych, to jest specyficzny styl ustosunkowań emocjonalno – motywacyjnych do procesów poznawczych4 . Mayer i jego współpracow4 Przytoczona definicja pochodzi od nas. Ani w tekście Mayera, ani w polskim artykule, omawiającym koncepcję cech z pogranicza inteligencji i osobowości nie można znaleźć ścisłej definicji.
182
Emocje i procesy poznawcze jako przykład. . .
nicy postulują istnienie następujących dymensji: (a) absorpcja intelektualna (lub intelektualne doświadczenie autoteliczne), (b) przyjemność intelektualna i (c) apatia intelektualna (Kossowska et al., 1996). Przybliżymy teraz te konfiguracje cech. (a) Absorpcja intelektualna to wymiar, który cechuje subiektywne doświadczenie całkowitego pochłonięcia wykonywaną czynnością, ogromnego skoncentrowania się na problemie i głębokiego wglądu w rozwiązywane zadanie; zaangażowanie w wewnętrzną aktywność przy zablokowanej stymulacji z zewnątrz. (b) Przyjemność intelektualna – pozytywne odczucia spowodowane wewnętrzną gratyfikacją, towarzyszącą funkcjonowaniu intelektualnemu; radość z rozwiązania problemu, obcowania z nim, dyskutowania o nim. (c) Apatia intelektualna – doświadczenie niemocy w obliczu problemów; towarzyszą jej odczucia zwątpienia we własne siły, przygnębienia, niska samoocena. Pociąga za sobą niską motywację do rozwiązywania zadań intelektualnych. Inteligencja emocjonalna. Inspiracja do badań nad taką inteligencją pochodzi od Thorndike’a (zob. Ledzińska, 2000), który wysunął sugestię, że zdolności ujawniane w kontaktach społecznych są jej ważnym aspektem (zob. Ledzińska, 2000). Mayer i Salovay, współcześni badacze tego zagadnienia, w swej pracy przeglądowej (1997) wskazują na cztery istotne wymiary inteligencji emocjonalnej. Jest to (a) percepcja, ocena i ekspresja emocji; (b) zdolność rozumienia i analizowania emocji; (c) refleksyjna regulacja emocji; (d) świadomość wpływu emocji na procesy poznawcze. W literaturze psychologicznej pojawia się coraz więcej prac na temat unifikacji inteligencji i osobowości. Przedstawione skrótowo koncepcje ukazują tylko najbardziej popularne koncepcje. Warto zwrócić uwagę na to, że w teoriach uwzględnia się wpływ zarówno osobowości na inteligencję (style poznawcze, style myślenia, cechy z pogranicza inteligencji i osobowości), jak i odwrotną zależność (inteligencja emocjonalna).
3. Analiza zagadnienia Przyglądając się przedstawionym wyżej sferom psychicznym: inteligencji, osobowości oraz ich części wspólnej w postaci stylów poznawczych, stylów myślenia, cech z pogranicza inteligencji i osobowości, inteligencji emocjonalnej, widać, iż są to przedmioty złożone. Treści pojęć dotyczących tych sfer, odwołują się do innych procesów psychicznych, czy też struktur psychicznych. Wydaje się, że są one jak gdyby nadbudowane nad czymś w psychice prostszym, pierwotniejszym. Definiując np. inteligencję mówi się, że jest to efektywność procesów poznawczych. Cechy z pogranicza inteligencji i osobowości to zaś ustosunkowanie motywacyjno – emocjonalne do własnych procesów poznawczych.
Marcin Zajenkowski
183
Jesteśmy w stanie wymienić kilka składników, wchodzących w zakres rozważanych pojęć. Są to: motywacja, procesy afektywne, procesy poznawcze. „Motywacja” jednakże stosowana jest w psychologii do opisu wszelkich mechanizmów odpowiedzialnych za uruchomienie, ukierunkowanie, podtrzymanie i zakończenie zachowania (zob. Łukaszewski 2000). Można zatem powiedzieć, że nie stanowi ona odrębnego przedmiotu, a jest tylko nazwą zbioru przedmiotów, mianowicie – pewnych mechanizmów psychicznych. Skoro i motywacja jest redukowalna, to wskutek analiz dochodzimy ostatecznie do dwóch czynników psychicznych, nad którymi nadbudowane są inne pojęcia5 . Owymi elementarnymi czynnikami są procesy emocjonalne6 i procesy poznawcze. Łatwo zauważyć, że inne pojęcia nawiązują do tych dwóch. Inteligencja jest jak gdyby nadrzędną sferą, odpowiedzialną za efektywność naszego poznania. Osobowość odnosi się do naszego funkcjonowania energetycznego (co przejawia się afektywnie), a inne pojęcia przez nas rozważane są pewną kombinacją dwóch elementów umysłu, to znaczy wskazują na relację pomiędzy procesami poznawczymi a emocjonalnymi. Czym są emocje? Za Dolińskim (2000) przytoczymy tu trzy robocze definicje holenderskiego badacza emocji N. Frijdy, które naszym zdaniem oddają dość dobrze to zjawisko. (1) Emocja jest zwykle wynikiem świadomej lub nieświadomej oceny zdarzenia jako istotnie wpływającego na cele lub interesy podmiotu. (2) Istotą emocji jest uruchomienie gotowości do realizacji programu działania. (3) Emocja jest zwykle doświadczana jako szczególny rodzaj stanu psychicznego. Często towarzyszą jej lub następują po niej zmiany somatyczne, w tym ekspresje mimiczne, reakcje behawioralne. Doliński dalej w swojej pracy proponuje jedną, ogólną definicję emocji. Jednakże poza odrzuceniem pierwszego przybliżenia Frijdy (jako spornego7 ) , jego stanowisko nie różni się od drugiego i trzeciego. Zatem jako ogólną, niekontrowersyjną definicję emocji można by uznać koniukcję (2) i (3). Mamy więc: DEFINICJA Emocja to: (1) uruchomienie gotowości do realizacji działania pod wpływem bodźca zewnętrznego lub wewnętrznego; (2) jest specyficznym doświadczeniem subiektywnym, któremu często towarzyszą zmiany somatyczne i reakcje behawioralne. W celu uzyskania pełnego obrazu emocji spróbujmy powiedzieć jeszcze, czym ona nie jest, to znaczy – odróżnić ją od pokrewnych pojęć. Zakresowo, 5
Pragniemy podkreślić w tym miejscu, że nie uważamy procesów poznawczych i emocjonalnych za jedyne proste składniki umysłu (o czym będzie jeszcze mowa). Twierdzimy tu tylko, że są to jedyne najprostsze elementy psychiki, jeżeli ograniczyć by ją do sfer inteligencji i osobowości (a także pokrewnych – stylów poznawczych itp.). 6 W psychologii poznanie ujmuje się zawsze procesualnie, używając przy tym określenia „procesy poznawcze”. Emocje zaś również określa się mianem procesów, jednakże przyjęło się czasem mówić zamiast „procesy emocjonalne”, po prostu „emocje”. W tekście stosujemy podobną praktykę. Pamiętać jednak należy, że obie kategorie, poznania i emocji, ujmujemy jako procesy. 7 Kwestię poprzedzania oceny poznawczej w powstawaniu emocji sygnalizowaliśmy powyżej. Chodzi o to, żeby definicja emocji była na tyle ogólna, aby nie angażowała się w spór o pierwszeństwo emocji lub poznania.
184
Emocje i procesy poznawcze jako przykład. . .
najbliższe wyrażeniu „emocja” jest wyrażenie „nastrój”. Teoretycy zwracają uwagę na kilka właściwości odróżniających je od siebie. Paul Ekman podkreśla, że przede wszystkim emocje i nastroje różnią się czasem trwania (Ekman, 1999). Emocje są zazwyczaj krótkimi epizodami, chwilowymi przeżyciami, trwającymi od kilku sekund do kilku minut, podczas gdy nastroje utrzymują się przez dłuższy czas, nawet przez kilka dni (jak na przykład nastrój depresyjny u chorych na depresję). Zgodna jest z tym teoria Richarda Davidsona, wedle którego nastroje są obecne cały czas (chociaż czasem bardzo słabe) i nadają koloryt afektywny wszystkim naszym czynnościom (Davidson, 1999). Emocje zaś to chwilowe „perturbacje” pojawiające się na tle nastroju. Drugą różnicą, na którą wskazuje Ekman, jest brak specyficznego wyrazu mimicznego nastroju, tak charakterystycznego w przypadku emocji8 . Ostatnie, naszym zdaniem kluczowe, rozróżnienia pochodzą od N. Frijdy (1999). Nawiązuje on do Franza Brentana, który za najważniejszą cechę stanów psychicznych uznał intencjonalność (Brentano, 1999). Otóż podług Frijdy jest tak, że intencjonalność przysługuje tylko emocjom. Tylko one są skierowane na konkretny obiekt różny od siebie. Nastroje zaś mają bardziej „rozlany” charakter, są raczej gotowością do reagowania emocjonalnego na różne obiekty. Przydatne jest tu rozróżnienie Hume’a na przyczynę i obiekt stanów afektywnych. Nastroje bowiem posiadają przyczyny (np. kłótnia z przyjacielem), ale nie są skierowane na konkretny obiekt. Emocjom zaś, przysługuje zarówno przyczyna, jak i obiekt. Przeciwnicy nieintencjonalnego traktowania nastrojów postulują, że ich obiektem jest świat jako całość. Wydaje się jednak, że jest to mało przekonujące i w gruncie rzeczy nieweryfikowalne twierdzenie. Pytając o istotę procesów poznawczych jesteśmy w większym kłopocie niż w przypadku emocji. Trudno jest znaleźć w literaturze jakąś dobrą ich definicję. Wydaje się, że łatwiej jest zdefiniować je ostensywnie poprzez wymienienie wszystkich kategorii wchodzących w skład nazwy „procesy poznawcze”. Powszechnie wymienia się następujące procesy poznawcze: spostrzeganie zmysłowe, kategoryzacja percepcyjna, uwaga, uczenie się, pamięć, wyobrażenia, pojęcia, język, myślenie i rozumowanie9 . Sytuacja jest więc inna niż w przypadku emocji. Tam bowiem dysponowaliśmy definicją normalną, konotacyjną, aczkolwiek ścisłe wyliczenie kategorii emocji (poza najbardziej ogólnym podziałem na emocje pozytywne i negatywne) jest sporne10 , a być może niemożliwe. W przypadku procesów poznawczych panuje raczej powszechna zgoda co do typów tychże. DEFINICJA Procesy poznawcze to: spostrzeganie zmysłowe, kategoryzacja per8 Nie twierdzimy tu, że każdej emocji towarzyszy wyraz cielesny, bo tak nie jest. Nasze twierdzenie mówi tylko, że wyraz taki nie towarzyszy nigdy nastrojowi. 9 Listę kategorii procesów poznawczych przytaczamy za najnowszym podręcznikiem do psychologii, pod redakcją J. Strelaua (2000). Przyjmujemy ją tylko na użytek niniejszych rozważań. Nie wdajemy się w dywagację, czy jest to lista za wąska, czy też za obszerna. 10 Powstają prace na temat emocji pierwotnych, na których podstawie charakteryzuje się emocje złożone. Przykładem może być tu psychoewolucyjna teoria emocji R. Plutchika.
Marcin Zajenkowski
185
cepcyjna, uwaga, uczenie się, pamięć, wyobrażenia, pojęcia, język, myślenie i rozumowanie. W naszych dociekaniach wyróżniliśmy procesy emocjonalne i poznawcze jako elementarne, wcześniejsze logicznie11 podstawy umysłu. Co jednak pozwala uznać te właśnie przedmioty12 za podstawowe? Być może to one są właśnie wtórne wobec innych? Spróbujemy podać kryteria wedle których będziemy traktowali pewne przedmioty umysłowe jako elementarne i pierwotne13 . Po pierwsze obu typom przedmiotów przysługuje cecha intencjonalności w sensie Brentana (1999). Wszystkie procesy poznawcze odnoszą się do jakiegoś obiektu poza sobą. Spostrzeganie jest zawsze spostrzeganiem czegoś (na przykład zielonego krzesła); myślenie przybiera postać myślenia o czymś (np. o zielonym krześle) itp. Tak samo rzecz się ma z procesami emocjonalnymi, o czym wspominaliśmy wyżej. Intencjonalność jest cechą odróżniającą je od innych przedmiotów afektywnych. Natomiast ani inteligencja, ani osobowość nie są ukierunkowane na żaden przedmiot. Drugą cechą jest bycie stanem psychicznym. Inaczej mówiąc – zarówno proces poznawczy, jak i emocja są przeżyciem świadomości14 . Poszczególne przeżycia wiążą się ze sobą w sposób ciągły tak, iż są fazami ciągłego strumienia przeżyć (por. Ingarden 1963). Można by powiedzieć, że są elementami jamesowskiego strumienia świadomości. Czego tak naprawdę doświadczamy? Czy ktoś kiedyś przeżywał inteligencję? Albo osobowość? Nasze świadome życie psychiczne sprowadza się, w rozważanej przez nas dziedzinie umysłu, do poszczególnych procesów poznawczych, tudzież emocji. W rozwiązywaniu testu inteligencji przeżywam przecież proces myślenia, koncentracji uwagi itp. W tym samym czasie mam też jakieś nastawienie emocjonalne do rozwiązywanego zadania. Oto jedyne składniki mojego świadomego doświadczenia15. DEFINICJA Elementarny przedmiot psychiczny jest to przedmiot, który posiada dwie własności: (1) intencjonalność; (2) może być przeżyciem świadomości. Proponujemy zatem dwa kryteria dla rozróżniania przedmiotów umysłowych pod względem ich elementarności. Są to intencjonalność i możliwość 11
Wcześniejsze logicznie, ponieważ na nich opierają się inne pojęcia. Używam tu wyrażenia „przedmioty” na oznaczenie najbardziej ogólnych jednostek ontologicznych umysłu. 13 Nie chodzi oczywiście o pierwotność chronologiczną, tylko logiczną. 14 Rozważania nasze zbiegają się z dociekaniami fenomenologów. Roman Ingarden nazywa takie przeżycie cogitatio (Ingarden, 1963). 15 Wcześniej zauważyliśmy, że mogą istnieć emocje nieświadome (być może także nieświadome procesy poznawcze). Jednakże wyznacznikiem elementarności jest możliwość bycia przeżyciem świadomym, co nie przesądza, że wszystkie te przedmioty muszą być świadome. 12
186
Emocje i procesy poznawcze jako przykład. . .
przeżycia świadomego16 . Pierwsze z nich uzasadniamy w ten sposób, że w historii dociekań nad umysłem, przyjęło się odróżniać zjawiska psychiczne od fizycznych przy pomocy tej właśnie własności. Intencjonalność przysługuje stanom psychicznym i to jest ich cecha konstytutywna. Dotyczy to nie tylko emocji i procesów poznawczych, ale także takich stanów jak przekonania, pragnienia itp. Wszystkie one kierują się ku czemuś transcendentnemu względem siebie. Drugie kryterium może wydawać się sporne. Dlaczego świadome przeżycie ma być czymś pierwotniejszym od procesów nieświadomych? Otóż o zjawiskach świadomych posiadamy wiedzę bezpośrednią. Jest nią nasze doświadczenie wewnętrzne. O procesach nieświadomych zawsze wnioskujemy. Postulujemy ich istnienie zawsze po ich skutku. Tak samo było we wspomnianych eksperymentach Zajonca. O wpływie bodźca podprogowego wnioskowaliśmy z tendencji ludzi do preferowania pewnych innych bodźców świadomych. Wiedza bezpośrednia, jako pewniejsza, posiada priorytet w nauce.
4. Przyczyny problemów związanych z inteligencją i osobowością Pierwsza przyczyna problemów, związanych z nieadekwatnością pojęć inteligencji i osobowości, wydaje się być oczywista. Wynika z tego, co sygnalizowaliśmy już powyżej w tekście. Chodzi o wzajemne powiązania procesów poznawczych i emocjonalnych. Przyjrzyjmy się jednak bliżej temu zjawisku. Zauważmy, że w naszym codziennym doświadczeniu, nasze funkcjonowanie poznawcze jest nieodłączne od afektu i odwrotnie. Odbierane bodźce powodują w nas jakieś ustosunkowanie. Można by się zastanawiać, czy np. postawa twardego naukowca, który dąży do maksymalnego obiektywizmu w swoich badaniach i stara się wyłączyć – jak to tylko możliwe – nastawienie uczuciowe, nie jest przykładem czystego funkcjonowania poznawczego? Nie. Zazwyczaj motywem do wywołania w sobie takiej naukowej postawy jest ciekawość poznawcza, chęć dążenia do prawdy. Tak samo, gdy dajemy się porwać afektowi, cały czas działają nasze władze intelektualne. Oba czynniki są więc ze sobą ściśle powiązane. Nie chcemy tu jednak forsować tezy, iż niemożliwym jest istnienie „czystych” jednostek poznania, czy też „czystych” emocji. Bardzo dobrze zdajemy sobie też sprawę z różnicy pomiędzy jednymi procesami, a drugimi. Kiedy przyjdzie nam oddzielić, myślowo, w jakimś zjawisku oba czynniki, to zrobimy to bez większych problemów. To co chcemy tu powiedzieć to to, że funkcjonalnie są one ze sobą bardzo ściśle związane, i że w życiu codziennym przenikają się wzajemnie. 16 Mimo, że wielu badaczy sugeruje istnienie emocji nieświadomych (np. R. Zajonc), to my pozostaniemy tu przy emocjach świadomych. Nie negujemy przy tym, możliwości tych pierwszych. Dlatego drugie kryterium opatrzone zostało modalnością.
Marcin Zajenkowski
187
Niech nie dziwi więc fakt, że na przykład inteligencja okazała się pojęciem zbyt oderwanym od rzeczywistego stanu rzeczy. Na to jak rozwiążemy dane zadanie, wpływają w dużym stopniu czynniki energetyczne związane z osobowością, a w ostateczności – z naszym indywidualnym sposobem reagowania emocjonalnego. Nowopowstałe pojęcia stylów poznawczych, cech z pogranicza, inteligencji emocjonalnej, stylów myślenia, a także różne próby łączenia dwóch sfer, mają na celu lepsze oddanie naszego funkcjonowania umysłowego. Druga przyczyna, na którą chcielibyśmy tu zwrócić uwagę, wiąże się z dociekaniami filozofów na temat świadomości. Znane jest w piśmiennictwie rozróżnienie na dwa sposoby podejścia do świadomości (por. Chalmers 1996). Świadomość można rozważać z punktu widzenia pierwszej osoby (first – person approach) lub z punktu widzenia trzeciej osoby (third – person approach)17 . W podejściu trzecioosobowym świadomość jest traktowana jako problem naukowy (Chalmers, 1990). Badacze zbierają dane z obserwacji zewnętrznych i tworzą koncepcje na temat świadomości, tak samo jak na przykład fizycy tworzą teorie na temat zjawisk przyrodniczych. Podejście pierwszoosobowe do świadomości, to badanie tego co jest nieosiągalne dla podejścia trzecioosobowego, czyli naszego subiektywnego doświadczenia. D. Chalmers (1990) wskazuje na trzy główne problemy związane z podejściem pierwszoosobowym. Problem qualiów (problem of sensory qualia). Qualia to jakościowy aspekt naszych stanów mentalnych, zwłaszcza zmysłowych. Przykładem qualiów może być wrażenie koloru, smak czekolady, dźwięk środkowego C, przyjemność, ból18 . Problem subiektywnej treści mentalnej (problem of subjective mental content). Dotyczy on treści naszych myśli. Kiedy myślę o lwie, to jest to treść mojej myśli (za Chalmers 1990). Analiza neuronalna mojego aktualnego stanu może odpowiedzieć na wiele pytań, ale nie powie co jest przedmiotem moich myśli i dlaczego tak się dzieje, że moje myśli mają treści. Istnienie subiektywnego doświadczenia (existence of subjective experience). Thomas Nagel (1974) zadał pytanie jak to jest być x? Jest coś takiego jak subiektywne doświadczenie bycia człowiekiem, bycia nietoperzem itp. Okazuje się, że nie jesteśmy w stanie wyjaśnić w żaden sposób tego odczucia. Jedynie x wie, jak to jest być nim samym. Wydaje się, że w naszym przypadku mamy do czynienia z podobną sytuacją co w filozofii świadomości. Do wyróżnionych przez nas podstawowych przedmiotów umysłowych, poznania i emocji, można również podejść na dwa sposoby. Podejście pierwszoosobowe, to właśnie stwierdzenie ich doświadczania, jako jednego ze składowych naszego strumienia świadomości. Nie jesteśmy w stanie wyjaśnić ich natury. Możemy tylko zaobserwować 17 Będziemy nazywali je odpowiednio: podejście pierwszoosobowe i podejście trzecioosobowe. 18 Przykłady pochodzą od Chalmers (1990).
188
Emocje i procesy poznawcze jako przykład. . .
introspekcyjnie ich istnienie. Od tego też wychodzą psychologowie. Ale na tym nie poprzestają. Aby mogli oni tworzyć naukę, muszą powiedzieć coś o zależnościach występujących w psychice. Z takich to właśnie prób powstają różne konstrukty teoretyczne, mające na celu wyjaśnienie na przykład podobnego reagowania emocjonalnego (przy pomocy kategorii osobowości) w podobnych sytuacjach, czy też względnie stałego poziomu wykonywania pewnych zadań poznawczych (przy pomocy kategorii inteligencji). Wszystkie problemy związane z nieadekwatnością biorą się z tego, że znamy dobrze przedmioty doświadczane przez nas pierwszoosobowo (tu: emocje i poznanie), natomiast w nauce staramy się nad nimi nadbudować pewne pojęcia, które wyjaśniłyby zależności rządzące tymi przedmiotami. Budowane pojęcia są pewnymi modelami, które w lepszy lub gorszy sposób przystają do rzeczywistości.
5. Zastosowania W pracy staraliśmy się, przy pomocy środków filozoficznych, wskazać na przyczyny i możliwości rozwiązania problemu związanego z mnogością różnych teorii wiązania inteligencji z osobowością. Wyniki tych dociekań mogą mieć, jak się zdaje, dwojakie zastosowanie w naukach kognitywistycznych. Po pierwsze – dokładna analiza zagadnienia pozwoliła dokonać pewnych rozróżnień przedmiotów psychicznych. Można więc uznać procesy emocjonalne i poznawcze za podstawy umysłu19 , za elementarne jednostki. Wychodząc od nich – budować definicje przedmiotów bardziej złożonych (np. motywacji, potrzeby itp.), a następnie przejść do kluczowych pojęć: inteligencji, osobowości i pokrewnych. Taka praca pozwoliłaby na stworzenie jednolitej siatki pojęciowej i mogłaby uzgodnić różne stanowiska. Wskazując na zależności pomiędzy dwoma wyróżnionymi przedmiotami, uporządkowalibyśmy mnogość teorii na temat powiązań inteligencji i osobowości. Poza tym, jasne sformułowanie kryteriów przedmiotu prostego sprawia, że można je zastosować co do innych zagadnień psychologicznych. Praca taka może więc być przydatna dla psychologii teoretycznej. Po drugie – dociekanie na temat powiązań procesów poznawczych z emocjonalnymi może być przydatna w tworzeniu tzw. konwersacyjnej sztucznej inteligencji20 . Otóż, przy tworzeniu botów symulujących w rozmowie człowieka, które pozytywnie przechodziłyby test Turinga21 , przydatna jest wiedza zarówno z zakresu wnioskowań itp. (czyli procesów poznawczych), jak i z zakresu wzajemnych powiązań emocji i procesów językowych. Aby oddać adekwatnie ludzkie zachowania językowe, musimy uwględnić wpływ afektu. 19 20 21
Oczywiście zawężając go do rozważanej przez nas dziedziny. Zob. artykuł P. Labenza (2004) w niniejszej książce. zob.: tamże.
Marcin Zajenkowski
189
Literatura Aronson, E. (2000): Człowiek istota społeczna. Warszawa, PWN. Brentano, F. (1999): Psychologia z empirycznego punktu widzenia. Warszawa, PWN. Chalmers, D. (1990): Consciousness and Cognition [tekst niepublikowany]. [@:] http://www.u.arizona.edu/˜chalmers/. Chalmers, D. (1996): The Conscious Mind. In Search of a Fundamental Theory. Oxford, Oxford University Press. Davidson, R. (1999): O emocji, nastroju i innych pojęciach afektywnych. [W:] Natura emocji. R. Davidson P. Ekman (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Doliński, D. (2000): Emocje, poznanie i zachowanie. [W:] Psychologia. Podręcznik akademicki. Tom 2. J. Strelau (red.), Gdańskie Wydawnictwo Psychologiczne, 369–394. Ekman, P. (1999): Nastroje, emocje i cechy. [W:] Natura emocji. R. Davidson P. Ekman (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Frijda, N. (1999): Różnorodność afektu: emocje i zdarzenia, nastroje i sentymenty. [W:] Natura emocji. R. Davidson P. Ekman (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Hofstee, W. (2001): Intelligence and Personality: Do They Mix? [W:] Intelligence and Personality. Bridging the Gap in Theory and Measurement. J. Collins S. Messick (red.), Londyn, Lawrence Erlbaum Associates. Ingarden, R. (1963): Dążenia fenomenologów. [W:] Z badań nad filozofią współczesną, Warszawa, PWN. Kossowska, M., B. Kozak, B. Szymura (1996): Osobowość i inteligencja: badania nad Skalą Doświadczeń Intelektualnych. Zeszyty Naukowe Uniwersytetu Jagiellońskiego, Prace Psychologiczne 13, 104–114. Labenz, P. (2004): Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina. [W:] Kognitywistyka. O umyśle umyślnie i nieumyślnie. K. Szymanik M. Zajenkowski (red.), Warszawa. Lazarus, R. (1999): Ocena poznawcza. [W:] Natura emocji. P. Ekman R. Davidson (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Ledzińska, M. (2000): O niektórych próbach łączenia inteligencji i osobowości. Psychologia Wychowawcza 57, 1–10. Łukaszewski, W. (2000): Motywacja w najważniejszych schematach teoretycznych. [W:] Psychologia. Podręcznik akademicki. Tom 2. J. Strelau (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Łukaszewski, W. (2000): Psychologiczne koncepcje człowieka. [W:] Psychologia. Podręcznik akademicki. Tom 1. J. Strelau (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Matczak, A. (2000): Style poznawcze. [W:] Psychologia. Podręcznik akademicki. Tom 2. J. Strelau (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Matysiak, J. (2000): Psychologia fizjologiczna. [W:] Psychologia. Podręcznik akademicki. Tom 1. J. Strelau (red.), Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Mayer, J.D., P. Salovay (1997): What is emotional intelligence? [W:] Emotional development and emotional intelligence: educational implications. P. Salovay D. Sluyter (red.), New York, Basic Books. Murphy, S., R. Zajonc (1994): Afekt, poznanie i świadomość: rola afektywnych bodźców poprzedzających przy optymalnych i suboptymalnych ekspozycjach. Przegląd Psychologiczny 37, 261–299.
190
Emocje i procesy poznawcze jako przykład. . .
Nagel, T. (1974), What is it like to be a bat? Philosophical Review 83, 435–450. Nęcka, E. (2003): Inteligencja. Genzeza, struktura, funkcje. Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Sadowski, B., J. Chmurzyński (1989): Biologiczne mechanizmy zachowania. Warszawa, PWN. Strelau, J. (1997): Inteligencja człowieka. Warszawa, PWN. Strelau, J. (2000): Psychologia. Podręcznik akademicki. Tomy 1–3, Gdańsk, Gdańskie Wydawnictwo Psychologiczne.
Skorowidz
Fully Automated Machine Translation, FAMT, 68 generowanie poprawnych wniosków, 5 glej, 174 głębokość przetwarzania, teoria, 171 gramatyka Montague, 118 Hole Semantics, 136 Human Aided Machine Translation, HAMT, 67
abstrakcja funkcyjna, 121 afekt, 186 aktywacja, 144 anafora, 137 leksykalna, 138 anozognozja, 167 astrocyt, 164 asymetria półkulowa, 173 automatyczne przetwarzanie, 172
import egzystencjalny, 145 integracja, mechanizmy integrujące, 168 inteligencja, 177 emocjonalna, 182 intencjonalność, 184 język fizyczny, 32 psychologiczny, 29 reprezentacji znaczenia, 117 Johnson-Laird, Philip N., 16
Bara, Bruno, 16 behawioryzm, 36, 42 cechy z pogranicza inteligencji i osobowości, 181 Chomsky, Noam, 41 cognitive neuroscience, 157 science, 157 Computational Semantics, 126
kategoria ontologiczna, 51 kognit, 160 kompetencja językowa, 1, 114 logiczna, 5 kompozycyjne przypisanie znaczenia, 131 komputacyjna teoria umysłu, 158 konekcjonizm, 159 konfiguracja aktywująca, 144 kora mózgowa, 160 koreferencja, 138 kwantyfikacja, 46 kwantyfikator uogólniony, 133 kwantyfikowanie do wnętrza, 127
discourse markers, 142 Discourse Representation Structures, 141 Discourse Representation Theory, 117 dopasowanie słów, 89 tekstu, 87 dostępność, 146 DPL, 150 DRS, 141 DRT, 117 Dynamic Predicate Logic, 150 dynamiczna koncepcja znaczenia, 141, 150 logika predykatów, 150 dyskurs, 146
leksykon, 125 logika dynamiczna, 142 intensjonalna, 119 temporalna, 131 lokalizacjonizm, 165
elementarny przedmiot psychiczny, 185 emocje, 183 eventuality, 132
Machine Aided Human Translation, MAHT, 67 mechanizm niedospecyfikowania, 131
191
mechanizmy obrony ego, 179 meta-zmienna, 135 monizm anomalny, 31
semantyka dynamiczna, 131 formalna, 113 informatyczna, 126 języka naturalnego, 113 leksykalna, 151 prawdziwościowa, 117 sytuacji, 131 warunków prawdziwości, 117 sieć semantyczna, 152 silna kompozycyjność, 130 stan kontekstu, 141 rzeczy, 131 świata, 114 struktura reprezentacji dyskursu, 141 style myślenia, 181 poznawcze, 181 sylogizmy, 12
neuronalna sieć, 160 neuroobrazowanie, 164 neuroscience, 160 niedookreślenie, 135 niejednoznaczność, 135 Nowa Synteza, 159 obliczeniowa (komputacyjna) teoria umysłu, 158 opis zachowania, 29 osadzanie, 149 osobowość, 177 ośle zdania, 138 pobudzenie całościowe, 42 podobieństwo percepcyjne, 43 recepcyjne, 43 podstawienie funkcyjne, 125 poprawność logiczna, 4 postulat znaczeniowy, 126 poziomy integracji, teoria, 171 problem psychofizyczny, 161 procesy emocjonalne, 180 poznawcze, 184 przekonania, 37 psychologia rozwojowa, 41 PTQ, 119
świadomość, 187 teoria prawdy, 117 semantyczna, 114 terminy abstrakcyjne, 15 konkretne, 15 niepuste, 22 puste, 13 test Wasona, 15 tkanka glejowa, 164 transfer leksykalny, 72 semantyczny, 80 syntaktyczny, 76 typ kwantyfikatora, 133 logiczny, 127 typy podstawowe, 120
quantifying-in, 127 Quine, Willard van Orman, 41 rachunek lambda, 151 racjonalność, 38 redukowalność, 35 referent, 142 refleksyjne przetwarzanie, 170 reguła semantyczna, 119 reifikacja, 46 reprezentacja niedospecyfikowana, 134 rozpoznawanie poprawności wnioskowań, 3 rozumowania, 18 rozumowania sylogistyczne, 2
UDRS, 137 wartościowanie, 127 warunki prawdziwości, 118 wnioskowanie poprawne semantycznie, 4 wypełnienie, 135
192
wypowiedź, 134 zaimek, 138 założenie racjonalności, 31 zasada kompozycyjności, 115, 124 zdanie obserwacyjne, 44 zdarzenie, 132 znaczenie, 115 deskryptywne, 141 leksykalne, 153 znacznik dyskursu, 142 znaczniki referencji, 142
193