Około dwóch miesięcy temu na Seminarium Filozofii Nauki w Politechnice Warszawskiej gościliśmy Profesora André Włodarczyka, który z perspektywy swoich teorii semantycznych omówił szereg zagadnień związanych z przełomową dla rozwoju sztucznej inteligencją koncepcją modeli LLM (Large Language Models).
Myślę, że warto dotknąć tych zagadnień również w blogu.
Za punkt wyjścia dyskusji niech posłuży nam poszerzony abstrakt wygłoszonego na seminarium referatu. Zachęcam, aby odnieść się zarówno do kwestii w nim poruszonych, jak również innych kwestii, które pojawiają się na pograniczu lingwistyki, informatyki i filozofii nauki.
********* A OTO ABSTRAKT SEMINARYJNEGO REFERATU ********
Od kilku lat modele LLM (Large Language Models) robią furorę w internecie, ponieważ prezentowane są jako przejawy „Sztucznej Inteligencji”, a dokładniej: sztucznego myślenia w językach naturalnych. Czym więc LLM-y są oraz do czego mogą, ale i do czego nie mogą służyć w praktycznych zastosowaniach zwłaszcza podczas badań naukowych. Jak doszło do tego, że możliwość przekładu automatycznego i nawet dialogu człowieka z maszyną, poprawnego w językach naturalnych, pojawiła się tak szybko, bo ok. 3/4 wieku po zbudowaniu pierwszych komputerów?
W referacie nie będzie mowy ani o szczegółach dotyczących wyuczania (training) głębokich sieci neuropodobnych (Deep Neural Networks – DNN) ani o licznych algorytmach zwanych transformerami, które w połączeniu z DNN tworzą obecne LLM-y. Jednakże wskażę na zaawansowane programy badawcze zarówno takie, które należą już do tradycji badań nad przetwarzaniem języków naturalnych (NLP) jak i takie, które stanowią podstawy do budowania nieodzownych dla LLM-ów transformerów w różnych postaciach najnowszych rozwiązań.
Ponadto referat będzie także próbą wprowadzenia w problematykę ogólnego językoznawstwa, którego sedna można się dopatrywać w trudnościach, z jakimi borykają się dzisiaj nie tylko lingwiści, ale naukowcy, których obszary zainteresowań są między innymi zawarte w pytaniach takich, jak:
– czy możliwe jest sformułowanie definicji języka jako przedmiotu w rzeczywistości językowej w taki sposób, żeby mógł się stać obiektem nauk ścisłych?
– czy w skład gramatyk ok. 7.000 języków świata wchodzą reguły i struktury, które są jednakowe dla nich wszystkich?
– czy człowiek myśli w języku naturalnym czy też w jakimś specyfiznym języku myśli?
Badania nad językiem we wszystkich dziedzinach nauki i jego wytworami trwają więc nadal, tym bardziej, że wiedza o języku (choć w niektórych przypadkach skuteczna bardziej niż kiedykolwiek), jest dla nas niedostępna w sensie pojęciowym i inferencyjnym. Twórczość w nauce nie polega jednak na „halucynacjach”, lecz wymaga generowania nowych pomysłów, odkryć i rozwiązań, które poszerzają naszą wiedzę i zrozumienie świata.
Słowem: skoro LLM-y są pozamykane w czarnych skrzynkach – to pozostaje nam niebłahe zadanie do wykonania: rozbić czarną skrzynkę. Wskażę na ważniejsze projekty badawcze w tej materii oraz przedstawię w ogólnym zarysie inicjatywę opracowania komputerowych metod celem zbudowania narzędzi służących do zinformatyzowania badań lingwistycznych w ramach Ośrodka badań nad lingwistyką teoretyczną i stosowaną (Centre de linguistique théorique et appliquée – CELTA) na Sorbonie w latach 2004-2014.
To właśnie w ramach tej inicjatywy powstały teorie Meta-informative Centering (MIC) i (Associative Semantics (AS), które zostały połączone i rozwinięte pod ogólną nazwą Distributed Grammar (Gramatyka Rozproszona). Omówię w szczegółach m.in. teorię uogólnionej predykacji, jako że – z jednej strony – stanowi ona rozwiązanie od tysiącleci znanego problemu filozoficznego – zaś z drugiej strony – wyjaśnia, w jaki sposób „centra uwagi” (CA) czy attencje strukturyzują wypowiedzi, które kierują skupianiem uwagi rozmówców. Jest to zgodne z poglądem na uwagę jako selektywnym mechanizmie w komunikacji językowej w ramach urządzeń LLM.
Zalecane LINKI
2010 Time for a sea-change in linguistics
2013 Meta-informative Centering in Utterances
2016 O Pragmatycznej naturze predykacji
2015 Informatyka szansą na rozwój naukowej lingwistyki
2022 Concepts and Categories: A Data Science Approach to Semiotics
******************************************************************
Najserdeczniej zapraszamy do dyskusji — André Włodarczyk i Paweł Stacewicz.
Czy rzeczywiście możliwość automatycznego przekładu pojawiła się szybko? Biorąc pod uwagę przewidywania twórców pierwszych komputerów, mamy pół wieku spóźnienia. Albo – jeśli ktoś woli podejście ilorazowe – czas realizacji przekroczony o dwieście procent.
Tłumaczenia komputerowe miały stać się faktem już na początku lat siedemdziesiątych. Argumentowano to tym, że podręcznik gramatyki dowolnego języka nie jest aż tak grubą książką, by nie dało jej się szybko przełożyć (siłami ludzkimi) na jakiś fortran, a słownik to po prostu tablica (w sensie znanym z języków programowania). Dość duża jak na ówczesne możliwości maszyn, jednak w perspektywie ćwierćwiecza do osiągnięcia. Tak określone wymagania pamięciowe to pojedyncze megabajty. Podobny poziom technika osiągnęła właśnie koło 1970 roku – tutaj przewidywania dobrze się sprawdziły.
Z drugiej strony, w tamtym okresie sądzono, że komputery być może nigdy nie będą w stanie grać w szachy. Argumentacja była podobna – liczba możliwych kolejnych ruchów jest tak wielka, że zapamiętanie wszystkiego w celu analizy i wyboru najlepszego posunięcia przekracza możliwe do wyobrażenia (i realizacji technicznej) pojemności pamięci. Jednak komputery zaczęły wygrywać z mistrzami szachowymi już pod koniec wspomnianej dekady. Dzisiaj nie mamy wątpliwości co do tego, że żaden człowiek nie jest w stanie opanować gry w szachy na takim poziomie, by nie przegrywać z komputerem jednej partii po drugiej.
W latach 1980. miałem wrażenie, że przekład automatyczny poezji miał stać się możliwy dopiero po upływie 500 lat pomimo że – sam sobie nie dowierzając – sądziłem także, że na automatyczne tłumaczenie tekstów naukowych wystarczyć powinno 10-krotnie mniej czasu. A jak to wtedy rozumiałem, taka sytuacja miałaby szanse na powstanie tak szybko, jak tylko miałoby nam się udać połączyć wszystkie istniejące wtenczas komputery w jeden „Wielki Mózg Świata”.
Dlaczego było to jednak możliwe? Otóż dlatego, że powstały obszerne bazy danych tekstowych, na podstawie których tysiące naukowców mogło wyuczać tzw. „uczące się” sieci neuronowe obliczania „skojarzeń” między wyrazami, zwanymi dzisiaj tokenami. Jednakże tak naprawdę to także nie wystarczyłoby, ponieważ potrzebna była jeszcze infrastruktura materiałowa, przede wszystkim niezmiernie (na tamte czasy niewyobrażalnie) szybkie procesory, bardzo pojemna pamięć elektronowa oraz także bardzo szybka sieć powstającego jeszcze Internetu, a poza tym – choć to może mniej chwalebne, bo według mnie chodzi raczej o “łatanie dziur” (patches) – ale nieodzowne wykorzystanie trwającej ponad pół wieku synergii w badaniach nad aspektami technicznymi tzw. „przetwarzania” j. naturalnych (NLP – Natural Language Processing) włącznie z trzema światowymi ówczesnymi projektami badawczymi w zakresie przekładu automatycznego – dzisiaj można by powiedzieć – w ramach paradygmatu konceptualnego. Mam na myśli projekty USA, Wspólnoty Europejskiej i Japonii z budżetami: europejski 2 razy mniejszy od amerykańskiego oraz japoński, który – na odwrót – był 2 razy od niego większy.
O konieczności zastosowania operacji „przydzielania tokenów ważności”, którą nazwano uwagą (attention) napisałem w streszczeniu oraz mówiłem na „Seminarium filozofii nauki i informatyki” dr-a Stacewicza.
Bezpośrednio po tym seminarium przygotowałem taki wpis, ale nie było jeszcze tego tematu na blogu.
Proponowane rozbicie czarnej skrzynki jest rzeczywiście pociągającym wyzwaniem – chciałoby się ‘wiedzieć’ jak ona to robi. W zasadzie to jednocześnie pytanie – jak myślimy.
Problem w tym, że nasze oczekiwania niekoniecznie są możliwe do zrealizowania.
Oczekiwania z czegoś wynikają, a uświadomienie sobie skąd, jest często bardzo trudne. Po uświadomieniu zauważamy alternatywy i uwarunkowania.
Dam prosty przykład z mojego podwórka:
Jest, raczej była, taka fenomenologiczna prawidłowość ewolucji ontogenezy zwana ‘rekapitulacja’. Póki nie było genetyki, miała ona powszechnie przyjmowane wyjaśnienie w postaci dziedziczenia cech nabytych. Wyjaśnienie upadło wraz z nastaniem królowania genetyki, a z genów nie udało się wyjaśnić tych obserwacji. Ja w latach 70-tych znalazłem wyjaśnienie w statystycznych tendencjach strukturalnych ewolucji sieci złożonych. Do końca ubiegłego tysiąclecia biolodzy nie chcieli nawet poznać moich argumentów twierdząc, że jeżeli w biologii ewolucyjnej coś wyjaśnione jest nie na podstawie genów, to w ogóle nie jest wyjaśnione.
Dziś powoli to się zmienia, ale jeszcze nie podejmują dyskusji. Są jeszcze zdumieni, że ich oczekiwania można było podważać.
W przypadku naszego problemu przede wszystkim należy sobie uświadomić szczególne własności sieci neuronowej. Są wyraźnie dwie różne sieci, które na pozór wyglądają bardzo podobnie. Może przejście między nimi nie ma granicy, ale my widzimy je z dwóch bardzo innych perspektyw.
Nasze rozumowanie kontrolowane świadomością jest sekwencyjne – tworzy ciąg przyczynowo-skutkowy. Możliwość takiego rozumowania wydaje się wyróżniać nasz gatunek.
Zauważamy jednak, że praktyczne problemy są bardziej złożone i opisuje je nie ciąg, a sieć uzależnień. Jesteśmy zdolni ogarnąć prostsze, małe sieci takich uwarunkowań, ale do większych nasza zdolność okazuje się za mała. Musimy je rozpisać na kawałki, rozpatrywać osobno i łączyć wnioski, ale to już ‘w głowie się nie mieści’.
To jest typ sieci, którą nasza intuicja jeszcze pojmuje. Np. sieć Kauffmana, czyli logiczna, ale są i inne. W takiej sieci, gdy wyrzucimy/odłączymy jakiś węzeł, to wyniki będą całkiem inne. To właśnie jest chaos. Takie sieci są zazwyczaj ‘chaotyczne’. Okoliczności, w których mimo wyjęcia węzła wyniki są zbliżone (czyli sieć jest ‘uporządkowana’) są na prawdę wyjątkowe.
Ale w rozważanym problemie mamy sieci neuronowe. Tu wyrzucenie nawet kilku węzłów prawie nic nie zmienia, prawie zawsze. Zmienia się jedynie dokładność wniosku. Im większa jest taka sieć, tym mniejszy efekt wyjęcia z niej kilku węzłów. Sieć działa jako całość, a my nie mamy szans wskazać jakiegokolwiek kawałka ciągu przyczynowo-skutkowego. Nie dla tego, że my tego jeszcze nie umiemy, bo umiemy, ale dlatego, że nasze oczekiwanie jest inne i błędne.
Podam jeszcze inny przykład podobnego przypadku – hologram. To zdjęcie zrobione błyskiem lasera. Można takie zdjęcie zrobić na szybie okna. Później patrząc przez to okno widzimy trójwymiarowy przedmiot tak, jakby tam był. Ale jak tą szybę zbijemy i rozleci się na kawałki, to patrząc przez każdy z tych kawałków widzimy nadal cały przedmiot, a zmieniając kierunek patrzenia widzimy poprawnie w tym innym kierunku. Nie da się wskazać prążków na tym zdjęciu odpowiadających twarzy, by coś wyretuszować. Takie oczekiwanie jest błędne. Każdy kawałek tego zdjęcia niesie informację o całej przestrzeni za szybą.
W przypadku sieci neuronowej i hologramu dobrze wiemy, dlaczego tak jest, umiemy to obliczać, mamy więc pełną informację, jak to się robi. Czarna skrzynka jest tylko z pozoru czarna. Ale nasze oczekiwanie jest inne, chcemy to ‘ogarnąć’, przełożyć na niewielką sieć typu Kauffmana wiążącą przyczyny i skutki prowadzące do konkretnych elementów/cech wyniku. Wydaje się, że jest to nieosiągalne z natury tych mechanizmów.
Trochę to podobne do poszukiwania kwiatu paproci.
Wydaje mi się, że nasz mózg jest niezbyt wielką siecią Kauffmana gdzie węzłami są sieci neuronowe. Trochę to daleko do naszych zdolności ‘ogarnięcia’. Raczej nasze myślenie, które odbywa się prawie całe poza naszą świadomością, nie posiada ‘reguł’ takich, jakich oczekujemy, które daje się opisać siecią przyczynowo-skutkową, czyli gramatyką. To głównie wynik działania sieci neuronowych, który podawany jest świadomości już po wyprodukowaniu wyniku, tylko do ‘podpisu – akceptacji’.
Ja nie twierdzę, że postawienie tego pytania/zadania (‘rozbić czarną skrzynkę’) jest błędem. Trzeba stawiać pytania i dopiero po tym poszukuje się na nie odpowiedzi. W trakcie tego poszukiwania zwykle pytanie jest modyfikowane, bo wiemy coraz więcej na temat jego uwarunkowań. I o tą wiedzę chodzi. Bez tego pytania by jej nie było.
Po tym seminarium wysłałem to do prof. Włodarczyka i nastąpiła dyskusja, której skrót dopiero muszę podsumować. Przede wszystkim, to przestrzenie naszych pojęć okazały się bardzo inne, przez co główny wysiłek tych dyskusji to uzgodnienie pojęć, bo treści słów bywają zaskakująco odmienne. Np. takim słowem jest ‘informacja’, którą rozumiemy całkiem inaczej.
Ukazał się już jeden wpis, do którego też chciałbym się odnieść. Gramatyka i słownik, to jednak, jak się w życiu okazuje, o wiele za mało. Pomińmy tu problem, że język angielski jest ‘idiomatyczny’. Głównym problem jest właściwe dobranie słów do danego kontekstu, a to wynika ze zwyczajowych ‘kolein’ myślenia nadawcy i odbiorcy. Doświadczałem tego na lekcjach polskiego w szkole, gdzie zawsze miałem podkreślone połowę wypracowania, jako zły styl… ale jak w prostszych przypadkach pytałem nauczycielkę, jak powinienem tą myśl wyartykułować, to nie potrafiła wskazać formy ‘poprawnej’ i wniosek był zwykle taki: „jak nie umiesz wyrazić myśli poprawnie, to jej nie wyrażaj…”. Dlatego dopiero teraz automatyczne tłumaczenie zaczyna spełniać swoje zadania (stosując sieci neuronowe), ale jeszcze bardzo wiele trzeba po nim poprawiać, podobnie wiele, jak po znawcy języka, który sprawdza jego „poprawność”, ale nie rozumie, o czym tu jest mowa.
Apropos rozbijania czarnej skrzynki, to ja bym tak szybko nie składał broni 😊.
Z pewnością trudniej jest rozszyfrować, co się dzieje wewnątrz naturalnej czarnej skrzynki, jaką jest mózg (w tym: jak się przekładają realizowane w niej niskopoziomowe procesy neuronalne na postrzegane świadomie treści), niż rozjaśnić wnętrze sztucznych sieci neuronowych. Wszak to my jesteśmy twórcami tych drugich. Wiemy, jak one działają — w szczególności: znamy dokładnie algorytmy uczenia tych sieci, polegające, prawie zawsze, na tak czy inaczej ukierunkowanej zmianie wag połączeń międzyneuronalnych.
Oczywiście znam właściwy sztucznym sieciom „problem czarnej skrzynki” (mamy w blogu nawet osobny wpis na ten temat), ale mimo wszystko, uważam, że powinniśmy poszukiwać metod wydobywania z tego rodzaju skrzynek przejrzystej znaczeniowo wiedzy. Skądinąd wiadomo, że prace nad XAI trwają i jest w ten program zaangażowanych wielu informatyków. Podejrzewam więc, że coś da się „ogarnąć”; a jeśli tak, to otwiera nam się droga do rozbicia naturalnej czarnej skrzynki – bo w jakimś zakresie wyniki uzyskane w dziedzinie sieci sztucznych, o ile te ostatnie potraktujemy jako modele mózgu lub jego fragmentów, możemy wykorzystać w badaniach nad mózgiem. To zresztą powszechna w nauce metoda modelowania.
Jeśli chodzi o coraz bardziej powszechną dziś tendencję do traktowania systemów AI (głównie opartych na modelach LLM) jako przedmiotów badań eksperymentalnych, a nie formalnych, to uważam ją za „pójście na łatwiznę”. A patrząc z innej perspektywy: wygodną i stosunkowo łatwą ścieżkę mnożenia publikacji typu „zadaliśmy czatowi GPT takie a takie pytania, uzyskaliśmy takie a takie odpowiedzi; nabudujmy na tym jakąś koncepcję”.
We wpisie sprzed kilku miesięcy pt. „Sztuczna inteligencja. Jeden kolor, trzy metafory…” napisałem coś takiego: „ [Zgodnie z aktualnie panującą modą] … Traktuje się system jak czarną skrzynkę, na której wejścia podaje się różne kombinacje danych (w tym: pytania) i sprawdza się, jak system reaguje. Badania formalne, odwołujące się do matematycznych własności wykorzystywanych struktur danych i algorytmów, należą do rzadkości. System informatyczny – mimo, że został zaprojektowany zgodnie z opracowaną przez człowieka specyfikacją – traktuje się jak obiekt czysto empiryczny. Bada się go eksperymentalnie, podobnie jak zjawiska przyrodnicze i społeczne.
Czy jesteśmy na to skazani i czy nie jest możliwe inne, bardziej matematyczne, podejście…? Oto jeden z ciekawych tematów do dyskusji – być może nawet, zasługujący na osobny wpis”.
Mogę się pod tym podpisać ponownie.
Ja nie postuluję składania broni. Główną tezą mojego wpisu było, że przede wszystkim musimy możliwie celnie uświadomić sobie, czego oczekujemy. Sądzę bowiem, że oczekiwania od rozbicia ‘czarnej skrzynki’ są mało realne, co nie znaczy, że inne oczekiwania nie mogą być bardziej realne.
Rozumiem, że pierwsze oczekiwanie to przetłumaczenie wyników uzyskanych przez czarną skrzynkę na małą sieć przyczynowo skutkową. Jako ludzie współcześni jesteśmy w stanie ‘ogarnąć’ tylko małe takie sieci. Możliwe, że korzystając ze znajomości reguł sieci neuronowych, dało by się uzyskane wagi zinterpretować jako wielką sieć przyczynowo-skutkową, ale z tego żaden pożytek – nie tego oczekujemy. Ogrom aspektów skorelowanych w takiej sieci nas przerasta, my dążymy do uproszczeń, by dało się coś zrozumieć.
Nie czuję się znawcą sieci neuronowych, ale mam takie skojarzenia: Jak piękne kolorowe zdjęcie twarzy o dużej rozdzielczości przekształcimy na małą rozdzielczość i formę czarno-białą, jeszcze daje się rozpoznać tą twarz.
Może należy obciąć wagi jedynie do dużych, w możliwie niewielkiej sieci neuronowej. Wtedy możemy oczekiwać tworu zbliżonego do oczekiwanej sieci przyczynowo-skutkowej. Wskaże ona najważniejsze korelacje, a my będziemy jeszcze w stanie ją zinterpretować. Ale język naturalny raczej nie zmieści się w małej sieci. Może da się jakoś ograniczyć do określonych aspektów… Broni składać nie należy, trzeba możliwie sensownie określić nasze oczekiwania.
Tylko narazie o jednym szczególe, ale do reakcji na ten wpis skłania mnie moja profesja. Przyjeło się sądzić , że j. angielski jest językiem idiomatycznym bardziej niż inne. Gdyby jakiś pedagog polonista czy może pedagożka polonistka napisał/a podręcznik j. polskiego dla początkujących cudzoziemców, to ci biedni obcokrajowcy także (z podziwem dla polskiej kultury) mogliby odnieść wrażenie, że nasz język jest także idiomatyczny. Na szczęście, nasi poloniści szanują cudzoziemców, i postarali się zrobić wszystko, by im ułatwić dostęp do jakże „trudnego” języka.
Dla przykładu zadam pytanie: czyż naprawdę nie trzeba „na pamięć” nauczyć się znaczenia słowa “postanowić”, by zrozumieć że odpowiada ono angielskiemu wyrażeniu „to make one’s mind up”?
Mam powody po temu, by sądzić, że „sieci neuronowe” są odpowiednikami pewnego rodzaju „rodzin krat” zbudowanych z „pojęć formalnych” (z dziedziny badań FCA – Formal Concept Analysis). Są one zatem wynikiem działania „systemu” językowego (w cudzysłowie, bo system ten tylko do pewnego stopnia (połowicznie ?) zasadza się na regułach.
I choć „rozbicie czarnej skrzynki LLM-ów” – to póki co raczej metafora, z doświadczenia badań interaktywnych nad językami wyniosłem intuicję tego, że właśnie przy współpracy z istniejącymi LL-modelami, możliwym się stanie utworzenie konceptualnej teorii języka/ów, na podstawie której/ych uda nam się wreszcie zbudować modele konceptualne języka/ów. Postępując jednocześnie w podobny sposób mógłby powstać model pozyskiwania wiedzy (jak w badaniach nad percepcją), ponieważ korzystając z nabytego doświadczenia, także powinno się nam udać utworzyć teorię świadomego myślenia, bez którego nie może być mowy o języku/ach. Przy czym nawiasem mówiąc: ani język(i) nie są całkiem autonomiczny/e wobec myślenia ani też nie myślimy wyłącznie w języku/ach.
Informacja przekazywana w językach naturalnych (nazwijmy ją semio-informacją) jest w nich zakodowana, podobnie jak informacja (nazwijmy ją bio-informacją), z której powstają białka. Nawet po najmniej złożonych porównaniach tych dwóch rodzajów informacji, można się przekonać, że o ile rola semio-informacji polega faktycznie na przekazywaniu treści, o tyle bio-informacja jest zgoła czym innym. Przeprowadziłem następujący eksperyment: ukułem dwa neologizmy na bio-informację (performacja i proformacja) oraz zapytałem SI (LLM), jak by je mogła zdefiniować w porównaniu z semio-informacją w językach naturalnych.
Wystarczy, że przytoczę tu tylko podsumowanie otrzymanej odpowiedzi :
//+++
„ Bio-informacja (performacja i proformacja) dotyczy biologicznych mechanizmów informacji, działających na poziomie molekularnym, komórkowym czy organizmalnym.
• Semio-informacja to systemy znakowe, wymagające interpretatora (np. człowieka, społeczności), w odróżnieniu od biologicznych systemów samoregulujących się.
• Performacja i proformacja są związane z fizycznym ucieleśnieniem informacji, podczas gdy semio-informacja istnieje w wymiarze symbolicznym i kulturowym.
+++\\
Nic więc dziwnego, że w naszej dyskusji z Andrzejem Gecowem, u podstaw porównywanych zjawisk napotkaliśmy na znaczne różnice w używanych terminach. Jednakże wymiana maili zachęciła mnie do dalszych uściśleń przy pomocy narzędzi sztucznej inteligencji… Okazało się, że moje wysiłki w dziedzinie tworzenia neologizmów (choć zasadniczo rzadko to czynię) przyniosły pewne ciekawe uściślenia. W pierwszym rzędzie dowiedziałem się, że termin „bioinformacja” nie jest już neologizmem. Natomiast ukuty przeze mnie termin „semioinformacja” stał się chyba twórczym zaczynem dla SI (LLM), ponieważ otworzyło się dla mnie pole do nowatorskich porównań kodu genetycznego do języka naturalnego:
//+++
Termin „semioinformacja” nie jest powszechnie stosowany jako ustalone pojęcie naukowe, ale można go rozważyć w kontekście dwóch dziedzin: semiotyki (nauki o znakach) i teorii informacji.
Możliwe definicje semioinformacji:
1. Semioinformacja jako informacja znakowa – połączenie semiozy (procesu tworzenia i interpretacji znaków) oraz informacji. W tym ujęciu semioinformacja oznacza informację przekazywaną i interpretowaną poprzez znaki, symbole i systemy komunikacyjne, np. języki naturalne, obrazy, gesty, teksty kultury.
2. Semioinformacja w teorii informacji – mogłaby oznaczać informację zależną od kontekstu interpretacyjnego, w odróżnieniu od informacji czysto syntaktycznej (Shannonowskiej). Przykładem byłaby informacja językowa, której znaczenie zmienia się w zależności od kultury, historii i sytuacji.
3. Semioinformacja w biosemiotyce – w biologii można by rozważać semioinformację jako informację biologiczną, która pełni funkcję znakową, np. feromony jako „znaki” w komunikacji owadów, sygnały neuronalne jako „znaki” w układzie nerwowym. W tym sensie semioinformacja byłaby odmianą bioinformacji, ale interpretowaną w kategoriach semiotyki.
+++\\
Przytaczając wynik tego eksperymentu jako komentarz do wpisu Andrzeja G. właściwie odnoszę się do samego siebie, a mianowicie do stwierdzenia, jakim zakończyłem ponad 2-godzinną debatę po moim wystąpieniu na seminarium:
„Pomimo że LLM-y są modelami języków, o których wiedzę nabyły czy też których znajomość posiadły na podstawie „obszernych baz danych tekstowych”, obecna inteligencja sztuczna stanowi jednak zaledwie skrawek inteligencji ludzkiej”.
Niech więc ten mój eksperyment (oraz ten wpis) będzie dodatkiem do wykładu z nieco bardziej optymistyczną puentą: „nie odmawiajmy sobie sposobności korzystania z usług tej SI pierwszej generacji, pod warunkiem, że świadomi będziemy bardzo poważnych ograniczeń transformerów (algorytmów), za sprawą których jednak w mgnieniu oka uzyskać możemy już dzisiaj dostęp do wszelkiej (lub prawie wszystkiej) wiedzy na świecie”.
Co tak naprawdę oznacza „rozumienie” w kontekście sztucznej inteligencji? Problem nieprzejrzystości modeli LLM przypomina klasyczne dylematy filozofii umysłu. Trudność nie polega jedynie na tym, że nie potrafimy wskazać, jak dany model wygenerował konkretną odpowiedź, lecz przede wszystkim na tym, że nie mamy pewności, czy w ogóle możemy mówić o jakiejkolwiek formie rozumienia po stronie maszyny. W filozofii, słowo „rozumienie” zakłada istnienie intencji, znaczenia, odniesienia – czegoś więcej niż tylko przetwarzania danych.
Mamy dziś dostęp do modeli językowych, które potrafią wytwarzać spójne, sensowne i nawet błyskotliwe wypowiedzi, a jednak – jak trafnie zauważono – pozostają dla nas w wielu aspektach „czarną skrzynką”. Czy jednak rzeczywiście największym wyzwaniem jest rozbicie owej skrzynki? A może raczej określenie, czego w niej właściwie szukamy?
Model LLM nie rozumie ani nie interpretuje – on działa. Jego odpowiedzi nie są efektem rozumienia w ludzkim sensie, lecz rezultatem statystycznego ważenia prawdopodobieństw. I tu pojawia się etyczne pytanie: czy możemy przypisywać wartość poznawczą lub moralną systemowi, który nie posiada zdolności rozumienia, lecz jedynie reprodukcji?
Wydaje się, że dziś, rozwijając LLM-y, zmierzamy w stronę działań opartych na technicznej potędze pozbawionej filozoficznej refleksji nad celem i sensem: doskonalimy narzędzie, którego możliwości coraz trudniej nam pojąć, ale którego używamy z rosnącą ufnością. Czy etycznie dopuszczalne jest powierzenie takiemu systemowi zadań, które wpływają na życie społeczne, np. decyzje prawne, medyczne czy edukacyjne? LLM-y mogą być nowoczesnym mitem – fascynującym, użytecznym, ale bezrefleksyjnie uznawanym za źródło wiedzy, choć tak naprawdę są zaledwie mechanizmami korelacyjnymi.
Zamiast tylko próbować „rozbić czarną skrzynkę”, może powinniśmy zadać inne pytanie: jakie są etyczne granice wykorzystywania narzędzi, których działania nie rozumiemy, ale którym zaczynamy ufać bardziej niż sobie nawzajem? Ostatecznie nie chodzi tylko o to, czy LLM-y są „inteligentne”, lecz o to, czy my, jako ich twórcy i użytkownicy, postępujemy z nimi odpowiedzialnie.
Mnie zastanawia, czy rozwój LLM-ów nie doprowadzi do zasadniczej zmiany w postrzeganiu języka jako narzędzia poznania. Artykuł słusznie podkreśla nieprzejrzystość tych modeli, jednak ich zdolność do generowania wypowiedzi nie tylko spójnych, ale i kontekstowo trafnych, każe zadać pytanie: czy język przestaje być wyłącznie ludzkim narzędziem poznania, stając się również mechanizmem maszynowej emulacji myśli? W kontekście robotyki, gdzie maszyny coraz częściej wykorzystują język naturalny do interakcji, rodzi się pytanie: czy LLM-y mogą stać się pomostem między ludzką abstrakcją a maszynową logiką, czy raczej pogłębią przepaść między tymi sferami?
Warto zwrócić uwagę na paradoks imitacji. LLM-y potrafią tworzyć metafory, żarty, a nawet poezję, ale brakuje im intencjonalności – nie „chcą” przekazać sensu, tylko realizują funkcję celu. Czy zatem ich „twórczość” to przełom w sztucznej inteligencji, czy jedynie zaawansowana statystyka? Podobny dylemat dotyczy autonomii pojazdów: robot może improwizować, by uniknąć kolizji, ale czy to dowód na kreatywność, czy tylko optymalizacja parametrów?
Innym ciekawym wątkiem jest język jako nośnik tożsamości. LLM-y uczą się na danych z tysięcy kultur, mieszając style i konwencje. Czy w przyszłości doprowadzi to do homogenizacji języków, czy wręcz przeciwnie – do powstania hybrydowych form komunikacji, których nawet ludzie nie są w stanie w pełni kontrolować? W przypadku robotów społecznych, które już dziś adaptują się do lokalnych zwyczajów, mogłoby to oznaczać nieprzewidywalne zmiany w relacjach człowiek-maszyna.
Wpis trafnie unaocznia, że LLM-y stanowią dziś znacznie więcej niż kolejny etap w ewolucji narzędzi obliczeniowych – to systemy, w których spotyka się bogactwo modeli lingwistycznych, mechanizmów statystycznych oraz inspiracje z badań kognitywnych. Z jednej strony imponuje szybkość, z jaką architektury transformerowe zdobyły zdolność generowania spójnych wypowiedzi i prowadzenia dialogu w językach naturalnych. Z drugiej jednak stale wraca pytanie o ich rzeczywiste „rozumienie” oraz o to, czy za pozornie sensownymi odpowiedziami kryje się autentyczne modelowanie znaczeń.
Rozwój modeli językowych skłania mianowicie do ciekawych refleksji nad naturą komunikacji. Paradoksalnie, im lepiej LLM-y naśladują ludzką mowę, tym wyraźniej widać fundamentalną różnicę między statystycznym przetwarzaniem tekstu a prawdziwym rozumieniem. Te modele przypominają nie tyle rozmówcę, co niezwykle precyzyjne lustro, które odbija nasze własne wzorce językowe, ale nie ma za nimi żadnej świadomej refleksji.
Interesujące jest to, jak LLM-y uwypuklają te paradoksy językowe. Na przykład potrafią płynnie dyskutować o emocjach, nie doświadczając żadnych uczuć, albo analizować pojęcie świadomości, nie mając żadnej wewnętrznej subiektywności. To pokazuje, jak wiele aspektów języka da się zredukować do czysto formalnych operacji na tekście, bez zakotwiczenia w rzeczywistym doświadczeniu. Im lepiej działają LLM-y, tym bardziej odsłaniają fundamentalne różnice między ludzkim a maszynowym „rozumieniem” języka. Może właśnie w tych różnicach kryje się najwięcej do odkrycia? Gdy model popełnia błąd, który dla człowieka jest oczywisty, dostajemy wskazówkę, gdzie kończy się statystyczne przetwarzanie, a zaczyna coś, co moglibyśmy nazwać prawdziwym rozumieniem.
Chociaż imponuje nasza zdolność do budowania coraz większych i potężniejszych modeli, prawdziwy postęp może płynąć z głębszego zrozumienia procesów, które stoją za generowanym językiem. Wprowadzenie interdyscyplinarnego dialogu między informatykami, lingwistami oraz specjalistami od etyki i nauk kognitywnych może przynieść bardziej zniuansowane spojrzenie na możliwości i ograniczenia LLM-ów. Dopiero wtedy naukowe refleksje nad sztucznym myśleniem będą mogły przekroczyć poziom technologicznego zdumienia i stać się autentycznym wsparciem dla badań nad językiem i komunikacją.
Chciałbym nawiązać do stwierdzenia, że LLM’y potrafią dyskutować o emocjach nie odczuwając ich. Warto zwrócić uwagę, że ludzkie emocje są ściśle związane z reakcjami chemicznymi zachodzącymi w ludzkim mózgu. Te z kolei mogą być związane z odczuciami w konretnej sytuacji (nawet bez wykorzystania języka), ale mogą też pojawiać się w rozmowie. Być może modele językowe kodują pewne funkcje (odpowiedniki reakcji chemicznych towarzyszących emocjom), które są aktywowane przez konkretne sygnały. Niektóre z nich pewnie są odwzorowane lepiej a inne gorzej. LLM’y robią coś więcej niż tylko modelowanie języka – modelują również ludzkie zachowania (trening odbywa się w trybie samo-nadzorowanym i nadzorowanym, a danymi są teksty pisane przez ludzi, w których często występują dialogi, opinie, dyskusje). Model bez utraty ogólności rozumienia języka, może być „wytrenowany” np. na rasistę, albo na bardzo poprawnego politycznie. Byłbym skłonny powiedzieć, że LLM’y modelują człowieka, a język naturalny jest środkiem (adapterem) do tego celu. Ale przecież modele nie przypominają żadnej konkretnej osoby – dlatego, że reprezentują średniego człowieka ze zbioru treningowego. Czy LLM’y dobrze modelują wszystkie ludzkie emocje – nie, czy obecne architektury są w stanie to zrobić – możliwe że tak, ale moim zdaniem sam język nie wystarczy, potrzeba większej liczby modalności. Dodatkowo kwestia treningu, czy uczenie poprzez doświadczenia jest konieczne do zrozumienia emocji?
Czy nie jest tak, że im dłużej korzystamy z modeli językowych, tym bardziej zmienia się… nasz własny język? Nie tylko na poziomie stylu (np. uproszczenia lub gotowe formy wypowiedzi), ale również na poziomie struktury myślenia. Modele LLM niejako „przyzwyczajają” nas do pewnych schematów odpowiedzi, oczekiwanych sformułowań, a nawet sposobów zadawania pytań. Zaczynamy myśleć tekstowo, „promptowo”, przewidywalnie.
Może więc to nie LLM-y muszą rozumieć nasz język, lecz my powoli dostrajamy się do ich modelu rozumienia — uczymy się mówić tak, żeby one nas dobrze zrozumiały? To odwrócenie relacji człowiek–narzędzie ma poważne konsekwencje: wpływa na edukację, komunikację, a może nawet na to, jak formułujemy nasze myśli.
Innymi słowy: LLM-y nie muszą znać języka naturalnego. Wystarczy, że uczynią nasz język bardziej „LLM-kompatybilnym”.
Czy to już nowa forma ewolucji języka?
Modele językowe wpływają na nasz język i myślenie, co jest zarówno fascynujące, jak i niepokojące. Z jednej strony, dzięki nauce na ogromnych, często wysokiej jakości zbiorach danych, LLM-y mogą promować precyzyjny i uporządkowany sposób wyrażania myśli, co wspiera edukację i komunikację profesjonalną. Z drugiej strony, nadmierne poleganie na nich grozi spłyceniem kreatywności i ograniczeniem myślenia do schematycznych, przewidywalnych wzorców, ponieważ LLM-y nie generują prawdziwie oryginalnych idei ani nie wykraczają poza swoje ramy. Dostosowanie języka do ich stylu może zamknąć nas na nieszablonowe sposoby myślenia.
To, co opisujesz, rzeczywiście przypomina nową formę ewolucji języka, ale rodzi pytanie: czy to my powinniśmy uczyć się od LLM-ów, czy raczej one mają służyć jako narzędzia wspierające naszą kreatywność? Dostosowując się do ich logiki, możemy stracić coś unikalnie ludzkiego – zdolność do nieszablonowego myślenia i tworzenia. Warto więc zachować równowagę: korzystać z potencjału LLM-ów, ale nie pozwalać, by to one dyktowały, jak myślimy i mówimy.
Mam wrażenie, że cały ten zachwyt nad LLM-ami oraz ich zdolnością do tłumaczenia, generowania esejów czy prowadzenia pozornie sensownego dialogu, to w gruncie rzeczy efektowna demonstracja, a nie prawdziwy przełom w rozumieniu języka. W praktyce mamy do czynienia ze spektakularnymi „papugami statystycznymi”: modele odtwarzają lawinowo wzorce ze swoich ogromnych korpusów, ale nie potrafią nam powiedzieć, na jakiej podstawie łączą konkretne słowa w zdania. To nie jest nowa forma rozumienia, lecz jedynie wyrafinowany autopilot, który „wie”, co statystycznie pasuje, a nie „rozumie” znaczenie.
Próby rozbijania czarnej skrzynki LLM-ów bywają intelektualnie ekscytujące, lecz ryzykują odwrócenie uwagi od kluczowego pytania: czy w ogóle potrzebujemy kolejnych gigantycznych sieci neuronowych, czy raczej narzędzi, które pozwolą nam weryfikować i formalizować nasze teorie języka? Moim zdaniem zamiast inwestować w modele o miliardach parametrów, warto postawić na symbolikę, gramatyki formalne i metody logiczne, które naprawdę dają kontrolę nad strukturą i znaczeniem wypowiedzi.
W mojej opinii należy wstrzymać się z kolejnymi inwestycjami w rosnące LLM-y i na początek uzależnić finansowanie badań nad AI językową od dowodu zastosowania formalnych metod weryfikacji. Niech LLM-y pozostaną kreatywnymi narzędziami do tworzenia szkiców czy inspiracji, a za prawdziwy postęp w lingwistyce i filozofii języka niech odpowiadają nasze własne, weryfikowalne modele. Czy możliwe jest przerwanie wyścigu parametrów i ponowne postawienie na jasność myśli?
Modele LLM, choć robią duże wrażenie dzięki temu, że potrafią tworzyć poprawne językowo teksty i prowadzić rozmowy, działają głównie na zasadzie statystycznych zależności między słowami. Nie oznacza to jednak, że naprawdę „rozumieją” to, co mówią – przynajmniej nie w sposób, w jaki rozumie to człowiek. To rodzi ważne pytanie: czy modele oparte na architekturze transformera kiedykolwiek będą w stanie uchwycić prawdziwe znaczenie wypowiedzi i ludzką intencję stojącą za językiem?
Warto w tym kontekście porównać LLM-y z pytaniami, którymi od dawna zajmuje się filozofia języka – na przykład: czym właściwie jest język, czy istnieją wspólne reguły gramatyczne dla wszystkich języków świata, albo czy człowiek myśli w języku, czy może poza nim. Dzisiejsze modele językowe – mimo że mają ogromną moc obliczeniową – nie mają świadomości ani własnych celów, a więc nie myślą naprawdę, tylko symulują myślenie. Jak słusznie zauważa referat, tzw. „halucynacje” tych modeli, czyli błędne odpowiedzi, wynikają z tego, że nie potrafią one samodzielnie sprawdzać poprawności tego, co „mówią”. Dlatego tak ważne są próby zrozumienia, jak one działają. Nie tylko z ciekawości, ale też po to, by mogły być skutecznie wykorzystywane w nauce.
Z perspektywy użytkownika i obserwatora rozwoju tej technologii, można odnieść wrażenie, że LLM-y coraz lepiej radzą sobie z powierzchownym odwzorowaniem ludzkiej komunikacji, ale ich brak „wewnętrznego rozumienia” pozostaje ścisłym ograniczeniem. Osobiście uważam, że dopóki modele te nie zostaną powiązane z głębszymi strukturami poznawczymi, np. zmysłami, doświadczeniem cielesnym; to trudno będzie mówić o rzeczywistym uchwyceniu sensu czy intencjonalności. Obecne LLM-y są więc raczej potężnymi narzędziami do wspomagania ludzkiego myślenia, niż jego cyfrowym odpowiednikiem. I może właśnie w tej roli, jako uzupełnienie, a nie substytut, mają największy potencjał.
Bardzo ciekawy tekst, który trafnie pokazuje, że dzisiejsze modele językowe – choć robią wrażenie płynnością wypowiedzi – wciąż pozostają narzędziami operującymi w ramach statystycznej imitacji, a nie faktycznego rozumienia języka. Szczególnie interesujące jest dla mnie podkreślenie, że język to nie tylko gramatyka i słownik, ale też uwaga, kontekst i intencja – elementy, które ciężko uchwycić bez głębszej semantycznej struktury.
Podejście Gramatyki Rozproszonej i koncepcja uogólnionej predykacji wydają się tu próbą stworzenia ramy bardziej zbliżonej do ludzkiego myślenia niż to, co oferują obecne LLM-y. Zgadzam się też z końcową tezą: jeśli chcemy rozwijać AI nie tylko jako technologię, ale jako narzędzie poznania, musimy lepiej rozumieć sam język – a więc także jego filozoficzne i poznawcze fundamenty.
Moim zdaniem LLM-y to bardzo użyteczne narzędzia – potrafią pisać, tłumaczyć, pomagać w researchu. Mimo ich imponujących możliwości, nie zapominajmy, że to wciąż tylko modele statystyczne, które uczą się na podstawie ogromnych zbiorów tekstów. Nie mają własnego rozumienia ani świadomości, choć czasem mogą tak brzmieć. Dla mnie ciekawe jest to, jak bardzo ich działanie zależy od języka i jak to pokazuje, że język to nie tylko komunikacja, ale też narzędzie porządkowania świata. Lubię obserwować, jak granica między informatyką, a językoznawstwem coraz bardziej się zaciera.
Z drugiej strony, to też dobra okazja, żeby zacząć zadawać bardziej świadome pytania, nie tylko o to, co AI może, ale też czego nie potrafi i gdzie nadal potrzebujemy ludzkiego myślenia. W wielu sytuacjach nadal potrzebujemy ludzkiego myślenia: kontekstu, intuicji, wartości, krytycznego spojrzenia. LLM-y świetnie wspierają analizę, ale nie zastąpią refleksji i to my musimy decydować, jak z tej technologii korzystać.
Mówiąc o potrzebie „rozbicia czarnej skrzynki” pragnąłem zasygnalizować możliwość pozyskania wiedzy konceptualnej (symbolicznej) o języku i tylko o nim. Jednakże nie można oczekiwać, że postępując w ten sposób poznamy mechanizm „rozumienia” wyrażeń językowych w takim sensie, jak to „robi” nasz mózg/umysł. Informacje przekazywane przez znaki językowe, będące obiektami semiotycznymi, posiadają zarówno cechy „per se” (por. intrinsic), tj. własne dotyczące samych siebie, jak i „per alia” (por. extrinsic) , tj. takie, które odnoszą się do innych pojęć i które dotyczą obiektów zwyczajnych. Nawiasem mówiąc « cechy “per se”» mam tu na myśli zarówno cechy takie, które są dla nich nieodłączne z uwagi na właściwości fizyczne obiektów semiotycznych jak i takie, które mówiący arbitralnie przypisują tym obiektom pomimo, że nie ma żadnego związku między tymi obiektami (reprezentacjami semiotycznych) a obiektami zwyczajnymi (reprezentacjami kognitywnymi).
Język naturalny – to rzeczywiście nieoceniony „klejnot”, bo przecież podobno 80% naszej wiedzy naukowej została w nim zapisana, ale nie możemy zapomnieć o tych podobno 20%, dla których było to niemożliwe, i to nie tylko ze względu na wieloznaczność wyrażeń językowych. Człowiek także podobno potrzebuje zwykle znajomości 1500-2000 wyrazów, ale już specjalistom potrzeba 6000-10000. Mimochodem tylko wspomnę, że modne obecnie badania w duchu kognitywistycznym, które podobnie jak LLM-sprawdzają się nawet nieźle w informatyce, w lingwistyce – niestety – akceptowalne są raczej tylko przez lingwistów „ogólnych”, którzy bardzo często są jednojęzyczni.
Według dostępnych źródeł, przeciętna osoba zna od 20 000 do 35 000 słów w swoim języku ojczystym. Osoby z wyższym wykształceniem mogą znać nawet 30 000–50 000 słów. Natomiast do zrozumienia niespecjalistycznego tekstu użytkowego wystarczy znajomość około 1500 słów, a swobodna komunikacja w codziennych sprawach wymaga około 4000 słów.
Liczby dotyczące specjalistów (6000–10 000 słów) mogą być trafne w kontekście podstawowego zasobu terminologii branżowej, ale ogólny zasób słownictwa osób wykształconych jest znacznie większy. Warto uwzględnić te szersze zakresy, aby lepiej oddać rzeczywistość.
Ważne: poprzednia informacja została wygenerowana przez aplikację SI Copilot na moją prośbę.
Mimo istniejących imponujących zasobów leksykalnych, wciąż czujemy potrzebę budowania neologizmów podczas badań naukowych.
Proszę zauważyć, że słowniki elektronowe zawierają dzisiaj pomiędzy 100.000 a 250.000 haseł. Dla przykładu przytaczam dane dot. słownictwa języka japońskiego. Okazuje się, że w pierwszym takim wielkim słowniku elektronicznym tego języka utworzonym już w latach 1980. (w instytucie EDR – aneks ICOT-a tj. Institut for 5th Generation Computing Technology, Tokyo) wieloznaczność słów sprowadzała się zaledwie do proporcji 410.000 pojęć /250.000 słów, a więc każdy wyraz posiadałby prawie dwa znaczenia. Przyjmując „na oko”, że ponad 200.000 wyrazów – to terminy specjalistyczne (a więc jednoznaczne), każdy wyraz z pozostałych miałby już po 4 znaczenia. A przecież w grę wchodzi jeszcze różnorodność kontekstów ich użycia….
W Polsce:
Since exact figures for WSJP’s current entry count are unavailable, I’d estimate it as the richest, likely in the 100,000–270,000 range, based on its scope and historical benchmarks.
W Japonii:
The Electronic Dictionary Research Institute’s (EDR) Electronic Dictionary contains approximately:
– 250,000 words in the Japanese Word Dictionary
– 190,000 words in the English Word Dictionary
– 230,000 words in the Japanese-English Bilingual Dictionary
– 160,000 words in the English-Japanese Bilingual Dictionary
– About 410,000 concepts in the Concept Dictionary
– 900,000 phrases in the Japanese Co-occurrence Dictionary
– 460,000 phrases in the English Co-occurrence Dictionary
The Concept Dictionary’s 410,000 concepts are linked in a thesaurus-like structure with super-sub relations. The dictionary is composed of five types: Word, Bilingual, Concept, Co-occurrence, and Technical Terminology dictionaries, plus the EDR Corpus
No, i wreszcie, wiedza najważniejsza dla moich rozważań i inicjatyw badawczych:
Proportion Estimate
…. a rough global estimate for scientific texts (across all disciplines) is:
• Natural language: ~85–95% of content.
• Formal languages: ~5–15% of content.
This varies significantly by field:
• Mathematics/Physics: 60–80% natural, 20–40% formal.
• Computer Science: 70–90% natural, 10–30% formal (code, algorithms).
• Biology/Medicine: 90–95% natural, 5–10% formal (stats, sequences).
• Humanities/Social Sciences: 99%+ natural, <1% formal.
A co, jeśli nasze myślenie rzeczywiście działa podobnie do dużych modeli językowych – tylko z wykorzystaniem bardziej skomplikowanych i potężniejszych „modeli”? LLM-y generują odpowiedzi, przewidując najbardziej prawdopodobne słowa na podstawie ogromnych zbiorów danych. W zasadzie to statystyczne dopasowywanie ciągów symboli – słów – do kontekstu.
A przecież i my, jako ludzie, bardzo często działamy w podobny sposób: nasze odpowiedzi, skojarzenia czy decyzje wynikają z wcześniejszych doświadczeń, posiadanej wiedzy i aktualnego kontekstu sytuacyjnego. Można powiedzieć, że w wielu (a nawet w znacznej większości) codziennych sytuacjach jesteśmy również „modelami predykcyjnymi”. Widać to choćby w działaniu uwagi – koncentrujemy się na tym, co jest w danym momencie najistotniejsze, podobnie jak LLM-y przywiązują większą wagę do znaczących tokenów.
Jeszcze ciekawiej robi się, gdy spojrzymy na popularne ostatnio w robotyce modele multimodalne, takie jak modele wizyjno-językowe (VLMy), które uczą się łączyć obrazy z tekstem. Przypomina to integrację różnych zmysłów w naszym mózgu – widzimy, słyszymy, czujemy i łączymy te informacje w spójną reprezentację świata. Jeśli więc nasze myślenie to pewien rodzaj statystycznego, modelowania, to być może myśli są niczym więcej niż sekwencjami symboli – słów, obrazów, emocji – dobieranych przez mózg na podstawie wcześniej utrwalonych wzorców. Tym na przykład zajmuje się równie popularna w robotyce dziedzina planowania zadań (TMP).
Pojawia się pytanie: co, jeśli świadomość, intencje i twórczość to po prostu kolejne warstwy coraz bardziej złożonego modelu predykcyjnego z dodatkiem przypadkowości, któremu błędnie przypisujemy głębszy sens? A może jednak istnieje jakaś różnica – coś, czego nie da się zredukować do statystyki, korelacji i prawdopodobieństwa? A jeśli tak – czy jesteśmy w stanie to jednoznacznie wyodrębnić i udowodnić?
Szczególnie intrygująca wydaje mi się kwestia, czy modele językowe mogą pomóc nam lepiej zrozumieć naturę samego języka – czy raczej są jedynie jego zaawansowanym „lustrem”, które odbija wzorce, ale nie sięga głębiej. Jeśli LLM-y potrafią generować spójne wypowiedzi, nie posiadając świadomości ani intencjonalności, to czy oznacza to, że język jako system jest bardziej „algorytmiczny”, niż nam się wydawało? Czy może wręcz przeciwnie – ich ograniczenia (np. brak rzeczywistego rozumienia kontekstu) pokazują, że w języku kryje się coś więcej niż statystyczne korelacje?
Interesuje mnie też wątek Meta-informative Centering – czy mechanizmy uwagi w LLM-ach można porównać do ludzkiej selekcji informacji w komunikacji? A może to tylko powierzchowna analogia, która nie wyjaśnia prawdziwej natury uwagi jako zjawiska poznawczego?
Chętnie dowiedziałbym się więcej o tym, jak teoria Distributed Grammar może pomóc w „rozbiciu” czarnej skrzynki LLM-ów. Czy widzicie szansę na to, że połączenie lingwistyki teoretycznej z analizą działania modeli doprowadzi do nowych odkryć nt. uniwersaliów językowych?
Teoria DG jest rozwijana do dnia dzisiejszego i przeszła przez kilka faz. Obecnie nowe jeszcze nieopublikowane rozwiązania, które zapewne przedstawię dumnie jako „aksjomaty” i „twierdzenia” pozwalają na zajęcie jasnego stanowiska w podstawowych kwestiach językoznawstwa ogólnego. W wąskim sensie terminu „uwaga”, operacje selekcjonowania wyrażeń w LLM-ach nie zasługują na miano „uwagi”, w sensie pośrednim raczej zasługują, w sensie szerokim (mam na myśli pragmatyczno-logiczne pojęcie „concern”) – nie wiem, ale raczej nie. Problem polega na naukowej definicji uwagi, która to definicja zależy najbardziej od badań w dziedzinie psychologii. W Polsce, kiedy się mówi o uwadze zastosowanej w LLM-ach zaczyna funkcjonować termin „atencja”. To bardzo dobry neologizm w naszym języku.
Krótko mówiąc sądzę, że mamy powody, by w lingwistyce (I nie tylko) używać tego pojęcia w sensie wąski, bliskim badaniom psychologicznym, jako że motywuje ono aktualnie rozwijane przeze mnie podejście do semiotyki, a mianowicie takie, z którego winno wynikać ‚uwypuklenie w kontinuum omawiania’, po angielsku „salient part of aboutness (continuum)”, bo tak mam zamiar to zjawisko nazywać w przyszłości.
To nie tyle teoria gramatyki rozproszonej (DG) może przyjść na pomoc, by „rozbić” czarną skrzynkę LLM-ów, ile nasze podejście eksperymentalne, które nazwaliśmy „lingwistyką interaktywną”. Dodam zresztą, że to właśnie zbiór różnych algorytmów data science (‚Semana’) pod mało znanym szyldem IL (Interactive Linguistics) „pomógł” nam tak w teorii MIC (w pierwszej fazie powstania teorii DG) jak i w późniejszych wysiłkach mających na celu rozbudowę tej teorii. Sądzę jednak, że późniejsze (obecnie na razie – niestety – niekompletnie opublikowane) rozwinięcia DG, jakie powstały w wyniku doświadczeń wyniesionych z poszukiwań zastosowań algorytmów ‚Semany’ do badań nad pojęciami formalnym (w rozumieniu mtetodologii „Analizy pojęć formalnych” – Formal Concept Analysis, FCA i zastosowań Teorii zbiorów przybliżonych – Rough Set Theory, RST) w językach naturalnych, i zawarte w niej algorytmy mają szansę na eksperymentowanie z przeróżnymi językami, co w efekcie może przynieść nam sprawdzoną wiedzę także i w temacie „uniwersaliów językowych”.
Zatem “rozbicie” czarnej skrzynki należy rozumieć metaforycznie, co nie znaczy, że – jak już wspomniałem w innym komentarzu – mam formalne powody, by twierdzić, że wszelkie pojęcia w sposób „rozproszony” układają się w umyśle wg pewnych zasad formalnych, zaś Deep Neural Networks (DNN) powstają w wyniku trenowania na dostępnych danych. Dane te odzwierciedlają działanie rzeczywistych aktów komunikacji. Wnoszę więc, że DNN są wtórne, a ich wiedza przybiera kształt poprawnych wypowiedzi dopiero w procesach przetwarzania przez transformery (Natural Language Processing – NLP).
Nasuwa się następujące twierdzenie: pierwotne w umyśle są pojęcia, to właśnie na podstawie ich używania tworzy się tu i ówdzie wtórna wiedza stochastyczna o nich. W umyśle wiedza konceptualna jest holistyczna, zaś wiedza stochastyczna jest fragmentaryczna. W dzisiejszych LLM-ach jest zupełnie na odwrót.
W moim pierwszym zdaniu powyżej proszę wymazać “nie” we frazie “ co nie znaczy, że …”, ponieważ właśnie mam pewne powody, by sądzić….
Wraz z upływającym czasem co raz bardziej skłania się ku stwierdzeniu, że język to jedynie narzędzie, a reguły (gramatyczne, językowe, ortograficzne) jego używania oparte są na zaszłościach historycznych i nie będziemy w stanie wyodrębnić i sformułować „definicji języka jako przedmiotu w rzeczywistości językowej w taki sposób, żeby mógł się stać obiektem nauk ścisłych”. Ludzki mózg ma w swojej naturze skłonności do znajdowania wzorów, schematów i zależności we wszelkich dziedzinach życia. Jestem skłonny wysunąć tezę, że opisując rzeczywistość taką, jaką widzimy, posługujemy się definicjami i aksjomatami mającymi swoje podstawy w filozofii, a język jest jedynie narzędziem komunikacji. Podpisujemy swego rodzaju kontrakt społeczny, wedle którego danym zjawiskom i pojęciom przypisujemy dane słowa w naszym języku. Można o tym pomyśleć, gdy brakuje nam słowa lub wyrażenia do opisu naszych odczuć lub wniosków podczas rozmowy. W głębi siebie jesteśmy wtedy przekonani co chcemy przekazać, w jakim obszarze pojęć chcemy się poruszać, jak nacechowany ma być nasz przekaz i jakie stanowisko chcemy obrać, lecz po prostu brakuje nam w danej chwili odpowiedniego narzędzia, tak jak podczas poszukiwania odpowiedniego klucza do dokręcenia śruby. Pojawiają się wtedy w naszych myślach różne, często synonimiczne, słowa i porównać to można do tego, w jaki sposób działają LLM-y. Na podstawie naszych doświadczeń i wspomnień mózg generuje nam słowa o największym prawdopodobieństwie dopasowania w ramach kontekstu naszej wypowiedzi. Można powiedzieć, że w przypadku używania języka, jesteśmy ograniczeni w podobnym stopniu co LLM-y co do „zestawu wiedzy”, z którego możemy czerpać podczas wypowiedzi – w przypadku LLM-ów mamy ogromne zbiory treningowe tekstów, w przypadku ludzi – doświadczenia, wychowanie.
I tak jak w uczeniu maszynowym, w przypadku korzystania z języka naturalnego można zastosować zasadę „garbage in, garbage out”, którą najlepiej można zobrazować na przykładzie gwar (bynajmniej nie porównuję gwar i dialektów do śmieci, chodzi jedynie o zobrazowanie tego, że jesteśmy uzależnieni od naszego „zbioru treningowego” w podobnym stopniu co modele językowe): lokalność gwar, używanie wyrażeń, słów i powielanie błędów językowych charakterystycznych dla regionu, z którego się wywodzimy, zaszczepionych w nas przez rodzinę, środowisko, w którym się wychowujemy. I pojawia się jeszcze pytanie, czy te „błędy” rzeczywiście są błędami, skoro zasady, które opisują nasz język nie są oparte na żadnych ścisłych zasadach, aksjomatach i regułach rządzącym wszechświatem, tak jak ma to miejsce w naukach ścisłych (często w przypadku wytykania błędów językowych mówi się, że język powinien być dla ludzi – w domyślnie umowny?)? Być może LLM-y pozwolą nam na rozbicie tych czarnych skrzynek i znalezienie faktycznych zależności i zasad ogólnych dla całego językoznawstwa i wszystkich gramatyk świata.
Zgadzam się z tezą, że język to narzędzie oparte na historycznych zaszłościach i swoistym kontrakcie społecznym. Jednakże czy na pewno jesteśmy w tej samej sytuacji co LLM-y? Owszem, podobnie jak modele językowe, czerpiemy z ograniczonego „zbioru treningowego” (doświadczeń, kultury), ale kluczowa różnica leży w intencjonalności. Człowiek, nawet gdy brakuje mu słów, potrafi świadomie łamać konwencje, tworzyć neologizmy czy ironizować – nie tylko generować tekst na podstawie statystycznych prawdopodobieństw. LLM-y nie mają potrzeby komunikacji, tylko zadanie jej symulowania. Autor referatu wspominał o teorii Distributed Grammar. Czy nie jest tak, że właśnie ta rozproszoność reguł językowych pokazuje, iż język to coś więcej niż algorytm? Nawet jeśli gramatyki świata mają uniwersalne struktury to ich realizacja zawsze zależy od kontekstu kulturowego. LLM-y, choć potrafią naśladować tę zmienność to kontekstu kulturowego nie potrafią jasno zrozumieć. Może zamiast „rozbijać czarną skrzynkę”, powinniśmy zaakceptować, że język – tak jak SI – to połączenie ścisłych zasad i twórczej swobody? Właśnie w tej mieszance systemu i sztuki może tkwić największa wartość zarówno językoznawstwa, jak i rozwoju SI.
Właśnie w tej sprawie opublikowałem wynik moich niedawnych ustaleń przynajmniej podświadomie wdrażając pomysł saussurowskiej definicji znaku językowego jako ‚nieodłącznej pary’ znaczenia i treści (signe => signifiant & signifié). Szerzej o tym w artykule „Concepts and Categories : A Datascience Approach to Semiotics”
https://sciendo.com/article/10.2478/slgr-2022-0010
W moim pierwszym zdaniu powyżej proszę wymazać “nie” we frazie “ co nie znaczy, że …”, ponieważ właśnie mam pewne powody, by sądzić….
Artykuł porusza mega ciekawy temat modeli językowych, które ostatnio są wszędzie – od ChatGPT po DeepSeeka. Autor słusznie zauważa, że choć te modele potrafią generować tekst jak człowiek, to jednak ich działanie wciąż jest trochę tajemnicą. To tak jakbyśmy dostali supernowoczesny samochód, ale nikt nie dał nam instrukcji obsługi.
Najbardziej zaskakuje, że po zaledwie 75 latach od powstania komputerów mamy narzędzia, które potrafią tłumaczyć języki, pisać eseje, a nawet udawać ludzką rozmowę. Ale czy to na pewno „myślenie”? Profesor Włodarczyk stawia ważne pytania: czy język da się opisać ścisłymi regułami, czy wszystkie języki świata mają wspólne podstawy, a nawet – czy myślimy słowami, czy jakimś wewnętrznym „kodem”. Brzmi to jak filozofia, ale właśnie takie pytania rodzi rozwój sztucznej inteligencji.
Kluczowe wydaje się spostrzeżenie o „czarnej skrzynce” – LLM-y działają, ale często nie wiadomo, na jakiej zasadzie. Może więc zamiast tylko zachwycać się ich możliwościami, powinniśmy bardziej skupić się na ich zrozumieniu? Bo nawet jeśli AI potrafi napisać referat, to czy na pewno wie, co pisze?
Rozwój AI to nie tylko kwestia technologii, ale też filozofii i lingwistyki. Zanim uznamy maszyny za „inteligentne”, warto najpierw zrozumieć, czym w ogóle jest język i myślenie. A to, jak się okazuje, wcale nie jest proste.
Poruszone zagadnienia oraz sam temat modeli LLM wydają się dziś jednym z ważniejszych punktów przecięcia informatyki, filozofii i nauk o języku. Co prawda wiemy już, czym naprawdę są te modele i do czego mogą nas zaprowadzić, lecz zauważmy, że ich rozwój wyprzedził nasze rozumienie tego, co się właściwie wydarzyło.
LLMy tworzą zdania oraz „potrafią” odpowiedzieć na pytania, podejmują pozornie trafne decyzje, czasem nawet błyskotliwe. Tylko co z tego naprawdę wynika? W sensie technicznym potrafią generować teksty o zadanym prawdopodobieństwie kontynuacji – nic mniej, ale też nic więcej. Czy to jednak wystarczy, żeby mówić o inteligencji, nie wspominając już o rozumieniu?
Problem z LLMami polega nie tyle na ich braku przejrzystości, co na tym, że coraz trudniej odróżnić funkcjonalną skuteczność od poznawczej głębi. Czarna skrzynka w tym kontekście nie jest po prostu niedostatecznie zbadanym algorytmem – jest znakiem naszego własnego poznawczego zamętu. Modele te nie są odpowiedzią na pytanie o myślenie maszyn, lecz prowokacją: zmuszają nas do przemyślenia, czym jest myślenie w ogóle, co oznacza rozumienie, i dlaczego przypisujemy wartość pewnym formom ekspresji, nawet gdy wiemy, że nie kryje się za nimi żadna świadomość.
Refleksja nad językiem – szczególnie w kontekście uogólnionej predykacji czy struktur atencji – może tu działać trzeźwiąco. Bo choć LLMy operują na języku, nie mają dostępu do żadnego „świata pozajęzykowego”. Nie znają intencji mówiącego ani nie odczytują kontekstu kulturowego, historycznego, interpersonalnego. I nie chodzi o to, że są jeszcze za słabe – chodzi o to, że w ogóle nie są umieszczone w rzeczywistości, której język służy.
Tym bardziej warto więc spojrzeć na inicjatywy takie jak Distributed Grammar czy Meta-informative Centering nie jako kolejny element wyścigu technologicznego, ale jako próbę zbliżenia się do zrozumienia samego medium, jakim jest język. Bo to nie modele się zmieniają – to my zaczynamy o nich mówić jak o uczestnikach komunikacji, projektując na nie nasze własne pojęcia, nadzieje, lęki.
W tym sensie filozofia języka wraca dziś nie jako dyscyplina uboczna, lecz jako konieczne zaplecze do interpretacji tego, co tworzymy. Bez niej łatwo zamienić skuteczność w prawdę, wygodę w poznanie, a automatyzację w zrozumienie. A przecież to nie LLMy mają odpowiedzialność, tylko my.
Miło widzieć, jak temat ten inspiruje różne podejścia i interpretacje. Cieszę się, że wywołuje on dyskusję i rozwija się w tak interesujący sposób.
U progu paradygmatu informatycznego, kiedy informacja nie tylko cechuje bodaj każdy emergentny system złożony (mam na myśli jej rolę w mezo-warstwach takich systemów, jakie reprezentuje np. piramida „Dane-Informacja-Wiedza”, ale i kiedy stała się ona ‚wszechobecna’ (ubiquitous), potrzebna jest zaawansowana filozoficzna refleksja nad językiem w kontekście unowocześnionej semiotyki i – niech użyję terminu Henryka Greniewskiego – kodoznawstwa (dziedziny zajmującej się językami programowania, szyframi i wszelkimi kodami biologicznymi: genetyczny oraz kod neuronowy). Pierwsze kroki zostały już poczynione, i chociaż w grę wchodzą przestrzenie niezwykle złożone, jestem przekonany, że w niedługim czasie nie tylko filozofowie, ale i eksperci wielu dziedzin nauki i kultury staną na wysokości zadania, by w ramach programów prawdziwie transdyscyplinarnych dogłębnie przebadać to zagadnienie.