Obszerne modele języka (LLM) i co dalej…

Około dwóch miesięcy temu na Seminarium Filozofii Nauki w Politechnice Warszawskiej gościliśmy Profesora André Włodarczyka, który z perspektywy swoich teorii semantycznych omówił szereg zagadnień związanych z przełomową dla rozwoju sztucznej inteligencją koncepcją modeli LLM (Large Language Models).
Myślę, że warto dotknąć tych zagadnień również w blogu.
Za punkt wyjścia dyskusji niech posłuży nam poszerzony abstrakt wygłoszonego na seminarium referatu. Zachęcam, aby odnieść się zarówno do kwestii w nim poruszonych, jak również innych kwestii, które pojawiają się na pograniczu lingwistyki, informatyki i filozofii nauki.

*********  A OTO ABSTRAKT SEMINARYJNEGO REFERATU  ********

Od kilku lat modele LLM (Large Language Models) robią furorę w internecie, ponieważ prezentowane są jako przejawy „Sztucznej Inteligencji”, a dokładniej: sztucznego myślenia w językach naturalnych. Czym więc LLM-y są oraz do czego mogą, ale i do czego nie mogą służyć w praktycznych zastosowaniach zwłaszcza podczas badań naukowych. Jak doszło do tego, że możliwość przekładu automatycznego i nawet dialogu człowieka z maszyną, poprawnego w językach naturalnych, pojawiła się tak szybko, bo ok. 3/4 wieku po zbudowaniu pierwszych komputerów?

W referacie nie będzie mowy ani o szczegółach dotyczących wyuczania (training) głębokich sieci neuropodobnych (Deep Neural Networks – DNN) ani o licznych algorytmach zwanych transformerami, które w połączeniu z DNN tworzą obecne LLM-y. Jednakże wskażę na zaawansowane programy badawcze zarówno takie, które należą już do tradycji badań nad przetwarzaniem języków naturalnych (NLP) jak i takie, które stanowią podstawy do budowania nieodzownych dla LLM-ów transformerów w różnych postaciach najnowszych rozwiązań.

Ponadto referat będzie także próbą wprowadzenia w problematykę ogólnego językoznawstwa, którego sedna można się dopatrywać w trudnościach, z jakimi borykają się dzisiaj nie tylko lingwiści, ale naukowcy, których obszary zainteresowań są między innymi zawarte w pytaniach takich, jak:

– czy możliwe jest sformułowanie definicji języka jako przedmiotu w rzeczywistości językowej w taki sposób, żeby mógł się stać obiektem nauk ścisłych?

– czy w skład gramatyk ok. 7.000 języków świata wchodzą reguły i struktury, które są jednakowe dla nich wszystkich?

– czy człowiek myśli w języku naturalnym czy też w jakimś specyfiznym języku myśli?

Badania nad językiem we wszystkich dziedzinach nauki i jego wytworami trwają więc nadal, tym bardziej, że wiedza o języku (choć w niektórych przypadkach skuteczna bardziej niż kiedykolwiek), jest dla nas niedostępna w sensie pojęciowym i inferencyjnym. Twórczość w nauce nie polega jednak na „halucynacjach”, lecz wymaga generowania nowych pomysłów, odkryć i rozwiązań, które poszerzają naszą wiedzę i zrozumienie świata.

Słowem: skoro LLM-y są pozamykane w czarnych skrzynkach – to pozostaje nam niebłahe zadanie do wykonania: rozbić czarną skrzynkę. Wskażę na ważniejsze projekty badawcze w tej materii oraz przedstawię w ogólnym zarysie inicjatywę opracowania komputerowych metod celem zbudowania narzędzi służących do zinformatyzowania badań lingwistycznych w ramach Ośrodka badań nad lingwistyką teoretyczną i stosowaną (Centre de linguistique théorique et appliquée – CELTA) na Sorbonie w latach 2004-2014.

To właśnie w ramach tej inicjatywy powstały teorie Meta-informative Centering (MIC) i (Associative Semantics (AS), które zostały połączone i rozwinięte pod ogólną nazwą Distributed Grammar (Gramatyka Rozproszona). Omówię w szczegółach m.in. teorię uogólnionej predykacji, jako że – z jednej strony – stanowi ona rozwiązanie od tysiącleci znanego problemu filozoficznego – zaś z drugiej strony – wyjaśnia, w jaki sposób „centra uwagi” (CA) czy attencje strukturyzują wypowiedzi, które kierują skupianiem uwagi rozmówców. Jest to zgodne z poglądem na uwagę jako selektywnym mechanizmie w komunikacji językowej w ramach urządzeń LLM.

Zalecane LINKI

2010 Time for a sea-change in linguistics

2013 Meta-informative Centering in Utterances

2016 O Pragmatycznej naturze predykacji

2015 Informatyka szansą na rozwój naukowej lingwistyki

2022 Concepts and Categories: A Data Science Approach to Semiotics

******************************************************************

Najserdeczniej zapraszamy do dyskusji — André Włodarczyk i Paweł Stacewicz.

 

Ten wpis został opublikowany w kategorii Bez kategorii, Filozofia informatyki, Filozofia nauki, Światopogląd informatyczny, Światopogląd racjonalistyczny. Dodaj zakładkę do bezpośredniego odnośnika.

Komentarze do Obszerne modele języka (LLM) i co dalej…

  1. Jarek pisze:

    Czy rzeczywiście możliwość automatycznego przekładu pojawiła się szybko? Biorąc pod uwagę przewidywania twórców pierwszych komputerów, mamy pół wieku spóźnienia. Albo – jeśli ktoś woli podejście ilorazowe – czas realizacji przekroczony o dwieście procent.

    Tłumaczenia komputerowe miały stać się faktem już na początku lat siedemdziesiątych. Argumentowano to tym, że podręcznik gramatyki dowolnego języka nie jest aż tak grubą książką, by nie dało jej się szybko przełożyć (siłami ludzkimi) na jakiś fortran, a słownik to po prostu tablica (w sensie znanym z języków programowania). Dość duża jak na ówczesne możliwości maszyn, jednak w perspektywie ćwierćwiecza do osiągnięcia. Tak określone wymagania pamięciowe to pojedyncze megabajty. Podobny poziom technika osiągnęła właśnie koło 1970 roku – tutaj przewidywania dobrze się sprawdziły.

    Z drugiej strony, w tamtym okresie sądzono, że komputery być może nigdy nie będą w stanie grać w szachy. Argumentacja była podobna – liczba możliwych kolejnych ruchów jest tak wielka, że zapamiętanie wszystkiego w celu analizy i wyboru najlepszego posunięcia przekracza możliwe do wyobrażenia (i realizacji technicznej) pojemności pamięci. Jednak komputery zaczęły wygrywać z mistrzami szachowymi już pod koniec wspomnianej dekady. Dzisiaj nie mamy wątpliwości co do tego, że żaden człowiek nie jest w stanie opanować gry w szachy na takim poziomie, by nie przegrywać z komputerem jednej partii po drugiej.

  2. Andrzej Włodarczyk pisze:

    W latach 1980. miałem wrażenie, że przekład automatyczny poezji miał stać się możliwy dopiero po upływie 500 lat pomimo że – sam sobie nie dowierzając – sądziłem także, że na automatyczne tłumaczenie tekstów naukowych wystarczyć powinno 10-krotnie mniej czasu. A jak to wtedy rozumiałem, taka sytuacja miałaby szanse na powstanie tak szybko, jak tylko miałoby nam się udać połączyć wszystkie istniejące wtenczas komputery w jeden „Wielki Mózg Świata”.

    Dlaczego było to jednak możliwe? Otóż dlatego, że powstały obszerne bazy danych tekstowych, na podstawie których tysiące naukowców mogło wyuczać tzw. „uczące się” sieci neuronowe obliczania „skojarzeń” między wyrazami, zwanymi dzisiaj tokenami. Jednakże tak naprawdę to także nie wystarczyłoby, ponieważ potrzebna była jeszcze infrastruktura materiałowa, przede wszystkim niezmiernie (na tamte czasy niewyobrażalnie) szybkie procesory, bardzo pojemna pamięć elektronowa oraz także bardzo szybka sieć powstającego jeszcze Internetu, a poza tym – choć to może mniej chwalebne, bo według mnie chodzi raczej o  “łatanie dziur” (patches) – ale nieodzowne wykorzystanie trwającej ponad pół wieku synergii w badaniach nad aspektami technicznymi tzw. „przetwarzania” j. naturalnych (NLP  – Natural Language Processing) włącznie z trzema światowymi ówczesnymi projektami badawczymi w zakresie przekładu automatycznego – dzisiaj można by powiedzieć – w ramach paradygmatu konceptualnego. Mam na myśli projekty USA, Wspólnoty Europejskiej i Japonii z budżetami: europejski 2 razy mniejszy od amerykańskiego oraz japoński, który – na odwrót – był 2 razy od niego większy.
    O konieczności zastosowania operacji „przydzielania tokenów ważności”, którą nazwano uwagą (attention) napisałem w streszczeniu oraz mówiłem na „Seminarium filozofii nauki i informatyki” dr-a Stacewicza.

  3. Andrzej Gecow pisze:

    Bezpośrednio po tym seminarium przygotowałem taki wpis, ale nie było jeszcze tego tematu na blogu.

    Proponowane rozbicie czarnej skrzynki jest rzeczywiście pociągającym wyzwaniem – chciałoby się ‘wiedzieć’ jak ona to robi. W zasadzie to jednocześnie pytanie – jak myślimy.
    Problem w tym, że nasze oczekiwania niekoniecznie są możliwe do zrealizowania.
    Oczekiwania z czegoś wynikają, a uświadomienie sobie skąd, jest często bardzo trudne. Po uświadomieniu zauważamy alternatywy i uwarunkowania.
    Dam prosty przykład z mojego podwórka:
    Jest, raczej była, taka fenomenologiczna prawidłowość ewolucji ontogenezy zwana ‘rekapitulacja’. Póki nie było genetyki, miała ona powszechnie przyjmowane wyjaśnienie w postaci dziedziczenia cech nabytych. Wyjaśnienie upadło wraz z nastaniem królowania genetyki, a z genów nie udało się wyjaśnić tych obserwacji. Ja w latach 70-tych znalazłem wyjaśnienie w statystycznych tendencjach strukturalnych ewolucji sieci złożonych. Do końca ubiegłego tysiąclecia biolodzy nie chcieli nawet poznać moich argumentów twierdząc, że jeżeli w biologii ewolucyjnej coś wyjaśnione jest nie na podstawie genów, to w ogóle nie jest wyjaśnione.
    Dziś powoli to się zmienia, ale jeszcze nie podejmują dyskusji. Są jeszcze zdumieni, że ich oczekiwania można było podważać.

    W przypadku naszego problemu przede wszystkim należy sobie uświadomić szczególne własności sieci neuronowej. Są wyraźnie dwie różne sieci, które na pozór wyglądają bardzo podobnie. Może przejście między nimi nie ma granicy, ale my widzimy je z dwóch bardzo innych perspektyw.

    Nasze rozumowanie kontrolowane świadomością jest sekwencyjne – tworzy ciąg przyczynowo-skutkowy. Możliwość takiego rozumowania wydaje się wyróżniać nasz gatunek.
    Zauważamy jednak, że praktyczne problemy są bardziej złożone i opisuje je nie ciąg, a sieć uzależnień. Jesteśmy zdolni ogarnąć prostsze, małe sieci takich uwarunkowań, ale do większych nasza zdolność okazuje się za mała. Musimy je rozpisać na kawałki, rozpatrywać osobno i łączyć wnioski, ale to już ‘w głowie się nie mieści’.
    To jest typ sieci, którą nasza intuicja jeszcze pojmuje. Np. sieć Kauffmana, czyli logiczna, ale są i inne. W takiej sieci, gdy wyrzucimy/odłączymy jakiś węzeł, to wyniki będą całkiem inne. To właśnie jest chaos. Takie sieci są zazwyczaj ‘chaotyczne’. Okoliczności, w których mimo wyjęcia węzła wyniki są zbliżone (czyli sieć jest ‘uporządkowana’) są na prawdę wyjątkowe.
    Ale w rozważanym problemie mamy sieci neuronowe. Tu wyrzucenie nawet kilku węzłów prawie nic nie zmienia, prawie zawsze. Zmienia się jedynie dokładność wniosku. Im większa jest taka sieć, tym mniejszy efekt wyjęcia z niej kilku węzłów. Sieć działa jako całość, a my nie mamy szans wskazać jakiegokolwiek kawałka ciągu przyczynowo-skutkowego. Nie dla tego, że my tego jeszcze nie umiemy, bo umiemy, ale dlatego, że nasze oczekiwanie jest inne i błędne.
    Podam jeszcze inny przykład podobnego przypadku – hologram. To zdjęcie zrobione błyskiem lasera. Można takie zdjęcie zrobić na szybie okna. Później patrząc przez to okno widzimy trójwymiarowy przedmiot tak, jakby tam był. Ale jak tą szybę zbijemy i rozleci się na kawałki, to patrząc przez każdy z tych kawałków widzimy nadal cały przedmiot, a zmieniając kierunek patrzenia widzimy poprawnie w tym innym kierunku. Nie da się wskazać prążków na tym zdjęciu odpowiadających twarzy, by coś wyretuszować. Takie oczekiwanie jest błędne. Każdy kawałek tego zdjęcia niesie informację o całej przestrzeni za szybą.

    W przypadku sieci neuronowej i hologramu dobrze wiemy, dlaczego tak jest, umiemy to obliczać, mamy więc pełną informację, jak to się robi. Czarna skrzynka jest tylko z pozoru czarna. Ale nasze oczekiwanie jest inne, chcemy to ‘ogarnąć’, przełożyć na niewielką sieć typu Kauffmana wiążącą przyczyny i skutki prowadzące do konkretnych elementów/cech wyniku. Wydaje się, że jest to nieosiągalne z natury tych mechanizmów.
    Trochę to podobne do poszukiwania kwiatu paproci.

    Wydaje mi się, że nasz mózg jest niezbyt wielką siecią Kauffmana gdzie węzłami są sieci neuronowe. Trochę to daleko do naszych zdolności ‘ogarnięcia’. Raczej nasze myślenie, które odbywa się prawie całe poza naszą świadomością, nie posiada ‘reguł’ takich, jakich oczekujemy, które daje się opisać siecią przyczynowo-skutkową, czyli gramatyką. To głównie wynik działania sieci neuronowych, który podawany jest świadomości już po wyprodukowaniu wyniku, tylko do ‘podpisu – akceptacji’.

    Ja nie twierdzę, że postawienie tego pytania/zadania (‘rozbić czarną skrzynkę’) jest błędem. Trzeba stawiać pytania i dopiero po tym poszukuje się na nie odpowiedzi. W trakcie tego poszukiwania zwykle pytanie jest modyfikowane, bo wiemy coraz więcej na temat jego uwarunkowań. I o tą wiedzę chodzi. Bez tego pytania by jej nie było.

    Po tym seminarium wysłałem to do prof. Włodarczyka i nastąpiła dyskusja, której skrót dopiero muszę podsumować. Przede wszystkim, to przestrzenie naszych pojęć okazały się bardzo inne, przez co główny wysiłek tych dyskusji to uzgodnienie pojęć, bo treści słów bywają zaskakująco odmienne. Np. takim słowem jest ‘informacja’, którą rozumiemy całkiem inaczej.

    Ukazał się już jeden wpis, do którego też chciałbym się odnieść. Gramatyka i słownik, to jednak, jak się w życiu okazuje, o wiele za mało. Pomińmy tu problem, że język angielski jest ‘idiomatyczny’. Głównym problem jest właściwe dobranie słów do danego kontekstu, a to wynika ze zwyczajowych ‘kolein’ myślenia nadawcy i odbiorcy. Doświadczałem tego na lekcjach polskiego w szkole, gdzie zawsze miałem podkreślone połowę wypracowania, jako zły styl… ale jak w prostszych przypadkach pytałem nauczycielkę, jak powinienem tą myśl wyartykułować, to nie potrafiła wskazać formy ‘poprawnej’ i wniosek był zwykle taki: „jak nie umiesz wyrazić myśli poprawnie, to jej nie wyrażaj…”. Dlatego dopiero teraz automatyczne tłumaczenie zaczyna spełniać swoje zadania (stosując sieci neuronowe), ale jeszcze bardzo wiele trzeba po nim poprawiać, podobnie wiele, jak po znawcy języka, który sprawdza jego „poprawność”, ale nie rozumie, o czym tu jest mowa.

    • Paweł Stacewicz pisze:

      Apropos rozbijania czarnej skrzynki, to ja bym tak szybko nie składał broni 😊.

      Z pewnością trudniej jest rozszyfrować, co się dzieje wewnątrz naturalnej czarnej skrzynki, jaką jest mózg (w tym: jak się przekładają realizowane w niej niskopoziomowe procesy neuronalne na postrzegane świadomie treści), niż rozjaśnić wnętrze sztucznych sieci neuronowych. Wszak to my jesteśmy twórcami tych drugich. Wiemy, jak one działają — w szczególności: znamy dokładnie algorytmy uczenia tych sieci, polegające, prawie zawsze, na tak czy inaczej ukierunkowanej zmianie wag połączeń międzyneuronalnych.
      Oczywiście znam właściwy sztucznym sieciom „problem czarnej skrzynki” (mamy w blogu nawet osobny wpis na ten temat), ale mimo wszystko, uważam, że powinniśmy poszukiwać metod wydobywania z tego rodzaju skrzynek przejrzystej znaczeniowo wiedzy. Skądinąd wiadomo, że prace nad XAI trwają i jest w ten program zaangażowanych wielu informatyków. Podejrzewam więc, że coś da się „ogarnąć”; a jeśli tak, to otwiera nam się droga do rozbicia naturalnej czarnej skrzynki – bo w jakimś zakresie wyniki uzyskane w dziedzinie sieci sztucznych, o ile te ostatnie potraktujemy jako modele mózgu lub jego fragmentów, możemy wykorzystać w badaniach nad mózgiem. To zresztą powszechna w nauce metoda modelowania.

      Jeśli chodzi o coraz bardziej powszechną dziś tendencję do traktowania systemów AI (głównie opartych na modelach LLM) jako przedmiotów badań eksperymentalnych, a nie formalnych, to uważam ją za „pójście na łatwiznę”. A patrząc z innej perspektywy: wygodną i stosunkowo łatwą ścieżkę mnożenia publikacji typu „zadaliśmy czatowi GPT takie a takie pytania, uzyskaliśmy takie a takie odpowiedzi; nabudujmy na tym jakąś koncepcję”.

      We wpisie sprzed kilku miesięcy pt. „Sztuczna inteligencja. Jeden kolor, trzy metafory…” napisałem coś takiego: „ [Zgodnie z aktualnie panującą modą] … Traktuje się system jak czarną skrzynkę, na której wejścia podaje się różne kombinacje danych (w tym: pytania) i sprawdza się, jak system reaguje. Badania formalne, odwołujące się do matematycznych własności wykorzystywanych struktur danych i algorytmów, należą do rzadkości. System informatyczny – mimo, że został zaprojektowany zgodnie z opracowaną przez człowieka specyfikacją – traktuje się jak obiekt czysto empiryczny. Bada się go eksperymentalnie, podobnie jak zjawiska przyrodnicze i społeczne.
      Czy jesteśmy na to skazani i czy nie jest możliwe inne, bardziej matematyczne, podejście…? Oto jeden z ciekawych tematów do dyskusji – być może nawet, zasługujący na osobny wpis”.

      Mogę się pod tym podpisać ponownie.

      • Andrzej Gecow pisze:

        Ja nie postuluję składania broni. Główną tezą mojego wpisu było, że przede wszystkim musimy możliwie celnie uświadomić sobie, czego oczekujemy. Sądzę bowiem, że oczekiwania od rozbicia ‘czarnej skrzynki’ są mało realne, co nie znaczy, że inne oczekiwania nie mogą być bardziej realne.
        Rozumiem, że pierwsze oczekiwanie to przetłumaczenie wyników uzyskanych przez czarną skrzynkę na małą sieć przyczynowo skutkową. Jako ludzie współcześni jesteśmy w stanie ‘ogarnąć’ tylko małe takie sieci. Możliwe, że korzystając ze znajomości reguł sieci neuronowych, dało by się uzyskane wagi zinterpretować jako wielką sieć przyczynowo-skutkową, ale z tego żaden pożytek – nie tego oczekujemy. Ogrom aspektów skorelowanych w takiej sieci nas przerasta, my dążymy do uproszczeń, by dało się coś zrozumieć.
        Nie czuję się znawcą sieci neuronowych, ale mam takie skojarzenia: Jak piękne kolorowe zdjęcie twarzy o dużej rozdzielczości przekształcimy na małą rozdzielczość i formę czarno-białą, jeszcze daje się rozpoznać tą twarz.
        Może należy obciąć wagi jedynie do dużych, w możliwie niewielkiej sieci neuronowej. Wtedy możemy oczekiwać tworu zbliżonego do oczekiwanej sieci przyczynowo-skutkowej. Wskaże ona najważniejsze korelacje, a my będziemy jeszcze w stanie ją zinterpretować. Ale język naturalny raczej nie zmieści się w małej sieci. Może da się jakoś ograniczyć do określonych aspektów… Broni składać nie należy, trzeba możliwie sensownie określić nasze oczekiwania.

  4. Mam powody po temu, by sądzić, że „sieci neuronowe” są odpowiednikami pewnego rodzaju „rodzin krat” zbudowanych z „pojęć formalnych” (z dziedziny badań FCA – Formal Concept Analysis). Są one zatem wynikiem działania „systemu” językowego (w cudzysłowie, bo system ten tylko do pewnego stopnia (połowicznie ?) zasadza się na regułach.

    I choć „rozbicie czarnej skrzynki LLM-ów” – to póki co raczej metafora, z doświadczenia badań interaktywnych nad językami wyniosłem intuicję tego, że właśnie przy współpracy z istniejącymi LL-modelami, możliwym się stanie utworzenie konceptualnej teorii języka/ów, na podstawie której/ych uda nam się wreszcie zbudować modele konceptualne języka/ów. Postępując jednocześnie w podobny sposób mógłby powstać model pozyskiwania wiedzy (jak w badaniach nad percepcją), ponieważ korzystając z nabytego doświadczenia, także powinno się nam udać utworzyć teorię świadomego myślenia, bez którego nie może być mowy o języku/ach. Przy czym nawiasem mówiąc: ani język(i) nie są całkiem autonomiczny/e wobec myślenia ani też nie myślimy wyłącznie w języku/ach.

  5. Andrzej W. pisze:

    Informacja przekazywana w językach naturalnych (nazwijmy ją semio-informacją) jest w nich zakodowana, podobnie jak informacja (nazwijmy ją bio-informacją), z której powstają białka. Nawet po najmniej złożonych porównaniach tych dwóch rodzajów informacji, można się przekonać, że o ile rola semio-informacji polega faktycznie na przekazywaniu treści, o tyle bio-informacja jest zgoła czym innym. Przeprowadziłem następujący eksperyment: ukułem dwa neologizmy na bio-informację (performacja i proformacja) oraz zapytałem SI (LLM), jak by je mogła zdefiniować w porównaniu z semio-informacją w językach naturalnych.
    Wystarczy, że przytoczę tu tylko podsumowanie otrzymanej odpowiedzi :
    //+++
    „ Bio-informacja (performacja i proformacja) dotyczy biologicznych mechanizmów informacji, działających na poziomie molekularnym, komórkowym czy organizmalnym.
    • Semio-informacja to systemy znakowe, wymagające interpretatora (np. człowieka, społeczności), w odróżnieniu od biologicznych systemów samoregulujących się.
    • Performacja i proformacja są związane z fizycznym ucieleśnieniem informacji, podczas gdy semio-informacja istnieje w wymiarze symbolicznym i kulturowym.
    +++\\
    Nic więc dziwnego, że w naszej dyskusji z Andrzejem Gecowem, u podstaw porównywanych zjawisk napotkaliśmy na znaczne różnice w używanych terminach. Jednakże wymiana maili zachęciła mnie do dalszych uściśleń przy pomocy narzędzi sztucznej inteligencji… Okazało się, że moje wysiłki w dziedzinie tworzenia neologizmów (choć zasadniczo rzadko to czynię) przyniosły pewne ciekawe uściślenia. W pierwszym rzędzie dowiedziałem się, że termin „bioinformacja” nie jest już neologizmem. Natomiast ukuty przeze mnie termin „semioinformacja” stał się chyba twórczym zaczynem dla SI (LLM), ponieważ otworzyło się dla mnie pole do nowatorskich porównań kodu genetycznego do języka naturalnego:
    //+++
    Termin „semioinformacja” nie jest powszechnie stosowany jako ustalone pojęcie naukowe, ale można go rozważyć w kontekście dwóch dziedzin: semiotyki (nauki o znakach) i teorii informacji.
    Możliwe definicje semioinformacji:

    1. Semioinformacja jako informacja znakowa – połączenie semiozy (procesu tworzenia i interpretacji znaków) oraz informacji. W tym ujęciu semioinformacja oznacza informację przekazywaną i interpretowaną poprzez znaki, symbole i systemy komunikacyjne, np. języki naturalne, obrazy, gesty, teksty kultury.

    2. Semioinformacja w teorii informacji – mogłaby oznaczać informację zależną od kontekstu interpretacyjnego, w odróżnieniu od informacji czysto syntaktycznej (Shannonowskiej). Przykładem byłaby informacja językowa, której znaczenie zmienia się w zależności od kultury, historii i sytuacji.

    3. Semioinformacja w biosemiotyce – w biologii można by rozważać semioinformację jako informację biologiczną, która pełni funkcję znakową, np. feromony jako „znaki” w komunikacji owadów, sygnały neuronalne jako „znaki” w układzie nerwowym. W tym sensie semioinformacja byłaby odmianą bioinformacji, ale interpretowaną w kategoriach semiotyki.
    +++\\

    Przytaczając wynik tego eksperymentu jako komentarz do wpisu Andrzeja G. właściwie odnoszę się do samego siebie, a mianowicie do stwierdzenia, jakim zakończyłem ponad 2-godzinną debatę po moim wystąpieniu na seminarium:
    „Pomimo że LLM-y są modelami języków, o których wiedzę nabyły czy też których znajomość posiadły na podstawie „obszernych baz danych tekstowych”, obecna inteligencja sztuczna stanowi jednak zaledwie skrawek inteligencji ludzkiej”.

    Niech więc ten mój eksperyment (oraz ten wpis) będzie dodatkiem do wykładu z nieco bardziej optymistyczną puentą: „nie odmawiajmy sobie sposobności korzystania z usług tej SI pierwszej generacji, pod warunkiem, że świadomi będziemy bardzo poważnych ograniczeń transformerów (algorytmów), za sprawą których jednak w mgnieniu oka uzyskać możemy już dzisiaj dostęp do wszelkiej (lub prawie wszystkiej) wiedzy na świecie”.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *