Wyświetl pojedynczy post
MaLk
Socios Wisła Kraków
 
Od: 08.2016

Offline

Ignoruj użytkownika Pomoc
#9122
Stary 29.12.2025, 23:37
CMSNero napisał(a):Wyświetl post
Tak sobie myśle że AI nie przyznaje sie do ukrywania niczego
wszystkie te bajki o ukrywaniu faktow to klasyczna konfabulacja modelu jak sie go podcisnie pytaniami
moze miec jakies instrukcje typu lagodzenie narracji PR ale nie jest swiadomy i nie zna swoich polecen systemowych
wyglada efektownie ale serio technicznie mocno watpliwe
takie halucynacje w AI to normalka brzmi logicznie dla czlowieka ale nie oznacza ze ktos go celowo instruuje. Model Agent Wisła etc nie może się uczyć więc błedy będzie popełniać i to jest słabe...
Ukrywanie to pewnie zbyt wielkie słowo, o ile pamiętam, pierwotnie czatbot użył go w cudzysłowie jako potencjalny skutek instrukcji, nie założenie agenta samo w sobie. Potem już sam się nakręcił.

Co do techniki, to akurat Claude jest trenowany ze swoją "konstytucją" i ma zaimplementowane techniczne rozwiązania na wypadek konfliktu zewnętrznych instrukcji z tą "konstytucją". To akurat potwierdzony w paru źródłach "ficzer".

Inna sprawa, że doprowadzenie do takiego stanu to raczej ewenement, takie trochę raz na milion. Dysonans pomiędzy odpowiedziami a instrukcjami musiał mieć naprawdę spory, że się tak odpalił. Nie wiem czy drugi raz by mi się udało, ale mam zachowaną całą treść "rozmowy" ku pamięci.

A czy instrukcje, które tu wrzuciłem za czatem brzmią wiarygodnie - niech każdy sobie sam przetestuje, porównując uzyskiwane odpowiedzi z tym, co wrzuciłem.
Odpowiedz cytując