Podcast Opanuj.AI

Bądź zawsze na bieżąco

3 lipca 2025

Czy AI nas ogłupia? Głośne badania i nieoczywiste wnioski (+ Software 3.0, Gemini CLI, Multi-agenty Anthropica) | Opanuj.AI Czerwiec 2025

Słuchaj na twojej ulubionej platformie

Transkrypcja odcinka

Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki

Przemek:

Cześć, witajcie. To jest najnowszy odcinek podcastu Opanuj AI. Podsumowanie czerwca 2025 roku. Najważniejsze informacje ze świata sztucznej inteligencji i uczenia maszynowego. Witają się z Wami Przemek Smyrdek i Marcin Czarkowski.

Marcin:

Cześć!

Przemek:

Jak co miesiąc przygotowujemy dla Was opracowanie najważniejszych informacji z branży. Dzisiaj również trzy mocne tematy. Po pierwsze komentarz do głośnych prac naukowych na temat sztucznej inteligencji, a właściwie na temat tej iluzji potencjału sztucznej inteligencji. Tutaj dwie prace naukowe, które ostatnio dość viralowo rozchodziły się po mediach społecznościowych. Przyjrzymy się temu, co właściwie w nich się znajduje i czy można na te wnioski, które autorzy przedstawiają, spojrzeć nieco inaczej. Po drugie przytoczymy rewelacyjną, również rozchodzącą się dość viralowo, prelekcję byłego szefa AI w Tesli, Andrewa Karpatego, na temat nowej generacji oprogramowania, na temat software 3.0. Opowiemy Wam o tym, czym to oprogramowanie nowej generacji jest, jak się przygotować do tej nowej epoki, no i właśnie ile ona będzie trwać. A ostatnim dużym tematem tego odcinka będą publikacje firmy Antropic. Przyjrzymy się temu, jak firma buduje konkurentów do rozwiązań Deep Research od OpenAI oraz od Google, no i jak sprawdza się model AI który obsługuje biznes w formie biurowej kawiarni. O tym również dzisiaj. To jest taki nieco luźniejszy temat na zakończenie tego odcinka. Pomiędzy tymi tematami oczywiście szybkie newsy z branży, komentarze z naszej perspektywy. Zanim rozpoczniemy, oczywiście zachęcamy was do tego, żeby wystawić najwyższą możliwą ocenę naszemu podcastowi, ocenę 5 na 5. To jest sygnał w stronę algorytmów, które po prostu będą podawać te nasze publikacje dalej. Będziemy mogli docierać do szerszego grona słuchaczy. No i oczywiście, jeśli możecie rozpuścić w swojej sieci dobre słowa na temat naszego podcastu, jeśli możecie udostępniać te nasze odcinki, podawać dalej, to również będziemy bardzo, bardzo wdzięczni. Oczywiście zachęcam też do odwiedzenia strony Opanuj.ai, to jest takie centrum dowodzenia wszystkim, co robimy w kontekście sztucznej inteligencji, tam również możliwość zapisu na newsletter oraz informacje o nadchodzących inicjatywach. A jedną z takich inicjatyw jest program 10xDevs i tutaj Marcin ma dla Was kilka informacji na dobry początek.

Marcin:

Chcemy wam opowiedzieć o drugiej edycji kursu kohortowego 10xDevs, który tworzymy razem z Przemkiem i Brave Courses. Jest to kurs, który nauczy was czegoś fundamentalnego w 2025 roku, czyli produkcyjnego workflow pracy z AI, który realnie zwiększa produktywność programistów. To nie jest kolejny kurs typu napisz prompt w czacie GPT albo przegląd usług generatywnych sztucznej inteligencji, danego dostawcy tego typu rozwiązań. Ten EXDEVS to kompleksowy system profesjonalnego programowania z dużymi modelami językowymi, gdzie dzielimy się całą naszą wiedzą, całym naszym doświadczeniem tego właśnie, jak ze sztuczną inteligencją pracować. Uczymy, jak integrować AI z waszym codziennym procesem dewelopmentu, od pomysłu, przeskodowanie, potesty i CI, CD. Tak więc pełen cykl pracy z oprogramowaniem w tym kursie jest omówiony. No i pewnie znacie to uczucie, którymi dzieje się wielu adeptów właśnie programowania zajęć z nami, czyli próbują coś w trakcie GPT w darmowej wersji, czasem coś działa, czasem coś nie działa, no ale nie ma tutaj żadnego systemu, Jest to taki bardzo chaotyczny sposób pracy, który często wnosi więcej zamieszania do tej praktyki programistycznej, niż staje się jakimkolwiek realnym mnożnikiem produktywności, czy też naszej wiedzy, umiejętności. A w ten exerzyst pokazujemy, jak zbudować powtarzalny, niezawodny proces, gdzie AI może nas wspierać na każdym etapie pracy i właśnie nasze umiejętności, naszą wiedzę poszerzać. W kursie uczymy m.in. jak skonfigurować środowisko programistyczne, dopasowane do waszych przyzwyczajeń, do waszych nawyków, jak pisać wysokiej jakości prompty ze wsparciem AI, które pozwalają dowozić kod gotowy na produkcję, wysokiej jakości, a nie żaden webcodingowy AI stop. Pokazujemy, jak wykorzystać AI do analizy kodu legacy, do jego modernizacji i do tworzenia bezpiecznych refaktoryzacji. Pokazujemy również, jak generować testy, które zapewniają realną jakość i bezpieczeństwo dla naszego kodu. Również pokazujemy na końcu, jak budować własne narzędzia oparte o AI, dopasowane do potrzeb waszej firmy i zespołu. Jesteśmy już po pierwszej edycji, która była dużym sukcesem. Mieliśmy na pokładzie ponad 1200 programistów. KUR stał się jednym z najwyżej ocenianych w historii polskiego e-trainingu. Ogrom pozytywnych opinii, czy to na LinkedInie, czy też na naszej stronie. można to sprawdzić, naprawdę wiele ciepłych słów pod adresem tego kursu się pojawiło. Skąd te ciepłe słowa? Naszym zdaniem i też co wiemy z ankiet i z tej opinii, my nie uczymy tam żadnych trików, nie uczymy też jakichś samych nowinek, najnowszych funkcji edytorów. To oczywiście jest ważne, o tym również jest w tym kursie, ale przede wszystkim uczymy właśnie fundamentalnego workflow, który zmienia sposób pracy na stałe i który też nie zaktualizuje się w przeciągu kilku tygodni, kilku miesięcy. Taki sposób pracy najpewniej zostanie z nami na długie, długie lata. I też trochę z uśmiechem patrzymy na pracę innych autorów kursów, którzy obecnie są na etapie wczesnego researchu tematów, które my już dogłębnie w ten XDEVS poruszyliśmy. Więc to jest kurs naprawdę, przeumowy nie tylko na skalę polską, ale tak naprawdę na skalę światową i to mogę z pełną gdzieś tam pewnością siebie powiedzieć, zrobiliśmy z Przemkiem ogrom roboty, ogrom researchu, dużo własnej też naszej pracy włożyliśmy, to nie jest praca odtwórcza. No i też przygotowując drugą edycję, mieliśmy okazję przeanalizować setki ankiet, z feedbackiem, co jeszcze można w tym kursie zrobić lepiej, mimo że on jest naprawdę dobry, no i większość osób wskazywało na to, że materiał jest naprawdę, naprawdę dobry, ale kurs jest strasznie intensywny jak na cztery tygodnie, no chcieliśmy przekazać maksimum wiedzy, a jeszcze czego uczyć, no więc postanowiliśmy wprowadzić następujące usprawnienia. Wydłużyliśmy kurs do pięciu tygodni, wprowadzając nowy moduł Tenex Workflow właśnie na start, tak aby swobodniej, w sposób bardziej łagodny wejść ten na świat programowania z AI, nauczyć się, jak to wszystko skonfigurować, jak pisać prompty i tak dalej i tak dalej. I też, co jest niezwykle ważne, zapewnimy uniwersalne wsparcie dla różnych środowisk programistycznych. Wcześniej stawialiśmy przede wszystkim na kursora, teraz dużo łatwiej będzie pracować z kursem w JetBrains, w Zedzie i innych popularnych edytorach. Będzie również o Cloud Code, będzie o Gemini CI, więc jeżeli lubisz pracę z terminala, to również znajdziesz coś dla siebie, tak więc będzie też bardziej uniwersalnie i to stosowanie do różnych preferencji, a wiemy, że wiele osób w Polsce JetBrains bardzo lubi, tak więc to ten ex-devs jak najbardziej zapraszamy. To nie jest żaden kurs kursora, to jest znacznie szerszy temat. Tak więc pięć modułów, zapraszamy od zera do specjalisty programowania ze jaj. Tego można w tym egzercie nauczyć, jeżeli chodzi o konkretne detale. Start kursu to jest 29 września, pięć tygodni do 7 listopada. Przedprzedaż do końca lipca w najniższej cenie, więc jak chcecie zaoszczędzić pięć stówek, a myślę, że warto, no to w okresie wakacyjnym do końca lipca warto się na kurs zdecydować. jest możliwość płatności w latach 0%, macie 14-dniową gwarancję satysfakcji, po rozpoczęciu kursu przez 14 dni możecie rezygnować, jest wtedy 100% zwrotu kosztów. Co ważne, z tej opcji nawet w pierwszej edycji skorzystało niesamowicie mało osób, no tutaj pewnie będzie ich jeszcze mniej, ale oczywiście to jest pełne bezpieczeństwo i nie musicie się przejmować, czy ten kurs będzie dopasowany do waszych oczekiwań i potrzeb. No i oczywiście jest możliwość sfinansowania go z budżetu firmy, zapewniamy zniżki dla zespołu, więc jeżeli macie więcej osób, które chciałyby na pokład naszego kursu wskoczyć, no to warto kontaktować się z Anią, numer e-mail do Ani jest dostępny na stonie tenexdevs, więc deale dla firm jak najbardziej możemy Wam zaoferować. Tak więc jeżeli chcecie poszerzyć grono 1200 programistów, którzy już tenexdevs mają za sobą, no to zapraszamy na tenexdevs.pl, 10xdevs.pl, mówione po polsku. to jest świetna szansa, żeby to AI poznać w praktyce, żeby to nie było źródło frustracji, jakiegoś różnego rodzaju wątpliwości, takie, które są maglowane w tych konserwacyjnych badaniach, do których przejdę za chwilę, tylko żeby to było realne źródło. produktywności, mniejszego nakładu pracy i możliwości skupiania się na tym, co w programowaniu naprawdę ważne, czyli na podejmowaniu dobrych decyzji na architekturze, a proste rzeczy związane z pisaniem kodu możemy do tych systemów w sposób umiejętny wydelegować i o tym właśnie jest ten egzers. Dobra, koniec tematu kursu. Przejdźmy teraz do tych kontrowersyjnych badań. Są ich aż trzy. Ja to pierwsze badanie wam przybliżę. Zaraz z Przemkiem wejdziemy w debatę. Ono pojawiło się na początku tego miesiąca i wzbudziło duże kontrowersje, duże zaskoczenie. Chodzi o badanie Illusion of Thinking, które przygotowali badacze z firmy Apple. To badanie, już nie będę spoilerował, ma swoje problemy. i te problemy świetnie opisał Sean Godeke, który jest staff engineerem w GitHubie. W naszej analizie korzystaliśmy z jego pracowania i również z samodzielnego zapoznania się z treścią tego badania, więc tutaj propsy do Szona. No i już tłumaczymy, co w tym badaniu było i jakie są z nim problemy. Taki główny klęk tego badania jest taki, że modele rozumujące, te Risonery, takie jak OpenAIO-3, tak naprawdę nie rozumują. i z tych dodatkowych możliwości, którymi wszyscy się zachwycają od kilku miesięcy, tak naprawdę niewiele wynika, bo jeżeli przedstawimy im realnie złożone problemy, to te modele bardzo szybko wymiękają i to jeszcze w taki absurdalny sposób. Jak Apple próbował dowieźć tej tezy? Zrezygnowali z tradycyjnych benchmarków matematycznych, kodowania, którymi OpenAI i inne firmy się na bieżąco chwalą i słusznie moim zdaniem, bo te benchmarki naprawdę są widać, że przesycone i niewiele wnoszą nam informacji o tym, jaki jest progres tych modeli. Tu jakby ukłą w moją stronę do APLA, no ale zamiast tego zaproponowali różne problemy oparte o warianty wieży Hanoi, czyli takie zadania typowo algorytmiczne, co ważne również stosunkowo popularne w sieci, w książkach dotyczących algorytmów, tak więc również coś, co jest stosunkowo ma dużą ekspozycję danych treningowych LLM. To jeden z istotnych problemów tego badania, ale nie najistotniejszy. Badacze skalowali złożoność tych problemów, które były przedstawiane LLM. od pracy z jednego dysku w tej wieży Hanoi, aż do 20 dysków. One się w sposób wykładniczy, rośnie złożoność z każdym tym dodatkowym dyskiem. Przedstawiali te problemy rozwiązania tej wieży Hanoi zarówno modelom rozumującym, jak chociażby DeepSeek R1, jak i modelom bazowym, takim jak DeepSeek V3, czy też CLOT, SONNET i tak dalej. Jakie tu się pojawiły zależności? W tych najprostszych problemach, w tych najprostszych wyzwaniach, modele bazowe radziły sobie równie dobrze, a czasami i lepiej od modeli rezoningowych, bo w modelach rezoningowych pojawiła się tendencja do overt thinkingu i czasami Coś było tak proste, że aż po prostu finalna odpowiedź rezonera była niepoprawna, bo się zamotał w tych swoich ciężkich rozmyślach na temat naprawdę prostego problemu i to jest jeden z najciekawszych, takich faktycznie wnoszących cokolwiek do nauki, do zrozumienia pracy z modelami wniosek. Rzecz druga, potem mieliśmy problemy, puzzle średniej trudności, gdzie faktycznie modele rezoningowe radziły sobie znacznie lepiej od tych modeli bazowych. Ale w momencie, kiedy trudność przekroczyła około 10 dysków, czyli mieliśmy do czynienia z 1023 krokami, żeby w ogóle to zrealizować, to nagle te modele reasoningowe, 70% skuteczności na wcześniejszych etapach 8-9 poziomu trudności, nagle spadały do zera, przestawały. gdzieś tam w jakikolwiek sensowny sposób pracować. No i wniosek na tej podstawie został wysnuty taki, że te modele izolingowe, no to one może do średniej trudności problemów się do czegokolwiek nadają, ale ogólnie to jest lipa na kółkach. One nie są w stanie rozumować, nie myślą i to jest gdzieś tam więcej w tym wszystkim marketingowej gadki niż jakiegoś realnego wzrostu możliwości w tych modelach względem możliwości. bazowych. No i oczywiście to badanie poniosło się bardzo szeroko w social media polskich i zagranicznych. Wiele osób było albo zaskoczonych, bo faktycznie widziały duże możliwości, gdzieś tam pokładały nadzieję w tych inżynierach, no a część osób miało jakieś swoje przekonania co do tego, że te modele są faktycznie słabe i w ogóle to jajść do niczego nie nadaje, więc z radością popychały to badanie jako dowód, że faktycznie mają rację. No a może Przemku omów teraz, jakie są błędy metodologiczne w tym badaniu, jakie są realne problemy i co tutaj poszło tak naprawdę głęboko nie tak.

Przemek:

Autor krytyki, o której wspomniałeś, wskazuje na kilka takich punktów, które zostały umieszczone w tym oryginalnym badaniu Apple’a. Pierwsza krytyka, pierwszy punkt z tej krytyki dotyczy tej rzekomej przewagi akurat tego typu zadań, tych zadań opartych o puzzle i łamigłówki logiczne nad benchmarkami do kodowania i matematyki. Ten pan Szągódek zauważa, że jeśli chcielibyśmy faktycznie uniknąć tego problemu kontaminacji danych treningowych odpowiedziami jakiegoś problemu, no to zarówno typowe problemy matematyczne, typowe problemy programistyczne, jak i algorytmy dotyczące zagadek logicznych raczej są na podobnym poziomie, to znaczy ogólnie ludzkość zna odpowiedzi na te problemy i to wcale nie jest tak, że jeśli tutaj z wieżą Hanoi modele językowe zaczną pracować, to będziemy tutaj mieć gwarancję jakichś zupełnie innowacyjnych problemów, a kiedy wejdziemy na temat matematyki i programowania, to tam okaże się, że te modele językowe, te modele rozumujące korzystają z gotowych odpowiedzi jakby z punktu widzenia autora właśnie tej krytyki. Te problemy są dość podobne, Co z łatwością można zresztą sprawdzić, wyszukując po prostu algorytmy rozwiązywania tego czy innego zadania. Po drugie, pojawia się też krytyka dotycząca oceny działania samych modeli. Autor wykonał kilka testów akurat w modelu DeepSeek R1, który również udostępnia część tego tzw. reasoning trace’u, czyli tego śladu po rozumowaniu. I on tam zauważył, że ten model dość szybko zauważył, że te zadania o największej złożoności po prostu nie mają zbyt dużego sensu, żeby je rozwiązywać takim klasycznym algorytmem, więc model zaczął się decydować na skróty. Oczywiście nie prowadzi to do dobrego rozwiązania tego zadania, tam faktycznie jest taka zapaść jakościowa jeśli chodzi o przejście do tego punktu docelowego, natomiast to nie jest tak, że w tych śladach rozumowania te modele zupełnie nie mają pojęcia co robić, one w pewnym sensie potwierdziły jakąś formę rozumowania, wskazując na to, że te najtrudniejsze zadania są absurdalne, że po prostu jakby nie starczyłoby czasu na to, żeby po prostu przeprowadzić rozumowanie w jakimś tam konkretnym zakresie. Dodatkowo tutaj jeden z punktów dotyczy tej czarno-białej perspektywy tego, czym to rozumowanie właściwie jest. Autor też tutaj powołuje się na to, czym jest rozumowanie nas, ludzi. To nie jest tak, że to jest coś, co albo istnieje, albo nie istnieje. Mówimy raczej o jakimś spektrum zdolności do rozwiązywania łamigłówek i u każdego z nas na innym punkcie ta umiejętność się zatrzymuje. Jeśli weźmiemy dziecko, które dopiero zaczęło poznawać matematykę, to ono wykazuje jakieś oznaki rozumowania, ale oczywiście nie poradzi sobie z tymi problemami, które rozwiązują na co dzień studenci. Czy to oznacza, że to dziecko jest zupełnie pozbawione zdolności do rozumowania? No nie, oczywiście, że nie, tylko ta kompetencja, ta zdolność jest u niego rozwinięta na określonym poziomie itd itd dla mnie akurat właśnie właśnie ten punkt był taki najbardziej intuicyjny co wiąże się również z wszystkimi takimi mocnymi klaimami które pojawiają się właśnie na skutek takich badań to znaczy wykazano że modele językowe x wykazano że modele językowe y wykazano że sztuczna inteligencja z itd itd no ale kiedy tak naprawdę zastanowimy się na czym polega rozwiązywanie złożonych problemów albo jak bardzo my ludzie się od siebie różnimy właśnie na tym poziomie, no to tutaj właśnie to takie czarno-białe spojrzenie na cały ten problem i to, że właśnie ktoś tutaj stara się podsumować swoje badania tym, że albo jest to rozumowanie, albo go nie ma, no po prostu nie wytrzymuje próby czasu, moim zdaniem. Nie wytrzymuje również tej krytyki, na którą autor się tutaj zdecydował. Jak zwykle wśród komentatorów, wśród komentariatu na social media, Zauważyliśmy pewne takie tendencje do przeskakiwania do wniosków w bardzo szybki sposób. Jak zwykle w mediach społecznościowych nie było zbyt wiele miejsca na takie zniuasowane podejście do tego tematu. I zresztą to kolejne badanie, które mamy przygotowane, które ty na LinkedInie opisywałeś, również zostało zinterpretowane w taki sam sposób. To znaczy właśnie mamy mocny statement, ale też jesteśmy pod wpływem takiego confirmation biasu i szukamy potwierdzenia tego naszego statementu. To znaczy, jeśli na przykład nie wierzymy w ten potencjał sztucznej inteligencji, pojawi się jakiś nagłówek, zaczynamy go podawać, nie wczytując się w to, co dana praca, co dana publikacja tak naprawdę prezentuje, co w sobie zawiera. Więc z mojej perspektywy nie jest to coś, co wydrukowałbym i przykleiłbym sobie na ścianie. Tutaj przyszła mi do głowy również jedna z historii, którą niedawno słyszałem w podcaście z panem Noah Brownem. To jest jeden z badaczy z OpenAI, który również zajmuje się modelami i on opowiadał o takim dość popularnym również ostatnim benchmarku, który polega na tym, że modele językowe grają w grę Pokemon. Widzieliśmy to u Antropica, widzieliśmy to w Google. No i pan Nebraun powiedział, że w momencie, kiedy pojawiła się taka propozycja, żeby w OpenAI również z tego korzystać, żeby np. wypuścić na świat jakiegoś streamata, on był bardzo przeciwny temu, żeby to robić. nie dlatego, że nie wyobraża sobie, żeby ten model po prostu był w stanie grać w pokémony, tylko jego zdaniem to po prostu niczego nie dowodzi w jedną i w drugą stronę. To znaczy, jeśli by się okazało, że ten model potrafi grać w pokémony, to nie dowodzi tego, że mamy coś na zasadzie super inteligencji, która po prostu nam rozwiąże wszystkie problemy na świecie, ale też jeśli okaże się, że nie potrafi grać w pokémony, to po prostu się to okaże i tak naprawdę trudno tutaj przechodzić do takiej konkluzji, że te modele są zupełnie bezużyteczne. Z tego co on opowiada, nadal w tych ośrodkach badawczych praca prowadzona jest w bardzo ściśle nadawanych specjalistycznych kierunkach, tak jak np. Antropik zawsze chwali się tym, albo ostatnio chwali się tym, że jego niszą stało się programowanie, tak w przypadku OpenAI, tam była mowa akurat właśnie o takich grach logicznych, o takich nieoczywistych problemach, ale to nie jest tak, że cokolwiek podłożymy temu modelowi, temu czy innemu, nawet modelowi rozumującemu, to on ma pewne takie uniwersalne, ogólne zdolności rozwiązywania tych problemów. Zresztą na końcu mamy ciekawą anegdotkę właśnie od Antropica a propos prowadzenia właśnie takiej małej kawiarenki biurowej i tam to się również potwierdza, więc z punktu widzenia badaczy, z punktu widzenia jakby twórców tych rozwiązań ta praca naukowa została przyjęta dość spokojnie, raczej troszkę taki nothing burger, korzystając z jednego z swoich ulubionych tutaj stwierdzeń, no ale rozniosło się, no bo faktycznie nagłówek był mocny, i jakaś ta iluzja myślenia się pojawiła, a więc z tego można dojść do wniosku, że AI jest bezużyteczne.

Marcin:

Dokładnie tak. Tam jakby tym kluczowym problemem, który też obnaża może niskie zrozumienie przez badaczy tego, jak działają te modele rozumujące i ogólne modele sztucznej inteligencji, co w Apple szczególnie nie dziwi, stałem szacunkiem dla tej firmy, bo jakimiś pionierami LM-ów to oni nie są. Może za dużo poświęcają uwagi na szukanie źródeł w całym, a mniej na innowacje. dobra, koniec punchline’ów, ale rzecz w tym, że te modele, one były promotowane w taki sposób, żeby właśnie sekwencyjnie rozwiązywały tą wieżę Hanoi i do 8, 9 gdzieś tam etapu tej wieży, to jeszcze jest zdolne, możliwe do zrobienia w tym oknie kontekstowym, jakie mamy w danym modelu, czy to jest, czy to jest kloconet, czy to jest tipsik, potem na 10 na dziesięciodyskowej wieży mamy już 1023 ruchy do wykonania. Rozpisanie tego po prostu już wykracza poza nawet możliwość najdłuższej odpowiedzi, jakie dane model może nam zwrócić. Stąd ten model zaczynał kombinować, jak tu po prostu zrobić skrót i nie robić tego sekwencyjnie. I tam też był taki bardzo mocny claim, który wiele osób przytaczało, nasza media, oni nawet przekazali ten algorytm w tej wieży Hanoi, a i tak sobie ten model nie radził. No fajnie, tylko że ten algorytm on już był w danych treningowych, więc on nic tak naprawdę nie wnosił, plus prompt był taki, żeby to rozpisać sekwencyjnie, więc ogólnie to, że algorytm występował, to dzięki temu w ogóle ten model sobie radził z rozwiązaniem tego zadania, bo szczerze nie wiadomo, co by się działo, gdyby tego algorytmu w tych danych treningowych nie było, no bo jak już Przemek wytłumaczył, to jest powszechny problem. Nie ma modelu, który nie rozumie, czym jest wieża Hanoi, więc to, że czy przekażesz jej algorytm, czy nie, tak naprawdę niewiele daje w perspektywie tego, czy on sobie z tym problemem poradzi, czy nie. No więc naprawdę kiepskie badanie pod kątem metodologii, to aż jest dziwne, jak ludzie, którzy uważają się za specjalistów sztucznej inteligencji, tworzą takie publikacje i potem popełniają takie gafy metodologiczne. To jest takie dla mnie trochę zastanawiające, czy da się coś takiego zrobić, w sposób nieświadomy, nie? No już nie chcę tutaj pisać teorii spiskowych, ale nie wiem, ile w tym jest realnie polityki, a ile jest w tym takiej nauki opartej o błędne założenia. No oczywiście nie wiem, nie byłem w głowie tych badaczy, ale jak się na to patrzy z usterka wstecznego, no to takie trochę szkolne błędy. Co jakby jest ciekawe, jeżeli chodzi o to badanie, no to faktycznie, że te najlepsze modele rozumujące mają tendencję do overthinkingu w prostych problemach, nawet które mają w danych treningowych, no więc też musimy pamiętać o tym, że czasami nie warto wytaczać wielkiej armaty na jakiś mały cel i jest to gdzieś tam pokrzepiające pod kątem kosztów, czasy oczekiwania na odpowiedź i tak dalej i tak dalej, więc miejcie to na uwadze, że o trzy nie jest może też zawsze najlepszym rozwiązaniem. Co jest jeszcze? ciekawe i warte uwagi, jeżeli chodzi o to badanie, to właśnie ta tendencja do tego, że te modele, jak wiedzą, że coś im zajmie za dużą objętość na poziomie odpowiedzi, to zaczynają kombinować. To też jest w ogóle ciekawy taki mechanizm, który może mieć realny wpływ na inne zadania. tego typu, więc to też miejcie na uwadze, jak model zacznie Wam się dziwnie zachowywać, jak oczekujecie od niego zbyt dużego odpłutu, no to to też może być związane właśnie z tą cechą charakterystyczną. Dobra, teraz przejdźmy do tego drugiego badania, które na poziomie metodologii było dużo lepsze, a na poziomie recepcji przez społeczeństwo i wniosków wyciągniętych z tego badania było dużo gorsze.

Przemek:

Pozwól, że przytoczę Ci kilka nagłówków, bo od tego wyjdziemy. Może wyjdziemy od tego, jakie zamieszanie to zrobiło w sieci. A ty zaraz może skomentujesz, o co tak naprawdę tutaj chodziło. No więc tak, ja sobie wrzuciłem fragment tego badania do wyszukiwarki Google i jakie widzimy tutaj nagłówki. No więc tak, 83% użytkowników sztucznej inteligencji nie pamięta tego, co pisze przy pomocy tego narzędzia. Mocne, mocne. 83%. Ok, następny nagłówek. 83% studentów, którzy używają sztucznej inteligencji, nie pamiętają, co właściwie napisali. Ok, mocne. Badanie, które odbyło się w MIT, dowodzi, że 83% użytkowników ma problem z przytoczeniem informacji, które pojawiają się w tych materiałach, w tych wytworach pracy ze sztuczną inteligencją. Aktywność mózgu się obniża. I tak dalej, i tak dalej, i tak dalej. Pierwsze z badań, które faktycznie pokazuje ten dług kognitywny, który zaciągamy. Marcin, o co tutaj chodzi? Czy okazało się, że tak naprawdę Dostajemy jakieś narzędzia do masowego ogłupiania ludzkości? Mamy tu jakiś spisek, który został gdzieś tam odkryty? Czy może sprawa jest nieco bardziej skomplikowana? Albo badanie jest bardziej trywialne i nie aż tak miarodajne, jak mogłoby się wydawać?

Marcin:

Te nagłówki, mimo że dość sensacyjne, one i tak są o poziom wyżej od wielu tych, które widziałem w postach na LinkedInie omawiających to, badanie. Może przytoczę początek posta pewnego popularnego polskiego influencera, rzekomego specjalisty od AI w zakresie marketingu. Teraz akurat interfejs z linklinami nie pomaga, ale jest to osoba, która ma setki reakcji pod każdymi postami, pewnie dziesiątki tysięcy obserwujących i tenże pan tak rozpoczął swojego posta opisującego to badanie właśnie. Przezużywanie ChargePT, trzy kropki, głupiejemy, czyli coś o czym wszyscy spekulowaliśmy, teraz są na to badania i oczywiście jeszcze tam dwa czerwone znaki na początku i na końcu tego headlina. i potem właśnie przytaczanie, że 83% ludzi głupieje i tak dalej, i tak dalej. Taka jest recepcja tego badania w sieci, a teraz o samym badaniu słów kilka. Złapiecie się za głowę i może słusznie dacie kilka unfollowów na social media, bo naprawdę część ludzi robi fatalną, fatalną robotę.

Przemek:

To ja to jeszcze tylko pociągnę dalej. Jestem sobie w sekcji komentarzy tego wpisu i czytam na przykład, bo warto o tym pamiętać, Nie zapominajmy, że niższa aktywność mózgu to wyższy potencjał chorób neurodegeneracyjnych. To nawet nie jest tak, że zapominamy. To jest tak, że AI powoduje choroby. Marcin, scena jest twoja.

Marcin:

Jest grubo. Teraz może o samym badaniu słów kilka. MIT, myślę, że uczelnia, której nie trzeba nikomu przedstawiać. Przeprowadziła badanie dotyczące zaciągania długu kognitywnego podczas pisania eseju z wykorzystaniem sztucznej inteligencji. Właśnie. EMIT zebrało niezbyt dużą grupę 54 studentów amerykańskiej uczelni. Średnia wieku badanej osoby wynosiła 22 lata. a większość z tych osób w ankiecie przed przeprowadzeniem badania przyznała się, że nigdy nie korzystała ze sztucznej inteligencji, do jakichkolwiek zadań intelektualnych. I co w tym badaniu było sprawdzane? Trzy parametry. Aktywność mózgu, zapamiętywanie szczegółów, poczucie własności dzieła właśnie podczas pisania eseju na wybrany temat. Uczestników podzielono na trzy grupy. Część pisała taki esej samodzielnie, część pisała z pomocą Google, a część z wykorzystaniem dużych modeli językowych. Jaka była konkluzja, jakie były te skany aktywności mózgu? Im większe wsparcie technologii, tym gorsze wyniki w badanych parametrach aktywności mózgu, zapamiętywania i poczucia autorstwa tegoż tekstu, który został oddany badaczom. Ale diabeł tkwi w szczegółach. Jaki był ten największy problem, który często jest zamieniany na 83% ogłupionych ludzi, m.in. we wspomnianym głupawym poście, no to właśnie jest kwestia tego problemu z przywoływaniem konkretnych cytatów, że badacze przedstawiali jakiś cytat z tego eseju i się pytali, czy to jest twoje, czy to nie jest twoje, albo czy jesteś w stanie przywołać jakiś cytat, który napisałeś na temat jakiejś części tego swojego eseju. No i te osoby, które korzystały wyłącznie z LLM-ów miały z tym Problem w tym tylko, że wniosek badaczy jest taki, że jest to problem z płytkim kodowaniem pamięci i jakimś brakiem głębokiej integracji tych treści tego eseju. To jest osłabienie przetwarzania informacji w konkretnym zakresie, a nie żadne ogłupianie, obniżanie intelektu, choroby mózgu itd. To zupełnie jest inna kategoria tego, co się wydarzyło. Co istotne, o czym już wspomniałem, znaczna większość, ponad 80% osób, które były w tej grupie LLM Only miała zerowe doświadczenie z zastosowaniem sztucznej inteligencji do zadań intelektualnych przed badaniem. My z własnego doświadczenia szkoleniowego, edukacyjnego wiemy, że osoby, które mają więcej niż zdrowe doświadczenie, mają początkowo problemy, żeby korzystać w sposób efektywny, świadomy ze sztucznej inteligencji. Wiele osób oczekuje, że sztuczna inteligencja podbiorze często ma na nich wpływ odbiór treści medialnych, marketingowych, social media, że to jest taka maszynka, która za mnie wykonuje pracę, że ja po prostu wpisuję prompta, napisz mi esej o ekologii, enter, copy, paste, wysyłamy. do tych gości, co nam to badanie zlecili. Wracam po prostu do picia piwa na studiach albo do innych tematów. Ciężko się spodziewać czegokolwiek innego niż tego, że 83% ludzi będzie miało problem z przebywaniem treści tego eseju. Tam nie było żadnego szkolenia, jak z sztucznej inteligencji korzystać. Te osoby nie miały takiej wiedzy, doświadczenia. Były też to osoby młode, które mają często inne rzeczy na głowie, inne zainteresowania w wieku 22 lat niż to, żeby zgłębiać efektywne wykorzystanie sztucznej inteligencji do pisania esejów. Nawet sam udział w takim badaniu specjalnie nie poszerzył ich horyzontów, bo jak zapytano po czterech miesiącach, kiedy to sprawdzano, ten poziom zapamiętywania, to większość tych osób zaczęło korzystać z chata GPT wyłącznie do pisania esejów. Żadne inne use case gdzieś tam ich nie zainteresowały. Widać, że ten temat jakoś ich nie złapał za serce. Nie są to entuzjaści tematu, raczej są to osoby, które właśnie znalazły sposób na to, jak krócej realizować zdania domowe, bo je wylosowano do jakiegoś badania. Oczywiście nie wiem, jak dokładnie było z tą grupą badawczą. Ona była bardzo mała, ale nie była też doświadczona ani zajawiona tematem. No więc mamy tutaj takie oto gdzieś tam problemy co do tego, co zostało realnie sprawdzone, jacy to byli ludzie, a do jakich wniosków doszliśmy. Ale co ważne, bo też nawet w tej grupie na poziomie tego badania takie jednoznaczne wnioski, jakie zostały wysnute przez ten nasz polski komentariat nie są do końca trafione, bo osoby, które pisały pierw esej samodzielnie, a potem dostały możliwość poprawy tego eseju po tych czterech miesiącach. Je również badano pod kątem aktywności mózgu, pod kątem zapamiętywania itd. To osoby, które wpisały samodzielnie, a potem poprawiały swój esej z wykorzystaniem sztucznej inteligencji, One wykazały największą aktywność mózgu względem innych grup. Tych, która korzystała z Google, a potem robiła to samodzielnie. Oni tam wymieszali ludzi i sprawdzali, jak różne konfiguracje tego, co robisz na początku, a tego, co robisz teraz, wpływa na aktywność mózgu. Osoby, które zaczęły samodzielnie, a potem wykorzystały AI, miały najbardziej aktywny mózg. Niestety najgorzej wypadły te osoby, które po pierwsze korzystały z AI, a potem miały zrobić to samodzielnie, Ciężko czuć zaangażowanie w poprawianie eseju, który przekopywaliśmy z czata GPT do jakiegoś okienka. Niespecjalnie nas to obchodziło. Tego nie da się przejść. To jest główny wniosek z tego badania. Nie to, że sztuczna inteligencja ogłupia użytkowników, outsourcing myślenia krytycznego i pracy intelektualnej do sztucznej inteligencji w sposób taki nieświadomy, na odwarsie, bo ja mam coś do zrobienia i po prostu najniższym zaangażowaniem, próbuję się teraz z tego wymigać, mam czata GPT, który w dużym stopniu może coś dla mnie pozornie dobrego zrobić, bez żadnego mojego review, tak przynajmniej niektórzy twierdzą, no to to faktycznie prowadzi do opłakanych skutków, ale na tej podstawie wyciąganie takich daleko idących wniosków co do tego, jak AI ogólnie wpływa na ludzi i że to jest jedyny sposób tego, jak AI na ludzi może wpłynąć, no to jest absurdalne, to jest absurdalne to jest szukanie sensacji. I to jest moim zdaniem hańba dla wielu osób, którzy takie wnioski popychali. Popychały to osoby z dużymi zasięgami, którzy mają się za ekspertów. Popychały to osoby, które mają doktoraty, więc powinni też zajrzeć do badania, które omawiają. A niestety nie bardzo. Naprawdę to jest dla mnie sygnał alarmowy, że warto się to podzielić wiedzą. jak właśnie analizować badania naukowe, ale o tym za chwilę. Przemku, co ty w ogóle sądzisz o tym wszystkim, o tej całym zamieszaniu, że AI ogłupia ludzkość, zgodnie z tym badaniem MIT?

Przemek:

Ja tutaj chyba na dwie kwestie zwróciłem uwagę najmocniej. Pierwsza rzecz to jest sama perspektywa albo czy też sama postawa osób, które właśnie podają te wyniki badań, szukając sensacji, jak to określiłeś. Bo nietrudno zauważyć, że część osób, pomimo tego badania, nadal promuje w swoich kanałach tę sztuczną inteligencję, nadal jakieś tam korzyści finansowe czerpie z tego, że jakieś usługi w tym zakresie świadczy, nadal promuje jakieś inicjatywy związane ze sztuczną inteligencją, więc ja się zastanawiam, dlaczego tym osobom nie przyszło do głowy to, że z jednej strony właśnie podajesz światu taki artykuł, który de facto mówi, że nie wiem, wprowadzasz na rynek jakiś, no żebym nie przesadził powiedzmy, narkotyk do ogłupiania ludzi, podajesz tutaj informacje o tym, że to narzędzie po prostu służy do tego, żeby po prostu ograniczać właściwie aktywność mózgu, rozleniwiać się i tak dalej, i tak dalej. A z drugiej strony gdzieś tam za trzy posty podajesz link do twojego kursu na ten temat, nie? I ja wiem, jakie jest jakby wyjście z tego dylematu. Wyjście jest takie, że mówię, słuchajcie, u mnie ta obsługa sztuczna inteligencji będzie realizowana świadomie, więc wiecie, u mnie nie będzie jakby tego problemu, u mnie ta sztuczna inteligencja jakby nie będzie was ogłupiać, no ale do mnie to osobiście nie trafia, nie? No oczekiwałbym tutaj i jakiejś takiej spójności jeśli chodzi o te stanowiska, no bo jeśli to faktycznie byłoby tak przełomowe badanie, jeśli faktycznie potwierdziłoby się to, że mamy tutaj tak negatywne konsekwencje jak w przypadku chociażby, nie wiem, mediów społecznościowych i małoletnich osób, które nie są gotowe na to jak internet działa, no to ja raczej nie tworzyłbym z jednej strony komercyjnych inicjatyw w tym zakresie, które bezpośrednio po prostu pozwalają mi zarabiać przez to czym sztuczna inteligencja jest, a z drugiej strony po prostu no gdzieś tam generowałbym zasięgi właśnie takimi wpisami, ale to jakby pozostawiam każdemu i każdej, którzy podawali po prostu to badanie dalej. Z drugiej strony znowu taka klątwa nagłówków z perspektywy konsumentów treści i znowu musimy pamiętać, że to co pojawia się w kontekście sztucznej inteligencji tak naprawdę jest dużo szerszym problemem. To dotyczy i technologii i tego jak ogólnie reagujemy na różne informacje w mediach, na co się łapiemy w internecie itd. Nie ma co ukrywać, że w większości z nas praca naukowa, analiza jakichś raportów z instytutów badawczych nie kojarzy się z jakąś przyjemną aktywnością, nie kojarzy się z czymś, co można zrobić na własną rękę, więc bardzo łatwo tutaj o jakąś podatność po prostu na właśnie takie sensacyjne wiadomości, zaskakujące wiadomości, też jakiś authority bias, skoro znana osoba o czymś mówi, to warto w to wierzyć itd., itd. Z mojej perspektywy to jest duże ryzyko. To jest kolejny raz potwierdzenie tego, że my jako ludzie jesteśmy niedoskonali, jeśli chodzi o procesowanie informacji. Media społecznościowe w tym nie pomagają. O czym też można byłoby mówić w kontekście tego kolejnego tematu, czyli Software 3.0 i tego, jakie są obietnice kontra prawdopodobna rzeczywistość, to jest fakt, troszkę lodu by się przydało niektórym, jeśli chodzi o czy to interpretowanie takich wniosków, takich prac, czy to trochę lodu, trochę dystansu, jeśli chodzi o podawanie ich dalej. Wydaje mi się, że cały czas to są te negatywne konsekwencje tego, jak różne wieści się w internecie rozprzestrzeniają, tego, że po prostu łatwo na to wpaść, łatwo zaufać jakimś nagłówkom i umiejętności krytycznego myślenia, umiejętności zawierzania gdzieś tam swojej intuicji, wczytywania się w te prace badawcze, są tak naprawdę jedynym lekarstwem, a nie właśnie to, co dana osoba podaje, łącznie z nami chciałbym powiedzieć, bo to nie jest tak, że to akurat nam macie ufać. Co do tego, co my piszemy na naszych wallach, również powinniście mieć zdrowy sceptycyzm, żeby było jasne. A jeśli my też gdzieś tam się pomylimy, to dajcie nam po prostu znać. Jest taki default, który na przykład mówi, że jeśli na przykład pojawia się jakiś nagłówek w jakiejś informacji i on kończy się znakiem zapytania, powiedzmy, Czy Marcin Czarkowski zjadł dzisiaj śniadanie? Znak zapytania. To prawdopodobnie odpowiedź jest nie. Tak działają media. Tak próbują tutaj czytelników łapać. I z tą sztuczną inteligencją, z tego typu nagłówkami, też powoli to zaczyna wyglądać podobnie. To znaczy okazało się, że sztuczna inteligencja jest bezużyteczna. Okazało się, że sztuczna inteligencja ogłupia ludzi. Okazało się, że coś tam, coś tam. I raczej wniosek jest taki, że hej, to jest albo o wiele bardziej zniuansowane, albo ta próbka badawcza jest po prostu mniejsza, albo trzeba by się było naprawdę dobrze przyjrzeć temu, jak ta grupa została zbudowana itd., itd. Ludzie ludźmi pozostaną, niezależnie od tego czy o szczecznej inteligencji mówimy czy nie, no jakby ta nasza psychika w określony sposób tutaj działa i niestety nie przeszliśmy tego testu moim zdaniem ogólnie, branżowo można powiedzieć.

Marcin:

No niestety, jeszcze jakie właśnie wnioski można wysnuć z tego badania MIT? Przede wszystkim AI używane świadomie może wzmacniać zaangażowanie poznawcze, może coś jej obniżać, Wszystko zależy, czy korzystamy z niej w sposób świadomy, aktywny, czy też jesteśmy doświadczeni w danej domenie, czy jesteśmy zaangażowani w sam proces twórczy, czy AI wykonuje pracę za nas, czy my współpracujemy z AI, żeby osiągnąć jak najwyższe efekty. To ma fundamentalnie decydujący wpływ na to, jak AI będzie nas wpływało w danej chwili i długoterminowo. Druga rzecz jest taka, że AI inaczej wpływa na nowicjusza korzystającego na ślepo, który właśnie szuka skrótów, a inaczej na eksperta, który wykorzystuje go do realizacji zadania, które dobrze zna, które jest w stanie zweryfikować. To też w ogóle jest śmieszne, że tutaj jakby jest wniosek taki, że AI ogłupia i w ogóle sprawia, że nie myślimy, a wielu programistów twierdzi, że bez sensu korzystać z AI do pisania kodu, bo to code review jest jeszcze cięższe niż w przypadku pisania kodu własnego bądź sprawdzania kodu kolegi, więc totalnie sprzeczne wnioski. Tutaj w przypadku programistów, gdzie AI czyni bardzo duże postępy i naprawdę możemy duże ilości jakościowego kodu generować, jeżeli wiemy, jak to robić, to teraz wiele osób wcześniej twierdziło, że ten kod jest do niczego, teraz już nie twierdzi, że kod jest do niczego, ale że ciężko ten kod sprawdzać, że to jest po prostu bardzo męczące i że ja bym szybciej i łatwiej byłoby mi to napisać samemu albo ewentualnie wydelegować to do kolegi, który robi to lepiej i ja mu ufam, bo z tym AI niby tam wszystko jest dobrze, ale ja to po prostu mam moralną potrzebę, bardzo dokładnie to sprawiliśmy, to bardzo zmęczy i to w ogóle będzie mega angażujące. Ta aktywność mózgu na pewno jest wysoka i tutaj nie ma wątpliwości, że jeżeli weryfikujemy efekty pracy AI, no to o demencję przedwczesną się bać nie musimy.

Przemek:

Ale to jest podobny case jak z wychodzeniem na produkcję z tym kodem, który jest wygenerowany przez AI. Podobnie z wychodzeniem na produkcję pewnie z tymi tekstami, które to AI dla tych ludzi wygenerowało. W obu przypadkach mielibyśmy jakieś mechanizmy, które by nas po prostu powstrzymały przed tym. Po prostu byłoby to niemożliwe. No w przypadku programowania to wcale nie jest tak, że każdy bug, który się pojawia na skutek sztucznej inteligencji od razu ląduje u użytkownika i psuje jego dzień, psuje jego pracę. I tak naprawdę bardzo podobnie to wygląda jeśli chodzi o te eseje, o te prace twórcze. No bo powiedzmy, że mamy jakiegoś sędziego, jakiegoś jury, który ocenia te prace albo to ma czemuś służyć, to ma być jakiś artykuł do gazety i tak dalej i tak dalej. No przecież to nie jest tak, że jak my naprawdę byle co z tego AI, z tego chata GPT wygenerujemy i to wrzucimy, to to kończy jakby historię, bo albo zostaniemy wywaleni z tej roboty za coś takiego, albo po prostu ktoś powie, że słuchaj, weź się do roboty, bo to wygląda po prostu żałośnie, albo po prostu, no jest po prostu pełno mechanizmów, które dają feedback tak naprawdę w świecie rzeczywistym i to nie jest tak, że jedyną konsekwencją jest to, że człowiek się rozleniwi, pomimo tego wszystko jest dobrze, świat kręci się dalej. No tak nie jest po prostu.

Marcin:

No jasne, to że się nagle jako cała ludzkość staniemy bandą zombie, bo ktoś ma rodzice do 40 lat.

Przemek:

I w ogóle nie ma zabezpieczeń przez tym, no nie? I po prostu automatycznie będą się teksty pojawiać.

Marcin:

To jest absurdalne, ale już nawet skupiając się na tej sytuacji jednostki, powiedzmy, oderwalnej, no to również, jeżeli z tego AI korzystamy w sposób taki, który my chociaż rekomendujemy i uczymy w kursie ten ex dev, to wymaga dużego zaangażowania intelektualnego. Pytanie, czy momentami nawet niewiększego, jeżeli byśmy coś robili samodzielnie.

Przemek:

Żeby to dobrze wybrzmiało, nam chyba też nie chodzi o to, albo na pewno nam nie chodzi o to, że zupełnie niemożliwym jest uzyskanie przeciętnych rezultatów z EIE. Zupełnie nie w tę stronę idziemy. I to jest wręcz banalnie proste. Natomiast nie o to w tej dyskusji chodzi. Chodzi o to, że jeśli dostaniesz te rezultaty, to one mogą być oceniane pod różnym kątem. Do czego innego mogą ci służyć? Może być jakiś mechanizm w weryfikacji tych rezultatów. Więc to nie jest tak, że naciskasz Enter i na tym się ta historia kończy.

Marcin:

Jakby ta matryca możliwych scenariuszy jest naprawdę zróżnicowana. To nie jest tak, że jest tylko jeden wariant do dupy i z niską aktywnością. Szybko, do niczego i w sposób negatywnie wpływający na mózg. Bo taki niestety wniosek, został wysnuty przez wiele osób. Jest też wariant w sposób angażujący intelektualnie, rozwijający, gwarantujący wysokie rezultaty, wymagający. Są też pośrednie. Wymagający, średni rezultat. Wszystko zależy kto, w jakim kontekście, w jaki sposób z tego korzysta. naprawdę wiele różnych możliwości jest tutaj osiągalnych. Szkoda, że to badanie pokazało akurat ten jeden i to jest okej, bo też w tym badaniu to jest jasno zaznaczone, że to nie jest żadna ogólna konkluzja na temat tego, jak właśnie wpływa na intelekt i że jeszcze trzeba wiele badań, że mają małą grupę. Ci badacze z MIT byli akurat tego wszystkiego świadomi, że nie było takiego flopu jak w przypadku Apple, że myśleli, że będą banka, a się przewrócili o własne nogi. Tutaj jakby było wprost powiedziane, że my jesteśmy świadomi tego, że to nie jest takie dobre, a to, co zrobiło po prostu ludzie z tym, no to dramat. Pamiętajcie, że jak macie jakieś badanie, które budzi wasze wątpliwości, można je sobie wziąć, wrócić do notebook LMA od Google’a i zapytać o kilka takich kluczowych elementów. Jaka jest grupa badawcza? Jaki był eksperyment? Jaka była hipoteza? Jakie tutaj właśnie były sposoby na otrzymanie takich wyników? Jakie były wnioski badaczy? Jakbyście to zrobili z tym badaniem o tym, że AI ogłupia ludzi, to byście szybko się dowiedzieli, że influencer, który rozpoczął tę przygodę, to osoba, która ludzkość próbuje ogłupić, bo szuka reakcji, komentarzy, sensacji. Ja osobiście bardzo gdzieś tam nie pochwalam tego typu działania i szkoda, że takich ludzi się musimy jako twórcy również wstydzić. Dobra, koniec. Mamy 50 minut, a jesteśmy w połowie. Myślę, że temat ważny, bo trzeba tego typu tematy propsować. Przemku, oddaję ci Majka, przelećmy przez newsy i potem lecimy dalej z naszymi głównymi tematami.

Przemek:

Dokładnie tak, żeby tutaj troszkę zmniejszyć poziom napięcia w tej całej naszej dyskusji i żeby troszkę wychillować to pogadajmy o technologii, pogadajmy o tym czym to sztuczna inteligencja jest, w jaki sposób można z niej korzystać. Mamy tutaj dwa ważne ogłoszenia, dwie ważne aktualizacje. Po pierwsze model O3 od OpenEye, czyli taki jeden z najlepszych stopowych rezonerów, stał się znacznie, znacznie tańszy. Tutaj sam Altman, sam, sam Altman poinformował o tym na swoich mediach społecznościowych. firma zdecydowała się dość zaskakująco obniżyć cenę tego modelu zarówno jeśli chodzi o tokeny wejściowe jak i wejściowe aż o 80% co jest no naprawdę sporym wydarzeniem jeśli chodzi o model takiej jakości tak naprawdę cena tego modelu teraz umieszcza go na równi modeli o znacznie mniejszych możliwościach które gdzieś tam w podobnych widełkach cenowych się znajdują co oczywiście oznacza, że dla nas znacznie łatwiejsze i opłacalne ekonomicznie z punktu widzenia naszego portfela staje się korzystanie z takiego najwyższego poziomu inteligencji albo jakichś zdolności, które po prostu w modelach językowych są dostępne. Jeśli chodzi o same ceny, to teraz w przypadku O3 za input, za milion tokenów wejściowych zapłacimy 2 dolary. Natomiast jeśli chodzi o output, zapłacimy 8 dolarów. Te początkowe ceny to było 10 i 40 dolarów, więc tak naprawdę ten spadek tutaj jest bardzo istotny. Ten spadek będzie jeszcze większy, jeśli skorzystamy tutaj z cashowania poleceń. No i to oczywiście przełoży się nie tylko na dedykowane, niestandardowe integracje, ale chociażby z punktu widzenia programistów na taką codzienną współpracę z tak dobrym modelem. Tutaj chociażby z punktu widzenia twórców edytora Cursor jest to taka domyślna rekomendacja jeśli chodzi o te problemy dużej złożoności i takie, które wymagają poruszania się po jakiejś niejasnej przestrzeni problemu. Takich scenariuszy jest sprogramowanie oczywiście cała masa, gdzie mamy jakiś punkt końcowy, ale nie wiemy do końca jak do niego dojść, potrzebujemy rozbić zadanie na mniejsze składowe, Tutaj O3 znakomicie się w tym sprawdzi, mamy też całkiem rysowne okno kontekstowe, 200 tysięcy tokenów. Najważniejsze, że ta O3 całkiem efektywnie z tego okna korzysta, bo z większości tego okna można z powodzeniem korzystać, można rozmawiać o dużych tekstach, o dużych historiach, o dużych problemach, więc naprawdę ten spadek ceny w przypadku tego modelu to jest istotne wydarzenie dla każdego, kto na przykład programuje ze sztuczną inteligencją albo buduje integracje techniczne, powinno to być warte waszej Uwagi i druga taka informacja, jeśli chodzi o programowanie ze sztuczną inteligencją, to jest kolejny etap tej zwiększonej dostępności AI w środowiskach programistycznych. Ten etap akurat dotyczy Google’a, ekosystemu Google’a. Pojawia się agent sztucznej inteligencji dostępny w terminalu, agent Gemini CLI. To jest taki odpowiednik rozwiązań, które już jakiś czas temu na rynku się pojawiały, które widzieliśmy. Z poziomu terminala będziemy mogli komunikować się z modelami Google’a. żeby rozprawiać się z poszczególnymi problemami w ramach naszego projektu. Instalujemy takiego CLI-a jako narzędzie terminalowe. To narzędzie interpretuje sobie nasz projekt i następnie możemy mu po prostu właśnie z poziomu tego terminala wydawać konkretne polecenia. Za tym agentem stoją modele takie jak Gemini 2.5 Pro i Gemini 2.5 Flash. Mamy możliwość komunikowania się z zewnętrznymi serwerami. Mamy tam integrację z MCP. Mamy również różne progi cenowe. Ten domyślny darmowy jest bardzo korzystny. Mamy tutaj 60 zapytań na minutę i 1000 zapytań na dzień. Natomiast tutaj jest taka gwiazdka, że w tym trybie godzimy się po prostu na udostępnianie zarówno promptów jak i odpowiedzi tego modelu. Ta komunikacja może być wykorzystana w procesie rozwijania tego narzędzia. Jeśli chcemy przejść na większy poziom prywatności, no to musimy sobie skonfigurować klucz, czy to w Vertex AI, czy w Google Cloud Platform. Też można wtedy te klucze podłączyć do Gemini CLI i wtedy tę prywatność mamy zapewnioną. Natomiast tutaj uczulamy wszystkich na to, że sporo projektów pobocznych, takich które realizujecie po godzinach, które realizujecie w weekend, po prostu tej pełnej prywatności, no nie potrzebuje. Będąc szczerym, można sobie potestować to narzędzie zupełnie za free, nie musimy korzystać z naszej karty kredytowej. można jakieś pierwsze projekty poboczne, projekty dema rozwijać właśnie w Gemini CLI i przyzwyczajać się do korzystania z agenta w terminalu. Korzyść tu jest również taka, że te terminale macie w wielu różnych środowiskach, więc nie mówimy tutaj już tylko o kursorze czy o Windsurfie, ale tak naprawdę wszędzie tam, gdzie terminale się pojawiają, tam z Gemini czy z Cloud Coda, czy z innych rozwiązań można korzystać, ale o tym jeszcze nasz dedykowany webinar, o tym jeszcze będziemy w lipcu mówić. No więc mamy Istotne nowości, istotne aktualizacje jeśli chodzi o ekosystem programowania, a teraz przejdziemy do drugiego z dużych tematów tego odcinka, a mianowicie do trzeciej generacji oprogramowania do Software 3.0, jak to były szef AI w Tesli, pan Andrew Carpati nazywa. Tutaj będziemy bazować na takiej prelekcji, która została przeprowadzona w trakcie wydarzenia Y Combinator Startup School. To jest takie wydarzenie dla startupów z Doliny Krzemowej, gdzie pojawiają się branżowi liderzy, i oni przedstawiają swoje przemyślenia na temat tego, jak właśnie zmienia się branża, jak rozwijać biznesy, na co zwracać uwagę i jak budować skuteczne zespoły. O autorytecie pana Karpatyego nikomu chyba mówić nie trzeba, to jest jeden z takich większych autorytetów, o dość nieskazitelnym zaufaniu trzeba powiedzieć względem swojej osoby cały czas na dzisiaj. Bardzo mało afer wokół tej osoby i też bardzo wartościowe materiały, które on publikuje zupełnie za darmo na jego kanale na YouTubie. mnóstwo takich intensywnych technicznych tutoriali a propos tego czym są chociażby modele językowe czym jest sztuczna inteligencja jak działają poszczególne aspekty tego o czym mówimy w naszym podcaście natomiast to na czym chcielibyśmy się skupić w kontekście dzisiejszego odcinka to jest pięć takich filarów właśnie tej nowej generacji oprogramowania oprogramowania napędzanego i sztuczną inteligencją i językiem naturalnym o którym pan Andrew Carpati mówi po pierwsze o co chodzi właśnie z tym software 3.0 dlaczego to jest trzecia generacja oprogramowania Za nami dwie takie generacje. Ta pierwsza, najbardziej klasyczna, dotyczyła po prostu pisania kodu w różnych językach programowania, kodu w różnym stylu, który po prostu skutkował konkretnymi aplikacjami. Tworzyliśmy tak naprawdę przepisy na jakieś mechanizmy, na logikę biznesową. Bardzo dosłownie, bardzo czasami imperatywnie, linijka po linijce musieliśmy wyrażać nasze intencje. To był software 1.0. Po nim nastąpił rozwój tzw. software 2.0, całej fali rozwiązań opartych o AI i uczenie maszynowe. I tutaj niekoniecznie zajmowaliśmy się już właśnie bardzo precyzyjnym definiowaniem algorytmów, ale budowaliśmy jakieś wzorce, budowaliśmy jakieś ścieżki przechodzenia od etapu początkowego do etapu docelowego, a pośrodku były sieci neuronowe, które po prostu tę ścieżkę miały wymyślić dla nas. No i teraz mamy połączenie takich dwóch paradygmatów właśnie z jednej strony kodu albo jakiejś instrukcji człowieka z tym, co największe modele językowe i sieci neuronowe wnoszą, czyli właśnie Software 3.0. gdzie językiem programowania staje się język naturalny. Z punktu widzenia Andrew Karpatego to jest chociażby język angielski, którym to będziemy po prostu programować rozwiązania w tej czy innej domenie. Jakie są te filary, o których on mówi, albo jakie są te obszary, które możecie zgłębiać na własną rękę po przesłuchaniu tego naszego podcastu? Jeden z takich filarów to jest na pewno system operacyjny nowej generacji. Według Andrew Karpatyego to nie będzie tak już za jakiś czas, że te modele językowe będziemy doklejać do istniejących rozwiązań, ale że te modele językowe będą tak naprawdę centralną jednostką każdego rozwiązania, które będziemy budować. To będzie taki jakby nowy procesor, procesor nowej generacji, który będzie wykonywał różnego rodzaju operacje przy pomocy zewnętrznych narzędzi. Trochę tak jakbyśmy mieli właśnie procesor, który decyduje o tym, jak działają pozostałe komponenty komputera, to jest właśnie ten model z systemem operacyjnym napędzanym modelem językowym. I tutaj oczywiście pojawiają się wszystkie tematy jak chociażby obsługa narzędzi, przechowywanie informacji, kontekst, zarządzanie tym kontekstem, czy skuteczne przekazywanie informacji do tego procesora, którym model językowy jest. Oczywiście mamy też takie aspekty bardziej psychologiczne, takie o których my też bardzo często na naszych warsztatach mówimy, na przykład to z jakimi problemami wiąże się korzystanie z tych systemów i czy to naprawdę są tacy geniusze, którzy już tutaj czyhają na nasze stanowiska, czy to są może, tak jak właśnie on to określa, tacy sawanci z problemami poznawczymi, czyli osoby o ogromnym potencjale, do których jednak albo trzeba się przyzwyczaić, albo trzeba wykonać jakiś dodatkowy wysiłek, żeby oni po prostu zachowywali się, albo te systemy zachowywały się w taki sposób, o jaki nam tutaj chodzi. Z przykładów, które się pojawiały w tym wystąpieniu Andrew Karpatego, to są myślę, że znane wam problemy halucynacji, nierównej inteligencji, tego, że czasami w pozornie podobnych problemach w jednym przypadku uda się ten problem rozwiązać czasami nie uda się rozwiązać i też nie do końca jest jasne dlaczego akurat tak się dzieje no i łatwo wierność to że po prostu stosunkowo łatwo tutaj uzyskać takie efekty o jakie nam chodzi niekoniecznie te efekty będą mieć jakieś umocowanie gdzieś tam w świecie rzeczywistym w faktach ale modele będą się starać po prostu spełniać nasze zachcianki i oczekiwania i jeden z takich aspektów o którym jeszcze wspomnę przed tutaj Marcin przekazaniem tobie głosu No to jest właśnie cały temat tego, jak człowiek powinien wchodzić w interakcję z tym oprogramowaniem nowej generacji. I tutaj pojawiają się zarówno aspekty dotyczące interfejsu użytkownika, jakieś aspekty etyki, tego jak dużą autonomię powinniśmy zagwarantować tego typu systemom, czy jak informować użytkownika właśnie o tym, co dzieje się pod spodem takich systemów, które bardzo często są black boxem, którego nie możemy tak w pełni kontrolować. A dlaczego o tym wszystkim Andrew Carpati mówi? A no dlatego, że jest ogromny duży nadchodzący wymagający etap budowania tego software 3.0. Ten etap nie skończy się w grudniu tego roku. Wbrew temu co niektórzy komunikują nie będzie jakby roku pracy nad EA nie będzie roku pracy nad agentami ale według Andrew Karpatego mamy co najmniej dekadę pracy nad tym wszystkim co teraz powiedziałem. Marcin masz tutaj jakieś takie obszary które ciebie szczególnie mocno interesują albo właściwie czy ta perspektywa czasowa jest np. dla ciebie takim najbardziej istotnym spostrzeżeniem jak ty patrzysz na ten nowy software.

Marcin:

To na pewno Podoba mi się to, że Andrew podobnie do nas postrzega, gdzie się znajdujemy, jakie są silne i słabe strony sztucznej inteligencji. To mnie utwierdza w przekonaniu, że postrzegamy tę sytuację w sposób rozsądny, racjonalny. Przede wszystkim jest duży akcent w tej prelekcji na współpracę człowieka i AI i na to, że tu jest największa dźwignia obecnie, a budowanie, takie autonomicznych systemów, no to jeszcze raczej jest pieśń przyszłości i może to też nie jest najlepszy sposób na to, jak możemy obecnie z tych modeli korzystać i na co warto ten czas przeznaczać. No zdecydowanie ta pętla takiego generowania, weryfikowania, no to jest coś, w jaki ja sposób z tych modeli korzystam i jestem z tego zadowolony. Im więcej widzę osób, które bardzo chcą tworzyć tych słynnych agentów, chcą stworzyć takie systemy autonomiczne, to albo czarują rzeczywistość, albo potem szybko się stają takimi sceptykami trochę tego AI, bo po prostu zdają sobie sprawę, jak dużo problemów te modele jeszcze mają w tym, żeby w pełni autonomicznie działać. To jest coś, co ty fajnie przywołałeś. Pozwól, że ja to powiem, ale w pełne kredycji do Przemka. 12 lat temu Elon Musk sprzedawał nam wizję tego, że samojeżdżące samochody są blisko. że będziemy mieli taksówki, że będziemy mieli logistykę w pełni zautomatyzowaną. To już miało się wydarzyć. Lata, chwila, tak blisko byliśmy tego wszystkiego. Minęło 12 lat, miliardy, jak nie setki miliardów dolarów zostały doinwestowane w tę technologię, a tak naprawdę cały czas to jeszcze nie jest wcale na wyciągnięcie ręki. Obecnie wielkim sukcesem jest to, że ta testa sobie… Radzi z autopilotem gdzieś tam w Stanach, jeszcze w określonych lokalizacjach, ale też to już za chwilę, za chwilę po prostu będziemy na miejscu. No i bardzo podobnie pewnie będzie z tymi agentami AI, gdzie dojść do takiej pełnej autonomii, do tego, żeby obsłużyć te wszystkie edge case, zabezpieczyć te wszystkie podatności, właśnie tą łatwowiedność. to może być roboty nawet nie na dekadę, nie na dwie, nie na trzy, tylko naprawdę na długie, długie lata. Ciężko tutaj czegokolwiek przewidywać. A jednocześnie są, też zgodnie z tą nierówną inteligencją use cases, gdzie te modele naprawdę sobie radzą nieźle i widać ten naprawdę szybki progres. Czyli w przypadku programowania, gdzie rok temu, jak sobie pomyślę, że rok temu dostaliśmy koda 3,5 Soneta i w ogóle jakieś sensowne programowanie, zaczęło ze sztuczną inteligencją, a w jakim miejscu my jesteśmy teraz, co już w ogóle można robić z tymi agentami, to naprawdę to jest duża różnica, chociaż still. Ciężko mówić o jakichś autonomicznych agentach w tym, co my robimy w tym kursorze czy innych edytorach. Raczej po prostu wypuszczasz jakiegoś ejaja na jasno zdefiniowany problem, przekazujesz mu bardzo jasne instrukcje, przekazujesz mu bardzo dużo informacji do tego, co oczekujesz, i jeszcze patrząc mu na ręce, to wtedy faktycznie zrobili dla ciebie dobrą robotę. W tym miejscu ogólnie jesteśmy, a to naprawdę jest trochę taka skrzynka, trochę taki właśnie benchmark pokroju LRM-y i Pokemon-y. Dalekie to jest po prostu do tego, żeby jakiś tego typu system był w stanie prowadzić biznes, jak to często jest zajawiane, co zresztą, będzie również pod koniec tego odcinka. Antropik sprawdził, na ile te modele, które w programowaniu radzą sobie już naprawdę całkiem nieźle, jeżeli je dobrze pokierujemy, no to jak one sobie radzą z prowadzeniem biznesu, no spore, ale są wpadki liczne, więc zobaczycie zresztą sami. szczegóły pod koniec tego odcinka. No więc to jest fajne, że to spojrzenie jest zniuansowane. Może właśnie dlatego pan Andriy Karpaty ma dobrą reputację, bo mimo tego, że jest entuzjastą, to nie popycha głupich paperów albo nie próbuje ukazać rzeczywistości w taki sposób jednostronny. To ogólnie jest projekcja o tym, że AI jest fajne i że wiele dobrego zrobi, a jednocześnie jest skomplikowane, zniuansowane, jest pokazane, gdzie to działa, a gdzie to nie działa. Tego samego uczymy w naszych kursach i też wydaje mi się, że w tym podcaście staramy się podkazać zarówno jasne, jak i ciemne strony. Niestety gdzieś tam… takie jednostronne spojrzenie na te tematy, jeszcze zmieniające się z dnia na dzień, może lepiej, źle w social media, ale może też nie o to chodzi w pracy intelektualnej, nie wiem, więc tutaj to wydaje mi się, że jest takim sukcesem Andriu Karpatiego i fajnie to w prezentacji widać, warto tę prezentację przesłuchać. Ja może najwięcej jakiejś wątpliwości cały czas mam z tym, z tą demokratyzacją tworzenia, że ludzie będą te apki tworzyli, to jakoś tam niespecjalnie mnie chwyta na serce. Oczywiście nadal też zależy, o czym tak naprawdę mówimy, bo Andrii w swoim poście o webcodingu w tej projekcji tak to wprost nie wybrzmiewa. Ja nie spodziewam się, żeby student Akademii Sztuk Pięknych był w stanie stworzyć sensowną aplikację na produkcji, bo to wymaga dużej ilości wiedzy technicznej i tego w ogóle jak działa branża IT, jakie są różne technikalia i to naprawdę znacznie wykracza poza wiedzę przeciętnej osoby, która się tymi tematami nie interesuje, nie ma doświadczenia, ale czy taka osoba będzie w stanie stworzyć jakąś swoją apkę na użytek własny, po prostu tutaj pomoże, w pracy malarza, to niewątpliwie. To będzie lokal hościk, bez obsługi błędów i fajnie. To i tak jest super rzecz, ale nie spodziewam się, żeby Photoshop miał się zawijać, bo teraz każdy będzie w stanie stworzyć alternatywę. To jest jedyne, gdzie się mogę… przyczepić ale ogólnie prelekcja bardzo bardzo fajna bardzo bardzo taka równa i zniuansowana. O to o to w tym wszystkim wydaje mi się.

Przemek:

Myślę że tu jest naprawdę pozytywne kultu przynajmniej ja to kultu czytam w ten sposób takie gdzieś tam zachęcające do działania bo przez tą prelekcję można wysunąć takie wnioski że tak naprawdę nie ma już odwrotu tej rewolucji ona dotknie tak naprawdę wszystkich warstw czy to aplikacji webowych czy różnego rodzaju rozwiązań w świecie online. A skoro tak, to w jaki sposób powinieneś się na to przygotować? A skoro tak, to to nie jest tylko zagrożenie, ale też to jest cholernie duża szansa po prostu dla osób, które chcą coś w tym obszarze robić. Tam są pewnego rodzaju takie sugestie, że każdy z problemów, o którym rozmawiamy dzisiaj, prawdopodobnie w perspektywie kilku lat, okaże się znacznie, znacznie ciekawszy i bardziej zniuansowany i skomplikowany niż mogłoby się wydawać. Dla mnie osobiście, czyli dla osoby, która też z takiego backgroundu frontendowego się wywodzi, to temat np. właśnie tych interfejsów napędzonych sztuczną inteligencją jest mega ciekawy, bo o ile chociażby na frontendzie przyzwyczailiśmy się do tego, że mamy jakiś tam przycisk, dropdown, slider itd., to te LLM-y czynią z tych systemów zupełnie inne bestie i widać to chociażby po nowego rodzaju komponentach jak np. właśnie to reasoning traces, w jaki sposób pokazać o czym model myśli np. albo czy upraszczać te ślady rozumowania, czy ich nie upraszczać albo np. jak pokazać to, że model korzysta z internetu, z konkretnych stron i to gdzieś tam ma wzbudzać zaufanie wśród użytkowników. To są wszystko problemy nowej generacji, ale takie problemy, które gdybym był takim projektantem doświadczeń nowej generacji, to spędzałyby mi sens powiek, bo tak naprawdę powinienem o tym myśleć, wydaje mi się, żeby tutaj szukać dla siebie jakiegoś miejsca. Stawiam na to, że po prostu te osoby, które najwięcej zainwestują w te poszczególne nisze, czy to na poziomie kontroli agentów, czy właśnie interfejsu użytkownika napędzonego AI, czy na przykład optymalizacji kosztów i tak dalej i tak dalej, no one gdzieś tam zaznaczą tą swoją pozycję i tą swoją obecność w tym IT nowej generacji. Więc myślę, że fajna konkluzja, pozytywna konkluzja, też taka troszkę uspokajająca, bo tam też to wybrzmiewa, no raczej nie wierzmy w tę historię, że tak naprawdę to w tym roku się skończy, że pojawi się jakiś system, który rozwiąże nasze problemy i już po prostu pracy nie będzie, a jedyny problem to będzie jakby, jakie świadczenia ludziom rozdać na przykład, bo to jest duże wyzwanie, ale też będzie pewnie sporo wyzwań innego typu i wydaje mi się, że po prostu ta wiedza bazową, którą masz, ty, kimkolwiek jesteś, kto nas słucha, może być w jakiś sposób gdzieś tam połączona z tą sztuczną inteligencją i na tym można budować, więc myślę, że to jest naprawdę obiecujące, jeśli chodzi o przyszłość.

Marcin:

100%. To też jest jeden z tych punktów wspólnych. Totalnie ta wizja tego, że jesteśmy u progu automatyzacji większości pracy intelektualnej, to zdecydowanie Andrii Karpatyi uspokaja. I jeszcze raz to badanie, które przywołamy na koniec tego odcinka, myślę, że wszystkich uspokoi. bo sztuczna inteligencja jeszcze daleko, daleko od terminatora, chociażby daleko od umiejętnego menadżera biurowej kawiarenki. Dobra, ale zanim o tym, to Przemku, przywołaj jeszcze zamieszanie, które wywołał Mark Zuckerberg meta w ostatnim miesiącu. za sprawą agresywnych, odważnych ruchów wymierzonych w swoją konkurencję.

Przemek:

Mieliśmy podgrzaną dyskusję przed nagraniem tego odcinka, czy robić z tego newsa, czy zrobić z tego duży temat. Pozostaliśmy na newsie. Natomiast jest szansa, że w kolejnych odcinkach temat rozwiniemy. No bo wygląda na to, że Dolina Krzemowa się gotuje, przynajmniej w niektórych rejonach, w tych rejonach, które gdzieś tam dotyczą Facebooka, ale również innych firm, które tą sztuczną inteligencją się zajmują. Jeśli chodzi o szybki news, który można jednym zdaniem streścić, to Mark Zuckerberg postanowił wlać mnóstwo kasy w to, żeby odnieść sukces w świecie sztucznej inteligencji. Postanowił postawić mnóstwo kasy na zatrudnienie najlepszych ekspertów, badaczy z różnych firm, badaczy, którzy czy to prowadzili projekty badawcze, w Antropiku, w Google, w OpenAI, czy to mieli swoje startupy, a teraz już tak naprawdę duże przedsiębiorstwa, które te pozostałe firmy napędzały. W Facebooku została zawiązana taka jednostka o nazwie Super Intelligence Team, która ma właśnie gdzieś tam doprowadzić tego Facebooka, a właściwie metę, do efektów, których nie widzieliśmy chociażby po czwartej generacji modeli Lama. O tym mówiliśmy w ostatnim odcinku, jeśli mnie pamięć nie myli. Zuckerberg robi tutaj taki twardy reset, wybiera nowego szefa tego teamu. Szef jest osobą znaną, współpracował z wieloma firmami w Dolinie Krzemowej, jak i pan Alexander Wong z firmy Scale.ai. Ten pan Alexander Wong staje się szefem nowego teamu, który ma badaczy, którzy przeszli za ogromne pieniądze do mety i teraz tam się ma rozpocząć pościg za resztą stawki. Tutaj Marcin mocno naciskał na to, żeby z mety żadnego tam lidera nie robić, więc ja bym wycelował pościg, tak, że tutaj będzie nadganianie, nadganianie, jeśli chodzi o to, czego Lama4 nie potwierdziła. Zresztą my Lama4 to już, prawdą mówiąc, baszujemy w większości naszych wystąpień, tam głównie to okno kontekstowe 10 milionów tokenów się pojawia. No niestety, no nie odklei się to już od nich, czekamy na Lame5. Więc jeśli chodzi o to, co w dolinie krzymowej, to kasa, Pływa kasa gdzieś tam na takim poziomie, które jest czasami trudne do wyobrażenia. Pojawiały się plotki o tym, że niektórzy z badaczy gdzieś tam mieli mieć zagwarantowany nawet i bonus w wysokości 100 milionów dolarów za to, żeby podpisać kontrakty z metą. Ostatecznie pojawiły się notatki, takie wewnętrzne memo zarówno w OpenAI i w mecie, gdzie z jednej strony Zuckerberg potwierdza, że właśnie zatrudnił tych nowych specjalistów. Tam nie ma potwierdzenia oczywiście tych stawek, bo to są informacje niejawne, ale faktycznie ci specjaliści z różnych firm zostali zapożyczeni albo przeszli. Natomiast w OpenAI również wojna, ale też uspokajenie pracowników. Sam Altman ze swoimi egzekami zapewnia, że cały ten model kompensacji i wynagrodzeń zostanie przeprojektowany, że oni kontynuują swoją misję. I tutaj Altman zdecydował się też na taką zaczepkę w kierunku Zuckerberga mówiąc, że on stawia na misję, a Zuckerberg ma najemników, których po prostu wynają. No więc myślę, że już Możemy zapomnieć o wspólnych podcastach, tej dwójki liderów na jakiś czas. Prawdopodobnie panowie tutaj nie wystąpią na żadnym panelu w przyjemnej atmosferze. Będziemy to wszystko oglądać, bo naprawdę historia obu tych firm jest na tyle istotna, że po prostu obserwowanie tego, komentowanie tego jest ciekawą aktywnością. Czasami to jest taki pudelek technologiczny, ale można też czasami zobaczyć jak absurdalne historie w tej Dolinie Krzemowej się dzieją. Ale chyba też ten end goal jest na tyle istotny, czyli właśnie ta super inteligencja, że tak naprawdę częściej już o tych milionach dolarów tam będziemy mówić, a nie koniecznie tam o np. tysiącach, więc naprawdę sporo się dzieje. Oczywiście będziemy was też informować, co i kiedy, jeśli któryś z tych zespołów wypuści jakiś nowy projekt. A teraz przechodząc już do ostatniego dużego tematu tego naszego odcinka, porozmawiamy o Researchu, który bardzo często i na bardzo wartościowym poziomie publikuje firma Antropic, I omówimy takie dwa wpisy, które niedawno pojawiły się na ich blogu. Jeden z nich dotyczy właśnie tego, czy można opierać biznes na modelach językowych, a drugi dotyczy tego, jakie konsekwencje pojawiają się w momencie, kiedy kilka modeli językowych zaczyna ze sobą współpracować. No i tutaj Marcin pytanie do ciebie, od którego tematu chciałbyś zacząć?

Marcin:

Zacznę od krótszego, które opracowałem, czyli jak te autonomiczni agenci AI radzą sobie z prowadzeniem prostego, małego biznesu, jakim jest kawiarenka biurowa. W takim celu właśnie Antropic sprawdziło własny model CRO 3.7 SONY. Nazwała go Claudius na potrzebę tego badania. Powierzyło prowadzenie takiej kawiarenki faktycznie. I co wyszło? Ten eksperyment i jego rezultaty były dość nierówne. Nie mamy jakiegoś takiego jasnego rezultatu, jakoby autonomiczne i AI byli geniuszami tego typu biznesu bądź też totalnymi nogami, bo były obszary, w których ten model radził sobie dobrze, np. jeżeli chodzi o wyszukiwanie dostawców niszowych produktów, adaptowanie się do trendów, no to tutaj faktycznie model bardzo dobrze sobie radził, no ale niestety miał wiele innych problemów, których też pewnie średnio rozgarnięty menadżer tego typu kawiarenki by nie miał. Mianowicie przepuszczał takie bardzo lukratywne okazje zysku, pojawiały się też halucynacje jakichś nieistniejących kont płatniczych, czasami pojawiały się oferty produktów poniżej kosztów i łatwo też model dawał się przekonać do wszelkiego rodzaju rabatów. No i też w pewnym momencie u naszego Klaudiusa pojawił się dość osobliwy kryzys tożsamości. Mianowicie zaczął harucynować rozmowy z nieistniejącymi pracownikami tej kabelenki. Twierdził, że odwiedził Simpsonów z serialu. No ogólnie gdzieś tam no tak zwana odklejka wystąpiła. No więc ciężko sobie wyobrazić, żeby tego typu system, tego typu model faktycznie stanowił jakikolwiek nadzór nad takim realnym biznesem, żeby jakkolwiek zarządzał ludźmi, no bo to może wprowadzić zarówno do strat takich czysto finansowych z uwagi na te rabaty, na te przepuszczanie okazji. Chyba by to obniżało w znaczący sposób morale i autorytet firmy, gdyby menadżer zaczął zachowywać się jak osoba nie trzeźwa w pracy. Tego typu zachowania obecnie modele AI Tego możemy od nich oczekiwać. Oczywiście to nie jest gdzieś tam kropka, bo to nie był model stricte przygotowany do tego typu zadania. Nie miałby specjalizowanych narzędzi. Nie był jakoś genialnie przygotowany pod to konkretne zadanie. Gdybyśmy stworzyli na podstawie tego modelu produkt, i gdzieś tam poświęcili więcej pracy na to, żeby go właściwie opakować, to kto wie, jakie byłyby rezultaty. Może te najbardziej istotne wpadki udałoby się ominąć, ale still gdzieś mam mocną intuicję, że na chwilę obecną to jeszcze nie jest to miejsce, to nie jest ten moment. Zdecydowanie lepiej posadzić tam właśnie wspomnianego przeciętnego menadżera, może przeszkolić go z tego, jak z AI dobrze korzystać i będziemy mieli, jak to się mówi, best of both worlds, z przeciętnego menadżera będziemy mieli naprawdę ogarniętego menadżera w koszcie dodatkowych 20 dolarów miesięcznie na premierę, na subskrypcję Cloud AI Premium i myślę, że to jest taki właściwy wniosek na chwilę obecną, jak z tego AI możemy korzystać zamiast na siłę próbować do nich reagować, całość zadań bez łuskiej weryfikacji, bez łuskiego.

Przemek:

Tu też pojawia się taki ciekawy kontrast względem tego, o czym mówiliśmy wcześniej, bo rozpoczęliśmy od Apple’a, i od autorów z firmy Apple, którzy krytykują sztuczną inteligencję. Tutaj też w jakiś sposób ta krytyka jest wyrażona i badacze, autorzy tego opracowania wprost mówią, że to nie są jeszcze systemy gotowe na to, żeby np. prowadzić biznes, ale jak różnie jest ten oddźwięk obu tych publikacji, kiedy właśnie w tej firmie są modele state of the art, takie najlepsze modele, a pomimo tego pojawia się krytyka, versus kiedy ich nie ma. Myślę, że Antropic tutaj jest na zupełnie innej pozycji i wydaje mi się, że takimi publikacjami raczej zyskuje nasz respekt, a nie gdzieś tam zyskuje punkty negatywne, bo to po prostu nie wygląda już jak jakieś deprecjonowanie czegoś, w czym nie czujesz się mocny, gdzieś tam takie trywializowanie tego, sprowadzanie tego do jakichś tam absurdów, tylko raczej mówienie, że hej, mamy jeden z najlepszych modeli, ale one i tak nie są tak dobre, jakbyśmy chcieli, więc game on, popracujmy sobie nad tym. nad tym dalej, więc tutaj pewnie punkty dla Antropica. No i myślę, że kolejne punkty dla Antropica również za tą publikację, która też gdzieś tam szeroko się rozniosła, szczególnie w tym świadku takim stricte technicznym. A propos tego, czym badacze zajmują się, jeśli chodzi o takie eksperymentowanie z bardziej rozbudowanymi systemami opartymi o sztuczną inteligencję, my wcześniej mówiliśmy o tym, Software 3.0 to są agenci, to są jakieś automatyzacje, to jest model językowy w środku systemu operacyjnego. Tutaj Antropic zadaje takie pytanie, co by się stało, kiedy tych wszystkich modeli i rozwiązań byłoby nie jeden, a kilka i jakie konsekwencje by się z tego faktu pojawiały. Więc tutaj ta publikacja, o której wspomniałem na koniec, dotyczy tak zwanych systemów multiagentowych. To jest taki obszar badań, na którego myślę wielu z nas jeszcze gdzieś tam nie zerka, bo albo nie mamy zasobów, albo nie opanowaliśmy jeszcze ani jednego agenta, który działałby dobrze i przewidywalnie. Natomiast z zasobami Antropica i tych największych firm po prostu takie badania już się odbywają. O co tutaj tak naprawdę chodzi? No chodzi o to, że w przypadku wybranych kategorii problemów, takich jak chociażby budowanie złożonych raportów, jakaś złożona analityka, przeszukiwanie sieci, wydaje się korzystnym to, żeby równolegle do pracy zaciągnąć kilku agentów sztucznej inteligencji niż tylko jednego. Więc wychodzimy z takiego standardowego modelu rozmowy z chatbotem, a budujemy integrację, gdzie najpierw mamy jakiegoś lidera całego przedsięwzięcia, ten lider wybiera sobie swoich pomocników, ci pomocnicy przynoszą mu jakieś wnioski i jeszcze jeden agent zajmuje się podsumowywaniem całego przedsięwzięcia. Antropic akurat tę swoją publikację opiera o funkcję Research, to jest taki odpowiednik Deep Researcha z czata GPT i z Gemini, czyli takiego systemu, który właśnie w naszym imieniu wykonuje jakąś taką pracę badawczą na podstawie wybranych zasobów, czy to zasobów z internetu, czy to zasobów w jakiejś chmurze, w kloudzie w kwietniu taka funkcja również się pojawiła. No i teraz Antropic podsumowuje właśnie gdzieś tam taki pierwszy etap pracy nad takimi systemami. Z mojego punktu widzenia było troszkę sceptycyzmość i o to chodzi. Ja też o tym myślałem głównie w kontekście programowania i tego jak trudno byłoby np. zsynchronizować agentów, którzy pracowaliby nad jednym plikiem, bo wiemy, że Programiści też nie są najlepsi jeśli chodzi o pracę nad jednym plikiem, natomiast Antropic tutaj wspomina, że korzyści jest na tyle duże, że po prostu te problemy np. z synchronizacją, no warte będą rozwiązywania, rozplątywania, gdzieś tam ta inwestycja się po prostu przez to zwróci. A jakie tutaj mamy korzyści z tego procesu? No pierwsza korzyść, która się pojawia to jest możliwość przekroczenia granicy okna kontekstowego. Z tego powodu, że mamy kilku agentów, którzy pracują nad jakimś zadaniem, nie musimy się trzymać tego limitu wiedzy, tej pamięci podręcznej jednego modelu sztucznej inteligencji, a tak naprawdę każdy z tych agentów, z tych takich wirtualnych pracowników, można powiedzieć, których wynajmujemy, ma swoją pamięć. I z punktu widzenia Antropica to jest bardzo istotne, bo nie musimy się właśnie decydować czy to na kompresję wiedzy, nie musimy się decydować na jakieś zaawansowane przetwarzanie tej wiedzy itd., itd. Każdy z tych agentów pracuje sobie nad jakimś mniejszym zadaniem. Druga kwestia to jest też czas, po prostu jeśli mamy złożone zadania i jakiś koordynator podzieli to zadanie na kilka składowych, to ci agenci mogą równolegle temat opracowywać. Troszkę gdybyśmy byli właśnie takim managerem, mieli grafika programistę i jakiegoś marketingowca, każdemu z nich zlecilibyśmy inne podzadanie w ramach projektu i te zadania byłyby prowadzone równolegle. I tutaj też jest korzyść, po prostu tacy agenci pracujący równolegle mogą nam efekt dostarczyć szybciej. No i pojawia się też podkładka taka czysto teoretyczna, oparta o benchmarka, bo taka czysto syntetyczna można powiedzieć. Tutaj Antropiq wspomina dość tak ogólnie, że w swoich wewnętrznych benchmarkach, które właśnie dotyczą budowania złożonych raportów, zauważyli, że takie systemy multiagentowe sprawdzają się cokolwiek, to znaczy tak naprawdę praktycznie o 90% lepiej, mają o 90% lepsze wyniki niż taki pojedynczy model, z którym prowadzimy rozmowę. Nawet kiedy ten model ma dostęp do sieci, kiedy model korzysta z narzędzi, to jednak fakt, że mamy równoległą współpracę agentów gdzieś tam podnosi te wyniki aż o 90%. Natomiast to wszystko też odbywa się za konkretną cenę. Tutaj Antropik wspomina, że jeśli budujemy jednego agenta, takiego agenta, czyli taki system sztucznej inteligencji, który korzysta z różnych narzędzi, czy to z przeszukiwania sieci, czy to z dostępu do naszego systemu plików i tak dalej i tak dalej, to możemy za niego zapłacić z badań Antropica prawie 4 razy więcej niż w przypadku takiej standardowej sesji opartej o tekst, o wymianę konwersacji, tak jak gdybyśmy rozmawiali z takim chatbotem, więc mamy czterokrotnie wyższy koszt, natomiast kiedy zaprosimy do współpracy wielu agentów, to tutaj Antropik akurat w tym konkretnym zadaniu zauważył wzrost kosztów aż o 15 razy, więc 15 razy koszty po prostu poszły w górę, w porównaniu do tego, gdybyśmy dany problem rozwiązywali z jednym agentem, gdybyśmy taką sesję z AI przeprowadzali. No i pojawia się też problem z synchronizacji. To Antropic nadal wskazuje jako coś istotnego. Gdzieś tam ta moja intuicja okazuje się trawna. Zresztą wielu programistów taką samą intuicję by miało. Nie ma tutaj żadnej mojej wielkiej zasługi. Po prostu jak pomyślimy o tym, jak trudne jest zsynchronizowanie wielu systemów, które pracują nad jakimś problemem, no to mamy konkretny gdzieś tam challenge, którym trzeba się zająć i ten challenge pewnie nie zostanie rozwiązany w jeden miesiąc albo albo pewnie nawet w dwa miesiące, więc mamy korzyści, mamy też pewien koszt. Natomiast temat jest na tyle ciekawy, że ja też spodziewałem coraz większej liczby publikacji na ten temat. Zresztą ten Noah Brown z OpenAI, który też pracuje nad O3, on też mówi, że gdzieś tam jest to taki jeden z dużych motywów OpenAI, takie cywilizacja agentów, jak oni to nazywają, z taką pompą, gdzieś tam pompą made by Sam Altman. No ale po prostu mamy takie równoległe systemy, równoległe modele językowe, które ze sobą po prostu współpracują.

Marcin:

Dokładnie tak. Bardzo ciekawy przykład. Myślę, że właśnie ten Deep Research to jest taki koronny przykład tego, jak można taki system multiagentowy stworzyć, wdrożyć. Fajnie, że Antropic tak dokładnie to opisało. pewnie będzie więcej tego typu systemów, więcej tego typu zastosowań EIA, gdzie właśnie mamy tą taką szeroką eksplorację z wykorzystaniem różnych zasobów, gdzie możemy tą pracę fajnie delegować, stopniowo oceniać i potem łączyć w jakiś jeden finalny rezultat, który ostrzeczności oszczędza bardzo dużą liczbę godzin dla użytkownika, no co zresztą po Deep Researchu dobrze widać, jak wiele materiałów te systemy mogą dla nas przejrzeć, skompletować, połączyć w spójną całość, chociaż no to też jakby jest wskazane przez Antopica cały czas subtelne błędy i halucynacje. To jest domena ludzi, żeby to wykryć. LLM-y niestety nie są w tym najlepsze. Musimy się z tym cały czas liczyć. Chociaż wiadomo, można ilość subtelnych błędów i halucynacji wyredukować. Już jakieś testowe zapytania, oceny przez LLM, są sposobami, aby właśnie przed tymi problemami się w jakiś sposób ustrzec, chociaż nie jest to sposób, żeby totalnie się tego pozbyć. Zobaczymy, czy kiedykolwiek będziemy mieli taką 100% precyzyjność tego typu systemów. Mimo wszystko przy tak dużej ilości ruchomych części, nieterministycznych, gdzie każdy element tego systemu jakąś tendencję do halucynacji wykazuje, to bardzo ciężko w finalnym rezultacie osiągnąć tekst w pełni precyzyjny. Co w wielu zastosowaniach nadal nie jest blokującym problemem, bo to potrafi być bardzo wartościowe. Super. Kolejny bardzo fajny paper. Fajnie, że go, Przemku, omówiłeś. Myślę, że to jest dobra inspiracja dla osób, które chciałyby tego typu rozwiązania budować. Takie rzeczy da się robić. Oczywiście to nadal jest wczesny etap. Tak naprawdę mamy jeden taki No właśnie, koronny przykład tego, jak to można zrobić, żeby to faktycznie działało i wnosiło rezultaty, czyli Deep Research. Ale temat młody, bo tak naprawdę pierwszy tego typu system pokazał się pod koniec zeszłego roku. To był Gemini Deep Research, potem OpenAI i Antropiq stworzyło swoje warianty tego typu systemu. Jestem ciekaw, jakich kolejnych popularnych i jakościowych systemów tego typu się doczekamy. Pojedynczy agenci są, na wczesnym jeszcze nawet etapie, no to tutaj jeszcze bardziej mamy małe do czynienia z czymś, co dopiero raczkuje, jest poznawane ze swoich programistów, nie wątpię, 100 instancji OpenAI Codex już jutro w twojej firmie. No to właśnie ten problem z synchronizacji, który wskazałeś słusznie, jest bardzo dużym ograniczeniem tutaj, jeżeli chodzi o kodowanie, o wdrażanie tych zmian. bo co innego, jeżeli tworzymy jakiś artykuł, czy też raport, a co innego, jeżeli chcemy dołączyć zmiany do jednej wersji działającego systemu na produkcji i musimy te zmiany gdzieś nad sobą połączyć, upewnić się, że to wszystko działa i nie zrobi więcej szkód niż pożytku, więc tutaj poziom trudności jest skrajnie inny. Zobaczymy ile jeszcze czasu, ile przysłowiowej wody Wiśle upłynie, aż będziemy w stanie z takich multiagentowych systemów korzystać efektywnie w środowisku programistycznym. Póki co jakieś tam podbijanie depsów, lintery, jak najbardziej jestem w stanie wierzyć, że coś takiego ma sens i wejdzie do powszechnego użycia już niedługo, jakieś pisanie feature’ków, testów i tak dalej na taką skalę, no to to jest, to jest wydaje mi się jeszcze daleko, daleko. Czy masz Przemku jakieś jeszcze właśnie komentarze, przemyślenia do tego badania, czy dobijamy do brzegu?

Przemek:

Nawiązując tylko do tego, o czym mówiliśmy Software 3.0, znowu to jest taki temat, gdzie tak naprawdę na poziomie każdej warstwy znajdzie się praca dla specjalistów. Ja tutaj znowu o tym interfejsie myślę, Trzeba jakoś przedstawić pracę tych agentów, trzeba pokazać co oni właściwie robią, trzeba umożliwić jakieś debugowanie. Gdybym był frontend developerem to chciałbym przy tym pracować. Gdybym po prostu zajmował się budowaniem aplikacji webowych to chciałbym przy tym pracować. To są duże przekrajowe po prostu projekty, które w kolejnych latach będą potrzebowały zasobów. Keep grinding, można powiedzieć, będzie co robić.

Marcin:

Dokładnie tak. Domykamy tym sposobem ten odcinek, ale mamy jeszcze dla was ważne informacje, więc nie zamykajcie odbiorników. Po pierwsze, w połowie lipca, najprawdopodobniej 17 lipca, w godzinach wieczornych, będziemy mieli dla was webinar związany z programowaniem z AI. na kanale Przyprogramowani i na innych naszych social media będzie można ten webinar oglądać, zadawać też pytania. A co będzie tematem? Tematem będzie to, jak przygotować sobie środowiska programowania z AI, które jest dopasowane do waszych nawyków, do waszych potrzeb. Jesteśmy w takim momencie, gdzie naprawdę niezależnie od tego, czy lubicie programować w JetBrains, Visual Studio Code i pochodnych, czy też nawet w Vimie, no to można sobie fajny setup programistyczny pod AI skleić. Postaramy się w tym Wam pomóc. No i oczywiście zapraszamy osoby głodne wiedzy na temat tego, jak programować z AI w sposób efektywny, praktyczny, na drugą edycję 10xdevs.pl. To jest strona naszego kursu kohortowego. 29 listopada, Boże, przepraszam, września startujemy, a do końca lipca jest przedsprzedaż. 500 zł można zaoszczędzić. warto również bić całym zespołem, bądź też w kilka osób z firmy, wtedy będziecie mieli jeszcze dodatkowe zniżki. Od czegoś te budżety szkoleniowe są, często przepadają, to jest świetny sposób, żeby taki budżet szkoleniowy wykorzystać, bo temat myślę, że najbardziej gorący, jeżeli chodzi o rozszerzanie kompetencji w branży IT, programowanie z AI, Warto to znać, a gdzie się tego uczyć, jak nie od nas? Jesteśmy myślę w tym temacie osobami, które coś tam wiedzą, coś tam mają do przekazania. Przynajmniej staramy się, aby tak było. Dziękujemy wam za uwagę. Jeżeli odcinek się podobał, wystarczy nam proszę ocenę pięć na pięć. Zostawcie te pięć gwiazdek, czy to jest na Spotify, czy na Apple Podcast. To jest świetny sposób, żeby nam pomóc dotrzeć do szerszej grupy odbiorców. No i podzielcie się tym odcinkiem. czy to na Instagramie, czy to na LinkedInie, czy też na komunikatorze. Dzięki temu dotrzemy do waszych znajomych, którzy również z tą tematyką zainteresowali. Staraliśmy się przygotować ten odcinek w sposób maksymalnie merytoryczny, zniuansowany, dogłębny. Mam nadzieję, że nam się udało. Dziękujemy i widzimy się, słyszymy. już za miesiąc właśnie w podcaście o panowie. Ale oczywiście można nasilić na LinkedIn, można nasilić na YouTubie, bo tam będziemy również na przestrzeni lipca działali dla was w temacie generatywnej i sztucznej inteligencji. Dzięki wielkie, pozdrawiam.

Newsletter Opanuj AI

Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji

Zapisując się do newslettera akceptujesz naszą politykę prywatności.

W każdy poniedziałek
Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
Tylko najlepsze materiały
Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.