Podcast Opanuj.AI

Bądź zawsze na bieżąco

3 marca 2025

Wreszcie są! GPT-4.5, Grok 3 i Claude 3.7 Sonnet, czyli AI nowej generacji | Opanuj.AI - Luty 2025

Słuchaj na twojej ulubionej platformie

Transkrypcja odcinka

Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki

Przemek:

Cześć, witajcie serdecznie. To jest kolejny odcinek podcastu Opanuj.ai. Witają się z wami Przemek Smyrdek i Marcin Czarkowski.

Marcin:

Cześć!

Przemek:

Jak co miesiąc podsumowujemy wydarzenia z ostatnich tygodni w świecie sztucznej inteligencji i uczenia maszynowego. Luty były naprawdę intensywnym miesiącem, naprawdę sporo się działo. Nagromadziło się dużo premier nowych modeli i jak zwykle dzisiaj postaramy się Wam to wszystko przedstawić w bardzo przystępnej formie. Zanim zaczniemy, krótki komentarz do naszych deklaracji, które złożyliśmy tutaj w odcinku z podsumowaniem stycznia. Wtedy jeszcze mieliśmy nadzieję na to, że w połowie lutego pojawi się taki bardziej techniczny odcinek, gdzie porozmawiamy bardziej głęboko o DeepSeeku, gdzie przedstawimy Wam szczegóły tego, co te modele tak naprawdę wniosły. Niestety nasz kalendarz okazał się na tyle intensywny, Tego odcinka nie opublikowaliśmy, ale mamy dla Was rekompensaty, a właściwie dwie rekompensaty. Po pierwsze, na kanale Leksa Fridmana znajdziecie znakomity 5-godzinny odcinek właśnie o DeepSeeku z dwoma specjalistami, którzy zajmują się i infrastrukturą dużych modeli językowych, jak i samą architekturą takich rozwiązań. A po drugie, kanał Andrew Karpatiego, byłego pracownika OpenAI, byłego szefa AI w Tesli. Tam niedawno pojawił się kolejny znakomity film, 3,5 godziny omówienia technicznych podstaw LLM-ów. Więc macie takie ośmiogodzinne warsztaty, które wam tutaj przedstawiamy w ramach po prostu rekompensaty i tego, że nasz kalendarz się zmienił. Ale dzisiaj już nagrywamy. Mamy dla was kolejny odcinek i naprawdę sporo ciekawych nowości. Dzisiaj skupimy się na trzech dużych premierach. Groku trójcy od firmy XAI od Ilona Maska. Opowiemy wam o Cloud 37 Sonnet z firmy Antropic. No i o gwieździe, którą wczoraj wieczorem mieliśmy przyjemność skomentować na żywo, o gwieździe z OpenAI. gwieździe za znakiem zapytania. Do tego jeszcze wrócimy czyli GPT 4 i pół. Mamy duże modele od dużych firm. Zastanowimy się dzisiaj co te modele tak naprawdę wnoszą do naszej pracy jak mogą zmienić tę naszą rzeczywistość. Ale zanim zaczniemy to kilka zaproszeń do naszych projektów do naszej działalności w ramach Opanuj AI.

Marcin:

Dokładnie tak. Zacznijmy od zaproszeń na nasze warsztaty z narzędzi AI. Można zapisywać się na drugi kwartał, jeżeli w Twojej firmie jest zapotrzebowanie na poszerzanie kompetencji, umiejętności, wiedzy z zakresu właśnie stosowania dużych modeli językowych i wszelkiego rodzaju narzędzi AI, zwłaszcza w kontekście programistycznym, ale również Mamy szkolenia dla kadry kierowniczej i dla pracowników biurowych, administracyjnych, więc jeżeli macie takie zapotrzebowanie szkoleniowe w firmie, to można się z nami umówić na darmową konsultację, gdzie zbadamy Wasze potrzeby. Na opanuj.ai, łamane na szkolenia, znajdziecie szczegóły i możliwość umówienia się z nami na darmową konsultację. Następnie zachęcamy do pobrania bezpłatnego poradnika Personalizacja AI dla Programisty ze strony tenxdevs.pl, czyli 10xdevs.pl. Tam znajdziecie poradnik Rules for AI, który pomoże Wam skonfigurować, dostosować AI w Waszym programistycznym edytorze, do staku technologicznego w projekcie, do konwencji, do najlepszych praktyk jakie stosujecie, tak aby być maksymalnie z AI zadowolonym, czy to w kursorze, czy to w kopajlocie, czy to w edytorach JetBrains. Zapraszamy Was również do naszego newslettera Opanuj.ai. Na stronie opanuj.ai na dole znajdziecie formularz, można się zapisać i co tydzień otrzymać od nas trzy wyselekcjonowane newsy ze świata AI, żeby być na bieżąco z tygodnia na tydzień, a nie tylko z miesiąca na miesiąc dzięki temu podcastowi. A jeżeli ten odcinek się Wam spodoba, no to będziemy wdzięczni za Piątkę na Spotify bądź Apple Podcast. Udostępniajcie ten podcast znajomym zainteresowanym sztuczną inteligencją. Dziękujemy za całe wsparcie. To pomaga nam trafić do szerszego grona odbiorców, tworzyć więcej wartościowych treści. Super to było widać wasze zaangażowanie w przypadku odcinka deepseekowego. Tam udało nam się naprawdę fajny wynik wyciągnąć ponad 2000 odtworzeń przez ten miesiąc. Liczymy, że ten odcinek również ten wynik utrzyma, a wręcz przebije. Tyle tytułem wstępu. Teraz Przemek prowadzi Was w temat GROK’a 3 od XAI.

Przemek:

GROK 3 od XAI, czyli pierwszy model językowy, pierwszy system, który według wszelkich dostępnych informacji był trenowany na tak ogromnej infrastrukturze. Mowa tutaj o superkomputerze Colossus i 200 tysiącach GPU. Zanim porozmawiamy o tym, czym ten Grok 3 tak naprawdę jest, postanowiliśmy jakby tę sekcję rozpocząć od przedstawienia wam tła tego, czym XAI tak naprawdę jest. Kilka razy o XAI już w naszym podcaście rozmawialiśmy, natomiast wydaje się to istotne, żeby jeszcze raz podkreślić, w jak szalonym timelinie te wszystkie artefakty tworzone przez XAI powstawały. Artefakty w postaci modeli Grok. No więc idąc po kolei, wszystko zaczęło się 9 marca 2023 roku w Nevadzie, zaledwie pół roku przed premierą chata GPT. Elon Musk ogłosił właśnie powstanie takiej organizacji zrzeszającej komandosów z wielu różnych organizacji, byłych pracowników firm OpenAI, DeepMind czy Microsoft Research. którzy będą się zajmować, no właśnie, pościgiem za sztuczną inteligencją. Jak to wtedy Elon Musk ogłosił, celem XAE miał być zrozumienie prawdziwej natury wszechświata. W marcu 2023 roku mieliśmy to ogłoszenie, a już kilka miesięcy później, bo w maju 2024 roku, mieliśmy ogromną rundę finansowania, która tak naprawdę pozwoliła tę firmę postawić praktycznie na tym samym poziomie, co firmy takie jak Antropic czy OpenAI oczywiście o wiele większym credibility i o wiele większej historii do wożenia tych swoich modeli. W maju 2024 roku XAI zabezpieczyło rundę na kwotę 6 miliardów dolarów od takich firm jak Andresen Horowitz, Lightspeed Ventures czy Sequoia Capital i ta runda finansowania miała im posłużyć właśnie do wypuszczenia na świat tego największego na świecie data center. Najpierw mówiło się o 100 tysiącach GPU, teraz mówi się już o 200 tysiącach GPU. które miały właśnie posłużyć wydaniu na świat takiego modelu językowego nowej generacji, czyli właśnie groka 3, który pojawił się na rynku dokładnie 17 lutego 2025 roku. Przed grokiem 3 mieliśmy kilka artefaktów pośrednich, był grok 1.5, był grok 2, mieliśmy też modele do generowania obrazów, natomiast teraz Jest to temat o tyle istotny, że grok trójka tak naprawdę stawia firmy XAE praktycznie w tym samym miejscu co pozostałe firmy dowożące rozwiązania state of the art. I co jest takiego szczególnie istotnego jeśli chodzi o groka trójkę? No tutaj mamy tak naprawdę inspirację wszystkimi patternami, czy wszystkimi praktykami, które widzieliśmy już po konkurencji, tylko właśnie wdrożonymi na naprawdę dużą skalę. Przede wszystkim GROK 3 to jest model, który bardzo mocno korzysta z techniki Reinforcement Learning, uczenia ze wzmocnieniem i w natywny sposób obsługuje Chain of Thought. My już o tym Chain of Thought i o modelach rozumujących mówiliśmy wcześniej, przy okazji DeepSeeka R1 czy OpenAI O1, OpenAI O3. No i teraz GROK 3 jest kolejnym modelem, tym razem właśnie od XAI, który działa w ten sposób. Kiedy wydajemy polecenie grokowi 3 możemy się zdecydować na konkretny tryb działania, albo możemy z nim współpracować tak jak z klasycznym chatbotem, albo możemy go poprosić o takie dodatkowe wnioskowanie, dzięki czemu ten model będzie, czy to optymalizował jakieś swoje strategie rozwiązywania problemów, będzie korygował błędy, będzie mógł wykonywać jakąś analizę wsteczną. To wszystko ma po prostu służyć temu, żeby jakość odpowiedzi z tego modelu była po prostu jak najwyższa. Jakie istotne tutaj elementy tej premiery groka trójki można zauważyć z punktu widzenia użytkownika końcowego? Przede wszystkim po ostatnich popularnych kuponach T-Mobile na Perplexity Pro mamy kolejną usługę, która jeszcze dzisiaj dostępna jest za darmo. Z groka trójki można korzystać praktycznie w takim pełnym setupie wchodząc na stronę grok.com. No i tam mamy dwie funkcje, które w przypadku chociażby rozwiązań OpenAI są dostępne w planach płatnych. Mamy DeepSearcha, czyli można powiedzieć taki odpowiednik Deep Research, czy to od Gemini, czy to od właśnie OpenAI, czyli taką funkcję, która ma pogłębić źródła, z których korzysta model, dzięki czemu ten model będzie nam przygotowywał bardziej obszerne, bardziej precyzyjne raporty. No i mamy właśnie ten tryb Think, ten tryb Think, o którym jeszcze dzisiaj będziemy mówić, bo w przypadku Cloud Soneta on również tutaj bardzo dużą rolę odgrywa. Mamy wsparcie dla multimodalności, ten groch trójka pracuje z obrazami, może dla nas przez to samo pole tekstowe te obrazy generować. Mamy tam pracę z kodem, mamy pracę na danych. No i tak naprawdę te wyniki pokazują, że jest to model naprawdę na najwyższym poziomie najwyższym poziomie jakości. Niestety ma też swoje limity. Tutaj staraliśmy się to rozpoznać. Marcin może tutaj tobie przekaże głos. To nie jest tak, że jest to w pełni otwarta usługa, gdzie tak naprawdę wszystko jest w takiej niegraniczonej formie dostępne.

Marcin:

Mamy około 200 wiadomości na godzinę do dyspozycji. Jest też dostępny plan SuperGrok za 30 dolarów, gdzie mamy wyższe limity właśnie konwersacji i nielimitowane generowanie obrazu, więc ten pricing jeszcze jest taki dość niejasny, mglisty, mało transparentny. To pewnie kwestia tego, że XAI dopiero pracuje nad swoją ofertą. Pewnie to się zmieni na przestrzeni najbliższych tygodni, miesięcy i troszkę będzie dużo bardziej jasne. Tak zresztą było w przypadku OpenAI i innych firm, te plany tam się na początku zawsze trochę klarowały. I grok jeszcze nie jest dostępny przez API. To też jest dość charakterystyczne dla tej firmy. Oni dość mocno reagują z API. Z grokiem dwójką też tak było. co widać, że póki co zdecydowanie bardziej nastawiają się na takiego użytkownika końcowego w apce mobilnej, gdzieś tam na Eksie niż do jakichś zastosowań takich biznesowych, integracyjnych, chociaż tutaj również ten model jak najbardziej powinien się sprawdzić, chociaż czekamy jeszcze na pricing z tego co wiem po API, więc też nie wiemy do końca jaka jest opłacalność tego modelu Spoiler Alert na tle GPD 4.5 na pewno by to będzie wyglądało dobrze. Tak przynajmniej zakładam, bo tutaj poprzeczka jest zawieszona bardzo wysoko bądź bardzo nisko w zależności jak na to spojrzeć. No ale o tym pod koniec odcinka. Może przejdźmy jeszcze do tych naszych kochanych benchmarków jak X-Grok 3 się prezentuje na tle właśnie tych testów. Pierwszym z nich jest AIME dotyczące matematyki. Tam mam aż 93%. To jest, z tego co pamiętam, test na poziomie szkoły licealnej, ale to jest taka olimpiada z matematyki, bardziej wymagająca. No więc tu już naprawdę topowy wynik. Widać, że ten benchmark się nasyca. Już przy takich wartościach no to pewnie niewiele będzie on wnosił w kolejnych latach i potrzebujemy tutaj czegoś innego, nowego. Mamy też GPQA, czyli pytania na poziomie doktoratu. I tu również mamy świetny wynik 85%. Jeszcze lepszy niż chociażby o3minihype, które było dotychczasowym rekordzistą z tego co kojarzę. No pewnie o jeden jest to świetny model pod tym względem w chat bot arena lmarena.ai tam groch 3 jeszcze na początku pod nazwą czokler bo tak był ukryty to zdobył pierwsze miejsce aż 1402 punkty elo bardzo dobry wynik więc tutaj pod takim kątem wszelkiego rodzaju rankingów no to groch wypada naprawdę Świetnie, no i w takim ogólnym vibe checku też wypada dobrze, ludzie są zadowoleni z tego modelu. Chociaż oczywiście w pierwszych dniach to było bardzo widać, że bardziej ludzie mówią o Elonie Musk niż o samym modelu. No i oczywiście jak to gdzieś tam bywa, Elon Musk lubi kontrowersje, lubi jak się dzieje, lubi też dobry shitstorm. No i gdzieś tam przy okazji Grok’a 3 działa się kolejna część jego konfliktu z samym Altmanem. Może tutaj Przemek zaprasza Cię na chwilę do segmentu protek.pl Opowiedzmy jak tutaj po prostu wygląda Kolejna część tego tego shitstormu tego bifu. Trzeba by się spodziewać Ilona Maska bądź sama Altmana na Superbowl w przyszłym roku. Jak to w ogóle wygląda.

Przemek:

Myślę że to jest taki segment przez który przejdziemy błyskawicznie. Jaki to jest początek konfliktu. Początek konfliktu to jest partnerstwo biznesowe zarówno Elon Musk jak i sam Altman mieli bardzo duże nadzieje w stosunku do OpenAI. Natomiast jeśli chodzi o rozwój tej firmy i kierunek rozwoju tej firmy w kolejnych latach no to po prostu panowie się troszkę rozjechali z powodu konfliktu interesów z Teslą, która też była nazywana często takim super komputerem AI w dużej skali, no Elon Musk po prostu z tego OpenAI odszedł. No i po latach z pewną korelacją, kiedy OpenAI zaczął publikować naprawdę duże modele, jakościowe modele, no zaczął publikować gdzieś tam zarzuty w kierunku sama Altmana a propos tego, że on po prostu nie rozwija tej firmy w zgodzie z oryginalną misją, tego Open z OpenAI tak naprawdę nie ma, Im dalej tym bardziej zamknięta technologia. Chociaż tutaj mała dygresja, sam Altman ostatnio na Xie pytał jaki model albo jakiego rodzaju technologię powinien opublikować gdzieś tam w ramach Open Source, więc można powiedzieć, że jest to jakieś mrugnięcie okiem. Natomiast to jeszcze się nie wydarzyło, no a taka bombka z ostatnich tygodni to jest propozycja wykupienia OpenAI przez Elona Muska. Elon Musk złożył tutaj ofertę na 97 miliardów dolarów do zarządu firmy. Zarząd tę ofertę odrzucił. Altman też powiedział, że że OpenAI nie jest na sprzedaż, no i panowie kilka niemiłych słów między sobą wymienili. To tyle jeśli chodzi o plotka, na pewno to tarcie gdzieś tam będziemy obserwować. Natomiast na co tutaj warto zwrócić uwagę, no trudno tutaj zaprzeczyć temu, że XAI i cały ten efort Ilona Maska został postawiony naprawdę w zaskakująco szybkim czasie, w krótkich timelinach. Za tym po prostu stoją specjaliści, którzy robili takie rzeczy w innych firmach, no i teraz przekonani, czy to, nie wiem, autorytetem Ilona Maska, konkretnymi funduszami, czy technologią, którą mieli budować, po prostu zdecydowali się tworzyć groka pod, można powiedzieć, nieco innym logo, pod nieco innym brandem. Można powiedzieć, że praktycznie w dwa lata ta firma doszysowała do takiego state of the art AI. No i teraz ma naprawdę sporo street credu. Ten groch trójka naprawdę pojawia się w porównaniach najlepszych modeli, które są na rynku. Mamy reasoning, mamy to mocne poleganie na reinforcement learningu, czyli ostatnim takim hot topicu, jeśli chodzi o właśnie gdzieś tam polityki działania tych modeli językowych, trenowanie ich w kierunku konkretnych celów, czy też te umiejętności wyszukiwania rozwiązań konkretnych problemów. No i tutaj na pewno to uznanie się XAI należy. Tak całościowo jeśli mielibyśmy ten produkt podsumować no to na pewno próg wejścia jest bardzo niski jeśli nie zerowy. Mamy teraz po prostu darmowy plan na jakiś ograniczony czas można sobie na grok.com wejść i tego groka trójkę potestować. Ja też zachęcam do ubrania aplikacji mobilnej, przynajmniej na iOS, ona jest bardzo dobra, bardzo dobrze wyszlifowana, wypolerowana, ten UI Experience jest naprawdę dopracowany. Widać, że to nie jest React Native, widać, że to jest aplikacja natywna i te wzorce, które tam się pojawiają, na przykład wzorce co do tego, jak działa Reasoning, dla mnie przynajmniej są takim przytyczkiem w stronę właśnie OpenAI, których to chat GPT dość biedny już dzisiaj wygląda, jest to po prostu zestaw szarych boksów, które gdzieś tam po prostu zmieniają się w tej naszej przeglądarce. Grog jest naprawdę świetny, jest naprawdę dopracowany. Warto też poeksperymentować z tym trybem Deep Search. Wczoraj od Marcina dostałem pytanie, jak to wygląda w porównaniu do Deep Researcha. Dzisiaj rano troszkę starałem sobie tę odpowiedź w głowie lepiej poukładać. Z mojej perspektywy po czasie to jest troszkę inny produkt niż Deep Research. Tutaj też mamy tę możliwość odwoływania się do źródeł i wykorzystywania takich zdolności agenta jak chat OpenAI. ale te raporty nie są tak dogłębne, tutaj raczej czekamy minutkę, dwie na podsumowanie danej porcji informacji, nie ma mowy o tym, żeby ten Deep Search pracował nie wiem 10-15 minut, co zdarzyło nam się przetestować w Deep Researchu, więc można powiedzieć, że to jest coś pomiędzy taką klasyczną wyszukiwarką, gdzie na podstawie query dostajemy odpowiedź, a ciężkim i długo działającym Deep Researchem od OpenAI, to jest taki można powiedzieć sweet spot, myślę, że też jeden z argumentów tego, żeby wchodzić na plan płatny, bo grok wspomina, że po prostu nie będzie funkcja, która będzie też publicznie i zawsze otwarta w planach darmowych. No i tak jak Marcin wspomniał, no mamy zapowiedzi tego, że grok będzie się rozwijał, mamy dostać za jakiś czas artefakty w przeglądarce, czyli możliwość uruchamiania kodu w bezpiecznych sandboxach, no i grok 3 na poziomie API, jeśli się pojawi to też na pewno to skomentujemy, zobaczymy jak to będzie wyglądać w porównaniu do Kolejnego tematu, który chcemy wam tutaj przedstawić, w porównaniu do króla programowania, który też całkiem spore zamieszanie zrobił, a właściwie następcy króla programowania, bo królem był Claude Triple Sonnet, a tutaj Marcin jakiś nowy temacik na rynku, o co może chodzić?

Marcin:

No tak, jak ja to gdzieś tam określiłem, myślę, że dokładnie po to to powiedzenie zostało obtacowane już kilkaset lat temu, czyli nie żyje król, niech żyje król, no to tutaj po prostu następca zastępuje poprzednika, Mamy kolejny model z rodziny CLOT-3 SONNET, teraz jest to CLOT-37 SONNET, który jest szczególnie lubiany przez programistów. model przygotowany teraz już nawet bardziej oficjalnie właśnie w kierunku tego typu zastosowań. Wcześniej to tak trochę wyszło w praniu, że programiści bardzo tego Soneta 3.5 polubili. No to był taki gdzieś tam game changing moment tak naprawdę czerwiec zeszłego roku, kiedy ten Sonet 3.5 się pojawił i naprawdę była zauważalna różnica w tym, jak się programuje z tym modelem względem konkurencji. To nie było aż tak bardzo widać w benchmarkach, jakie były wtedy do dyspozycji. Bardziej to było widać na poziomie Vibun, ale gdzieś tam rozpropagował się SWE Bench, Verified, Live Bench, czyli pojawiły się już potem benchmarki, które pokazywały, że ten klot jest zauważalnie lepszy w tych use case’ach programistycznych, co nie do końca było widać na poziomie jakiegoś Human i Vala na przykład. No więc mamy kolejny model właśnie z tej rodziny. Kolejna iteracja, która dodaje to czego najbardziej brakowało w 3.5 Sonecie, czyli Reasoning i co ciekawe jest to taki model hybrydowy pierwszy jaki dostaliśmy, który łączy w sobie ten base model odpowiadający szybko, natychmiastowo z modelem myślącym, który korzysta z tych Reasoning tokenów z procesu analizy przed udzieleniem ostatecznej odpowiedzi. Jest to ciekawe, bo cały czas możemy podobnie promptować model jak w przypadku tych modeli bazowych. i to on samodzielnie podejmuje decyzję, czy potrzebuje się bardziej zastanowić, czy nie. Póki co działa to tak sobie. Widać, że są gdzieś tam kurki poskręcane na poziomie infrastruktury, Było niesamowite obciążenie, kursor tam płonął i no po prostu widać, że dużo ludzi bardzo chciało w tym kontekście programistycznym tego Soneta przetestować i oni chyba tam skręcili mu ten rezoning, bo no to widać, że te łańcuchy myśli są bardzo krótkie w kursorze. jak sobie je porównamy z DeepSeekiem R1, no to to jest naprawdę DeepSeek R1 jest 10 razy więcej myśli niż KRO-37 Sonnet obecnie. Jest to na pewno ciekawe, no teraz Przemek też tu rzucił normalnie, jest na poziomie To jest z kursora Przemek, czy z Antropica? Z status page kursora. No, że tam właśnie oni zarzucili rate limiting na poziomie Antropica, no więc płoną im tam serwery, więc coś jeszcze jednoznacznie ciężko stwierdzić. Ja miałem, ten model fajnie działał, zwłaszcza chwilę po premierze, jak jeszcze nie wszyscy się skapnęli. Ja wtedy gdzieś tam zarwałem noskę do 3.30, się z nim bawiłem. I on działał wtedy naprawdę fajnie i byłem pod wrażeniem. Potem już kolejne dni się zaczęły pojawiać problemy w kursorze, bo wszyscy wskoczyli na ten wagonik. Mocno się poniosła ta wieść o tym nowym królu programowania. I teraz jest taki trochę fog of war i dużo ludzi nawet wraca do Soneta 3.5, który po prostu jest stabilny. Chociaż na poziomie mojego vibe checku ten model jest naprawdę dobry. i pewnie jeszcze co podniesie jego jakość w najbliższych dniach, tygodniach to jak ekipa kursora zobaczy jak dopracować prompty na poziomie ich backendu żeby ten model się zachowywał tak jak powinien. On obecnie jest taki bardzo ochoczy do działania i mocno tak agentowo działa. Ogólnie ma bias na robienie rzeczy tak jak gdzieś tam 3,5 strony miał bias ogólnie na generowanie kodu. On też było widać, że tam lubi ten kod wygenerować i raczej jest bardziej aktywny niż nie. No tutaj jeszcze nie dość, że chce generować kod, to też chce tworzyć pliki, chce wywoływać komendy, taki no jest po prostu wszystko tam dotyka, co czasami jest fajne, ale no wiadomo, jak się pojawia jakaś regresja, no to może się dość grubo zakopać, pójść w złym kierunku i nam przepalić po prostu dużo kasy, no bo tam ta sytuacja, w której on dochodzi do tej ściany 25 akcji, no to to jest normalka zupełnie, że on w kursorze bardzo często do tego momentu dociera. No więc na pewno ciekawy release. Myślę, że w kursorze będzie absolutnie rządził i to już też zresztą się obecnie odbija chociażby w rankingu LM Arena. Tam mamy tę kategorię webdewową, gdzie ten CRO 3.7 Sonnet jest pierwszy i ma 100 punktów przewagi aż nad swoim poprzednikiem zresztą. Więc tutaj widzimy, że Antropic naprawdę potrafi te modele do webdevelopmentu tworzyć. To też gdzieś tam się odbija w benchmarkach. Może tym najbardziej istotnym z punktu widzenia 3.7 Sonneta jest właśnie SWE Bench Verified, no i tam mamy kosmiczne wyniki, bo to jest chyba 62% bez tego Extended Thinkingu i 70% z Thinkingiem właśnie, no więc to są kosmiczne wyniki powyżej jakichś specjalnie zfuntunowanych o jedynek i tak dalej, i tak dalej, no więc no naprawdę, naprawdę widać, że Antropik się skupia na tych use case’ach programistycznych, agentowych i to jest taki model gdzieś tam robiony przysłowiowo pod kursora, pod copilota i tego typu rozwiązania. Myślę, że to rozsądne podejście, Antopic gdzieś tam w taką, nie wiem czy świadomie, ale w taką niszę wpadli i teraz widać po prostu jak to się mówi po amerykańsku, że robią embrace the niche po prostu i jeszcze bardziej już teraz wprost idą w ten temat, chociażby wprowadzając razem z modelem takie rozwiązanie jak Cloud Code, to może Przemek więcej o tym opowiesz, opowiedz też proszę jak to wygląda z placingiem, który jest niezły, chociaż nie jest zachwycający. No ogólnie ciekawy release z mojego punktu widzenia.

Przemek:

Powiedziałeś dużo o tej perspektywie użytkownika końcowego. Ja może jeszcze opowiem o perspektywie programisty, który też właśnie buduje tę integrację w oparciu o ten model, albo ma zamiar budować. Zaraz jeszcze do toolingu przejdziemy. No więc na poziomie API też pojawiła się nowa opcja konfiguracji właśnie całego tego procesu rozumowania. Możemy po prostu sterować tak zwanym budżetem na myślenie. Mamy tam określoną liczbę tokenów, które model może przeznaczyć na na wykonanie tego dodatkowego procesu rozumowania i jeśli będziemy jako programiści budować integrację w oparciu o takie modele, to będziemy mogli wprost powiedzieć, ile chcemy zapłacić za to dodatkowe myślenie. Tam w dokumentacji Antropica, już nie wchodząc w szczegóły, mamy opisane dwa dodatkowe pola, które tak naprawdę definiują, ile tych tokenów na ten reasoning chcemy przeznaczyć. No i dzięki temu ten model, ten sam model, którego będziemy stosować w takim klasycznym trybie chatbota, będzie przez jakiś dłuższy moment właśnie myślał, rozkminiał sobie dany problem, generował te wszystkie chain of thoughty i odpowiadał lepszej jakości wynikami. 128 tysięcy tokenów to jest taki upper bound. tego, ile tokenów można przeznaczyć na myślenie. Co ciekawe, jeśli chodzi o cenę za tokeny wejściowe i tokeny wyjściowe, to tutaj pozostajemy na poziomie Cloud 3.5 Soneta, czyli mamy 3 dolary za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych. Mamy też optymalizacje, które pomagają zbijać te wartości, mamy zapytania batchowe, mamy cashowanie promptów, to można zastosować, żeby tą cenę Wszystkie szczegóły jak zwykle w dokumentacji tam was odsyłamy, bo też zdajemy sobie sprawę, że w podcaście rzucanie liczb to nie jest zawsze optymalna forma przekazywania tej wiedzy. Marcin wspomniał jeszcze o Cloud Code, więc kończąc te sekcje o cloudzie, okazuje się, że Antropic gdzieś tam robi takie double down właśnie w kierunku bycia specjalistą w niszy programowania i nie tylko udostępnia nam dobre modele, które są asystentami programistów, ale też zaczyna udostępniać konkretny tooling. Wcześniej mieliśmy Computerius, mieliśmy gdzieś tam agentowe akcje, które pomagają Cloudowi obsługiwać komputer, a teraz mamy Cloud Code, czyli wprost narzędzie terminalowe do asysty w programowaniu. Jest to takie narzędzie, które jeszcze w ostatnich dniach było dostępne przez waitlistę, musieliśmy się zapisać, ale i na naszych prywatnych kontach i na kontach przeprogramowanych po 2-3 dniach taki dostęp do Cloud Code się pojawił. Jest to, można powiedzieć, taki odpowiednik IDERa, czyli jakiegoś asystenta, który z poziomu terminala buduje sobie świadomość naszego projektu, buduje sobie jakiś indeks wiedzy i może na tym projekcie pracować w oparciu o nasze polecenia tekstowe, które mu tam wydajemy. On może przeszukiwać kod, może czytać kod, edytować pliki, pisać, uruchamiać testy itd., itd. To na co warto tutaj zwrócić uwagę i podkreślić to jest właśnie ta wczesna wersja, która została opublikowana i koszty jakie ona generuje. Na Eksie pojawiła się informacja, że ten Cloud Code na dzisiaj pracuje na poziomie całych plików, a nie na poziomie diffów, które np. wspiera Cursor, więc jeśli dacie mu polecenie, żeby zrefaktoryzował jakiś cały plik, to on cały ten plik po prostu przepisze i stąd te koszty, które będziecie mogli zobaczyć są po prostu znacznie, znacznie większe. W moich testach bardzo szybko spaliłem okolice jednego dolara, dosłownie po kilku poleceniach. Myślę, że gdybym spędził z tym kodem cały dzień pracy, no to moja żona by sprawdziła, co się na koncie dzieje, w którą stronę te dziwne zapytania gdzieś tam są kierowane i skąd to obciążenie konta. No więc czekamy na kolejne wersje, czekamy na usprawnienia tego toolingu. W każdym razie widać, że Antropic to będzie firma, którą na pewno warto mieć na uwadze, jeśli programistą po prostu jesteście.

Marcin:

Myślę, że tyle w temacie samego Claude’a, ale my tutaj pociągnęmy trochę temat również nowy, aktualny. zwłaszcza z perspektywy Opanuj AI i osób, które są zainteresowane programowaniem z AI. Startujemy z nowym projektem o nazwie 10xDevs, 10xDevs.pl. Będzie to czterotygodniowy intensywny kurs, szkolenie poświęcone integracji AI z produkcyjnym workflow deweloperskim. Wiele osób chciałoby zobaczyć na czym polega ten cały potencjał AI, jak to sensownie wdrożyć w firmie, jak z tego korzystać jako programista, ale w sposób odpowiedzialny, świadomy, dostosowany do realiów produkcji, a nie tylko do pisania na temat demek w social media. Właśnie takie podejście chcemy zaprezentować i przeprowadzić Was przez taki proces tworzenia aplikacji, czy to nowych, czy też pracy z projektami Legacy właśnie z wykorzystaniem AI w waszym programistycznym edytorze. Tak naprawdę od pomysłu przez MVP, po test pipeline CI-CD, aż na produkcję pełen workflow programistyczny będzie przez nas zaprezentowany właśnie z wykorzystaniem AI. Naszym zdaniem na wielu etapach można to AI włączyć, aby programować nie tylko znacznie szybciej, ale w wyższym komforcie, z wyższą jakością. To nie są żadne dychotomie, że jeżeli robimy coś z jaj szybko, to musi być niskiej jakości. Wcale nie. Jeżeli mamy odpowiednią wiedzę, to możemy mieć zyski i po jednej, i po drugiej stronie, a na tym tak naprawdę nam zależy. Będziemy też oczywiście pracowali w oparciu o nasze doświadczenie od dwóch lat. To jest nasze oczko uwagi. Nie pracujemy na etacie, tylko m.in. skupiamy się na tym, aby być na bieżąco z generatywną sztuczną inteligencją, żeby testować w naszych projektach te narzędzia i potem przekazywać Wam wiedzę umiejętności, jak to robić. Myślę, że jesteśmy jednymi z nielicznych ludzi w Polsce, którzy są gotowi, aby taki program stworzyć i aby ludzi uczyć, jak z tego AI w procesach programistycznych korzystać. Mamy szerokie doświadczenie. Wprowadzaliśmy aplikacje na produkcję w różnej skali, małej, dużej, średniej, przez ponad 10 lat. To się świetnie łączy z tą sytuacją i z tym wyzwaniem. Widzimy dużo widzimy dużo wątpliwości, chcemy Wam w tym pomóc. W programie będziemy się opierali na naszym sprawdzonym stacku, jakim jest Astro React z TechScriptem i integracją z Superbase jako backend. Tutaj mamy gwarancję bardzo komfortowej, efektywnej pracy, ale oczywiście zapraszamy osoby nie tylko z innych technologii JavaScriptowych, ale też z innych ekosystemów językowych. Python, Java, PHP, C Sharp to są na pewno języki, w których można nas odwiedzić, powinno być co najmniej dobrze. Oczywiście to się też okaże w planie. My pracujemy w ekosystemie JavaScript, no to mamy technologię, no po prostu z którymi na co dzień działaliśmy, wiemy, że tamto się świetnie sprawdza. Przemek może przeprowadzić też słuchaczy przez to, jaki mamy plan na te cztery tygodnie szkolenia, też jakie technologie będziemy wykorzystywali. No zdecydowanie ogólnie będzie to intensywny program, będzie co z nami robić zresztą jak zwykle.

Przemek:

Jeśli chodzi o agendę no to mamy cztery etapy, z których pierwszy to jest bootstrap. W pierwszym tygodniu będziemy chcieli Was przeprowadzić przez proces od pomysłu do aplikacji, którą można przetestować z jakimś użytkownikiem. No i tutaj przechodzimy przez e-analizę, problemów przez jakiś kreatywny brainstorming, wyszukiwanie pomysłów na projekty też z naszymi propozycjami tego co się da zrobić z tym AIM i czego z AIM się nie da zrobić, poimplementowanie frontendu, po skuteczne techniki pisania interfejsów użytkownika, po techniki, które zapewniają rozwijanie logiki biznesowej i też projektowanie bazy danych przez modele, które wykorzystują reasoning. Jeśli chodzi o technologię, no to pokażemy wam m.in. to z jakich bibliotek korzystać na frontendzie, dlaczego akurat np. z Tailwindem warto stylować UI, dlaczego np. nie warto się odwoływać do jQuery ani Bootstrapa, przynajmniej w przypadku generowania nowych projektów. Pokażemy wam, jak w praktyce wykorzystać całe to zamieszanie np. z DeepSeekiem, z O1, z Cloudem, który jest w stanie rozumować w przypadku planowania bazy danych itd. Na końcu ten wasz pomysł, po pierwszym tygodniu będziemy chcieli przekonwertować na działającą aplikację, a w drugim tygodniu tę aplikację przeniesiemy na produkcję. I tutaj zacznie się zabawa i z infrastrukturą, i z CICD, z GitHub Actions, zapewnieniem jakości testy jednostkowe, testy end-to-end, testy integracyjne, no i optymalizacja tych wszystkich kroków właśnie, czy też integracja tych wszystkich kroków w procesie płynnego wychodzenia na produkcję. Eksperymentujemy też z Dockerem, którego chcemy pokazać w tym kursie, eksperymentujemy z chmurami, na które te aplikacje będziecie mogli wrzucać. Po dwóch tygodniach ten wasz pomysł, z którym rozpoczniecie na samym początku, będzie działał na chmurze i to będzie też jakieś tam prerequisite do otrzymania certyfikatu, to znaczy my chcemy zobaczyć jako twórcy kursów, że realnie z pomocą sztucznej inteligencji po prostu te aplikacje na chmurze działają, jest jakiś publiczny URL, można tam założyć konto, można się zalogować i można się tym pochwalić, bo myślę, że to jest też bardzo istotne. No i moglibyśmy tutaj zrobić kropkę, tak jak pewnie 99% twórców, którzy mówią o EA w kontekście programowania, ale idziemy trochę dalej, bo spędziliśmy 10 lat w świecie product engineering’u i też jak inżynierowie chcemy do tego projektu podejść, więc trzeci tydzień to jest modernizacja projektów, legasy, cały ten brud i błoto, z którym się często zmagacie w projektach, ten ból i znój, który po prostu musicie jakoś rozplątywać. Tam chcemy wam pokazać, jak sztuczna inteligencja może wam pomóc rozumieć legasy kod, jak refaktoryzować kod z wykorzystaniem wzorców projektowych i też jak migrować na nowoczesny stag technologiczny. To nie jest wcale takie oczywiste, bo modele językowe mają jakieś swoje ograniczenia. To nie jest tak, że każda technologia sprawdzi się tak samo dobrze i każda wersja tej technologii sprawdzi się tak samo dobrze, ale chcemy was przynajmniej na to uczulić. Jednym z takich klaimów, który też pojawił się w materiałach, które publikujemy, będzie to, że po prostu to nie będzie reżyserowana współpraca, idealnej współpracy ze sztuczną inteligencją. To będzie zaprezentowanie możliwości modeli state of the art w takiej formie, która jest najbardziej realistyczna. Więc pokażemy wam sprawdzone scenariusze, pokażemy wam, gdzie czyhają smoki, gdzie czyhają jakieś problemy, a to wszystko mamy nadzieję, że będziecie mogli wykorzystać u siebie. No i też czwarty, czwarty moduł, czwarty tydzień. tydzień dla innowatorów, dla osób kreatywnych, to będzie cały temat agentowego AI, sprawczego AI. Pokażemy wam, jak wykorzystać model Context Protocol do tego, żeby wzbogacić systemy oparte o sztuczną inteligencję, czy też wasze edytory agentów AI o konkretne narzędzia. Pokażemy wam, jak to wszystko spinać, jak agenci AI mogą zabezpieczać, jakość aplikacji i tak naprawdę, jak taki 10x dev mógłby się rozwijać dalej, wychodząc poza temat sztucznej inteligencji, bo jeśli korzystaliście wcześniej z naszych kursów, to wiecie, że gdzieś tam nazwa i agenda to jest jakiś tam starting point, a przeprogramowanie zawsze tam przemycają jakieś swoje tematy, którymi od sześciu lat w takiej otwartej formie się dzielimy. Więc podsumowując i Greenfield i Brownfield i fajne projekty kreatywne, dużo przyjemnych ćwiczeń i refaktoryzacja i migrowanie tego, co w programowaniu czasami nie jest tak przyjemne, nie jest tak korzystne. Masa praktycznych bibliotek i narzędzi, które możecie wykorzystywać, które po prostu działają najlepiej w kontekście sztucznej inteligencji. Pokażemy Wam też wiele kontekstów środowiskowych, nie tylko kursor, ale też opowiemy o co-pilocie. Pokażemy jak AI sprawdza się w JetBrainsach. Uczylimy Was przede wszystkim na to, żeby zwracać uwagę na różnice między tymi środowiskami. No i taką naszą ambicją jest zrobić szkolenie, jakiego w Polsce po prostu jeszcze nie ma, czyli pokazać Wam, jak ta sztuczna inteligencja przez cały proces wytwarzania i oprogramowania może Was jako programistów wspierać po prostu.

Marcin:

Dokładnie tak. I co jeszcze wyróżnia ten kurs, to będziemy go prowadzili z naciskiem na język polski. Testowaliśmy zarówno w Code 3.5 Sonnet, jak i Code 3.7 Sonnet. Tam możemy bez problemu promptować po polsku i nie ma to zauważalnego wpływu na jakość współpracy w tym kontekście programistycznym. Więc jeżeli masz jakąś obawę o barierę językową, to nie ma tutaj najmniejszego problemu. Nie omijamy również aspektów bezpieczeństwa. Prezentujemy najlepsze praktyki minimalizujące ryzyko wyciku danych, strategię kodu generowanego przez AI i metody zapobiegania halucynacjom. I teraz niezależnie od tego, kim jesteś w branży IT, na jakim jesteś poziomie doświadczenia, czym się zajmujesz, to w tym kursie znajdziesz coś tak naprawdę dla siebie. Jeżeli jesteś tech leadem, jeżeli jesteś seniorem, no to będzie tam gotowy framework jak sensownie. AI wprowadzić do zespołu, z zachowaniem wysokich standardów jakości kodu, zgodności z konwencjami jakie macie w zespole startu technologicznego. Pokażemy jak o to wszystko zadbać, żeby w projekcie cały czas był porządek i wszystko było tworzone zgodnie ze sztuką. Jeżeli jesteś mid deweloperem, junior deweloperem, no to to jest świetna szansa, żeby zwiększyć swoją konkurencyjność na rynku poprzez opanowanie toolingu AI. On znacznie odbija się na produktywności, ale też jak już wspominaliśmy na jakości i komforcie pracy. Jeżeli jesteś finansorem, jeżeli realizujesz projekty na zlecenie, to oczywisty zysk, czyli skrócenie czasu realizacji projektów bez kompromisów na poziomie jakości, coś możemy przełożyć bezpośrednio albo na wyższą stawkę godzinową, albo na większą liczbę zrealizowanych projektów. 12 marca razem z Adamem Gospodarczykiem z AIDEVS.pl będziemy organizowali webinar i tam przejdziemy przez konkretne use case, przykłady pracy z AI w kontekście produkcji, w kontekście programowania właśnie. Zobaczycie nasz realny workflow, realne problemy jakie rozwiązujemy. więc zachęcamy do udziału w tym webinarze. Jeżeli chodzi o same ceny programu, to mamy przedsprzedaż do 14 marca, więc niewiele czasu i tam kurs będzie dostępny w bardzo atrakcyjnej cenie 990 zł brutto. Następnie cena wzrasta do 1490 zł brutto, więc warto zdecydować się na przedsprzedaż 500 zł taniej wtedy. ale również cena ta normalna będzie ceną atrakcyjną, bo to jest pierwsza edycja. Później ten kurs w edycjach kolejnych najpewniej będzie kosztował w okolicach 2000 zł. No więc można teraz tak naprawdę 50% ceny kupując przez sprzedaży oszczędzić, bazując na zaufaniu do nas. Już 1500 osób przeszkoliliśmy w czterech szkoleniach, w wielu edycjach. Nie było u nas problemów z jakością, jak już to myślę, że w drugą stronę. Więc warto zaufać, warto zaoszczędzić. Zachęcamy do tego. A w międzyczasie zachęcamy również do pobrania darmowego poradnika na stronie 10xdevs.pl. Tutaj tak fonetycznie raz jeszcze. Tam znajdziecie darmowy poradnik, jak już mówiłem na początku, Rules for AI, czyli jak spersonalizować AI pod Wasz stag technologiczny, pod Wasze konwencje. Tego właśnie uczymy w tym darmowym poradniku. No i jako, że mamy za sobą Kroda 37 Sonnet, mamy za sobą nasz segment dotyczący nowego projektu 10xDevs.pl, No to teraz możemy przejść do gwiazd ze znakiem zapytania, jak Przemek zauważyłeś, czyli GPT 4,5. No tutaj duże były oczekiwania. Jak wiem, model GPT 3,5 Turbo był takim pierwszym modelem, który zachwycił świat, więc tutaj było oczekiwania, że to będzie podobny przeskok jak pomiędzy 3, a 3,5. No i teraz pytanie, co my, Przemku, tak naprawdę dostaliśmy. i jak to wypada na tle Eksa i na tle Antropica.

Przemek:

No więc na to GPT 4.5 można patrzeć z kilku perspektyw. My dzisiaj o co najmniej dwóch opowiemy czyli o takiej perspektywie czysto produktowej o tym co mówi firma OpenAI i o też takiej szerszej perspektywie tego jak np. wygląda skala trenowania tego typu modeli jak wygląda opłacalność takich modeli w porównaniu do jakości którą uzyskujemy bo to jest też bardzo istotny model akurat w tym kontekście więc Wczoraj zrobiliśmy livestreama. Wczoraj, czyli 27 lutego o 21 pojawił się livestream na stronie OpenAI, gdzie ten model został zaprezentowany i czego się dowiedzieliśmy? Przynajmniej dla mnie osobiście takim motywem przewodnim całego tego release jest inteligencja emocjonalna. Już nie surowe IQ, tylko taka naturalność, empatia, zrozumienie człowieka, które mają charakteryzować ten model. GPT-4.5 został wcześniej przedstawiany chociażby w mediach społecznościowych jako ten słynny Orion, więc nie ma co ukrywać, że oczekiwania do tego nowego flagowca były olbrzymie, były ogromne, bo mieliśmy właśnie Grok’a, mieliśmy Cloud 3.7 Sonnet już na rynku. Ten Orion miał zmieścić konkurencję, ale okazało się, że od strony produktu jest raczej więcej pytań, żeby nie powiedzieć takich zarzutów od strony użytkowników niż odpowiedzi. No bo tak, OpenAI promuje ten model jako największy i najbardziej przestrzenny model w historii. Model, który przede wszystkim maksuje ten etap pre-trainingu, czyli tak naprawdę tego najbardziej surowego wyszukiwania wzorców w tekście na podstawie jakiejś ogromnej porcji danych. Model ma być największy, infrastruktura ma być największa, on ma być knowledgeable, ma być, można powiedzieć, takim modelem, który zawiera najwięcej wiedzy o świecie i właśnie zostaje też trenowany w kierunku tego, żeby przyjaźnie, gładko się z nim rozmawiało, cokolwiek ma to znaczyć. Tak jak Marcin wspomniał, jest to najlepszy model dla chata GPT i kropka. bo o innych kontekstach za bardzo nie ma co mówić. Co widzimy jeśli chodzi o benchmarki i co mówi sama OpenAI? Widzimy spadek tego problemu halucynacji, widzimy po prostu mniejszy wpływ halucynacji na konwersację z tym modelem. W jednym z benchmarków, które OpenAI opublikowała, czyli Person QA, ten wskaźnik halucynacji spadł z 52% dla GPT-4.0 do 19% dla GPT-4.5. Czyli można powiedzieć, że jeśli w tym benchmarku mieliśmy trudne wątki i konwersacje, gdzie GPT-4.0 w co drugiej rozmowie halucynował, no to GPT-4.5 już tylko w co piątej rozmowie halucynuje, więc zdecydowanie jest mniej szans na to, te modele wyprowadziły nas w pole. OpenAI mówi, że to ma być model uniwersalny i wskazuje, że tutaj fokusem nie były chociażby nauki ścisłe, ten słynny STEM. Tutaj te modele reasoningowe, takie jak O1 czy O3, mają być liderami. Ten model nie ma tych natywnych mechanizmów chain of thought, on ma się zachowywać jak klasyczny chatbot, przez to, że to jest model ogromny, największy, jaki OpenAI wytrenowało, zgodnie z tym, co widzimy w sieci. On działa stosunkowo wolno, nie jest to na pewno działanie w takim tempie do jakiego się już przyzwyczailiśmy, no ale właśnie te wszystkie takie aspekty, które mają go zbliżać do konwersacji z człowiekiem są na miejscu. Rozumienie języka, bezpieczeństwo, jeszcze raz wspomnę jakaś taka Empatyczność w stosunku do użytkownika, to żeby nie przedstawiać suchych odpowiedzi na złożone problemy. Można powiedzieć, że to jest taki model, który mógłby napędzać wiele avatarów AI. No właśnie, tylko że z tym napędzaniem avatarów AI jest konkretny problem, jest konkretne wyzwanie. Wczoraj w trakcie live’a byliśmy w małym szoku, kiedy to zobaczyliśmy. Marcin, może opowiedz o tym problemie, no bo to czegoś takiego dawno już nie widzieliśmy, o co tutaj chodzi.

Marcin:

No tak, bo na początku rozpoczęliśmy wczoraj live’a na podstawie systemu kardu. gdzie ten model wyglądał nieimponująco. Było widać zmianę kierunku bardziej na Emotional Intelligence niż na taki Low Power i to było okej. Ja też to kupiłem pod kątem tego, że wiele osób korzysta z GPT jako też zrozmówcy ze wsparcia psychicznego. No i też pojawiały się badania, które mówiły o tym, że ten czat GPT naprawdę jest dobrym pomocnikiem w tematach psychologicznych i wiele osób ocenia je bardziej empatycznie czata GPT niż przeciętnego terapeuta. To są normalnie już pierwsze badania, które by na to wskazywały, więc ten kierunek ma jak najbardziej sens. To nie chodzi o to, że musimy się bić tylko w benchmarkach tego, kto lepiej odpowiada na jakieś złożone pytania dla studentów doktoratu, więc tutaj okej, ale pojawia się zasadniczy problem, kiedy zobaczymy koszty tego modelu po API, bo są one astronomiczne, kosmiczne, żeby nie powiedzieć absurdalne i totalnie wyjęte. Nawet można powiedzieć, że GPT-4 było przy tym modelu tanie, a teraz przecież wielokrotnie się odnosimy, że wszystkie modele są o GPT cztery wielokrotnie tańsze, a tutaj mamy znowu wzrost ceny i cena jest następująca. Za milion tokenów wejściowych płacimy aż 75 dolarów, podczas gdy za milion tokenów wejściowych płacimy aż 150 dolarów. No to jest absurdalnie wysoka cena. Dla porównania CROD 3.7 SONET kosztuje 3 dolary za milion tokenów wejściowych i 15 dolarów za milion tokenów wejściowych. To jest 10-20 razy tani w przypadku CRODA 3.7. Jak sobie porównamy z O1, który też był do tej pory takim najbardziej drogim modelem, ale mogliśmy sobie tu uzasadnić jego dużymi możliwościami. Tam mamy 15 dolarów za wejście i 60 dolarów za wyjście, no to jest 2-4 razy taniej niż w przypadku GPL 4.5, no więc niesamowite tutaj koszta. No i OpenAI wprost pisze, że to wynika z tego, że ten model jest po prostu ogromny i koszta jego działania są przez to wysokie. No i to gdzieś też nas prowadzi do tego, że przypuszczenia dotyczące praw skalowania tych bazowych modeli są właściwe i to już nie idzie tak wykładniczo albo chociażby liniowo w górę, że dokładamy więcej danych, dokładamy więcej treningu i benchmarki rosną. To już wiele osób się tego spodziewało. Modele reasoningowe wydaje mi się, że tylko były potwierdzeniem tak naprawdę, że obchodzimy jakieś ograniczenia. Oczywiście część osób się zastanawiało, że nie i że to po prostu random breakthrough, a to raczej widać, że ta ściana tutaj u nas to jest obejście ściany, którą pewnie firmy już zobaczyły kilka dobrych miesięcy temu i myślę, że ta premiera jest trochę tego dowodem. Bardzo możliwe, że te modele bazowe już są blisko swoich granic, możliwości przynajmniej przy obecnej architekturze. i teraz będziemy wyciskali maxa z tego reasoningu. Ciekawe ile jeszcze wyciśniemy. Pewnie jeszcze trochę wyciśniemy. Może być taki moment znowu przestoju. Albo pojawi się kolejny, jeszcze inny pomysł, albo jakieś znaczące usprawienia w architekturze, które sprawią, że to skalowanie znowu się odblokuje. Kto wie, może doszliśmy do momentu, w którym AI na jakiś czas trochę wyhamuje i będziemy po prostu szukali nowych rozwiązań, nowych podejść. Ja zupełnie szczerze nie miałbym nic przeciwko, bo to co ta obecna generacja modeli oferuje to jest naprawdę solidny poziom, z którym da się już wiele zrobić. Teraz to głównie bym optymalizował szybkość i cenę i ewentualnie jakąś sterowalność, taką stabilność. I z tego już naprawdę można i robić produkty, i można z tym efektywnie programować. Nie wiem, czy te, co realnie teraz potrzebujemy, to jeszcze większe modele, jeszcze lepsze. Nawet taka pauza strategiczna to może być wbrew pozorom dobre dla adopcji tej technologii. No wiele osób jest rozczarowanych, zaskoczonych, zdziwionych. Ogólnie ta premiera GPT 4.5 no to pierwszy raz to nie jest jakiś taki slam dunk OpenAI, gdzie no tam po prostu rozwalili i wszyscy mówią, że jednak to oni wymiatają. Chociaż może czasami się wydawać, że inni, bo zawsze jest tak, że OpenAI wraca z releasem i wszyscy mówią, no dobra jednak oni wymiatają, a tutaj no tak kurcze nie ma takiego wcale wrażenia. Chociaż pewnie inne firmy wcale nie są w lepszej sytuacji, bo te 3.7 Sonety również na to wskazują, że z jakiegoś powodu nie ma trzy i pół opusa, nie ma czwórki żadnej, itd., itd. Więc tutaj chyba po prostu mamy ścianę, mamy ścianę. Co z tego wyniknie, to zobaczymy.

Przemek:

Wcześniej przed nagraniem rozmawialiśmy o jednej konwersacji, w której brał udział Jeremy Howard. To jest taka osoba, którą od jakiegoś czasu śledzę mocniej. To jest osoba, która stoi za wieloma znanymi narzędziami w świecie machine learningu, za kaglem. czyli taką społecznością osób, które zajmują się przetwarzaniem języka naturalnego za Fast API, Fast HTML i tak dalej i tak dalej. No to jest osoba, która w tej branży siedzi już tak naprawdę dekady i ten Jeremy Howard dostał pytanie, czy widzi jakieś scenariusze, które uzasadniałyby dalsze skalowanie takich modeli jak GPT 4.5. No ja mówię, że to jest milion dollar question tak naprawdę, że doszliśmy do takiego poziomu i tak marginalnych gainów, tak jak on to nazywa gainów logarytmicznych, że no dalsze ładowanie pieniędzy i infrastruktury w to, żeby te modele po prostu rosły w takie najbardziej bezpośredni sposób, tak jak te scaling laws wskazują, co najmniej nie ma sensu albo może co najmniej gdzieś tam wymaga głębszego zastanowienia, że nie ma jeszcze tej oczywistej odpowiedzi. Tak naprawdę jakąkolwiek odpowiedzią będzie to, co się wydarzy na bazie GPT 4.5, no bo też jak wskazują opracowania, ten etap pre-trainingu jest najbardziej kosztownym, najbardziej intensywnym i dopiero na podstawie tych modeli tworzą się kolejne rozwiązania, więc jeśli na przykład okaże się, że z GPT 4.5 powstał jakiś ryzoner nowej generacji, gdzieś tam na przykład ten reinforcement learning został dołożony i tak dalej, to spoko. Natomiast wczoraj, tak jak ty powiedziałaś, wszyscy się spodziewali tego slam dunka, tego, że na rynek wychodzi model trenowany w ogromnej skali, w skali, do której nie ma co porównywać poprzedników. No i widzimy, że on tak wcale dobrze nie programuje, że on nie jest taki dobry może w tej matematyce, że on jest niezły w takim ogólnym rozmowaniu, jest pewnie najlepszy w tym, co chat GPT oferuje, no ale problemów z jego wdrożeniem jest tak dużo, że właśnie OpenAF wspomina, że oni nie wiedzą, czy naprawdę będzie long-term dostępny na poziomie API, dodają go jedynie w planie PRO, wspominają o tym, sam Altman o tym wspomina na EXE, że tak naprawdę skończyły im się karty, które mogłyby ten model gdzieś tam hostować, gdzie ta inferencja mogłaby być wykorzystywana. Sporo znaków zapytania, byliśmy tacy troszkę confused po tym wczorajszym callu, ale myślę, że to jest chyba właściwe podejście do tego typu announcementów. Nie ma co tak hura optymistycznie podchodzić do każdej premiery. Jest sporo znaków zapytania, sporo etapów tego treningu i tego jaka jest roadmap jest po prostu niewiadomy mi dla nas, takich komentatorów jakby z boku. No ale tak jak Marcin powiedział, doszliśmy do jakiejś namacalnej ściany. Pytanie teraz, co zrobimy, żeby tą ścianę gdzieś tam obejść, Wcześniej wspominaliśmy, że zaczynają się pojawiać te nisze, te największe firmy zaczynają się kierować w konkretnych kierunkach, tak jak właśnie nauki ścisłe, programowanie i tak dalej i tak dalej. Pytanie czy to nie jest jednak przyszłość, tutaj też o tym pisałem w tym tygodniu na LinkedIn, to Zuckerberg był chyba pierwszym, którego ja przynajmniej śledzę, który wprost powiedział, On nie widzi takiego jednego uniwersalnego systemu np. shipowanego przez OpenAI. On widzi, że każda firma od pewnego momentu będzie mieć po prostu swoją niszę, swoich asystentów i to ty jako użytkownik będziesz sobie dobierał te modele, czy to do programowania, czy to do jakichś konsultacji zdrowotnych, czy do tego journalingu, o którym w trakcie live’a dyskutowaliśmy. I dla mnie np. Cloud jest takim sygnałem, że te nisze mogą się pojawiać i tutaj GPT 4.5 jest też sygnałem tego, że po prostu te uniwersalne modele zaczynają zostawać w tyle względem tych specjalistów. Ten GPT 4.5 po prostu nie dorównuje temu w niektórych obszarach, w obszarach nauk ścisłych, co mieliśmy wcześniej. na rynku, więc dość zaskakujący release. Nie ma co chyba grać teraz jakiegoś takiego, kurczę, fana z obozu X czy Y i mówić, że to wszystko miało sens albo to nie miało sensu. No nie był to ten, nie był to ten slam dunk, nie, o którym ty powiedziałeś i to jest co najmniej zastanawiające. Na pewno warto to śledzić.

Marcin:

Na poziomie, no takim biznesowym API, no to przy takich cenach, to świetlanej przyszłości dla tego modelu nie widzę, czy mi się to zepnie na poziomie chata GPT. Kurcze, no fajnie by było, no bo żeby ten model był bardziej empatyczny i się fajnie z nim rozmawiało, zwłaszcza jeszcze w połączeniu z jakimś voice mode’em, no to naprawdę brzmi zachęcająco. No, ale jeżeli nawet w tej takim bazowej wersji tekstowej to już są takie koszta, to o voice mode’ie to nawet nie chciałbym myśleć, bo to pewnie byłaby jakaś abstrakcja. Zobaczymy. Tym niemniej wydaje mi się, że w Antropiku mają w tym tygodniu więcej powodów do świętowania. Lili jest dużo bardziej udany i ciepło przyjęty, mimo też jakiejś tam czkawki. No to mimo wszystko sentyment wydaje mi się, że jest zupełnie inny, bo w przypadku Antropika to ludzie najwyżej piszą, że najbardziej teorię masz poprzednią, a nie ten nowy. Więc to też jest taki problem fanów. Tak, tak. Poprzednia generacja MacBooków te kupuje od 20 lat są lepsze po prostu od tego co zrobiliście teraz. No więc to jest lepsza chyba sytuacja niż ta w której jest OpenAI tak czysto PR-owo. Nie powiedzieliśmy szerzej o samym Deep Researchu, bo to też czas leci. Ja sobie zobaczyłem jeszcze w trakcie naszej rozmowy datę i Deep Research w ogóle w OpenAI wyszedł 2 lutego, więc to też tak naprawdę jest premiera jeszcze z tego miesiąca, my to już wzięliśmy za coś, co funkcjonuje jakby i jest dostępne, a to też jest tak naprawdę nowość, więc może w ramach takiego dużego skrótu to jest nowa funkcja praktycznie teraz już w każdym chatbocie dostępna, która polega na przeszukiwaniu sieci przez agentów, którzy tworzą dla nas raporty, no i to ma gdzieś tam być taką Google 2.0, gdzie po prostu wysyłamy to AI, ono zbiera dla nas dane i tworzy raport, ma po prostu zastąpić to, jak ludzie samodzielnie taki research google’owy wykonują. Pierwszym pomysłodawcą było Gemini, oni już w grudniu wypuścili taką funkcję całkiem niezłą, chociaż dość high levelową i też te raporty nie są jakieś szczególnie długie, mają tak do pięciu stron. No i następnie OpenAI wyszło z dokładnie takim samym produktem, z taką samą nazwą. No ale tutaj dostępność na początku wyłącznie dla planów free i taki wyróżnik, że te raporty mają większą objętość, więcej też szczegółów. Tak jak Przemek wczoraj podczas live wspominał, na początku to jest bardzo imponujące, ale to też nie jest tak, że te raporty są gotowe, żeby je spółki wziąć i gdzieś tam iść z nimi na konferencje, czy też rzucać na bloga. To jak zwykle w przypadku AI wymaga obróbki, wymaga sprawdzenia, chociaż no i tak Naprawdę świetna praca jest wykonywana przez OpenAI i ileś tam godzin niewątpliwie przy właściwym problemie możemy zastąpić. Ważne jest też przygotowanie właściwego prompta do tego typu systemów. Fajnym tutaj modelem jest Oczy Mini High, który takiego prompta może dla nas przygotować. Warto dopiero z nim pogadać, a dopiero potem gadać z Deep Researchem. Co ważne, ta funkcja trafia już do planów Plus i Team. Tam będziemy mieli 10 Deep Researchów na miesiąc. Na tym planie Pro za 200 dolców jest zapytań chyba 120, więc znacznie więcej. Ale 10 zapytań to i tak jest nieźle. Myślę, że dla wielu użytkowników taka ilość rozbudowanych raportów wystarczy, więc warto temat zbadać. Mamy również taką funkcję Deep Research Perplexity, ale póki co jest tragiczna moim zdaniem, bo testuję na bieżąco i nie dostałem jeszcze jednego raportu, który byłby jakkolwiek imponujący. I też jest ten Deep Search w Groku, o którym wspominał Przemek, który pewnie działa tak jak Perpexity chciałoby działać, ale nie działa póki co. Chcesz tu Przemku coś dodać?

Przemek:

Tak, ja bym tutaj jeszcze wspomniał o jednym zagrożeniu, które też się pojawia w przypadku tych wszystkich funkcji, to znaczy nadal mamy dużą podatność na jakość źródeł. i to nie jest tak, że te modele w krytyczny sposób oceniają prawdziwość albo nieprawdziwość poszczególnych stron, z którymi one się zapoznają. Ja wczoraj przed premierą GPT-4.5 wrzuciłem sobie do grokowego deepsearcha zapytanie sprawdzające czy po prostu jestem w stanie gdzieś wyciągnąć jakieś liki a propos tego modelu i on mi dał bardzo przekonujący raport ze strony, która jest po prostu tworzona przez jakiegoś spambota jakiejś strony tworzonej pod SEO, która się dobrze wypozycjonowała i tam był artykuł o tym, co wnosi GPT 4.5. Oczywiście nic tam nie było prawdą, ale ja to dostałem jako odpowiedź z deepsearcha. No i też zauważyłem, że w groku czasami zdarza się gdzieś tam taka reinterpretacja tych naszych zapytań, to znaczy my pytamy o X, a dostajemy odpowiedź na Y. I teraz znowu, w zależności od tego, jak świadomymi użytkownikami jesteśmy, no to albo to jakoś zaadresujemy, albo będziemy mogli z tym pracować, albo na ślepo uwierzymy temu, co taka funkcja wnosi, Tutaj to ryzyko jest o tyle większe, że no właśnie cały ten message marketingowy wokół Deep Researcha jest taki, że no teraz będzie raport lepszej jakości, raport głębszy, raport sprawdzony, ale tutaj już do końca tak nie jest. Trzeba z tymi raportami posiedzieć i naprawdę zachęcałbym do tego, żeby weryfikować te źródła. Tak jak wcześniej to było problemem w internecie, tak w przypadku tej dodatkowej warstwy jaką jest AI to myślę, że jest poczwórnie gdzieś tam ważne i to po prostu i po prostu widać jakieś takie przyciąganie tych agentów w kierunku stron, na które ty jako człowiek byś po prostu nie zajrzał. Ci agenci naprawdę ślepo wierzą w to, co na tych stronach jest i budują ci bardzo przekonujący raport, więc to chciałem tutaj dodać.

Marcin:

Dokładnie tak. Myślę, że możemy domykać. Jeszcze kilka takich informacji szybkich na koniec odcinka. Mieliśmy też mocne wystąpienia wiceprezydenta Stanów Zjednoczonych J.D. Pence’a w Europie, pierw w Paryżu, potem w Monachium. No i tutaj był jasny sygnał, że administracja Trumpa nieprzychylnie patrzy na AI Act i na wysokie regulacje właśnie amerykańskich firm w Unii Europejskiej. Było pogrożone palcem, było powiedziane, że wejście się do roboty, przestańcie regulować, budujcie. A jak nie, to będą cła i ogólnie z ruskami też sobie radzcie sami, jak chcecie tutaj nam szkodzić i naszym interesom technologiczno-ekonomicznym. No więc też ciekawe, jak to wpłynie na implementację jej aktu, czy to będą jakieś po prostu zmiany, czy będzie przymykanie oka, czy mimo wszystko Europa pójdzie w zaparte. Wydaje mi się, że tam trochę było raczej strachu, popłoch i takie poczucie jak tu teraz tego wuja sama ugłaskać i żeby wszystko było dobrze, bo Europa to w takim ogólnie moodzie gdzieś tam funkcjonuje od dawna, więc to na pewno było ciekawe. Przemku jeszcze jakie mieliśmy takie wydarzenia godne uwagi?

Przemek:

Mamy niestety kolejny strzał w kierunku Syrii, tym razem ze strony Amazona. Amazon zaprezentował nową wersję Aleksy, napędzaną modelami językowymi, Alexa Plus to się ma nazywać. tym czym miała być Siri kilka miesięcy temu. Niestety w przypadku Amazona, niestety dla Apple w przypadku Amazona wygląda na to, że to działa. Tam mamy Antropica, a nie chata GPT, ani OpenAI jako prowadera. No i naprawdę bardzo pozytywne wrażenie po tych pierwszych announcementach. OpenAI Deep Research dostępne w Planach Plus, o tym już wspominaliśmy. DeepSeek bardzo mocno kontrybuuje tutaj w środowisku naukowym. Oni sobie ostatnio przeprowadzili taki Open Source Week, publikując kolejne, czy to biblioteki i narzędzia w formie Open Source. Dużo zaskakujących informacji jeśli chodzi o transparencję tego jak wygląda proces trenowania modeli. Pojawiają się takie głosy, że DeepSix staje się tym czym OpenAI miało być kilka lat temu. To jest taki dość zaskakujący kierunek. Gemini 2.0 SORA od dzisiaj, konkretnie od piątku 28 lutego dostępna w Unii Europejskiej. Można sobie klipy wideo generować. No i też ostatni gdzieś tam hit w takich bardziej geekowych, researchowych obszarach machine learningu, dyfuzyjne modele językowe. W naszym newsletterze na Substacku daliśmy link do takiego chatbota, który zaczyna generować kod w taki sposób, jak Midjourney generuje obrazy, czyli takie all at once. Bardzo ciekawy experience można sprawdzić. Korzyścią tego typu systemów ma być to, że po prostu dużo szybciej działają, bo nie generują jednego tokena po drugim, tylko wszystkie tokeny gdzieś tam w formie takiego szumu są generowane i jakość tego szumu jest podnoszona. Teraz już mamy możliwość dodawania źródeł, więc zachęcamy na bloga Opanuj.ai Do odcinka tamte materiały się pojawią. No i co, Marcin, powoli do brzegu. Co tutaj moglibyśmy na koniec powiedzieć?

Marcin:

Zapraszamy raz jeszcze do pobrania bezpłatnego poradnika, który dla Was przygotowaliśmy. Personalizacja z AI dla programisty na stronie 10xdevs.pl. 10xdevs, nasz nowy projekt, nasze nowe szkolenie. Przedsprzedaż już w marcu, w momencie publikacji tego odcinka. Najpewniej możecie już przez sprzedaży ten kurs kupić. Startujemy 7 kwietnia i szkolenie potwa do maja. Przed majówką możecie już być kompetentnymi użytkownikami AI w zakresie programowania. Zachęcamy, aby dołączyć. Warto również dołączyć do naszego cotygodniowego newslettera opanuj.ai. Na dole strony opanuj.ai znajdziecie formularz i tam możecie się zapisać i co poniedziałek otrzymywać od nas trzy wyselekcjonowane newsy, materiały właśnie związane z modelami, z uczeniem maszynowym. Jeśli podobał Wam się ten odcinek, mamy taką nadzieję, to będziemy wdzięczni za wystawienie nam piątki na Spotify, na Apple Podcast i na podzielenie się tym podcastem z Waszymi znajomymi poprzez social media. Mamy nadzieję, że nasze treści są dla Was wartościowe. Wkładamy dużo pracy, żeby tak właśnie było. Dziękujemy za śledzenie naszej działalności, za kolejną godzinę razem z nami. Jest Was coraz więcej z miesiąca na miesiąc. Bardzo cieszy. No i mamy nadzieję, że taki trend będzie gdzieś tam z nami przez cały rok. Dużo się dzieje. W tym miesiącu zdecydowanie dużo się działo. Zobaczymy, czy marzec będzie dla nas bardziej łaskawy, ale od dwóch lat, od kiedy prowadzimy ten podcast, no to zawsze jest albo dużo, albo bardzo dużo do przegadania, więc zachęcamy. żeby za miesiąc również tutaj zajrzeć, no bo najpewniej w połowie miesiąca również i tym razem nam się nie uda tego technicznego odcinka nagrać. Będzie webinar, o którym mówiłem o programowaniu z AI, więc 12 marca warto sobie zaerwować czas po południu. Będziemy na live razem jeszcze z Adamem Gospodarczykiem właśnie jako tenexdevs.pl. No i tyle. Dziękujemy, życzymy Udanego tygodnia, weekendu, w zależności kiedy to słuchasz. Wszystkiego dobrego.

Newsletter Opanuj AI

Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji

Zapisując się do newslettera akceptujesz naszą politykę prywatności.

W każdy poniedziałek
Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
Tylko najlepsze materiały
Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.