Podcast Opanuj.AI

Bądź zawsze na bieżąco

2 stycznia 2025

Czy OpenAI o3 to już AGI? Chiński DeepSeek królem open-source | Grudzień 2024

Słuchaj na twojej ulubionej platformie

Dodatkowe materiały

Lista materiałów, do których odnosiliśmy się w odcinku

Transkrypcja odcinka

Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki

Marcin:

Cześć, witajcie w podsumowaniu grudnia ze świata generatywnej sztucznej inteligencji. Jak zwykle przed Wami Marcin Czarkowski i Przemek Smyrdek.

Przemek:

Cześć.

Marcin:

Jak zwykle zaczniemy również od kilku ogłoszeń parafialnych związanych z naszą działalnością pod szyldem Opanuj AI. Możecie umawiać warsztaty na pierwszy kwartał tego roku. Są to warsztaty przeznaczone dla programistów, dla carl menadżerskich oraz dla pracowników back office. Więcej szczegółów znajdziecie na opanuj.ai szkolenia. W dużym skrócie jest to możliwość spotkania się z nami na cały dzień i zdobycia naszej wiedzy, nabycia umiejętności, kompetencji, efektywnego, bezpiecznego wykorzystania generatywnej sztucznej inteligencji w codziennej pracy. Są to kompetencje, które już myślę, nie wzbudzają żadnych wątpliwości, że warto nabywać, że są to kompetencje przyszłości. My w tym temacie głęboko siedzimy od dwóch lat i z chęcią podzielimy się wiedzą. Osobom, które nie mają budżetu, które nie mają czasu na takie całodniowe szkolenie, możemy zaoferować kurs Kursor Programu i z AI, w którym można poznać najlepszy naszym zdaniem edytor AI. Uczy się z nami już ponad 300 uczestników i co ważne, ten kurs to nie tylko ogrom wiedzy o samym kursorze, ale szerzej o programowaniu z AI. Mamy tam pigułkę wiedzy teoretycznej o ELM-ach, mamy dużo informacji o Prompt Engineering’u oraz o budowaniu integracji technicznych przez API z wykorzystaniem Make.com. Tak więc zachęcamy do sprawdzenia naszego kursu kursora na opanuj.ai, łamane na kursor. I na koniec zachęcamy również do zaglądania, zapisania się nasz newsletter Opanuj.ai. Co poniedziałek rano wysyłamy trzy wyselekcjonowane newsy związane z generatywną sztuczną inteligencją, więc jeżeli chcecie być na bieżąco, jeżeli chcecie na bieżąco się rozwijać, No to zachęcamy do zapisania się naszą listę. Jest tam już prawie 1000 osób. Mamy 50% open rate’a. Znacznie powyżej średniej w branży, więc wydaje mi się, że to jest jedna z tych list, na których naprawdę warto być. Jeżeli ten odcinek Wam się spodoba, to udostępniajcie go na swoich social media i oceniajcie na platformach podcastowych na 5 gwiazdek. To pozwoli nam dotrzeć do szerszego grona odbiorców. Z góry dziękujemy za wsparcie naszej pracy. A w tym odcinku mamy dla Was jak zwykle ogrom wartościowych informacji. Zaczniemy od naszych wrażeń z 12 Days of Open AI, czyli ewencie świątecznym, który właśnie prowadziła firma kierowana przez sama Altmana. Na końcu dostaliśmy informację o nadchodzącym, rewolucyjnym modelu O3, który osiągnął niesamowite wyniki w benchmarku Arc AGI. Opowiemy Wam, co to za benchmark, jak działa O3, czego możemy się spodziewać najpewniej jeszcze w tym roku. Potem przejdziemy do chińskiego modelu DeepSeek V3, który stał się nowym królem open source. Zachwycał swoimi możliwościami na poziomie state of the art. Bijąc w niektórych kategoriach, jeżeli chodzi o benchmarki, Cloda 3.5 Sonnet oraz GPT 4.0 przy rekordowo niskim koszcie treningu samego modelu. Ten model wywołał również trochę kontrowersji. O nich również opowiemy. Między tymi dwoma dużymi tematami będzie kilka newsów, kilka rekomendacji, dla których nie znaleźliśmy czasu, żeby zagłębić się w tym odcinku, ale damy Wam o tym znać i będziecie mogli znaleźć szczegóły, linki na stronie tego odcinka na opanuj.ai, link będzie w opisie. I czeka na Was również drugi odcinek, tutaj taki bonus noworoczny z naszej strony. Przygotowaliśmy również podsumowanie całego 2024 roku, w którym znajdziecie podsumowanie postępów, jakie dokonały się w trakcie ostatnich 12 miesięcy w świecie AI, skrót informacji technicznych i biznesowych z tego roku i nasz osobisty ranking w pięciu kategoriach najbardziej istotnych wydarzeń i osiągnięć. Myślę, że to bardzo ciekawy odcinek, który również warto sprawdzić i without further ado przechodzimy do 12 days of OpenAI.

Przemek:

12 Days of OpenAI, czyli można powiedzieć takiej świątecznej mini talenoweli, którą firma OpenAI nam zaserwowała w tym okresie świątecznym. Nie ma co ukrywać, że tak naprawdę OpenAI nie jest już w tym samym miejscu, w którym było jeszcze kilka miesięcy temu. Była to firma uważana za absolutnego lidera świata sztucznej inteligencji, a konkurencja tak naprawdę gdzieś tam obserwowała plecy tej firmy. Konkurencja tak naprawdę podnosi jakość swoich rozwiązań, więc OpenAI też musiało na to odpowiedzieć. No i oczywiście odpowiedziało. W głośny sposób, bo w marketing to oni akurat potrafią, zamiast jednego świątecznego release’u, być może GPT 4.5, być może nowej wersji czata GPT albo jakiegoś innego rozwiązania, dostaliśmy aż 12 dni premier. Tak naprawdę każda z tych premier była nieco inna, nie każda z nich dotyczyła zupełnie nowego produktu, ale było to na tyle głośne wydarzenie, Od 5 grudnia wszyscy, którzy śledzą ten świat sztucznej inteligencji i uczenia maszynowego, tak naprawdę zerkali na stronę OpenAI. O 19 mieliśmy półgodzinne livestreamy i właśnie przez 12 kolejnych dni słuchaliśmy, obserwowaliśmy te wszystkie nowości. My z tych 12 dni wybraliśmy kilka punktów, które są na tyle istotne, że po prostu znalazły się w naszym odcinku. Na stronie OpenAI znajdziecie całą listę. Myślę, że warto sprawdzić, warto się przyjrzeć temu również w jakiś sposób OpenAI. te nowości prezentował, bo tam naprawdę sporo się działo, a my w kolejności pójdziemy przez pięć takich release’ów aż do wydaje się tego najgłośniejszego, który zamknął tak naprawdę cały ten okres Shipmas, pięciu albo sześciu. No zaczęło się można powiedzieć mrugnięciem okiem, Okres świąteczny, więc oczywiście Mikołaj. Wszyscy śledzimy Mikołaja, śledzimy Renifery. Czat GPT w Advanced Voice Mode też dostał nowy głos, możliwość rozmowy ze sztuczną inteligencją, która wciera się w rolę Mikołaja. No i to było, no tak jak już wspomniałem, takie czyste, bezpośrednie mrugnięcie okiem do wszystkich użytkowników. Na zasadzie przygotowaliśmy dla Was bomby, ale dzisiaj po prostu pocieszmy się tym, że są święta, że sypie śnieg, że Wasze dzieci potrzebują porozmawiać z Mikołajem, nie każdy się za tego Mikołaja przebiera. No więc mieliśmy głos Mikołaja, to tak na rozgrzewkę. Od strony bardziej użytecznej, co dostaliśmy w trakcie tych 12 dni, dostaliśmy m.in. też ulepszenie Canvasa. Canvas, czyli ta dedykowana przestrzeń robocza, która jakiś czas temu pojawiła się w czacie GPT, pozwalała nam pracować w bardziej dedykowany, w bardziej precyzyjny, specjalistyczny sposób z tekstem i kodem. Natomiast ona nie była dostępna wszędzie. Mieliśmy dedykowany model GPT-4O with Canvas, ale tego Canvasa, tak jak wspomniałem, właśnie nie mogliśmy włączać m.in. w custom GPTs-ach. Od teraz to się zmienia. Właśnie ten okres Shipmas wprowadza możliwość pracy z Canvasem, czyli w tej dedykowanej przestrzeni roboczej na poziomie custom GPTs-ów. No i również pojawia się wyczekiwana możliwość wykonywania kodu Pythona. Jeśli chcecie uruchamiać bardziej złożone skrypty, może jakąś analizę danych, procesowanie informacji, to ten Canvas również jest właściwym wyjściem, właściwym rozwiązaniem. To tak na start, czyli głos Mikołaja i Canvas, no bo idąc dalej, no to robiło się już naprawdę poważnie. W trakcie Shipmasu mieliśmy potwierdzenie tej plotki, która zaczęła się pojawiać na jesienię a propos nowego planu pricingowego za chata GPT. Pojawiały się plotki o tym, że po prostu 20 dolarów jest zupełnie nieopłacalnym dealem z punktu widzenia OpenAI za wpuszczanie użytkownika do swojego systemu. No więc teraz ten plan został podniesiony 10-krotnie, mamy plan chat GPT Pro. którego miesięczne subskrypcje to jest koszt 200$. No i co my dostajemy za te 200$? Jak to OpenAI nazywa, dostajemy czata GPT bez limitów, przede wszystkim napędzanego stabilną wersją modelu O1. O O1 też mówiliśmy w poprzednich odcinkach, polecamy posłuchać. Jeszcze będziemy do tej tematyki wracać, bo te modele reasoningowe to również był taki motyw przewodni tego całego okresu shipmass. No i dostaliśmy dostęp do tak zwanego O1 Promote, czyli udostępnienia użytkownikom większej mocy obliczeniowej, która sprawi, że użytkownicy będą mogli z czatem GPT rozmawiać o naprawdę trudnych, naprawdę złożonych, zaawansowanych problemach. Dlaczego jest to istotne? Z kilku powodów, zaraz tutaj Marcin Tobie oddam głos. Wydaje mi się, że po pierwsze mamy taki szok powiedzmy publiczności, która widzi subskrypcję 200$ za software. To nie jest coś co spotykamy po prostu w typowych produktach software’a za serwis. Za tymi 200$ musiały się kryć coś poważnego. No i oczywiście były to jakieś również mechanizmy marketingowo-sprzedażowe. Jak Ty w ogóle to odbierasz? Czy po tym jak publiczność odebrała ten release warto te 200 dolarów płacić? Czemu to właściwie może firmie służyć? Czy widzisz też jakieś ryzyko w tym ruchu?

Marcin:

Na chwilę obecną wydaje mi się, że plan jest stosunkowo drogi względem możliwości, które oferuje. Z tego wynikała część kontrowersji, jakiegoś zdziwienia. Ale wydaje mi się, że ten ruch jest i tak stosunkowo przemyślany i rozsądny z punktu widzenia OpenAI. Przede wszystkim mamy też lepsze pozycjonowanie tych tańszych planów dzięki temu, no bo kiedy koło 20 czy tam 10 dolarów jest plan za 200, no to te tańsze się nagle wydają znacznie tańsze i bardzo przystępne. No a jeszcze niedawno musieliśmy walczyć z podejściem, że najlepsza cena to za darmo i że w ogóle płacenie za czata GPT jest czymś dziwnym. Mając do dyspozycji no taki ekskluzywny plan, no to nagle to kotwicowanie, postrzeganie ceny może się zmienić. No i biorąc pod uwagę z jakim produktem mamy do czynienia, produktem, który No jeszcze nie ma takich możliwości, ale w tym kierunku gdzieś tam firma i ogólnie cała branża chce iść, czyli rozwiązań agentowych, rozwiązań, które potencjalnie mogą automatyzować niektóre zadania, zastępować wręcz pracowników. No więc jeżeli mówimy o koszcie 800 zł za zastąpienie jakiegoś pracownika bądź automatyzację dużą część jego dotychczasowych zadań, no to 800 zł z punktu widzenia przedsiębiorcy to jest naprawdę atrakcyjna cena. No to jest ponad dwukrotnie mniej niż najniższe wynagrodzenie w Polsce. No a też mówimy o pracy intelektualnej, która zwykle wiąże się z wyższymi jeszcze wynagrodzeniami. No więc to też wydaje mi się, że jest sposób, żeby wyprowadzić użytkowników z takiej mentalności porównywania kosztu subskrypcji tego typu narzędzia do subskrypcji Netflixa. No bo póki co wiele osób gdzieś tam tak postrzega wszelkiego rodzaju subskrypcje internetowe. No i jeżeli płacę 60 złotych za Netflixa, który powiedzmy jest jakimś elementem mojej codzienności, daje mi dużo wartości na poziomie rozgrywki, relaksu, no to czemu za rozwiązanie, które kojarzy mi się z pracą i z niczym tak naprawdę przyjemnym miałbym płacić więcej? najpewniej będziemy musieli się przyzwyczaić, że będziemy więcej przeznaczali na te subskrypcje, bo będzie wartościowy zwrot z takiej inwestycji. Trzeba po prostu na to patrzeć troszeczkę inaczej i wydaje mi się, że OpenAI z myślą bardziej o przyszłości, o tym modelu O3 na przykład, o którym będziemy rozmawiali, taki plan stworzyło, żeby całe rozwiązanie było rentowne i żeby użytkownicy się przyzwyczajali do ponoszenia wyższych kosztów za modele. Tak więc ruch wydaje mi się, że jest rozsądny, chociaż obecnie najpewniej tych subskrybentów tego planu nie ma zbyt wielu i czern pewnie jest stosunkowo wysoki, no bo tam naprawdę nie ma aż tak dużo Mało kto, wydaje mi się na planie, tym plus jest w stanie wysycić te wszystkie limity i jakoś narzekać na braki. Dobra, tyle jeżeli chodzi o czata GPT Pro. Dostaliśmy również dostęp do SORY, która była długo wyczekiwana, zapowiedziana w lutym poprzedniego już roku, 2024, bo nagrywamy to na początku. Dostaliśmy dostęp do SORY, czyli modelu pozwalającego na generowanie wysokiej jakości wideo. Tutaj zapowiedzi trailery postawiły poprzeczkę oczekiwań bardzo wysoko. No i po części OpenAI udało się to spłacić, chociaż wydaje mi się, że hype był dużo większy niż to co ostatnio się dostaliśmy. Jest to jakościowy model, jest też fajny interfejs do pracy z tym modelem webowy, więc to naprawdę nie można się Przyżepić mamy jakość Full HD i możliwość generowania klipów do 20 sekund długości w różnych proporcjach. Jest się czym bawić, chociaż prawda jest taka, że dość szybko cały ten blask sory przećmiło Google za sprawą swojego modelu VO2, jeżeli dobrze czytam, który w zasadzie pod kątem każdych parametrów jest zauważalnie lepszy. Mamy dłuższą długość klipów do 2 minut, mamy rozdzielczość aż 4K, lepszą fizykę, lepszy realizm ruchu, też dokładniejsze odwzorowanie zachowań ludzi, emocji, ekspresji, ruchów. No więc to VO2 skradło gdzieś tam większość zainteresowania jeżeli chodzi o generowanie wideo pod koniec zeszłego roku. No i nie ma się co dziwić tutaj specjalnie, no bo Google ma dostęp do ogromnej ilości danych wideo za sprawą YouTube’a. Więc sam fakt, że tak późno wyszli z takim rozwiązaniem to jest jedyne co może nas zdziwić. Najpewniej to VO2 powinno być bardziej wyczekiwane przez cały rok niż SORA. Mimo wszystko OpenAI nie ma dostępu do danych wideo. większego niż jakakolwiek inna firma tak naprawdę. Przynajmniej za pomocą legalnych źródeł. Więc tak to wygląda. Jeżeli chodzi o dostępność SORY to mamy do niej wjazd na planach płatnych od plusa w górę. 50 wideo w niskiej jakości i kilka w tym 720p i 1080p. Chociaż, a jeżeli chcemy Full HD i chcemy mieć więcej tego użytku, no to musimy się zdecydować na ten plan Pro za 200 dolców. A VO2 póki co jest dostępne wyłącznie poprzez waitlistę i tam również są dość duże limity narzucone na ten model, co wskazuje, że koszta generowania tych wideo są po prostu bardzo wysokie. Tym niemniej widzimy duży postęp jeżeli chodzi o generowanie wideo i zapewne w 2025 roku również jeden interesujący release w tej kategorii się pojawi. I przed ostatni temat, przed gwiazdą dzisiejszego odcinka, to są projekty w czacie GPT, które wywołały trochę kontrowersji, bo ten produkt, ten feature nie jest do końca oczywisty, patrząc na to, że w czacie GPT mieliśmy już dostępne custom GPTs. Projekty to są takie foldery na poziomie czata GPT, gdzie możemy wgrywać pliki, gdzie możemy ustawiać instrukcje, tak aby stworzyć sobie workspace do pracy nad powiązanymi zadaniami, np. generowaniem jakichś podsumowań, generowaniem określonych typów zapytań. No i to na swój sposób przypomina custom GPTs, które już w czasie GPT są dostępne od dawna. No i wiele osób się zastanawiało realnie, po co nam te projekty, czy to jest jakiś copy-paste z kloda, w którym nie mamy custom GPTs, ani ich odpowiednika. Za to są właśnie projekty. No a o co chodzi tak naprawdę? No projekty to jest coś prostszego, przeznaczone do indywidualnej pracy. Tworzymy sobie szybko, realizujemy zadania. Mamy dostęp do wszystkich modeli, które są dostępne w czacie GPT. Możemy korzystać z funkcji czata GPT, jak generowanie obrazów, przeglądanie internetu, ale nie możemy tego udostępniać, nie mamy możliwości podpinania się pod API, pod narzędzia, co jest właśnie cechą charakterystyczną custom GPTs, które z klucza mają być czymś bardziej zaawansowanym, rozbudowanym, stworzonym właśnie z myślą raczej o szerowaniu, urozstępnianiu, czy to do użytku firmowego, czy to do użytku publicznego za pomocą marketplace’u. Więc to jest taki low effort, chcę po prostu szybko na czymś podziałać, powiedzmy przez tydzień, dwa. Nie robię tutaj z tego produktu, nie myślę o szerokim gronie użytkowników, myślę przede wszystkim o sobie, no i w związku z tym mam określone możliwości, ale też mam określone ograniczenia, bo w Custom GPTs na przykład możemy korzystać tylko z GPT-4 Turbo, nie mamy wjazdu do O1 i tak dalej, i tak dalej. Tak więc myślę, że projekty wnoszą wartość, ja już z nich osobiście korzystam i jest to moim zdaniem bardzo wygodne, zresztą w Klodzie również fanem projektów jestem. No i dobra, tyle jeżeli chodzi o te ciekawsze relisy. No ale teraz najciekawszy, czyli model O3, który póki co zobaczyliśmy tylko w wideo, ale to wideo robi niesamowite wrażenie. Przemek, opowiedz o co chodzi.

Przemek:

Żeby zrozumieć o co chodzi, to ja najpierw zaproszę wszystkich do obejrzenia naszej ostatniej prezentacji, która jest już na YouTubie, między innymi z InfoShare’a czy z konferencji w Bielsku Białej, bo tam kolega Marcin Czarkowski ma taki fragment, gdzie mówi o ograniczeniach obecnej generacji systemów sztucznej inteligencji. Ty, Marcin, mówisz o tym, że właśnie zaczyna brakować danych, koszty idą w górę. Tak naprawdę te systemy mają problemy z tym, żeby wychodzić poza dataset, więc działają na takiej podstawie, jakiej jakości dane im po prostu dostarczymy. I tak dalej, i tak dalej. I to wszystko jest prawdą, ale w momencie kiedy OpenAI opublikowało pierwszą eksperymentalną wersję systemu O1, no to cała ta historia zaczęła być troszkę bardziej skomplikowana. Od czasów O1, czyli tak naprawdę od kilku miesięcy, mamy dostęp do nowej generacji modeli, które w trakcie działania już po naszym zapytaniu wykonują dodatkowe kroki, takie kroki zaawansowanego rozumowania. Jedna z osób, o której będziemy jeszcze mówić, porównała to troszkę do takiej sytuacji, gdzie ta poprzednia generacja modeli zawierała pewien zestaw programów wcześniej przygotowanych. Te programy to były właśnie oczywiście dane treningowe i te programy służyły do tego, żeby odpowiadać na nasze pytania, ale system czy też model sztucznej inteligencji nie był w stanie tworzyć nowych programów, czyli właśnie miał jakiś dataset i tylko na jego podstawie mógł działać. Od momentu kiedy została nam udostępniona O1, no to mamy dostęp do modelu, czy też jak to już wiele osób zauważa, systemu, który generuje te programy w locie, czyli mamy nie tylko dane treningowe, ale mamy również dodatkowe kroki, chain of fault, jakieś łańcuchy rozumowania, które można powiedzieć w cudzysłowie oczywiście są takimi dodatkowymi programami, które ten system sztucznej inteligencji pisze, żeby poradzić sobie z jakimś problemem. No i właśnie, od jakiegoś czasu wiedzieliśmy, że OpenAI pracuje nad taką nową rodziną modeli, opowiadaliśmy o O1, robiliśmy też dedykowany livestream, który okazał się dość głośny i dość popularny, bo kilka godzin albo kilka nawet minut po ogłoszeniu tego modelu O1 na przeprogramowanych już mieliśmy rozmowy na ten temat. Ale właśnie na podsumowanie Shipmasa poznaliśmy nową iterację tego rodzaju systemów, O3. Dlaczego nie O2? A to dlatego, że mamy takiego dostawcę usług telekomunikacyjnych, pewnie O2 znacie. No więc O3. I co tak naprawdę o tym O3 wiemy? No to jest tak naprawdę pewnego rodzaju zagwozdka, bo przygotowując odcinek czy też segment odcinka na temat O3 za dużo nie możemy powiedzieć czym ten model jest i czym on się cechuje jeśli chodzi o taką pracę na naszym ekranie. Wiemy o benchmarkach i mamy 30-minutową zapowiedź na kanale OpenAI. Więc wiemy o tym, że mamy system, który właśnie wykonuje te łańcuchy rozumowania i zdecydowanie lepiej radzi sobie z najtrudniejszymi benchmarkami, które do tej pory były dostępne na rynku. W trakcie tej premiery pojawiły się takie dwa. Po pierwsze FrontierMath, czyli zestaw problemów matematycznych, które są bardzo trudne i które wymagają wiedzy można powiedzieć na poziomie doktoratu z matematyki lub wyżej. No i właśnie głośny benchmark ARK AGI. Oczywiście ten fragment AGI wskazuje, że być może OpenAI stworzyło już ogólną sztuczną inteligencję, która sprawi, że to bezrobocie w 2025 roku będzie na nas czekać. No, czy tak jest? Niestety musimy jeszcze poczekać. Forma release’u jest dość nietypowa. OpenAI do 10 stycznia zbiera zapisy tak naprawdę na taką grupę testerów, którzy będą pracować z tym modelem, na taki early access ludzi, którzy uzyskają dostęp do tego modelu. I dopiero po tym etapie testów będziemy mogli prawdopodobnie eksperymentować z O3. O3 w dwóch wariantach, bo o tym jeszcze nie powiedziałem, czyli zwykłą wersją O3 oraz O3 mini, bo takie dwie wersje modelu zostały zapowiedziane. No ale skoro nie mamy dostępu do samego modelu, to skąd właściwie ten szum, skąd całe to zamieszanie. Okazało się, że O3 radzi sobie całkiem dobrze z jednym, można powiedzieć, z bardziej wymagających benchmarków, które miały weryfikować możliwości tych najbardziej zaawansowanych modeli, czyli właśnie benchmarkiem ARC. AGI. Czym ten benchmark jest? Możemy sobie wyobrazić pewnego rodzaju zestaw ilustracji, zestaw takich siatek z kolorowymi bloczkami, które są w jakiś sposób ułożone. Jest jakaś relacja pomiędzy takim bloczkiem wejściowym i bloczkiem wyjściowym. My jako ludzie, kiedy patrzymy na te zadania, no to musimy sobie zaobserwować jakieś prawidłowości pomiędzy takimi siatkami tych bloczków, no i narysować taki bloczek, taki grid, taką siatkę, wyjściową. Te siatki mogą mieć dowolną wysokość i szerokość od 1 do 1 do 30 do 30 i każdy z tych bloczków na takim gridzie może mieć jeden z dziesięciu kolorów. Czyli podsumowując zauważamy jakieś prawidłowości w ilustracjach wejściowych i musimy na wyjściu napisać jaka jest relacja właśnie pomiędzy tymi pomiędzy tymi danymi. No i właśnie ten Arc AGI był jednym z benchmarków, który został przedstawiony na dowód tych możliwości modelu O3. No bo on tak naprawdę łączy w sobie kilka takich aspektów modeli, które bardzo często są, które do tej pory były jakby poza zasięgiem tych technologii, z którymi pracowaliśmy, czyli między innymi właśnie posługiwanie się jakimiś obiektami, realizacja celu, zliczanie elementów, geometria, topologia i to wszystko tak naprawdę połączone w jeden problem. Troszkę przypomina to Marcin te zadania tekstowe, kiedy bierzemy jakąś piłeczkę do filiżanki, przykrywamy tę filiżankę, idziemy do innego pokoju i tak dalej i tak dalej, na pewno kojarzysz te zadania. Teraz mamy ARK AGI, gdzie podobne operacje można powiedzieć, że model musi robić, ale właśnie na tej siatce gridów. Mamy głośne wyniki, bo okazuje się, że w takim limicie mocy obliczeniowej do 10 tysięcy dolarów O3 poradziła sobie z 75% zadań w tym benchmarku ARK AGI. A kiedy tak naprawdę wykręcono wszystkie bariery ochronne, wszystkie powiedzmy limity, no to okazało się, że aż 87,5% zadań zostało przez O3 rozwiązane. I tak naprawdę jak to interpretować Marcin? Czy dla Ciebie jest to coś niepokojącego, czy jednak jak się przyjrzysz temu tematowi, to okazuje się, że jest to może troszkę bardziej złożone i nieoczywiste? Ja raczej skłaniam się ku tej drugiej opcji, może pytanie jak Ty to widzisz?

Marcin:

Może zacznijmy jeszcze od tego, jaki był dotychczasowy pułap realizacji tego ARCHEA, żebyśmy wiedzieli, jaki to jest duży postęp. GPT-3 w 2020 roku 0% tutaj realizacji tego benchmarku. GPT-4O w zeszłym roku 5% no i topowy model z tej powiedzmy starej klasy LLM, czyli CLOT 3,5 SONNET miał 14% wyniku. A zresztą o jedynka, o której wspominaliśmy, o jedynka PREVIEW, czyli ten pierwszy model z systemem rozumowania miał zaledwie 18%, czyli niewiele więcej niż CLOT 3,5 SONNET. A tutaj mamy wynik 75% 87 przy tych maksymalnych możliwościach, jeżeli chodzi o wykorzystaną moc obliczeniową. To jest ogromny przeskok w zaledwie kilka miesięcy. Czy to znaczy, że mamy do czynienia z generalną sztuczną inteligencją? Czy są jakieś ogromne powody do obaw? Również mam tutaj wątpliwości. Również nie jestem do tego przekonany. Ja szczerze mówiąc coraz bardziej tracę zaufanie do tych benchmarków jako takich. Wydaje mi się, że chociaż tutaj podejście do tego benchmarku, jeżeli czytamy post twórcy ARK AGI opisujący właśnie cały proces badania o trójkę, no to widać, że tutaj jakby dużo jest myśli i świadomości w tym, jak ten benchmark tworzyć, jak nim zarządzać i czemu on ma służyć, ale wciąż no firmy mają duży incentive, żeby ogrywać te benchmarki, żeby robić właśnie szum marketingowy, jak to też się wydało w tym, jak to wyszło w tym wypadku. Część tych danych, część tych benchmarków jest publicznie dostępna. Twórcy trenują swoje modele na tych benchmarkach, co zresztą też już widać, jeżeli chodzi o te benchmarki częściej stosowane do oceniania LLM-ów powiedzmy z tej starszej klasy. bezrozumowania, no to tam już mamy wszędzie prawie wyniki po dziesiątkilka procent i kolejne wersje to są postępy o 1-2 procenty, no czyli tak naprawdę żadna zauważalna zmiana, mimo że widzimy różnice w tych modelach, w tym vibe checku różnice są zauważalne, a na benchmarkach to nie do końca jest widoczne, wygląda jakby wszyscy byli na podobnym poziomie, kiedy w rzeczywistości, no Cloth 3.5 Sonnet jest zauważalnie moim zdaniem lepszy od konkurencji w takim codziennym użyciu. Ile w tym jest jakiegoś też może placebo? Nie wiem, no ale dość dużo ludzi mówi, że jednak no widzi tą różnicę w praktyce. Mimo, że na poziomie benchmarków ta różnica powinna być naprawdę znikoma nie do zauważenia. No więc to jakby na pewno Wskazuje, że opieranie oceny możliwości modelu o wyniki procentowe w benchmarkach to nie jest zawsze najlepszy sposób, żeby faktycznie ocenić co ten model ma do dyspozycji. Realnie też nie wiemy po pierwsze ile czasu ten benchmark był realizowany przez O3. Nie wiemy też do końca jakie były koszta. Wiemy, że się zmieścili w tym tak bardzo wysokim limite 10 tysięcy dolarów. To jest ogromna kwota jak na realizowanie zadań z benchmarku. Póki co wiemy, że jest postęp w tych systemach rozumujących, że faktycznie tutaj to prawo skalowania znowu otwiera nowe możliwości, bo najpewniej po prostu ulepszyli trochę architekturę, ale też najpewniej dołożyli po prostu ogromne ilości danych, chain of fauta, już pewnie też w oparciu o to czego się nauczyli na podstawie feedbacku do O1. No i tutaj znowu widzimy, że pewnie przez jakiś czas w oparciu o to będzie można progresować w dość dużym tempie, co zresztą miało miejsce podczas premiery GPT-4 i kolejnych iteracji modeli z tej klasy. Więc tutaj prawa skalowania znowu zaczynają obowiązywać, a był z tym problem w przypadku już dotychczasowych modeli, które gdzieś tam złapały sufit. Więc to na pewno jest sygnał, że nie będzie stagnacji, że jest jeszcze dużo przestrzeni na postęp, ale no zdecydowanie czekam na release tego modelu. No i też twórca Arc AGI zapowiedział, że odpracuje już nad kolejną wersją tego benchmarku Arc AGI 2, gdzie jego zdaniem o 3 osiągnie wydajność na poziomie poniżej 30%. Cały czas do tej ludzkiej, ogólnej inteligencji będzie daleko, jeżeli ten benchmark traktujemy jako wyznacznik atakowych możliwości. Chociaż pewnie pewnie to wcale nie jest takie proste, zresztą właśnie w tym artykule padło bardzo ciekawe zdanie, to mi się bardzo gdzieś tam spodobało, że najlepszym sygnałem o tym, że faktycznie mamy do czynienia z AGI będzie to, że nie będziemy już w stanie tworzyć zadań, które będą stosunkowo łatwe dla zwykłych ludzi, a trudne dla sztucznej inteligencji. Jeżeli na przykład spojrzymy na zadania, z którymi nie poradziła sobie o trójka w tym RKGI, to naprawdę są proste zadania dla człowieka. Myślę, że osoba o przeciętnym IQ byłaby w stanie w dosłownie kilka minut sobie z nimi poradzić, a model, który przepalił na jakiejś absurdalnej ilości mocy obliczeniowej sobie z tym nie poradził. Cały czas też widzimy, że jego możliwości intelektualne są bardzo nierówne i mimo, że mamy to rozumowanie, mamy możliwość lepszego dopasowania do nowych problemów, to cały czas ciężko tutaj mówić o takiej płynnej inteligencji i pełnej możliwości dostosowania się do nowych sytuacji. Cały czas gdzieś tam jest w jakimś stopniu problem.

Przemek:

Benchmark jest właśnie o tyle fajny, że można samemu spróbować rozwiązać jego poszczególne części, poszczególne elementy. Kiedy wejdziecie na stronę ArcAGI, to tam znajdziecie taką, można powiedzieć, grę 2D, która właśnie udostępnia wam interfejs do pracy z tymi gridami i z tymi klockami. No i wcielacie się właśnie w rolę takiego systemu, który dostaje jakieś dane wejściowe. i tak naprawdę musi zaprojektować tę ilustrację wyjściową i tam poszczególne kroki, które też EA realizuje są po waszej stronie, czyli właśnie musicie określić liczbę gridów, liczbę tych klocków w tym gridzie wyjściowym, musicie wybrać odpowiednie kolory i musicie tę ilustrację przygotować. Natomiast tak jak Marcin powiedział, kiedy sprawdzicie to, z czym o trójka sobie nie radziła, to myślę, że wielu z was może spać spokojniej niż kiedy czytacie, że ARK AGI zostaje rozwiązane praktycznie w 90%, Jeszcze jedna ważna rzecz warta podkreślenia, kiedy właśnie twórca tego benchmarku wspominał jaka wersja o3 uzyskała takie a nie inne wyniki, to on tam wspomniał o tym, że to jest wersja fine-tunowana specjalnie pod ten benchmark i on tak naprawdę nie wie jak radzi sobie surowa o3, bo nawet jemu OpenAI tych informacji nie udziela. No i tutaj to jest przecinek można powiedzieć, a jaka jest jeszcze inna obserwacja z tym związana? My wiemy, że w środowisku open source, w środowisku specjalistów uczenia maszynowego, Były próby poradzenia sobie z tym benchmarkiem, z wykorzystaniem już istniejących modeli, na przykład niejaki Jeremy Barman na Substacku opublikował bardzo ciekawy artykuł, gdzie pokazuje jak Cloud 3.5 Sonneta dostosowuje do uzyskania prawie 60% w tym benchmarku. No więc widzicie, że to nie jest coś takiego, co nam spadło z nieba, nie wiemy co to jest ta o3, nie wiemy jak to działa. i tylko jedna firma ma możliwość uzyskiwania takich wyników. Jest po prostu firma, która nie publikuje swojego modus operandi, można powiedzieć, swojego sposobu działania i jest cała masa hakerów, która próbuje te same wyniki odtworzyć i jest niebezpiecznie blisko. Więc ja w 100% się zgadzam z tym, co ty powiedziałaś a propos benchmarków. To nawet nie jest kwestia tego, jak benchmark przekłada się na rzeczywistość. My nawet często nie wiemy, jaki model, w jakiej formie, w jakim wariancie został przygotowany do realizacji tego benchmarku, a tak naprawdę skoro tego nie wiemy, A jeśli sobie przypomnimy materiały marketingowe, to OpenAI nie chwali się tym, że to jest wersja fine-tunowana, no to ciężko wyciągać dalsze wnioski mówiące o tym, że tak naprawdę ta rewolucja już tutaj jest itd. Oczywiście było sporo screenów pokazujących ten wykładniczy wzrost, tę ścianę, która polega na tym, że tak naprawdę ścianą to jest jedynie seria wyników. Poczekał. Poczekał na możliwości tej o-trójki itd. Na forach OpenA też pojawiają się takie komentarze, gdzie np. dostaniemy możliwość zadania jednego pytania na miesiąc takiemu modelowi, bo tak naprawdę nie wiemy ile to kosztuje, nie wiemy jak to jest zaawansowane. Więc hold your horses. Wyniki są na pewno lepsze. Ale czym jest ta U3, jak ona działa, gdzie jest tutaj ten gain? Mamy naprawdę masy niewiadomych, a kiedy powiedzmy wgryziecie się bardziej w ten świat open source’owego, machine learningu, to naprawdę podobne rzeczy już gdzieś tam robiono. Nie mówię, że mamy takie same wyniki, ale mamy wyniki bliskie. Jakby ten claim, że mamy na przykład przeskok z 9% na 80% to jest po prostu bzdurą, bo mamy przeskok powiedzmy z 60% na 80% i o takim gainie musimy mówić. I dokładnie tak jeszcze raz podkreślę, tak jak Ty powiedziałaś, nie wiemy ile to kosztowało. OpenAI nie udostępnia tych informacji, musimy czekać. Natomiast jeśli jesteście zainteresowani testowaniem O3, to możecie spróbować dostać się na taką waitlistę. Na stronie OpenAI mamy formularz zapisów do takiej ekipy, która tę O3 będzie testować. Do 10 stycznia możecie się zapisać. No i może to akurat Wy uzyskacie dostęp, wtedy koniecznie dajcie znać. Możemy zrobić live’a na przeprogramowanych. Będzie to być może pierwszy stream w Polsce z O3. No więc głośny release na sam koniec, nie uzyskaliśmy GPT 4.5, GPT 4.0 nadal jest tym frontier modelem jeśli chodzi o ten klasyczny sposób działania modeli od OpenAI. No ale wiemy, że jakieś kolejne releasy przed nami. Zobaczymy czy ta FOSA czy ten mode, który O3 tutaj przygotowuje jest na tyle istotne, że jakby konkurencja pozostanie w tyle. No ale coś mi mówi, że tak nie będzie, coś mi mówi, że jednak zobaczymy podobne rozwiązania i to dość szybko.

Marcin:

Dokładnie tak, ja również nie mam większych wątpliwości, że w 2025 roku, najpewniej w przeciągu najbliższych dwóch kwartałów, każdy z tych dużych dostawców będzie miał swój odpowiednik o jedynki. Pierwsza była firma Dipsico, o której zresztą dzisiaj będziemy opowiadali. Na pewno Antropic Google również przygotuje swoje alternatywy. Jak się mówi, te innowacje w świecie AI bardzo szybko się rozchodzą. Nawet coś, co faktycznie jest czymś nowym i popycha branżę do przodu przez bardzo krótki okres czasu jest jakąś przewagą konkurencyjną. Nie dość, że zwykle innowacje są stosunkowo proste, tylko trzeba wpaść na odpowiedni pomysł i zainwestować odpowiednią ilość pieniędzy, żeby wcielić go w życie. Mimo tego, że nie jest oczywiste czy to się uda, ale jeżeli już się uda i mamy sygnał, że dane podejście działa, no to wystarczy te przysłowiowe 100 milionów na coś rzucić i po prostu działa.

Przemek:

Przynajmniej na to wskazuje przeszłość i miesiące, które są za nami. Nie mamy żadnego takiego punktu na osi czasu, o którym mówiliśmy, gdzie tylko jedna firma robi określony rodzaj rozwiązania.

Marcin:

Tak i wszyscy po prostu przez ileś lat, jak w przypadku broni nuklearnej, w ogóle próbuje powtórzyć ten wyczyn i naprawdę nielicznym się wydaje. W przypadku AI póki co nie mamy z czymś takim do czynienia. Dobra, no więc tyle jeżeli chodzi o O3. Być może w podsumowaniu stycznia będziemy już mieli informacje z jakichś praktycznych testów. Są pogłoski, że być może O3 mini, czyli ta wersja taka do bardziej zastosowań komercyjnych, która jest szybsza, tańsza, będzie już dostępna. Ale czy tak się stanie, zobaczymy. Niewątpliwie jak tylko będzie dostęp dla zwykłych śmiertelników, takich jak my. no to podzielimy się z Wami wrażeniami z testów. Teraz mamy dla Was krótki segment rekomendacji materiałów dodatkowych, które wniosły wartość, które też się cieszyły dużym zainteresowaniem w naszych grudniowych newsletterach Opanuj.ai. Linki do tych materiałów znajdziecie na stronie odcinka na Opanuj.ai w zakładce podcasty. Link będzie w opisie. Pierwszym takim materiałem jest artykuł profesora Itana Molika, który już się dość często przewijał przez ten podcast i przez nasz newsletter. Tym razem przygotował on artykuł, w którym omawia 15 przypadków użycia, gdy warto korzystać z AI i 5 przypadków użycia, w których nie warto korzystać z AI, bo może to przynieść więcej szkody. niż pożytku. Bardzo fajny, konkretny, praktyczny artykuł. Jeżeli masz takie poczucie, że nie do końca jakby wiesz właśnie kiedy warto z tego AI korzystać, że nie wyciskasz 100% możliwości ze swojej powiedzmy subskrypcji czata GPT+, no to to jest świetny artykuł, żeby nabrać inspiracji, żeby znaleźć sposoby jak z tego AI korzystać. Co mogę powiedzieć? Jest tam taki fajny cytat na końcu, że sztuczna inteligencja jest często najbardziej przydatna tam, gdzie jesteśmy wystarczającymi ekspertami, aby dostrzec jej błędy, ale jednocześnie jest najmniej pomocna w tej głębokiej pracy, która uczyniła nas z tymi ekspertami. Jest w tym paradoks, nie jest to takie oczywiste, ale jeżeli zobaczycie na te przypadki użycia, no i też zresztą pokorzystacie więcej z tej generatywnej sztucznej inteligencji, no to zobaczycie, że jest to bardzo trafne przemyślenie. Tak więc zachęcam do sprawdzenia. Teraz Przemek przedstawi Wam kolejną rekomendację.

Przemek:

Na blogu Latent Space pojawiły się zapowiedzi 50 paperów, 50 artykułów prac naukowych, z którymi warto się zaznajomić w 2025 roku. Jest to taka lista 50 topowych materiałów dla AI engineera. Czym wyróżnia się to opracowanie? Wyróżnia się ono praktycznością i użytecznością tych linków, które tam znajdziecie. Autorzy wskazują, że przedstawili listę takich artykułów, które albo są cały czas wykorzystywane w branży, których to wiedza może się Wam przydać do budowania jakichś konkretnych rozwiązań, albo po prostu dotyczą stosunkowo nowych rozwiązań, więc tak jak my tutaj w notatkach wspominamy, ten klasyczny paper ATTENTION IS ALL UNIT może nie jest priorytetem, nie wniesie już tak dużo jak np. alternatywne rozwiązania, no ale np. jeśli chcecie zobaczyć jak OpenAI wykorzystał ten ATTENTION IS ALL UNIT do zbudowania GPT-1 czy GPT-2 czy Instruct-GPT, No to właśnie takie prace naukowe tam są polinkowane. Myślę, że ten rytm, ten cykl jednego papera, jednej pracy naukowej na tydzień jest stosunkowo zjadliwy. Nawet jeśli gdzieś tam nie wszystko będzie zrozumiałe, co dotyczy się również nas, no to myślę, że można sobie wyrobić taki nawyk po prostu zaznajamiania się z tematyką, zaznajamiania się z tym słownikiem, który w takich pracach naukowych jest wykorzystywany. Można po prostu nieco głębiej do tego świata wejść. Marcin, co tam u Googla?

Marcin:

Google również nie próżnowało w grudniu i była głośna premiera nowej rodziny modeli Gemini 2.0. Do tej pory mieliśmy do czynienia z Gemini 1.5, a teraz Google zapowiada, że będą nowe relisy, nowa klasa modeli. nowa jakość, nowe możliwości, też nowe produkty powiązane z tymi modelami. Wszystko dzieje się dookoła popularnych, modnych ostatnio agentów, o których więcej się mówi niż się ich widzi w praktyce, ale być może właśnie za sprawą Gemini ulegnie to zmianie. Póki co dostaliśmy model Gemini 2.0 Flash, który ma naprawdę solidną wydajność na poziomie tych topowych modeli typowych ostatnich release ale z bardzo atrakcyjną ceną mamy 7 centów za milion tokenów wejściowych i 30 centów za milion tokenów outputowych. No to jest cena dziesięciokrotnie niższa, nawet więcej niż dziesięciokrotnie niższa niż GPT-4.0 czy KLOD 3.5 SONNET. No więc bardzo, bardzo niskie ceny, niemal jak w MediaMarkt. ale przy tym duża szybkość, duża wydajność. Obecnie ten model ma trzecie miejsce w ogólnym rankingu LM ARENA z dodanym Style Controlem i czwarte miejsce jeżeli chodzi o kodowanie, więc naprawdę solidny release. A przypominamy, że te modele Flash to są te najmniejsze, najszybsze w przypadku. Zobaczymy jakie możliwości będzie niósł ze sobą Gemini 2.0 Pro. Tutaj była duża różnica w przypadku wersji 1.5. Jestem mega ciekawy. Mamy też wszystkie zapowiedzi projektów dookoła agentów. Uniwersalny agent o nazwie Astra. agent przeznaczony do pracy w internecie, w przeglądarce, czyli Mariner, Jules, czyli agent AI specjalizujący się w programowaniu, zintegrowany z GitHub Workflows i szerzej tutaj nienazwani i wyłącznie zajawieni, agenci do gier, którzy będą nam pomagali w czasie rozgrywki. Osoby, które śledzą blisko działalność DeepMind nie są pewnie zdziwioni, no bo oni dużo działali w tym segmencie gier w poprzedniej dekadzie. Tak więc teraz przychodzą do nas z tego typu rozwiązaniami. Dla gamerów myślę bardzo ciekawe, chociaż to też rodzi wiele jakichś wątpliwości na ile to będzie legalne, nie będzie tworzyło różnych różnic pomiędzy graczami. Trochę takie cheatowanie, w sensie masz tutaj po prostu AI, które ci pomaga. No ciekawe, jakie będzie do tego podejście twórców gier, graczy, no tym niemniej. Bardzo, bardzo to wszystko ciekawe. Tak więc jak widzimy, Google zdecydowanie nie zamula. I mamy jeszcze dla Was tutaj szybko pociągnę temat. Jak jesteśmy w tych agentach, no to Antropi przygotował taki swój poradnik na blogu właśnie jak efektywnych agentów budować. Bardzo fajny, przekrojowy artykuł, który pozwala ten temat zrozumieć na wysokim poziomie, zdobyć tą najważniejszą wiedzę. Mamy omówienie głównych typów systemów agentowych, jakie są kluczowe wzorce pracy tego typu systemów, na czym to wszystko się opiera, na rozszerzonych LLM-ach o narzędzia, jakie są główne zasady implementacji, na co uważać, gdzie szukać skutecznych zastosowań, use case’ów i jak efektywnie korzystać z tych narzędzi podczas integrowania ich z LLM-ami, czyli takie naprawdę najważniejsze kwestie. O tym wszystkim jest właśnie Ciekawy, przystępny, wzbogacony o wizualizację artykuł na blogu Antropica. Tak więc również zachęcamy do sprawdzenia. No i na końcu jeszcze Amazon nowa. Przemek powiedz co tam.

Przemek:

U Amazona pod koniec roku również nowości. Jak Amazon to prawdopodobnie AWS, a jak AWS to jakieś integracje ze sztuczną inteligencją. Akurat tutaj Amazon idzie krok dalej, bo na Amazon Bedrock pojawiają się już tak naprawdę natywne modele Amazona. modele z rodziny Amazon Nova. Jest to nowa generacja takich modeli fundacyjnych, modeli podstawowych, które pozwalają Amazonowi odciąć się od dostawców, do których tak naprawdę przekierowywali ruch wcześniej. Są to modele właśnie takie tworzone z punktu widzenia chmury, zastosowań cloudowych, korporacyjnych. gdzie mamy duże wymagania względem bezpieczeństwa, duże wymagania w kontekście prywatności i tak dalej. Mamy kilka rodzajów tych modeli, które zostały opublikowane. Jeśli chodzi o rodzinę tekstową, to mamy tutaj Micro Lite Pro i Premier, w zależności od tego, czy będziemy zwracali uwagę na szybkość i na budżet, czy na możliwości rozumowania, czy na ilość dostępnej wiedzy. będziemy mogli wybrać jeden z tych czterech modeli, a także dwa modele do generowania treści wizualnych. Mamy Amazon Nowa Canvas, który będzie służył do generowania wysokiej jakości obrazów, a także Nowa Reel, czyli pewnego rodzaju odpowiednik Sory, o której wcześniej mówiliśmy, i Viyo od Google, czyli treści wideo z tekstu i z istniejących obrazów. To, co jest istotne w przypadku tych modeli, to jest przede wszystkim, myślę, pełna integracja z chmurą Amazona. Na Amazon Bedrock do tej pory tych modeli, z których mogliśmy korzystać, nie było tak wiele. Wydaje mi się, że jak mówiliśmy o Amazonie, to przede wszystkim w kontekście np. inwestycji w Antropica i tego, że Amazon po prostu bardzo mocno z tą firmą się integruje. Teraz będziemy mieć nowe modele, które będą wspierać ponad 200 języków, będziemy mieć dodatkowe narzędzia związane właśnie z bezpieczeństwem, z moderacją, z prywatnością. No i możliwość wykonywania tak zwanego międzyregionalnego inferowania, więc myślę, że niezależnie od tego jak złożona jest wasza infrastruktura, jak złożone są wasze konfiguracje na klaudzie od Amazona, to z takiego modelu będzie można korzystać. Mamy taki model cenowy pay-as-you-go, podobnie jak w przypadku API popularnych dostawców, takich jak właśnie OpenAI czy Antropic. No i mamy również opcję fine tuningu, czyli jeśli chcecie dostosować działanie takiego modelu do konkretnych przypadków, jeśli macie jakieś wzorce, które temu modelowi chcecie udostępnić, a następnie korzystać z takiego modelu, który tych wzorców się nauczą to ten fine tuning można. również wykorzystać, więc Amazon również kończy rok i rozpoczyna rok z nową rodziną modeli. Amazon Nowa. Zanim przejdziemy do kolejnego dużego tematu, przypominamy o tym, gdzie te materiały można znaleźć, gdzie można znaleźć całe to podsumowanie z tego segmentu, jeśli wejdziecie na stronę opanuj.ai, do sekcji podcastów, do odcinka grudniowego, no to tam w nowej sekcji pojawią się te materiały, o których mówiliśmy, czyli właśnie i opracowanie profesora Mollica, i te prace naukowe z Latent Space, Gemini 2.0, i Amazon Nowa. Zachęcamy do odwiedzenia naszej strony, tam również więcej informacji o naszych warsztatach, a my przenosimy się, panie Marcinie, do Azji.

Marcin:

Dokładnie tak, ze sprawą firmy DeepSeek, o której zresztą rozmawialiśmy już w podsumowaniu listopada. Wtedy podzielili się oni z modelem R1, który był alternatywą, implementacją tego systemu rozdomowania, które zapoczątkowało OpenAI z modelami. O jeden, no i teraz Deep Seek nie próżnuje i powraca z kolejnym głośnym releasem. Tu na zewnątrz jest to model Deep Seek V3, który nie tylko dorównuje modelon State of the Art, takim jak Dupity 4.0, jak Kro 3.5 Sonnet, ale robi to przy łamku kosztów zarówno na poziomie użytkownika, jak i twórców samego modelu, bo model jest tani w wykorzystaniu, też był bardzo tani w treningu, tak przynajmniej deklaruje firma. I co ważne jest to model open source, który podobnie jak modele Lama możemy pobrać, możemy wykonywać lokalnie. No więc jest to duże wydarzenie, duże osiągnięcie. 671 miliardów parametrów. Mamy tutaj architekturę Mixture of Expert, która jest teraz taką najpopularniejszą architekturą. Jeżeli chodzi o te klasyczne LLM, musimy tutaj znaleźć sobie jakąś nazwę, jak się do tego odwoływać w obliczu tego, że mamy już też te nowe systemy rozumowania. No i co istotne, firma Dripstick twierdzi, że wydała zaledwie 5,5 miliona dolarów na trening tego modelu, wykorzystując do tego niemalże 15 milionów tokenów. No i to jest niesamowita różnica względem GPT-4, gdzie oficjalnych danych nie mamy, no ale mówi się, że szacowane koszta przekraczały 100 milionów dolarów, no więc 20 razy taniej. Ten projekt został wykonany przez chińskich badaczy, jeden z tych ze Stanów Zjednoczonych. No tutaj oczywiście musimy mieć na uwadze, że mimo wszystko jest to firma chińska, gdzie podejście do prawdomówności jest trochę inny. Jeszcze niższy niż na zachodzie, bo też zupełnie szczerze na zachodzie też należy być czasem sceptyczny wobec takich odważnych stwierdzeń. Nikt tam po prostu rachunków tej firmy nie był w stanie. zorganizować. Może to być też chęć wywołania jakiegoś strachu i podwyższenie takiej presji konkurencyjnej ze strony Chińczyków i pokazanie, że oni też mogą nie dojść na tym samym poziomie za ułamku kosztów. Bojcie się Amerykańce, bo po Was idziemy. Fakty są takie, że ten model naprawdę dobrze sobie radzi. Jeżeli zobaczymy na ranking LM Arena, to jest to obecnie siódma pozycja w ogólnym rankingu. Zwłaszcza dobrze radzi sobie z zadaniami programistycznymi. Jest w kategorii HUD Prompt, czyli gdzie mamy te najtrudniejsze Zadanie jest to jedyny model open source w tym top 10 i co również istotne do tego benchmarku mam dość duże zaufanie. W benchmarku IDERA czyli takiego rozwiązania dla programistów agentowego, open source’owej alternatywy dla Cursoe Composera. Tam również jest taki benchmark właśnie, jak te modele sobie z Aiderem radzą, jak rozwiązują najtrudniejsze zadania z platformy Exercism. I tamte wyniki, one bardzo dobrze właśnie gdzieś tam się pokrywają z tym vibe checkiem, że tak wypowiem, i z tym, czego często nie widać w tych najpopularniejszych benchmarkach. No bo tam faktycznie obecnie idelem jest O1. I co ciekawe potem właśnie jest Dipsik V3, który ma kilka procent lepszy wynik od Klot 3,5 Sonnet. I następnie jest zauważalna przerwa i dopiero GPT 4.0, co jakby się pokrywa faktycznie z tym, co ja gdzieś tam doświadczam w swojej codziennej pracy. No tak więc model DeepSeek wygląda naprawdę konkret robotę, zwłaszcza biorąc pod uwagę, że jeżeli chodzi o koszta, to mamy 0, mamy 30 centów za milion tokenów wejściowych i 1 dolar za milion tokenów wyjściowych. No więc naprawdę świetne ceny, 10-krotnie taniej od GPT-4 i iCloda. Z tym, że No tutaj akurat jeżeli chodzi o tą atrakcyjność cenową, no to Google z Gemini 2.0 Flash oferuje jeszcze lepsze ceny, no więc, więc no to jak już wielokrotnie wspominaliśmy, widać, że te jeżeli chodzi o postęp, to ceny zdecydowanie spadają najszybciej i rośnie też szybkość, jeżeli liczona w tokenach na sekundę, to są niewątpliwie postępy, które widzimy z miesiąca na miesiąc. które czynią te modele coraz bardziej dostępnymi. Jeżeli chodzi o ograniczenia, no to brak funkcji multimodalnych oferujemy wyłącznie na tekście. No i w tej wersji dostępnej za darmo na DeepSeek, AI, tej takiej po prostu alternatywie Dachata GPT, mamy zauważalną prochińską cenzurę, którą widać, jeżeli pytamy o tematy kontrowersyjne. Chociaż ona różnie działa, czasami przypuszcza niektóre prompty. W wersji API ta cenzura jest zauważalnie lżejsza. Jeżeli zapytamy, no tutaj tak jak często się pytało, modele OpenAI inne, Ostro Berry, no to tutaj test chiński to jest pytanie o Plastia Men, no to gdzieś tam przez API dostaniemy. sensowną odpowiedź.

Przemek:

Nie ma takiego placu.

Marcin:

Dokładnie, dokładnie, to tak jest w tej wersji czatowej właśnie, plus minus. No dobra, ale były też jakieś kontrowersje związane z tym modelem na Eksie, na Twitterze. wiele gdzieś tam się na ten temat publikacji pojawiło, bo mianowicie jeżeli zapytamy Dripsica 3, co to jest za model i kto go stworzył, no to on odpowiada, że to jest GPT-4 i że OpenAI jest twórcą tego modelu. No i to oczywiście wywołało wiele wątpliwości o co chodzi. No i jakby nie mamy żadnego oficjalnego wytłumaczenia. Domniemanie jest kilka. Jednym z takich popularnych jest to, że DRIPSIG-3 po prostu korzystał z dużej ilości danych dostępnych w internecie. No i tam mogło być też niemało odpowiedzi korpusów danych generowanych przez GPT-4 i w ten sposób oetykietowanych. No i przez brak jakiejś sumienności i dbałości o ten temat ten model ma tyle informacji, że to GPT-4 o czymś się wypowiada, że po prostu myli się to do swojej własnej tożsamości. Jakby nie patrzeć, są to publicznie dostępne dane w internecie, OpenAI i zresztą większość firm do takich publicznie dostępnych danych ma raczej dość otwarte podejście, więc ciężko tutaj chińskiej firmie zarzucić, że robi dokładnie to samo co wszyscy, czyli korzysta ze wszystkiego co może korzystać, nawet jeżeli to jest jakaś szara strefa. No i też trzeba zauważyć, że podobny problem z identyfikacją no nie mają tylko modele DeepSeek, ale również modele Google’a. Taki przypadek jest, jeżeli chodzi o Gemini w wersji chińskiej. Jeżeli się pytało o Gemini właśnie jakim jest modelem, no to stwierdziło, że jest modelem chińskim stworzonym przez firmę Baidu, no co pewnie też również wynikało z tego, z dostępności danych generowanych przez ten model Baidu właśnie w języku chińskim. I tak naprawdę było dużo kontrowersji. Sam Altman w swoim stylu wykorzystał to, żeby trochę się pofleksować twierdząc, że Kopiować bardzo łatwo, a tworzyć prawdziwe innowacyjne rozwiązania już nie. To wszystko właśnie było… Nie odwołał się wprost do firmy DeepSignal, ale wtedy trwały te kontrowersje. Więc jak zwykle shitposting na najwyższym poziomie, jak to u sama Altmana zwykle bywa. Czy Przemek masz tutaj coś do dodania w tej kwestii?

Przemek:

Tak, tak. Ja chciałbym zwrócić tutaj uwagę na dwie kwestie. Po pierwsze, jeszcze wracając troszkę do tematu, sorry, ale to też łączy się właśnie z DeepSeekiem, to jest temat tych danych źródłowych. Ty wspomniałeś o tym, że no po prostu kiedy te modele się uczą, one korzystają z danych dostępnych w sieci i tak naprawdę w zależności od zespołu, od tego jak sumiennie ten zespół te dane procesuje, no to różne efekty możemy zobaczyć w outpucie. Ciekawą obserwację na ten temat umieszcza również MKBHD, znany twórca, recenzent technologii na swoim YouTubie. On niedawno opublikował właśnie film z jego testów SORY, gdzie poprosił SORY, czyli właśnie ten model do generowania filmów, o ujęcie recenzenta, który opowiada o technologii. No i tak naprawdę to był cały ten prompt i on zauważył, że na biurku tego recenzenta w tym filmie, który został stworzony, pojawiła się sztuczna roślinka. W ogóle tej sztucznej roślinki nie było właśnie w oryginalnym prompcie, Ale tak się dziwnie składa, że właśnie ten sam AKBHD, czyli twórca o milionowych zasięgach, bardzo często takie sztuczne roślinki ma właśnie w swoich filmach i on stwierdził, że no po prostu wchodzimy w taki dziwny etap, w taki dziwny moment właśnie rozwoju tej technologii. Kiedy to widzimy, że te modele w pewnym sensie inspirują się naszą twórczością, nie mamy żadnej gwarancji, że tak się właśnie stało, nie mamy żadnej pewności, ale mamy mnóstwo przesłanek, że coś tutaj, coś tutaj w tę stronę właśnie zadziałało, coś takiego, coś takiego miało miejsce. No i on tak naprawdę podsumowuje, że w sumie co z tym zrobić, nie wiadomo co z tym zrobić, nie ma żadnego dowodu, że to była jego roślinka, chociaż ją trzyma w dłoni, bo bardzo fajnie to na filmie potrzebuje, że słuchajcie, to jest to, co ja często mam w tych filmach, ale że będzie to po prostu problem, który będziemy coraz częściej obserwować. No i tutaj z DeepSeakiem kolejna taka historia, jak jak bardzo te dane wejściowe oddziaływują na sposób pracy z modelem, na to jak ten model sobie radzi z poszczególnymi tematami. Jeszcze jedna obserwacja, która mi przyszła do głowy w momencie kiedy mówiłeś o tych kosztach, ja sobie w międzyczasie wrzuciłem w wyszukiwarkę budżet Polski na temat rozwoju sztucznej inteligencji. Mam takie dwie liczby, które można tutaj porównać do DeepSeeka. Jaki jest kontekst? Wydaje mi się, że kontekst jest taki po całych tych zamieszaniach tegorocznych z ideas NCBR i tak dalej, i tak dalej, że jeśli chodzi o Polskę, jeśli chodzi o EJ Act, no to my tam gdzieś jesteśmy w środku kolejki do innowacji można powiedzieć. No nie jesteśmy na przedzie, nie jesteśmy w tyle, bo mamy wielu znanych naukowców albo przynajmniej kilku znanych naukowców, ale wiadomo jak to chodzi o budżety. Rewolucji powiedzmy w Warszawie nie będzie jeszcze po prędku, ale to się ma zmienić, bo właśnie Ministerstwo Cyfryzacji zapowiedziało duże inwestycje w sztuczną inteligencję i tu mam takie dwie liczby, które są ciekawe. Po pierwsze, na tak zwaną fabrykę sztucznej inteligencji w tym roku przekazano 70 milionów złotych, więc można pomyśleć, że mamy tutaj model, którego koszty trenowania to jest 20 milionów złotych, I tak naprawdę mamy prawie frontier model, który jest albo drugi, albo siódmy, ale jest w top 10, który tak naprawdę w zupełności mógłby w zasięgu tego polskiego budżetu być rozwijany, mógłby powstawać. Jeśli oczywiście to się sprawdzi, jeśli potwierdzą się te informacje o tym, że to faktycznie było 5,5 miliona dolarów. Natomiast minister Gawkowski zapowiedział, że w przyszłym roku budżet na sztuczną inteligencję, od przyszłego roku, to będą nawet kwoty w okolicach miliarda złotych. Więc jeśli będziemy mieć miliardy złotych na rozwój sztucznej inteligencji, Ja, Marcin, myślę, że o takich polskich dipsikach w przyszłym roku będziemy co miesiąc opowiadać. Wiemy, że mamy próbę, mamy Bielika, mamy PLL-UM, o ile dobrze rozumiem, ale teraz to ma być zdecydowanie bardziej scentralizowane, ma być wsparcie Ministerstwa Nauki i Ministerstwa Cyfryzacji. Mamy mieć kasę, która powinna wystarczyć na rozwiązania takie jak DeepSeek, więc jeśli chcecie troszkę więcej nadziei na początek roku, to nadzieja akurat właśnie w obszarze polskiej sztucznej inteligencji za przykładem naszego podcastu tutaj jest dla Was przekazywana. Myślę, że się spełni. Masz jakieś przewidywania w tym temacie, czy czekamy cierpliwie?

Marcin:

Ciekawe cierpliwie. Fajnie, że są jakieś refleksje, że są obietnice co do jakichkolwiek sensownych budżetów. Nadal to daleko do budżetów zachodnich bądź też daleko wschodnich, aczkolwiek jest to już Są to pieniądze, z którymi można robić sensowne projekty, jak zauważyłeś. Oby te projekty faktycznie się znalazły, znaczy oby ten budżet się faktycznie znalazł i oby był przeznaczony na sensowne projekty, a nie był ofiarą na jakichś tam dziwnych partyjnych… zakrywających o korupcję, defraudację działają z tymi niestety w Polsce, niezależnie od tego jaka partia rządzi. Są problemy, chociaż nie ma co z drugiej strony narzekać, bo są państwa sąsiednie, gdzie te problemy są znacznie głębsze. Tym nie do końca pozytywnym, aczkolwiek półpozytywnym akcentem kończymy ten odcinek. Jeżeli przypadł Wam on do gustu, no to zachęcamy, aby go udostępnić na social media znajomym zainteresowanym generatywną sztuczną inteligencję i oceniajcie go na 5 gwiazdek na Waszej platformie podcastowej. Czy jest to Spotify, czy jest to Apple Podcast, no to będziemy bardzo, bardzo wdzięczni i z góry dziękujemy. To jest najlepszy sposób, aby pomóc nam w promocji tej inicjatywy. Prowadzimy do Was ten podcast już miesiąc do miesiąca od ponad. i również mamy plany kontynuowania tego w roku 2025. Zachęcamy Was jeszcze do umawiania się na darmowe konsultacje w sprawie szkoleń, warsztatów, jakie możemy przeprowadzić w Waszej firmie dla programistów, menadżerów i pracowników. Mamy ogrom praktycznej wiedzy, umiejętności, kompetencji do przekazania. Są jeszcze wolne terminy na pierwszy kwartał 2025 roku, ale one już powoli się kończą, więc zachęcamy, żeby się umawiać. Jest to zupełnie darmowa możliwość, żeby z nami pogadać i dowiedzieć się, czy mamy tutaj wspólne interesy, wspólne możliwości. Jest przestrzeń do współpracy. Jest również kurs kursora programu z AI dla programistów w atrakcyjnej cenie 199 złotych można taki kurs nabyć. Zrobiło to już 300 zadowolonych programistów. Mamy Wysokie oceny, naprawdę bardzo tani kurs w stosunku do tego, ile tam wartości na Was czeka. Wszystko, co powinniście wiedzieć o kursorze, ale również szerzej o oprogramowaniu z AI. Tak więc zachęcamy. Jest również newsletter, o którym już mówiliśmy dzisiaj kilka razy. Na opanuj.ai można się zapisać. I co poniedziałek dostawać takie fajne materiały, o jakich wspominaliśmy m.in. dzisiaj w tej sekcji. z newsami, które również znajdziecie w zakładce podcasty właśnie w poście dotyczącym tego odcinka, gdzie znajdziecie również transkrypcję. No i sprawdzajcie drugi odcinek z podsumowaniem 2024 roku. Wiele tam ciekawych informacji przygotowaliśmy i fajny ranking, gdzie zarówno ja, jak i Przemek przedstawimy najważniejsze wydarzenia i osiągnięcia z naszego punktu. Widzenia, dziękujemy Wam za uwagę i do usłyszenia już niedługo w roku 2025.

Newsletter Opanuj AI

Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji

Zapisując się do newslettera akceptujesz naszą politykę prywatności.

W każdy poniedziałek
Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
Tylko najlepsze materiały
Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.