Podcast Opanuj.AI
Bądź zawsze na bieżąco
2 marca 2024
Wpadka Google i OpenAI Sora. Czym zaskoczyli giganci | Co słychać w AI (Luty 2024)
Słuchaj na twojej ulubionej platformie
Transkrypcja odcinka
Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki
Przemek:
Dzień dobry, cześć i czołem. Witamy was serdecznie w kolejnym odcinku podcastu OpanujAI. Witają się z wami Marcin Czarkowski i Przemek Smyrdek. Jak co miesiąc podsumowujemy najważniejsze informacje, newsy, ogłoszenia ze świata sztucznej inteligencji, ze świata machine learningu. Staramy się wam je przedstawiać w przystępny sposób przekładając to na codzienność, życie zawodowe, na kontekst zawodowy, na to jak z tej sztucznej inteligencji możemy tak naprawdę korzystać. Przygotowaliśmy naprawdę szeroką agendę. Porozmawiamy o największych liderach rynku. Porozmawiamy o tych troszkę mniejszych. Myślę, że będziemy też mieć ulubiony kącik Marcina, czyli codziennika biurokraty europejskiego. Tutaj też ten segment zawrzemy w tym odcinku. Ale zanim to zrobimy, to kilka rekomendacji. Jak zwykle, Marcin, ciebie bym tutaj prosił o zrobienie intra. i będziemy działać dalej.
Marcin:
Na początku zapraszam wszystkich do zapisania się do naszego newslettera opanuj.ai, tam znajdziecie formularz zapisowy i co otrzymacie za taki zapis? Otrzymacie co poniedziałkową listę newsów, trzy newsy wyselekcjonowane przez nas, tak abyście byli na bieżąco ze światem sztucznej inteligencji, nie tylko z miesiąca na miesiąc, ale również z tygodnia na tydzień. Zachęcamy, gwarantujemy zero spamu, tylko najwyższej jakości materiały, które pozwolą Wam właśnie stosować sztuczną inteligencję w najnowszym wydaniu Waszej codziennej pracy. Oprócz tego zachęcamy również do kontaktu w sprawie warsztatów i szkoleń, które prowadzimy dla zespołów w firmach. Jeżeli masz zespół programistów, marketingowców, pracowników umysłowych, to jesteśmy w stanie pomóc Ci wdrożyć sztuczną inteligencję do Twojej organizacji. to, jak je ustosować w praktyce, jak wykorzystywać czata GPT, usługi takie jak Mid Journey, dalej dają one znaczącą okazję do podniesienia produktywności, do automatyzacji nudnych, żmudnych zadań oraz pomocy w realizowaniu tych bardziej ambitnych, kreatywnych. To wymaga zarówno wiedzę na temat tego, jak te narzędzia stosować, ale również zmiany nawyków w naszej codziennej pracy, co jest równie istotne. Nasze warsztaty są praktyczne, mamy ogrom zadań, dzięki czemu już podczas samych warsztatów jest okazja, aby te nowe nawyki wykształcić i potem przerosić je na grunt swojej codziennej pracy, więc zapraszamy do kontaktu za pośrednictwem strony opanuj.ai, łamane na szkolenia. Tam można znaleźć więcej informacji o warsztatach, oraz formularz kontaktowy, aby umówić się z nami na spotkanie. I myślę, że możemy przejść do mięsa tego odcinka. Zaczniemy od firmy Google, która w lutym nie próżnowała i podzieliła się z nami kilkoma nowościami. Przemek, zaczynaj.
Przemek:
Google walczy o odzyskanie pozycji, którą pytanie czy utraciło, czy może nie utraciło na rzecz OpenAI. Na pewno jest to firma, która ma wiele znaczących osiągnięć na polu badawczym w kontekście sztucznej inteligencji, ale na tym polu produktowo-biznesowym na cały czas gdzieś tam stara się udowadniać, że dają radę chłopaki i dziewczyny, cała ta ekipa właśnie z Google. No i luty był miesiącem, gdzie Google pokazało kilka nowych ruchów, które na pewno robią wrażenia. Były ruchy short term, które bezpośrednio przekładają się na to, jak dzisiaj wyglądają te produkty. Są zapowiedzi ruchów long term, no i są też wpadki, jak to w życiu bywa. Mamy tutaj pełen zakres wydarzeń. Jeśli chodzi o te zmiany, o te ruchy krótkoterminowe, no to tutaj uporządkowała się w pewnym sensie sytuacja wokół kiedyś Barda, a teraz usługi Gemini, czyli alternatywy do Chata GPT. Jeszcze w poprzednim miesiącu wspominaliśmy o tym, że Bard, czyli na tamten moment alternatywa do Chata GPT, przygotowuje się do bycia napędzanym modelem Gemini Pro. Gemini Pro był wdrażany w wybranych regionach na świecie. Google nie wdrażał tego modelu globalnie, był jak zwykle bardzo ostrożny, jeśli chodzi o adopcję tego modelu. No i mieliśmy bardzo taką rozproszoną sytuację, gdzie z jednej strony w przeglądarce mieliśmy właśnie barda, w niektórych regionach mieliśmy barda opartego na Gemini Pro, a gdzieś jeszcze na horyzoncie mieliśmy zapowiedź Gemini Ultra, czyli modelu, który miałby napędzać barda. No było to jakby trudne do poskleniania w jedną całość. My tutaj z Marcinem też w poprzednich odcinkach analizowaliśmy, co właściwie w Polsce mamy w tej naszej przeglądarce. No i na szczęście od 8 lutego ta sytuacja jest zdecydowanie bardziej uporządkowana. Google zdecydował, że cała linia usług tej generatywnej sztucznej inteligencji zarówno od strony użytkownika jak i od strony tej czysto badawczej będzie się po prostu nazywać Google Gemini. To będzie właśnie cały ten frontier. No i tak właśnie od 8 lutego, od momentu kiedy wchodzimy na barda, to wchodzimy tak naprawdę na Google Gemini, czyli na asystenta, usługę opartą o multimodalny model generatywnej sztucznej inteligencji, z którym możemy prowadzić konwersacje, który też w niektórych regionach jest już w stanie interpretować obrazy, generować obrazy, o tym też jeszcze zaraz powiemy. No i przede wszystkim zmieniły się też jego możliwości, bo BART, a teraz już Gemini nie tylko nazywa się Gemini, nie ma tylko zaktualizowanej nazwy, ale jest też o wiele bardziej wydajny, bo globalnie dostaliśmy też dostęp do najmocniejszego modelu, który aktualnie Google rozwija, czyli do Gemini Ultra, do tego modelu, który ma być bezpośrednim rywalem GPT-4, o ile nie czymś, co pokonuje tego GPT-4 w wybranych obszarach, w wybranych benchmarkach. No i tutaj na pewno warto zwrócić uwagę, że po pierwsze mamy uporządkowaną tę linię produktową, bardziej uporządkowaną linię produktową, ale mamy też całkiem atrakcyjny plan pricingowy, bo możemy z tego modelu Ultra korzystać w darmowej wersji. Mamy dwumiesięczny trial, który daje nam możliwość przetestowania i usługi Gemini i modelu Gemini Ultra w takiej formie darmowej. No i dopiero później wchodzimy na tą subskrypcję Google Workspace, gdzie mamy pełną integrację na poziomie Google Docs i tych pozostałych usług, z których możemy korzystać. My też zaczęliśmy to Gemini Ultra testować. Jest to produkt radykalnie inny od tego do czego się przyzwyczailiśmy korzystając z czata GPT. Produkt, którego tak naprawdę jeszcze teraz się uczymy, ale przede wszystkim jest już wyrównany jeśli chodzi o całą tę komunikację. Ta komunikacja to nie jest tylko coś na co my zwracamy uwagę, bo też w mediach społecznościowych na Eksie pojawił się taki słynny tweet, który już teraz zarobił milion wyświetleń, gdzie Jeden z egzekutywów Google tłumaczy jak teraz wygląda ta biznesowa linia produktów od Google, jak całe to nazewnictwo się zmienia. I tutaj wam przytoczę ten tweet. Pan Tomasz Kurian mówi, że wprowadzany zostaje plan Gemini Business, który pozwala korzystać z Generative AI w Workspace, taniej niż Gemini Enterprise, co zastępuje duet AI for Workspace Enterprise. Zostało to nazwane najlepszym tweetem w historii marketingu usług generatywnej sztucznej inteligencji. Ludzie są naprawdę pod wrażeniem. No typowy Google. W każdym razie mamy duży model, model, który ma konkurować z GPT-4. Żegnamy barda i zaczynamy testować Ultra. Marcin, twoje pierwsze wrażenie? Mamy tego Ultra włączonego, jest on dostępny na koncie przeprogramowanych. Jak to z takiej bardziej subiektywnej perspektywy wygląda? Co możesz powiedzieć na ten temat?
Marcin:
Może jeszcze dodam, że ta usługa, która umożliwia nam dostęp do Gemini Ultra w ramach Gemini tego chatbota to jest Gemini Advanced, czyli to jest taki odpowiednik chat GPT+, Gemini Advanced i wtedy możemy korzystać z tego modelu. No i szczerze mówiąc Gemini Ultra na mnie jakiegoś wielkiego wrażenia nie zrobiło póki co. Nie testowałem tego modelu jakoś specjalnie dużo, ale robiłem kilka testów porównawczych. Spostrzeżenia są takie, że nadal jest daleko w tyle za GPT-4. Zawsze gdzieś tam te odpowiedzi od Gemini Ultra były w mniejszym lub większym stopniu rozczarowujące, podczas gdy GPT-4 wracało odpowiedzi, które były miernie albo bardzo dowalające, więc no jakby tutaj skrajnie inny sentyment z mojej strony. Też samo sam UX, UI tego Gemini nie jest najlepszy, to okno do wprowadzania promptów działa jakoś dziwnie, tam się pojawia scroll, bardzo mało tego tekstu widać jakoś po prostu z czata gpt póki co korzysta mi się przyjemniej jeżeli chodzi o sam uxy mimo że tam szału również tak naprawdę nie ma a co do samej wydajności rezultatów no to również gdzieś tam byłem rozczarowany może za wyjątkiem tego że odpowiedzi z Gemini Ultra są zauważalnie szybsze. No i też trzeba przyznać, że fajnie on listuje źródła, na podstawie których udzielił odpowiedzi, czego w GPT-4 nie ma. Więc tutaj na plus, ale sama wydajność jest rozczarowająca. A Pieprzemku, jak to wyglądało w Twoich testach?
Przemek:
No na pewno sprawdza się to, o czym mówiliśmy już wcześniej, czyli widać to, że Google jest naprawdę firmą wyszukiwarkową, dobrze poruszają się właśnie w tym świecie referencji, odnośników, źródeł do swoich informacji, tak jak Ty wspomniałeś, to widać w tych konwersacjach. Tak jak przeprowadzaliśmy te nasze testy, kiedy pytamy czy ta GPT o źródła, to one czasami się pojawiają, czasami się nie pojawiają, one się pojawiają też w różnej formie. Google jako właśnie ten Search First Biznes, no jakby ma to o wiele lepiej rozwiązane. Natomiast cały ten UX jest taki sobie, no wiadomo, to są jakieś historyki anegdotyczne, my też nie mamy twardych badań na dużych zestawach promptów, które moglibyśmy wam tutaj przytoczyć, ale z takiego naszego codziennego kontekstu, no to przynajmniej w moim przypadku wygląda na to, że Jemina Ultra raczej gorzej radzi sobie z takim rozumieniem mojej intuicji, z kontynuowaniem konwersacji, z byciem takim asystentem do rozmowy. Ja miałem takie wrażenie, że tak naprawdę z każdą odpowiedzią tak jakbym zaczynał nowy wątek, albo te wątki tak naprawdę nie kleją się tak bardzo jak w przypadku GPT-4, co jest już jakby trudne do zaakceptowania, Z GPT-4, gdy zapomnimy o całym tym kontekście sztucznej inteligencji, oprogramowania, z którym rozmawiamy, to naprawdę można prowadzić ciekawe, angażujące rozmowy, które są kontynuowane, pogłębiane, można o różne aspekty takiej rozmowy zahaczać. Ultra wydaje mi się bardzo takie suche, surowe na razie, to jest też trudne jakby w udowodnieniu, to są takie moje subiektywne obserwacje. Bardziej wygląda to na taki model request-response, gdzie mam jakiś system, jakieś API, do którego wysyłam jakieś parametry i dostaję odpowiedź, niż jakiś taki asystent, z którym sobie prowadzę naturalną konwersację. W przypadku GPT-4 to zdecydowanie lepiej działa. No i tutaj też przed nagranym próbowałem integrować Gemini Advanced z pozostałą paczką usług z Google Workspace. Jeszcze nie do końca byłem w stanie gdzieś tam np. uzyskiwać informacje o mailach, czy o dokumentach Google, bo właśnie do tego też ten plan Advanced ma służyć, to znaczy cały ten workspace Google’owy ma być zintegrowany przy pomocy Gemini możemy się w sposób tekstowy poruszać po dokumentach, po mailach. Natomiast po pierwszych testach mam jeszcze troszkę tutaj wątpliwości. Myślę, że to jest bardziej kwestia techniczna niż jakiś mocnych ograniczeń na poziomie samej sztucznej inteligencji, to zupełnie raczej chyba nie jest ten temat, tylko kilka serwisów i kilkanaście zespołów Google’u musi ze sobą na poziomie API odpowiednio pogadać. Natomiast na razie jest tak sobie. Na pewno ten case jest ciekawy, bo Gdyby same konwersacje były prowadzone na takim poziomie jak GPT-4 i mielibyśmy jeszcze dostęp do Google Docs, do naszego maila, do prezentacji, no to naprawdę tutaj robi się już taka usługa, którą można gdzieś tam na tym pierwszym miejscu powoli stawiać. W przypadku Chata GPT cały czas mówimy o nowej usłudze, pobocznej usłudze, gdzie nie ma dokumentów, maila i niczego takiego. I to byłby duży game changer, na razie tego nie ma, ja na pewno czekam, ale można testować. Na pewno branding jest poukładany, model jest dostępny i to mi się podoba.
Marcin:
Prawda jest taka, że jest szansa na poprawę w najbliższym czasie, no bo to o czym mówiliśmy to są modele Gemini 1.0, podczas gdy Google już zanalizował, że pracuje, a w zasadzie ma do dyspozycji Gemini czyli kolejną generację modeli. Do której póki co dostęp ma ograniczona grupa pracowników, programistów i klientów korporacyjnych. Tam mają dostęp do Gemini 1.5 Pro czyli tego modelu ze średniej półki. I co ciekawe, on w tej nowej wersji ma okno kontekstowe miliona tokenów, czyli dziesięciokrotnie przebija GPT-4 Turbo, no i pięciokrotnie to słynne okno kontekstowe, które mamy do dyspozycji w Cloud 2, które działa tak sobie z tego, co donosiły wszelkiego rodzaju testy, a to milionowe okno kontekstowe, według opinii tych pierwszych tosterów działa naprawdę dobrze. Tutaj Google niespecjalnie ma dobrą prasę jeżeli chodzi o demo, ale oni na swoim YouTubie pokazali jak ten Gemini 1.5 radzi sobie z analizą wszystkich przykładów jakie są dostępne na stronie biblioteki 3JS, która służy do renderowania grafiki 3D za pomocą JavaScriptu i tam tych przykładów jest od groba. One wszystkie zapełniły 800 tys. tokerów, więc to jest naprawdę dużo. Byliśmy w stanie pytać o szczegóły optymalizacji i te odpowiedzi były naprawdę trafne. i poprawne. No i też inni testerzy, którzy na swoich bibliotekach, na swoich projektach sprawdzają jak ten model sobie radzi z takim dużym kontekstem, no to mówią, że naprawdę radzi sobie dobrze, jest w stanie odpowiadać w znacznie bardziej szczegółowy i trafny sposób niż na przykład GPT-4 Turbo. Nawet jeżeli gdzieś tam się ograniczymy do tego kontekstu stu tysięcy tokerów, dla których operuje GPT-4, no to i tak widać, że to Gemina 1.5 znacznie lepiej nawet z tym mniejszym okrem kontekstowym sobie radzi. Jest w stanie wyciągać szczegóły i poddawać faktyczne analizie takie okno kontekstowe, co w przypadku GPT-4 Turbo już tak dobrze nie wypada. Jak w przypadku zresztą Cloud 2, no bo te okna kontekstowe rosły, ale takim oczywistym i dużym zastrzeżeniem było to, że te modele Wcale mimo, że są w stanie przyjąć taką ilość danych to jakoś świetnie się po tych danych nie poruszają zwłaszcza jeżeli się zbliżały do tej granicy okra kontekstowego. A w przypadku Gemina 1.5 to wygląda naprawdę nieźle. Widać, że w Google był jakiś znaczący postęp w tym jak to okno kontekstowe jest obsługiwane. No więc bardzo możliwe, że będziemy mieli do dyspozycji niesamowite ilości tego kontekstu. Przemek w naszych notatkach fajnie wypisał, że to jest godzinny film, to jest 11 godzin audio, 30 tysięcy linii kodu albo 700 tysięcy słów. No więc niesamowite ilości, dowolna książka. Niemały projekt, jesteśmy w stanie do takiego Gemina 1.5 załadować i zadawać pytania, co tam w środku siedzi, co moim zdaniem może się przyłożyć na niesamowitą nową generację wszelkiego rodzaju copilotów, również tych programistycznych. gdzie już nie będziemy musieli się gdzieś tam ograniczać tylko do jednego pliku, ewentualnie kilku, tylko do całego projektu, co znacznie podniesie użyteczność tego typu narzędzi.
Przemek:
Tutaj na pewno warto wspomnieć, że Geminate jest też model, który od samego początku był projektowany jako model multimodalny, czyli taki, który ma się poruszać po wielu formatach danych, co jest myślę pewną przewagą względem np. tego brancza GPT rozwijanego przez OpenAI, gdzie na początku Na początku mieliśmy modele językowe, a potem te modele językowe zyskiwały nowe umiejętności. Google tutaj mówi, że Gemini od samego początku był już projektowany tak, żeby z różnymi formatami danych pracować. No i myślę, że jest to spora przewaga, pewnie nie taka, której nie da się przeskoczyć. Natomiast wszystkie te case’y faktycznie, wszystkie te demo, o których Ty Marcin powiedziałeś, już wskazują na to, że kiedy Google mówi o sztucznej inteligencji, to to nie jest wyłącznie praca z tekstem, bo oni mówią właśnie o interpretacji obrazów, o interpretacji książek, filmów, audiobooków itd. Więc można sobie wyobrazić, że mamy takiego bota, takie entity, z którym można o dowolnej treści wyprodukowanej przez człowieka porozmawiać. I to naprawdę jest znaczące usprawnienie. Myślę, że OpenAI też gdzieś tam jest gotowe na takie wymagania. Też mamy już możliwość dyskusji o plikach, interpretowanie, generowanie obrazów. Natomiast wydaje mi się, że pewna przewaga taka na samym starcie pracy z Gemina jest. Google tutaj też wspominał mówiąc o technikaliach, że zastosowało nieco inną architekturę w porównaniu do surowej wersji Geminated 1.0, tutaj mamy Mixture of Experts, taka architektura, która zamiast jednej dużej sieci neuronowej komunikuje ze sobą kilka mniejszych sieci neuronowych, dzięki czemu ten model ma być łatwiejszy w trenowaniu, łatwiejszy w aktualizowaniu, bardziej modularny, bo tak to trzeba rozumieć, może się składać z komponentów, które można bardziej podmieniać, o tym też Google pisze na swojej stronie, więc mamy i z jednej strony usprawnienia tego okna kontekstowego, nową architekturę, No i ta multimodalność, która w przypadku Google jest naprawdę dobrze oceniana, to trzeba podkreślić faktycznie. Osoby, które dostają dostęp do Gemini, przynajmniej z mojego feedu, jednoznacznie pozytywnie wypowiadają się o tym modelu, co nie jest wcale takie oczywiste, bo tak jak Ty wspomniałeś, jeszcze jakiś czas temu Google miało sporą wpadkę przy premierze tego samego Gemini i ich materiałów marketingowych i tam naprawdę dostali lekko po łapach za kolorowanie tego, jak przedstawiają ten model. A teraz jest dużo pozytywnych komentarzy, więc myślę, że o tę swoją pozycję walczą i ciekawe pojedynki przed nami. Zaraz pogadamy o OpenAI, żeby tak nie skakać po tej naszej agendzie, ale warto wspomnieć, że te wszystkie anonsmenty, te wszystkie ogłoszenia, o których wspominamy, działy się na przestrzeni jednego tygodnia. To nie jest tak, że my rozmawiamy o jakimś kwartale zmian, tylko rozmawiamy o 8 i 16 lutego, co też pokazuje jak ta branża pędzi do przodu Jak te wszystkie firmy ze sobą rywalizują na poziomie tygodni, a nie lat, jak to bywało w innych obszarach świata IT?
Marcin:
Szczerze mówiąc, nie zdziwiłbym się, gdybyśmy na tym filmie nieszczęsnym z grudnia widzieli Gemini 1.5 Ultra, a nie Gemini 1.0 Ultra, które trafiło do powszechnego użytku 8 lutego. No bo ciężko mi gdzieś uwierzyć, że to jest jakaś nowość. Najpewniej Google, jak to ma w zwyczaju, bezpiecznie wypuszcza już coś, co mają dobrze przetestowane przez Red Team podczas gdy testy tej wersji 1.5 jeszcze trwają i szukają. wszelkiego rodzaju problemów, no ale co nie zmienia faktu, że w przypadku tej wersji 1.0 i tak to wyszukiwanie problemów nie poszło im najlepiej, no bo teraz możemy przejść do tej kolejnej dużej wpadki, no czyli generowanie obrazów zgodne z ideologią woke, co odbiło się szerokim echem na Twitterze, bo gdy zadaliśmy prompta pokaż mi gdzieś tam portrety ojców założycieli Stanów Zjednoczonych, no to na otrzymanych zdjęciach George Washington był czarny, znalazł się również tam jakiś Indianin, Azjata z tego co kojarzę. Byli wszyscy ludzie w każdym możliwym kolorze skóry i płci, poza białymi mężczyznami, co gdzieś tam odbiło się szerokim echem i skutkowało tym, że obecnie to generowanie obrazów jest wyłączone.
Przemek:
Bardzo mi się podobała ta wiadomość, która pojawiła się na blogu Google, gdzie oni już robią incident management i opisują po prostu, że to generowanie obrazów jest wyłączone, bo oni tam piszą, że faktycznie te modele zostały skrojone, żeby nie proponować jednej persony dla danego zadania, na przykład piłkarze, koszykarze, XYZ, dziennikarze, no to mogą być różne płcie, różne narodowości, różne role, ale tam ktoś dochodzi do wniosku, że jeśli chodzi o wydarzenia historyczne, to dobrze byłoby nie wprowadzać takiego urozmaicenia. Podoba mi się to, że tam ktoś doszedł do takiego wniosku.
Marcin:
Tak, jest to właściwy wniosek. Ja jak najbardziej rozumiem intencje i to są dobre intencje.
Przemek:
Jasne, zgoda.
Marcin:
Prawda jest taka, że dane dostępne w internecie są zbajasowane w kierunku ludzi białych i też zazwyczaj są to biali mężczyźni. Oczywiście na poziomie tego typu algorytmów, które generują treści na podstawie danych, trzeba sobie z tym bajasem radzić. No tym niemniej są wyjątki, na przykład takie jak historia, gdzie ingerowanie już nie jest najlepszym pomysłem. I to też mnie trochę zastanawia, taki Google, który naprawdę w taki sposób uważny, minimalizujący ryzyko praktycznie do zera. nie zdawał sobie sprawy, że ich produkt ma taką wadę. No teraz pytanie, czy oni sobie nie zdawali sprawy, czy jednak ktoś podczas jakichś ostatecznych testów, kilku dyrektorów usiadło, zobaczyło czarnego George’a Washingtona i stwierdziła tak, tego nam trzeba w ogólnie dostępnym produkcji. Ja zastanawiam się, czy jakby oni zdawali sobie sprawę z tego problemu, czy to gdzieś tam jest wpadka pod tytułem testy na produkcji. Szczerze mówiąc, Chyba wolałbym, żeby to była wpadka pod tytułem testy na produkcji, bo jeżeli ktoś świadomie to puścił, sądząc, że to jest dobry pomysł, no to mimo świetnego talentu, który mamy w Google DeepMind, ciężko mi sobie wyobrazić, żeby organizacja zarządzana w taki sposób, kierowana przez takich ludzi, którzy nie są jednak w stanie stwierdzić, że tego typu pomysły to nie są dobre pomysły, będzie w stanie konkurować z OpenAI, które faktycznie gdzieś tam tych oczekiwań ideologicznych się trzyma, ale raczej starają się spełniać niezbędne minimum, a większość uwagi mimo wszystko poświęcają na innowacje i postęp, co zresztą widać, jeżeli chodzi o tempo iterowania nad produktami, więc Mam nadzieję, że to była po prostu nieświadoma wpadka podczas testów na produkcji, bo szkoda palić taki talent na tego typu zabiegi i wpadki marketingowe.
Przemek:
Ja sobie myślę, że to ani nie była wpadka, ani to nie było bardzo celowe. Jest taka anegdota, która mówi o tym jak czasami działa kultura firmowa, Ta anegdotka gdzieś tam mniej więcej sprowadza się do tego, że pływają sobie dwie rybki. Jedna mówi do drugiej, że słuchaj, chyba wodę wymienili dzisiaj w akwarium. No i ta druga się pyta, ale jaka woda? O czym ty w ogóle mówisz? Co to jest woda? W sensie, co to jest woda? To jest ta nasza codzienność. I teraz tak się zastanawiam, kiedy sobie o tym myślę, jakiej skali też jest firma Google, że oni po prostu to wszystko mamy traktować jak wodę, jako taką codzienność, na którą składa się właśnie kultura firmowa, lata profilowania tej organizacji i tam nie ma żadnej złej intencji, jakby tak po prostu to działa i wydaje mi się, że tam może nie być na przykład procesów, które wspomagają zgłaszanie feedbacku, nawet jeśli jakiś szeregowy pracownik zauważy te procesy i tak dalej, to on wie, że ma 12 poziomów drabinki korporacyjnej nad sobą i ktoś na pewnym poziomie stwierdzi, słuchaj, ale może nie warto, może wiesz, Może zostawmy to tak jak jest, nie wiem. Ja bym się skłaniał ku temu, że po prostu… Moja ocena jest taka, że raczej to zauważono, zidentyfikowano i zostawiono, bo stwierdzono, że to może być akceptowane.
Marcin:
Tego samego zdania jest David Saks, jak oni komentowali to w podcaście All In, to też był takiego zdania, tylko że on skwitował tą właśnie twoją obserwację jako dowód na totalną degenerację tej firmy i gdzieś tam początek jej upadku. Ja również raczej bym się skłaniał, że firma nie jest w stanie operować w całkowitym oderwaniu od rzeczywistości i tego jakimi rządzi się prawami, odcinając kupony od innowacji, która została zbudowana już prawie 30 lat temu przez założycieli. Bo to, że teraz jest w tej firmie ogrom pieniędzy i na wszystko można gdzieś tam kasę palić, ona się w końcu skończy i konkurencja nie śpi. Ja na miejscu Google gdzieś tam bym się bał o swoje dalsze losy, jeżeli chcą funkcjonować w taki sposób, bo to wszystko ma swoją cenę. Ale czas pokaże. Ja mimo wszystko cały czas trzymał kciuki, że to były testy na produkcji. Bo jeżeli ta organizacja jest dygerowana do tego stopnia, w jakim ty mówisz, że ktoś nie jest w stanie na wysokim szczeblu decyzyjnym stwierdzić, że George Washington w wersji czarnej to nie jest najlepsze co nasz produkt ma do zaoferowania, no to zresztą jak reakcja ogółu użytkowników internetu, gdzieś tam stwierdziła na Twitterze. Oni się teraz potem z tego wycofali, więc to też nie jest tak, że tego typu rzeczy można robić i nie obrywać gdzieś tam w oczach użytkowników, a potem w oczach pewnie i inwestorów. Ale czas w czas pokaże. Ja mimo wszystko cały czas trzymam kciuki, bo patrząc na takie postępy jak ten milionowy kontekst, naprawdę byłoby mi głupio, żeby to miało nie wyjść, bo ktoś tam po prostu pływa w bagnie od 10 lat i zapomniał co to jest czysta woda.
Przemek:
Żebyśmy byli gdzieś tam sprawiedliwi, żebyśmy oddali jak prawdziwi symetryści rzeczywistości to, co do niej należy, to trzeba przypomnieć, że OpenAI też wycofało w pewnym momencie przeglądanie internetu, web browsing. Oczywiście nie było takiej afery w związku z tym, natomiast widać, że to jest naprawdę praca taka on the edge technologii, czasami szybsza niż polityki i na to pozwalają, regulacje na to pozwalają. Ostatecznie to przeglądanie internetu powróciło, natomiast w skali Google’a też często podkreślamy, że Google naprawdę bardzo ostrożnie te usługi generatywnej sztucznej inteligencji wdraża, oznacza to eksperymentami, blogpostami, mówi, że to się wszystko będzie mylić, ale wydaje mi się, że wycofanie tak dużej usługi to jest naprawdę taki atomowy event, taki naprawdę duży event, gdzie tam z tego, co też czytamy, i Sundar Pichai się wypowiadał i cała masa egzekutów, są blogposty, które też są bardzo ciekawą lekcją jeśli chodzi o taki incident handling, gdzie można zobaczyć jak duża korporacja gdzieś tam tłumaczy takie decyzje, gdzie na końcu blog postów pojawia się informacja, że w zasadzie wiecie ta generatywna EA to się będzie mylić i jakby to jest wpisane w koszta. Myślę, że to jest duże wydarzenie w skali Googla. Pewnie za jakiś czas się dowiemy, co tam rzeczywiście się wydarzyło, ale lekcja z tego jest taka, że jednak kultura to… Nie da się kultury od outcomu zespołu oddzielić tak naprawdę. Jeśli zespół w coś wierzy, widzi, że świat powinien być taki, a nie inny, to prędzej czy później w produkcie to też zobaczymy.
Marcin:
Zgadzam się z tym co powiedziałeś na końcu, odbijam piłeczkę co do browsingu, bo to nie miało w ogóle podyktowane względami politycznymi bądź ideologicznymi tylko tym, że ta usługa się przebijała przez paywall i mogła prowadzić do masowych pozwów, więc to była decyzja czysto z rachunkiem kapitalistycznym, a nie ideologicznym. Myślę, że wpłynięcie na model, żeby z George’a Washingtona zrobił osobę czarnoskórą, to jest decyzja czysto polityczno-ideologiczna. Więc tutaj gdzieś tam widzę to odstępstwo i więcej życzę Google’owi decyzji opartych o rachunek kapitalistyczny, o czym już chyba trochę zapomnieli, mając tak obrzydliwą ilość pieniędzy z reklam. Ale też prawda jest taka, że z czasem te absurdalne przychody mogą spaść i może te osoby, które już nie odróżniają czystej wody od bagna z tej firmy odejdą albo ktoś im pomoże odejść i sytuacja poprawi. Dobra, żeby tutaj jakby nie bić tego konia do końca odcinka przejdźmy do OpenAI, które ma dla nas genialną innowację, która pojawiła się właśnie w lutym i pewnie większość z Was już o niej słyszała, mianowicie chodzi o model tekstu video OpenAI SORA, który robi niesamowite wrażenie. Tutaj w podcaście nie jesteśmy wam w stanie tego pokazać, ale wystarczy wejdziecie sobie na openai.comamana.sora no i tam są genialne pokazówki tego, co ten model tekstu video potrafi. No i potrafi znacznie więcej niż cokolwiek innego potrafiło w tej domenie, w tym zakresie. Są to firmy, które są fotorealistyczne tak naprawdę i naprawdę trzeba się dokładnie przyjrzeć, żeby cokolwiek wyłapać. To bardziej jest kwestia pojedynczych klatek, a nie czegoś, co widzimy na pierwszy rzut oka, że jest coś tutaj nie tak. Wysoka jakość, dbałość o fizykę, chociaż też jest ten słynny film z latającym krzesłem, które lata w sposób zabawny, ale mimo wszystko i tak wygląda to całkiem realistycznie. Bardziej jak latające krzesło niż jak bug jakiegoś tam renderowania w AI, więc naprawdę robi to niesamowite wrażenie. No i myślę Przemku, że to będzie też niesamowity postęp jeżeli chodzi o produkcję wideo, czy to do reklam, czy to do filmów. Co o tym sądzisz? Jak to może wpływać na naszą codzienność?
Przemek:
Ja powiem tak, dosłownie dzisiaj rano realizowaliśmy warsztaty dla jednego z naszych klientów, gdzie SORę prezentowaliśmy i naprawdę to za każdym razem robi na mnie tak duże wrażenie, że że ciężko mi po prostu pomyśleć jak ta branża będzie wyglądać. Ja oglądałem jednego z najpopularniejszych youtuberów technologicznych MKBHD, który komentuje to wprost. Cały rynek stocków, stock photos, stock videos po prostu przestaje istnieć w pewnym momencie, bo nawet jeśli te ujęcia np. z dronów, ujęcia panoramiczne, jakieś duże landscape’y mają pewne detale, które są nie do końca w porządku, to okiem naszej mamy, naszego taty, naszego wujka, naszej cioci, to naprawdę są fotorealistyczne ilustracje. Tam nikt się nie doszuka, kto nie siedzi na co dzień w technologii, nikt się nie doszuka tych artefaktów, które są powodowane przez sztuczną inteligencję. Oczywiście no z gwiazdką, nikt, to jest pewne uproszczenie. Kto wie, że np. sztuczna inteligencja nie radzi sobie w niektórych przypadkach właśnie z anatomią itd., to pewnie zauważy te problemy. Sora też ma tendencję do tego, że obiekty pojawiają się w nieprzewidywanych miejscach. Na przykład czerwone pandy zza drzewa wyskakują. Natomiast te duże plany, szerokie plany takie filmowe, tam gdzie nie ma jakby takiego jednego detalu, szczegółu, który sobie obserwujemy, ale dzieje się dużo, mamy jakieś wybrzeże, jakieś miasto i tak dalej. No to naprawdę wygląda jak gotowe wideo, które możesz pobrać i umieścić w swojej prezentacji, w filmie na YouTubie i tak dalej. I tam nikt nie zauważy, że to prawdopodobnie pochodzi z z takiego modelu. Myślę, że sam ten sposób wdrażania tej sory komunikowania, że w ogóle ta usługa nie jest jeszcze dostępna, natomiast ten Red Teaming i kilku partnerów tak naprawdę ma dostęp, pokazuje, że OpenAI ma nawet wątpliwości, czy i w jakiej formie to wypuścić. Wiadomo, jaki rok przed nami w Stanach Zjednoczonych, wiadomo, że problem deepfake’ów istnieje, no i wyobraźmy sobie teraz takie narzędzie, które jest w stanie generować, nie wiem, realistyczne przemowy polityków na przykład, albo Jakieś, nie wiem, ujęcia z jakichś zamieszek w mieście i tak dalej i tak dalej. Tak naprawdę kreatywność tylko jest jakimś tam przeciwnikiem. Myślę, że to jest mega… Trudno mi to określić. Robi to na mnie bardzo duże wrażenie. Myślę, że robi to o wiele większe wrażenie niż treści tekstowe, które już robiły wrażenie. Natomiast jak się ogląda wideo, które wygląda tak jak wygląda, można sobie zaprojektować ujęcie z drona, landscape, jakiś średni, bliski plan itd. To ja jeszcze szczękę z podłogi zbieram.
Marcin:
Myślę, że to świetnie opisałeś, bo ja jestem podekscytowany na podobnym poziomie. Zostało tylko czekać na udostępnienie tego modelu do szerszej publiczności. Jestem ciekaw, czy się go doczekamy właśnie przed wyborami prezydenckimi w Stanach Zjednoczonych. Nie zdziwiłbym się, gdyby oni to do powszechnego użytku wypuścili dopiero po wyborach. Chociaż prawda jest taka… Znaczy nie, no dadzą sobie więcej czasu na zabezpieczenie tego modelu. no bo mimo wszystko kilka miesięcy, a 4 lata to jest zasadnicza różnica jeżeli chodzi o zabezpieczanie tych podstawowych wpadek, które zawsze gdzieś tam na większą lub mniejszą skalę przemkną. Oprócz tego Mamy również update pricingu OpenAI i tak jak wcześniej operowaliśmy w ramach tego pricingu na miarze 1000 tokenów, to był taki standard, to teraz pojawiła się wartość już liczona w milionach, więc jest to ciekawe i trochę wskazuje na to, że GPT bardzo możliwe, że niedługo również na takich wartościach liczonych w grubych setkach tysięcy, jak nie milionach, będzie operowało jeżeli chodzi o okno kontekstowe. Zwykle OpenAI, jak tylko Google wyskoczy z czymś ciekawym i nowym, bardzo szybko odpowiada. Więc bardzo możliwe, że kolejna odpowiedź nadchodzi. Minęły już aż dwa tygodnie od informacji o Gemini Dive 1.5. Jeszcze odpowiedzi oficjalnej nie ma, ale bardzo możliwe, że w kolejnym odcinku już taka odpowiedź będzie, więc zachęcamy do subskrypcji. tego podcastu, żeby tej odpowiedzi i naszego komentarza do niej nie przegapić. Zobaczymy. Tym niemniej możliwe, że przychodzimy do ery milionowych okien kontekstowych, co nam znacznie poszerzy use case’y tego typu rozwiązań. Przepraszam, jak wypisałeś dwa ciekawe deal’e, jakie OpenAI zawarło z klientami Enterprise. Czy jesteś w stanie nam je szybko opisać?
Przemek:
Pierwszy z nich jest dzisiaj pokrótce też opisany w naszym przeprogramowanym newsletterze. To jest case study szwedzkiego fintechu Klarna, który jakiś czas temu integrował się z API OpenAI i dosłownie wczoraj albo przedwczoraj, czyli końcem lutego jak nagrywamy ten podcast, ogłosił efekty tej integracji. Klarna to jest fintech, który oferuje usługi odroczonej płatności. Przy całej tej domenie finansów na pewno ma spory narzut supportowy, tzn. osoby występują o jakieś zwroty pieniędzy, roszczenia, czemu pieniądze z karty mi zniknęły, czemu się pojawiły itd. No i Klarna wspomina, że chatbot, który jest oparty o sztuczną inteligencję, o usługi OpenAI, realizuje teraz pracę 700 support agentów. Jest to naprawdę taki wynik, który robi wrażenie. Tutaj z maczku do całej tej historii dodaję fakt, że Klarna jeszcze niedawno dostawała po łapach po dwóch dużych rundach layoffów przygotowując się do IPO. No i mamy teraz taki timeline, dwie rundy zwolnień, integracja z OpenAI i announcement, że Chatbot robi robotę 700 pracowników supportu, a na horyzoncie przed nami jeszcze wyjście na giełdę. Są różne komentarze, widziałem naprawdę komentarze, które jednoznacznie wskazują, że jest świetnie, widziałem komentarze, że gdzieś tam wymsknęła im się ta komunikacja trochę z rąk, że te fakty się jakby za bardzo składają względem siebie, żeby tutaj nie doszukiwać jakichś przypadków. Na jednej ze stron zauważyłem komentarz samej Klarny, która mówi, że zupełnie nie miało to nic wspólnego z layoffami, jest to jakby odrębny projekt, odrębny program, natomiast oni te informacje wrzucili, żeby budować taką świadomość tej rewolucji, która się na naszych oczach dzieje. Oni po prostu mówią, słuchajcie, to AI, czy w to wierzycie czy nie, zmienia naszą pracę, zmienia rynek pracy, zmienia to, jak obsługujemy case’y supportowe. My tutaj dajemy taką historię, te szczegóły też są w naszym newsletterze, są na stronie Fast Company wypisane i tyle. Wnioski należą do Was, więc robi to naprawdę duże wrażenie. Oni też wspominają, że oczywiście te chatboty pracują 24 na 7 chyba w ponad 20 regionach, 35 języków o ile dobrze pamiętam i oceny jakości tej komunikacji są na porównywalnym poziomie względem ludzi, względem support agentów po prostu z krwi i kości. No i kurczę, myślę, że to nie jest jedyny przykład na nadchodzące miesiące takich integracji. Co ty Marcin o tym sądzisz? Czy na tobie to robi wrażenie? Czy tego się spodziewałeś? Czy tak po prostu już jesteś człowiekiem ze środka i tak wzruszasz ramionami, że tak to po prostu będzie?
Marcin:
Robi to na mnie wrażenie, bo to, że ludzie budują integrację to jedno, a to, że jakaś integracja działa na produkcji i osiąga wyniki podobne do ludzi, to jest jeden z pierwszych takich dużych success case’ów, o których słyszymy. Trochę moje zaufanie do tych opinii, do tych informacji jest niższe przez to, że firma się przygotowuje do IPO i próbuje gdzieś tam odzyskać reputację po tych rundach layoffów. Ja gdzieś tam ostatnio śledziłem za pośrednictwem książki historię firmy WeWork, więc wiem, że CEO są w stanie zrobić naprawdę dużo, żeby opowiedzieć o wielkim nadchodzącym sukcesie swojej firmy i o tym, jak ona sobie dobrze radzi z przeciwnościami, mimo że rzeczywistość wygląda z goła inaczej. Więc czas pokaże, ale na pewno jest to imponujący claim. i gdzieś tam też potwierdzenie tych intuicji, że właśnie w obsłudze klienta ta generatywna sztuczna inteligencja, te duże modele językowe będą sobie radziły naprawdę dobrze. Myślę, że jest to też nie do końca korzystna informacja dla osób, które się taką pracą właśnie zajmuje, ale nie da się ukryć, że to są zajęcia jedne z najbardziej zagrożonych, wydaje mi się. obecną sztuczną inteligencją, taka jaka ona jest, a nie taka jaka ona może być kiedyś może. Więc no nic, zobaczymy jak Klarna będzie sobie radziła w nadchodzących miesiącach, czy cały czas będzie się chwaliła tą integracją, tym chatbotem. Jeżeli tak, to będzie to dowód, że to nie jest tylko marketing przed wyjściem na giełdę, tylko projekt, który faktycznie działa. A jak to wygląda z tym drugim dinem, Przemek?
Przemek:
Drugi bardzo szybki update dotyczy firmy Figure.ai, która zajmuje się budową humanoidalnych robotów, które w pewnym sensie odpowiadają na to, o czym ty powiedziałeś, czyli gdzie ta sztuczna inteligencja ma być, a nie gdzie jest dzisiaj. Ma być w tym świecie rzeczywistym, namacalnym. Firma Figure.ai proponuje alternatywę do tego, co jakiś czas temu wypuściła Tesla do swojego Optimusa i alternatywę do tego, czym od dłuższego czasu zajmuje się firma Boston Dynamics, która też te swoje roboty i wdraża w przemyśle i jest o nich głośno i pokazuje jak tańczą i tak dalej i tak dalej. Tutaj mamy inwestycje od pana Jeffa Bezosa, od NVIDII i właśnie od wspomnianego Open AFT firmy Figure AI. Mamy tutaj waluację na poziomie, jeśli dobrze widzę 2,6 miliarda dolarów, a ta runda inwestycyjna wynosiła 675 milionów dolarów. Wnioski są takie, że AI do świata rzeczywistego też prędzej czy później ma wejść i duzi gracze na to liczą, więc firmy pompują tę kasę w start-upy, które te roboty produkują. Myślę, że Tesla też w tym roku kolejną iteracją Optimusa się pochwali, bo Storm Dynamics też te update’y regularnie robi. To jest Marcin też twój case, o którym ty opowiadałeś na jednym z naszych wystąpień, że jednak zintegrowanie AI z tym światem rzeczywistym to wbrew pozorom jest trudne, a nie łatwe. Do tego też się nauczyliśmy jako branża.
Marcin:
Zdecydowanie mamy ten paradoks Moraveca, czyli te czynności, które są proste dla ludzi, okazują się trudne dla sztucznej inteligencji i na odwrót. Trzymamy kciuki, bo to na pewno byłaby możliwość znacznego podniesienia produktywności. całości gatunku ludzkiego, jeszcze biorąc pod uwagę, że mamy starzujące się społeczeństwo, to ktoś będzie musiał te ciężkie paczki pudła podnosić za lat 30, 40, 50. Więc w robotach cała nadzieja, bo inaczej może być ciężko z tą naszą gospodarką. Myślę, że zwłaszcza kraje takie jak Korea Południowa albo Japonia trzyma kciuki za jak najszybsze postępy w tego typu obszarach, ale w Polsce również pewnie będziemy tego typu rozwiązań potrzebowali już niedługo na coraz większą skalę. Jeszcze na koniec w temacie OpenAI, a tak naprawdę to jest około OpenAI, trafiłem na bardzo ciekawą analizę, tak naprawdę prognozy na dość poczytnym, pewnie znanym części naszych słuchaczy blogu SlateStarCodex, który prowadzi Scott Alexander. I on dokonał tam prognoz ile będą kosztowały kolejne wersje GPT na podstawie tego ile kosztowały te wersje poprzednie. No i znalazł taką ciekawą prawidłowość, że te kolejne iteracje kosztują od 25 do 100 razy więcej niż poprzednia wersja. Jeżeli chodzi o GPT-3 to mieliśmy koszt około 4 milionów. Jeżeli chodzi o GPT-4, to te informacje nie są do końca jawne, ale przecieki wskazują na około 100 milionów dolarów. Zgodnie z tą prawidłowością, GPT-5 będzie kosztowało OpenAI sam proces treningu około miliarda dolarów. co ogólnie jak najbardziej jest od miliarda do 2,5 miliarda, co jakby się pokrywa też z sumą jaką OpenAI dostało od Microsoftu, te 8-10 miliardów. Jeżeli mieliby jedną czwartą tej kwoty przeznaczyć na trenowanie GPT-5, to nie byłoby to specjalnie dziwne. Ale co ciekawe, jeżeli pójdziemy z tymi wyliczeniami dalej, no to okazuje się, że GPT-6 może już kosztować około 75 miliardów dolarów, no cóż jest sumą absurdalną tak naprawdę, w sensie to są prawie dwa twittery, znaczy ich wartość rynkowa w momencie, kiedy Elon Musk przepłacał na tą firmę dwukrotnie względem jej obecnej wartości. No ale to jeszcze da się objąć rozumem 75 miliardów, ale jeżeli pójdziemy do kolejnej generacji GPT-7, no to wychodzą 2 biliony dolarów, po angielsku 2 triliony dolarów, no czyli wartość całego gdzieś tam Apple’a, no prawie całego Apple’a, Microsoft’u i tego typu największych firm na świecie, więc no absurdalne ilości pieniędzy No i teraz pytanie czy to AGI to już tak faktycznie jutro albo pojutrze bo może trochę kasy na to nie starczyć albo to się może najwyczajniej w świecie nie opłacać no bo taki koszt i to przy tym GPT-7 to już pewnie byłby potrzebny serwer, znaczy serwerownia wielkości Krakowa albo i większa, podłączona do jakiejś wyspecjalizowanej elektrowni i mająca moc obliczeniową pewnie blisko wszystkiego, co obecnie mamy do dyspozycji, jeżeli chodzi o moc obliczeniową na świecie. Czy to się będzie w ogóle opłacać? Czy to w ogóle będzie do zbudowania? Kto wie tak naprawdę, ale nie spodziewałbym się GPT-7 przed rokiem 2030, jeżeli w ogóle to jest projekt, gdzieś tam odrośnie to już skala do projektu na miarę CPK, które gdzieś tam państwo polskie jest dużo tańsze, bo CPK jest wyceniane na około 100 miliardów dolarów. No więc gdzieś tam tak naprawdę ułamek tej sumy, którą może kosztować GPT-7, jeżeli będzie taka sama prawidłowość co do skalowania, jeżeli to skalowanie będzie Gdzieś tam liniowy, tak jak jest mniej więcej do tej pory. No więc gdzieś tam Andrzej Dragan może być rozczarowany, że mimo swoich przewidywań, że to AGI już teraz zaraz, no to gdzieś tam to będzie możliwe jak najbardziej, ale ekonomicznie trudne do zrealizowania najwyższej w świecie. Bardzo ciekawa analiza. Polecam ogólnie blog Slate Star Codex. Scott Aleksandra, on tam dużo tematykę AI ostatnio porusza. Czy Przemek, masz tutaj jakiś komentarz?
Przemek:
Z jednej strony mam zawsze pewnego rodzaju wątpliwości jak słyszę takie wyliczenia, prognozy, szacunki. Ja również. Pick your favorite word. Wiem, tylko chodzi mi o to, że jeśli ktoś na przykład Nie znam autora, tak naprawdę nie śledzę tego bloga, muszę z ręką na sercu przyznać. Kto kiedykolwiek właśnie programował albo budował systemy, to wie, że architektura ma ogromny wpływ na to, jak wyglądają koszta i to nie jest tak, że architekturę zawsze ciągniemy w tym samym kierunku. OpenAI też mówi o tym, czy pojawiają się takie przecieki, Ta architektura w pewnym sensie już dochodzi do ściany. Te ograniczenia tego czym są transformery, jak one działają, ilu danych wymagają, jak dużo narzutu takiego wydajnościowego wymaga proces treningowy powoduje, że tam są poszukiwane inne podejścia do budowania dużych modeli językowych. Ale fakt jest taki, że jak chcemy pewnie potężne modele to trzeba mieć dużo danych, danych też syntetycznych, które są generowane sztucznie i przechowywane gdzieś tam na skutek działania innych modeli językowych. Więc gdzieś tam ta prawda będzie. Gdzie ona tam będzie to jest osobne pytanie. W każdym razie Wątpię, gdybym ja miał ocenie odstawiać na coś pieniądze. Wątpię, że np. z GPT 6 i 7 zobaczymy dokładnie tę samą tylko przeskalowaną architekturę co w GPT 4. Nie wiem, ale są głosy mówiące o tym, że tam będą zmiany. A druga rzecz taka już czysta z punktu widzenia Zajawkowicza, no to wiesz Marcin na pewno jak to wygląda jak czasami słyszymy o tym jak działa np. przemysł zbrojeniowy. i taka codzienna rzeczywistość szarego Janka Kowalskiego. No tam w przemyśle zbrojeniowym np. mamy DARPE w Stanach Zjednoczonych, duże centra badawcze, no to ta technologia mówi się, że jest tak 15-20 lat do przodu względem tego o czym my wiemy. Tak GPS powstawał i tak powstawały inne technologie, napędy do rakiet itd. Zastanawiam się jak to tutaj wygląda. Czy to nie jest tak, że jest wiesz, ta nasza rzeczywistość jest jakaś tam alternatywna rzeczywistość, gdzie np. pojawia się ostatnio ta informacja O której też mówiliśmy, że np. Microsoft szuka specjalistów od właśnie energii jądrowej. I to też było na nagłówkach. Do czego Microsoft szuka ludzi, którzy znają się na elektrowniach atomowych? Te rzeczy w pewnym sensie się składają.
Marcin:
Tutaj zresztą Scott Alexander w swoich szacunkach zauważył, że właśnie GPT-6 już bardzo możliwe, że będzie potrzebowało reaktora jędrowego, bo to już będzie tak duża serwerownia potrzebna, żeby tą technologię utrzymać. Więc kto wie, czy nie chcą po prostu takiej elektrowni budować, no bo pewnie takie elektrociepłownie klasyczne nie będą w stanie sobie poradzić z takim zapotrzebowaniem na energię. Czas pokaże, tym niemniej to jest kosmos. Szykują się wielkie projekty, które w przeszłości realizowały państwa. Zobaczymy, czy korporacje będą w stanie taki ciężar unieść, czy to w ogóle jest możliwe. Kto wie, czy po GPT-5 nie będziemy mieli jakiejś dłuższej przerwy w oczekiwaniu na nowe generacje, bo już ten próg kolejnej generacji właśnie modeli będzie wymagał niesamowitego narzutu kapitału, albo niesamowitych postępów, które gdzieś tam znacznie te koszta zredukują i zapotrzebowanie na energię właśnie. No czas, czas pokaże. Kto wie, może będzie zima po GPT-6, bo właśnie dojdziemy, czy tam GPT-5, bo dojdziemy do jakichś granic tego skalowania i będzie potrzeba znowu trochę lat, aż będzie coś na miarę Transformerów, jeżeli chodzi o skalę postępu. Czas pokaże, tym niemniej to jest kolejny dowód na to, że osoby, które się spodziewają AGI za rok albo dwa, mogą być trochę rozczarowane, bo to nie jest takie proste. Dobra, teraz mamy jeszcze kilka takich szybkich newsów. Mamy kilka szybkich newsów. Może Przemek zacznie od pierwszego, czyli co tam się dzieje w filmie Mistral, którą znamy i lubimy.
Przemek:
W zasadzie myślałem, że kącik brukselski wprowadzisz, natomiast co się dzieje w firmie Mistral? Czym właściwie jest firma Mistral? To możecie sprawdzić w poprzednich odcinkach naszego podcastu. Firma, mały startup zajmujący się też pracą nad generacją sztuczną inteligencją z Francji. To jest taki nasz europejski rodzynek, który tam tak naprawdę stara się doganiać tych gigantów z Doliny Krzemowej. Mistral niedawno poinformował, że wydaje model Mistral Large, który gdzieś tam zbliża się swoim potencjałem do GPT-4. Natomiast jak sobie właśnie przygotowywaliśmy notatki, to stwierdziliśmy, że całą specyfikację tego modelu macie na stronie, a my chcielibyśmy zauważyć, że na Mistralach kolejny raz, czy na dużą firmę, na ciekawą firmę w tym świecie generatywnego AI, Rękę kładzie Microsoft. Microsoft to zrobił z GitHubem, Microsoft to zrobił z OpenAI, Microsoft to robi teraz z Mistralem i to są takie ruchy strategiczne, gdzie Pan Satya nadal wyrasta naprawdę na szefa szefów. Jak porówna się jego działania, jego ruchy z innymi CEO, z tych Big Techów, z największych korporacji, to wydaje się, że Microsoft jest tam, gdzie naprawdę się dzieje, dzieje się i Mistral tutaj ogłasza nie tylko właśnie, że będzie w pełni teraz korzystał z infrastruktury Azure, to co też Marcin wcześniej zauważył jak rozmawialiśmy, Mistral też nie do końca pozostaje przy tej misji tworzenia modeli otwartych, bo Mistral Large jest takim modelem, który ma działać troszkę inaczej, ma być publikowany w innej formie, więc mamy tutaj pewne ruchy, mamy tutaj strategiczne ruchy ze strony Microsoftu, no i pytanie, czy ten europejski rodzinek, którego tak chwalimy przecież w tych naszych odcinkach, nie stanie się częścią jakiegoś większego kompleksu za jakiś czas.
Marcin:
Widać, że tu wchodzi ten rachunek kapitalistyczny właśnie do firmy Mistra, która pewnie zaczyna liczyć pieniądze i już też najwyczajniej w świecie, tak samo jak OpenAI w tej formacie takim non-profit, skoncentrowanym na badaniach, już przestaje być w stanie trenować kolejne modele i może właśnie już się pojawiła potrzeba jakiegoś dużego brata, jakiegoś Microsoftu, który będzie zapewnia infrastrukturę i pieniądze na dalsze postępy. Na to wszystko niestety, bądź stety wskazuje. Jeżeli nadal będą pojawiały się gdzieś tam przy okazji modele open source takie jak Mixtal, no to będzie super. Chciałbym po prostu, żeby ta firma cały czas dbała o deweloperów tak jak robiła w przyszłości, a to, że musi zarabiać pieniądze, no to dla mnie jest zupełnie Oczywiście warto wspomnieć, że oprócz samego MrLarge pojawi się usługa LeChat, która będzie francuskim odpowiednikiem ChataGPT oparta właśnie o model MrLarge. Poza wzrosić Francuzom, że mają taki startup. Póki co to musi być Duma całej Europy. Może wejdzie teraz ten kącik Brukserski, bo się zapowiada, że może już więcej tych powodów do Dumy. Ostatni raz mówiliśmy o EIA Act w grudniu, kiedy się pojawiły informacje, że doszło do politycznego porozumienia co do treści tego tekstu i w lutym 27 ambasadorów, które państwa członkowskie wyznaczyły dyskusji, debat na temat tego projektu ustawy. Wydali ostateczną zgodę, ostatecznie zatwierdzili ten projekt ustawy, który teraz trafi do Parlamentu Europejskiego, gdzie zostanie już oficjalnie przegłosowany. i następnie będzie ten wieloetapowy proces wprowadzania go w życie. Jak ten proces wygląda? Po krótce Wam opowiem, jak oni to przegłosują. Ustawa ma wakacje o legis 20 dni zanim wejdzie w życie, ale ona nie będzie wdrożona w całości od razu. Poszczególne jej Części, sekcje będą wprowadzane stopniowo. Pierwszą sześciomiesięczną karencją będą wprowadzone te wszystkie zakazy związane z wykorzystywaniem sztucznej inteligencji do bioidentyfikacji i tak dalej, więc jakby ta najfajniejsza część ustawy w życie wejdzie najszybciej. Potem rok od przegłosowania firmy, które oferują Foundations Models, czyli takie jak OpenAI, Microsoft jak Google właśnie będą miały rok, żeby dostosować te swoje modele takie jak GPT-4, jak Gemini Ultra do wymagań Unii Europejskiej. Czy to się w ogóle stanie? Czy to w ogóle jest możliwe? Do tego dowiemy się w 2025 roku. Czas pokaże, a reszta przepisów tych mniej istotnych z punktu widzenia wszelkiego rodzaju… Dobra, odpuszczę sobie tutaj zgryźliwe komentarze wobec biurokratów w Brukseli.
Przemek:
To jest kącik brukselski Marcin, możesz tu robić co chcesz po prostu.
Marcin:
Wystarczającą ilość wiadr pobyt dla tych ludzi wylały, więc już dał sobie spokój. Tym niemniej reszta tych gdzieś tam mniej istotnych politycznie i korupcyjnie przepisów wejdzie w życie po dwóch latach. Więc taki gdzieś tam mamy ten timeline. Pół roku na te zakazy, żeby się wycofać z tych niedozwolonych już stosowań AI. Rok na dostosowanie modeli do wymagań Unii. a reszta przepisów po dwóch latach, czyli w 2026. Jak to gdzieś tam skwitował lider całej inicjatywy, pan Thierry Brenton. EU means AI, czyli Unia Europejska znaczy AI. Ile w tym prawdy i czy to był najbardziej głupi tweet w historii tego portalu? Czas pokaże, ale coś czuję, że w topce na pewno się znajdzie. Jak można gdzieś tam identyfikować, łączyć ten dokument z byciem gdzieś tam synonimem AI, no to ciężko mi sobie wyobrazić. Coś czuję, że koledzy ze Stanów i z Chin śmieją się z nas po prostu aż do rozpuku. Trochę mi przykro, no ale co zrobić. Nie wybraliśmy, gdzie żyjemy. Trzeba sobie radzić.
Przemek:
Dobra, więc żeby nie było Marcin, że tutaj kojarzysz się słuchaczom podcastu jednoznacznie z kącikiem brukselskim, to prosiłbym Cię też o jakąś porcję bardziej pozytywnych informacji, może takich bardziej inżynierskich związanych z wytwarzaniem oprogramowania. Mówimy cały czas o dużych firmach, więc pogadajmy jeszcze o mecie, która usprawnia swój proces testowania kodu. Co na ten temat możesz powiedzieć?
Marcin:
Meta pochwaliła się w ramach publikacji naukowej, że wdrożyli na produkcję takie rozwiązanie, które nazywa się TestGen LLM. To tak naprawdę jest rozwiązanie, które łączy kilka modeli językowych, gdzieś tam wytrenowanych na kodzie mety i to rozwiązanie zajmuje się ulepszaniem istniejących testów jednostkowych i na ich podstawie dodawaniu nowych testów i ewentualnie wskazywaniu wykrytych błędów w kodzie na podstawie tego, że te testy nowe failują, bądź te rozbudowane testy nie przechodzą. I co jest ważne, oni dbali o to, żeby to nie było zgadywanie, coś co raczej działa, tylko żeby to było dobrze zweryfikowane, że te testy są na miejscu, wnoszą wartość i żeby jedyne co trzeba było zrobić, to kliknąć OK w ramach PR, jeżeli chcemy wyjść z kodem na produkcję, to ten testgen wchodzi do gry. dodaje nam te testy i programista tylko musi powiedzieć tak, że z tymi testami jest wszystko w porządku i tam jest specjalny mechanizm weryfikowania, że ten test to faktycznie jest dobry test i że on wniesie wartość, a nie będzie sprawiał problemów. Do tego właśnie korzystają z takiego łańcucha ELM-ów. Jedne generują, reszta weryfikuje, też potem wybierają najlepszy możliwy rezultat. Wygląda to bardzo ciekawie. No i pokazuje, gdzie można się doszukiwać takich zautomatyzowanych, masowych zastosowań LLM-ów, jeżeli chodzi o programowanie. Właśnie generowanie testów i Code Review to są dwa takie obszary, w których najbardziej widać potencjał. To oczywiście nie jest tak duży postęp, jeżeli chodzi o produktywność, jak generowanie niebanalnych fragmentów kodu, z którymi wszelkiego rodzaju kopailoty i elementy cały czas nie radzą sobie jakoś wybitnie. Jeżeli chodzi o proste fragmenty, to tutaj jak najbardziej możemy z nich korzystać, ale jeżeli chodzi o złożone fragmenty operujące na kontekście całego projektu, korzystające z różnych plików, no to tutaj tego jeszcze po prostu nie ma i też się, znaczy może i się zapowiada z takimi rozwiązaniami jak Gemini 1.5, gdzie ten kontekst będzie miał milion i będziemy mogli naprawdę cały projekt albo z naszą część projektu do tego rozwiązania załadować, ale póki co takich możliwości nie mamy. Te okna kontekstowe są znacznie mniejsze. No i przy takim ograniczonym kontekście, gdzie nie jesteśmy w stanie rozumieć całego kodu albo jej znacznej ilości, to właśnie generowanie testów bądź generowanie code review do określonego fragmentu, do określonej klasy, no to to jest coś, gdzie meta widzi najlepsze stosowanie DLLM-ów. No i takie rozwiązanie jak TestGen ELM fajnie pokazuje, że coś takiego może działać, bo to jest coś, co już faktycznie tysiące inżynierów w mecie codziennie wykorzystuje podczas swojej pracy na produkcji. I w tym paperze fajnie widać, że naprawdę jest wysoka skuteczność, jeżeli chodzi o akceptację tego, co to rozwiązanie oferuje i też ile ono jest w stanie wykryć błędów. Obiecujące może się doczekamy takiej usługi tylko w jakiejś formie płatnej tak jak GitHub CoPilot, kto wie. Tym niemniej widzimy raz jeszcze, że te LLM-y to nie jest tylko zabawka, ale coś co można w poważnych filmach wdrażać i stosować.
Przemek:
Wspomniałeś o Copilote, także ja myślę, że też warto byłoby to przytoczyć jeden z blogpostów, który właśnie zespół odpowiedzialny za Copilota jakiś czas temu opublikował, gdzie oni właśnie poruszali temat akceptacji tego outputu z LLM-ów przez ludzi, przez programistów. No i tam Copilot bardzo mocno uwagę zwraca na to, że wszystko zależy od kontekstu, w jakim prezentujemy te sugestie. Jeśli np. budujemy integrację, gdzie AI zastępuje człowieka, to ludzie są, powiedzmy sobie tak, najeżeni jak widzą te komentarze, jak widzą te fragmenty kodu wygenerowane przez AI itd. z jednej strony wiedzą, że to nie jest idealne, a z drugiej strony słyszą, że to ma ich zastąpić. Natomiast kiedy Copilot i GitHub zrobił taki eksperyment, gdzie można było sobie testowo wypełnić description pull requestu, ale przy ostatecznej ocenie człowieka, to okazało się, że wszyscy w GitHubie są praktycznie zachwyceni tym, jak LLM-y te opinie generują, to podsumowanie projektów. I oni tam bardzo mocno zwracają uwagę na to, że nawet jak masz ten sam feature i ten sam model językowy, to ogromnie mocno na jego odbiór wpływa to, jak ty po prostu temu człowiekowi na końcu, który z tego ma korzystać, to przyniesiesz pod nos. Czy w takiej formie bardzo ofensywnej, że słuchaj, to cię ma zastąpić i tylko ty mi powiesz, czy to już jest gotowe, czy nie. Czy w takiej formie raczej defensywnej, gdzie powiesz, słuchaj, to jest taki tekst, AI go wygenerowało, my wiemy, że to nie jest idealne i spróbuj coś z tym zrobić. Właśnie GitHub mówi, że przy identycznym tekście opinie są skrajnie różne. W tym podejściu ofensywnym bardzo dużo wątpliwości i wręcz wycofywanie feature’a, przy tym podejściu defensywnym akceptacja i pozytywny odbiór. Myślę, że w przypadku tutaj testowania, w przypadku wszystkich takich historii to może wyglądać podobnie. Ten UX jest naprawdę kluczowy, że jakby technologia i model to jest jedna sprawa, ale to jak my tam użytkownikowi to podsuniemy to jest drugi aspekt.
Marcin:
No zdecydowanie to human in the loop jest niesamowicie istotne zarówno z punktu widzenia percepcji samego użytkownika jak i samego bezpieczeństwa stosowania tego typu usług, bo one jak wiemy cały czas nie są bezbłędne. i wydaje mi się, że zostawianie ich samym w sobie obecnie jest po prostu nierozsądne nawet z punktu widzenia biznesowego. Był też ten case, zresztą chyba też się właśnie wydarzył w lutym, gdzie firma Air Canada wpięła bota w swoją stronę, który wprowadził w błąd klienta, no i potem w sądzie się okazało, że musieli wypłacić odszkodowanie i ponieść odpowiedzialność za to, że ten bot zaczął konfabulować, więc no tutaj Myślę, że to też firma kradna się gdzieś tam okaże, czy ich wdrożenie bota, który zastąpił 700 osób nie będzie miało ze sobą jakichś konsekwencji prawnych w przypadku jakichś wpadek. No trzymam kciuki, że nie. Tym niemniej ja również jestem póki co fanem tego podejścia, że ten approve proces, ten final sign off powinien być ze strony człowieka. zanim coś do użytkownika trafi. Na podstawie mojego doświadczenia te modele jeszcze po prostu nie są gotowe, żeby je zostawić samemu sobie. Nawet w takiej formie konwersacji, a co dopiero w formie jakichś tam agentów, którzy jeszcze mają podejmować działania i decyzje. No dobra, myślę, że tyle zostało. Przemku, zwykle ja tutaj oferuję naszym słuchaczom chamskie reklamy. No to może teraz na koniec ty przypomnisz o dwóch rzeczach, o których warto pamiętać.
Przemek:
Dajcie znać, co myślicie o tym odcinku. Spotify czy inne wszystkie platformy, na których słuchacie tej rozmowy dają Wam możliwość zgłaszania feedbacku. Nie ukrywamy, że proponujemy 5 gwiazdek albo album Maxa, którego możecie przekazać do algorytmów. Te algorytmy będą przedstawiać ten podcast szerszemu gronu odbiorców. Od razu za to dziękujemy, bo widzimy, że podcast z każdym miesiącem gdzieś tam zyskuje większe grono słuchaczy. Jeśli możecie zostawić feedback, odpowiedzieć w ankiecie, która również pojawia się pod tym odcinkiem, to będziemy za to bardzo wdzięczni. Druga rzecz jest już mniej naturalna, bo dotyczy naszego newslettera o Panu.ai, na którego możecie się zapisać, ale myślę, że tam jest sporo wartości. Tak jak Marcin powiedział na otwarcie tego odcinka, co poniedziałek trzy wartościowe materiały, podsumowanie takiego tygodnia. ze świata sztucznej inteligencji, taka tygodniówka. Wszyscy, którzy subskrybują, wiedzą, że wyszło Gemina 1.5, wiedzą, że wyszła Sora, wiedzą, że Mistral również wychodzi z nowym modelem, więc co tydzień taki update od nas. No i oczywiście, jeśli chcecie pogłębić tę wiedzę, jeśli chcecie zobaczyć, jak pracuje się z tymi usługami na co dzień, integrować je z waszymi prywatnymi procesami, no to zachęcamy do konsultacji, które możecie schedulować na OpenAI, możemy porozmawiać o warsztatach, które razem z Marcinem prowadzimy. Dzisiaj właśnie w pierwszej połowie dnia też takie warsztaty prowadziliśmy dla jednego z naszych klientów. Przyznam szczerze, że feedback był pozytywny, ale to nie jest jakby tania reklama. To są wyniki z ankiety, którą udostępniamy na koniec tych warsztatów. Więc jeśli chcecie się o tym przekonać, to też dawajcie znać. W tym odcinku to wszystko. Czekamy na każdy feedback. Dzięki za to, że jesteście. Dzięki, że nas słuchacie. Do następnego. Cześć.
Newsletter Opanuj AI
Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji
- W każdy poniedziałek
- Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
- Tylko najlepsze materiały
- Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.