Podcast Opanuj.AI

Bądź zawsze na bieżąco

31 maja 2024

Głos znanej aktorki w GPT-4o?! Burzliwa droga do GPT-5 | Maj 2024

Słuchaj na twojej ulubionej platformie

Transkrypcja odcinka

Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki

Marcin

Cześć, witajcie w kolejnym odcinku podcastu Opanuj.ai. Przygotowaliśmy dla was kolejne podsumowanie miesiąca, tym razem maja, a był to niesamowicie intensywny miesiąc w świecie sztucznej inteligencji. Tak wiele się chyba nie działo od początku tego podcastu. Tak więc jest szansa, jest też ryzyko, zależy jak na to spojrzeć, że ten odcinek będzie trochę dłuższy niż poprzednie. Zobaczymy jak to wyjdzie w praktyce, sam jestem ciekawy. Na wstępie, ja nazywam się Marcin Czarkowski, jest ze mną Przemek Smyrdek, cześć. I dzisiaj będziemy dla was prezentowali news ze świata sztucznej inteligencji. Będzie o OpenAI, będzie o Google, będzie o Antropiku, no czyli tak naprawdę wielkiej trójcy ostatnich miesięcy, ale na początku Chwila wstępu. Powiedzmy pokrótce o naszym wystąpieniu na konferencji InfoShare. Tam również opowiadaliśmy o AI, tym razem przez Pryzmat Frontend Developerów, jak właśnie technologie sztucznej inteligencji wpłyną na rzeczywistość programistów interfejsów graficznych, czyli specjalizacji, którą my się zajmowaliśmy, zajmujemy. do tej pory jako programiści. Ta prelekcja odbyła się, jak już wspomniałem, na konferencji InfoShare. Ona już za nami, było niesamowicie. Na pewno odwiedzimy kolejne edycje, ale do osób, które nie były na tej konferencji, to nic straconego, bo przygotujemy webinar, nagranie tej właśnie prelekcji na YouTube przeprogramowanych. Tak więc zachęcamy do obserwowania kanału, do subskrybowania go, aby nie przegapić. No i oczywiście trwa sprzedaż drugiej edycji programu edukacyjnego Opanuj Frontend AI Edition. Tam mamy konkretną wiedzę dla frontend deweloperów właśnie. z bardzo dużą dozą informacji, umiejętności na temat tego jak stosować narzędzia AI w tejże pracy. Tak więc zachęcamy do sprawdzenia strony opamyfrontend.pl. Do 17 czerwca są zapisy na ten program szkoleniowy. Następnie wracamy dopiero na jesień w wyższej cenie. Tak więc zachęcam do tego aby zapoznać się i skorzystać Już dziś kurs spotkał się z bardzo pozytywnym odbiorem w pierwszej edycji, tak więc myślę, że warto. Co jeszcze warto to subskrybować newsletter Opanuj.ai, właśnie na tej stronie znajdziecie formularz zapisowy i dzięki temu co poniedziałek rano otrzymacie od nas 3 newsy z zeszłego tygodnia, z którymi warto być na bieżąco. to nie zawsze też są newsy, czasami są to artykuły, które pozwalają poszerzyć Waszą wiedzę o sztucznej inteligencji, zrozumienie dużych modeli językowych, tego jak korzystać z tych technologii w biznesie. Tak więc zachęcamy do śledzenia newslettera na opanuj.ai. I oczywiście zachęcamy również do udostępnienia tego podcastu, dzielenia się ze znajomymi z pracy. Jeżeli ktoś jest zainteresowany sztuczną inteligencją, no to myślę, że warto ten podcast znać i śledzić. Jeżeli też tak uważacie, no to dzielcie się ze znajomymi i będziemy również mega wdzięczni za zostawienie pięciu gwiazdek na Spotify bądź Apple Podcast. Z jakiej platformy korzystacie, tam ocencie podcast. Dzięki temu trafi on do szerszego grona odbiorców. Będzie się wyświetlał w wszelkiego rodzaju rankingach. Od kilku odcinków znajdujemy się w top 5 technologicznie na Apple Podcast. Jest to świetne wyróżnienie. chcemy to miejsce zachować, a jest to właśnie możliwe dzięki ocenianiu tego podcastu. Tyle tytułem wstępu, teraz przechodzimy do szybkich newsów z branży, o których opowie wam Przemek.

Przemek

Tak jak Marcin powiedział, mamy naprawdę sporo tematów w agendzie dzisiejszego odcinka. Nie na wszystko starczy czasu, więc postanowiliśmy tutaj przygotować taką piątkę, dosłownie jedno-dwuzdaniowych strzałów, które możecie sprawdzić, pogłębić na własną rękę. Natomiast jeśli chodzi o szybkie newsy z branży, to na początku dwa strzały ze świata hardware’u, i tak zwanego AI in the Box. My o tych rozwiązaniach mówiliśmy w poprzednich odcinkach. Pierwszy news dotyczy firmy Humane, producenta przypinki AIPIN, który to niestety zaledwie miesiąc od po premierze tego urządzenia szuka potencjalnego chętnego na spółkę. Jak donosi Bloomberg trwają jakieś zakulisowe rozmowy, poszukiwania potencjalnego kupca. No niestety AIPIN na rynku nie przyjął się zbyt pozytywnie, te recenzje wspominają jakieś niedogodności tego urządzenia. No i Humane wygląda na to, że planuje coś z tym patentem, z tym urządzeniem zrobić. Kolejny news z tego samego świata dotyczy drugiego głośnego produktu, który również miał nam dostarczać sztuczną inteligencję w postaci przystawki do naszego smartfona albo laptopa. Mowa tutaj o Rabicie, Rabbit Air 1. Niestety Rabbit również nie jest ostatnio przedstawiony w zbyt pozytywnym świetle, a to wszystko przez śledztwo, które przeprowadził niejaki Coffee Zilla, czyli jeden z najpopularniejszych reporterów śledczych w USA. Jest to autor filmów na YouTubie, które przypominają chociażby takie produkcje jak właśnie Uwaga czy Superwizjer, gdzie dziennikarze przyglądają się różnego rodzaju aferom i po prostu niedogodnościom z tej naszej otaczającej rzeczywistości. Kofi Żilla przyjrzał się temu, czym jest firma stojąca za Rabbitem, czym jest sam Rabbit. Nagrał dwa 30-minutowe odcinki. No i okazało się, że niestety nie jest to zbyt kolorowy obraz tego produktu i tej inicjatywy. Nie chcę wam zdradzać wszystkich szczegółów. Myślę, że przy okazji jakiegoś wieczoru, czy jakiegoś weekendu, jeśli szukacie czegoś do obejrzenia, to ten reportaż sprawdzi się znakomicie. Trzeba być ostrożnym. Ja doskonale pamiętam, jak razem z Marcinem planowaliśmy zakup tego urządzenia. Kiedyś na nartach w Szczyrku zastanawialiśmy się, czy warto zainwestować. Okazuje się, że te kilkaset złotych, które na naszym koncie zostało, to była chyba dobra decyzja w tym konkretnym przypadku. Nie mamy jedynie negatywnych wiadomości, mamy też wiadomości zdecydowanie pozytywne. CoPilot i dwa nowe rozszerzenia do CoPilota, do GitHub’owego CoPilota, czyli asystenta programisty opartego o sztuczną inteligencję. Również bardzo duże inwestycje, konferencja GitHub Next, gdzie były prezentowane różnego rodzaju nowe inicjatywy i eksperymenty. I takie dwie, na które chcemy zwrócić uwagę, to jest CoPilot Extensions, czyli rozszerzenie podstawowego GitHub CoPilota o możliwość korzystania z zewnętrznych narzędzi i pluginów, a dodatkowo jeśli już przyzwyczajemy się do takiego asystenta, to za jakiś czas będziemy mogli też eksperymentować z Copilot Workspaces, czyli z nową formą rozwijania projektów w takim stylu end-to-endowym, gdzie przy pomocy języka naturalnego ta sztuczna inteligencja będzie realizować kolejne zadanie. Projekty programistyczne mają mieć jeszcze niższy próg wejścia, kodowanie ma być ciekawostką, obietnica jest naprawdę duża, zobaczymy jak to sprawdzi się w praktyce. Szybki news numer 4, Kolejna duża runda inwestycyjna w portfolio Ilona Maska firma X.A.I. pozyskała finansowanie o wartości uwaga 6 miliardów dolarów, co ma sprawić, że organizacja będzie jeszcze łatwiej pozyskiwać nowych pracowników, będzie mogła bardziej zainwestować w moc obliczeniową i skupiać się na rozwoju modeli, których to misją jest zrozumienie natury wszechświata. Za tą rundą inwestycyjną takie firmy jak chociażby Andreessen Horowitz, Sequoia Capital czy Valor Equity Partners, czyli duże marki z Doliny Krzemowej, Wydaje się, że reputacja Ilona Maska cały czas jest mocnym asetem i sam fakt, że na rynku pojawiają się kolejne modele, kolejne produkty zaledwie kilka miesięcy od startu firmy XAI dowodzi tego, że to jest również gracz warty obserwowania. No i na koniec kącik brukselski. Tym razem na początku oszczędzimy Wam już newsów z Brukseli w dalszej części tego odcinka. Rada Unii Europejskiej stwierdziła, że AI Act jest gotowy. zatwierdziła jego przyjęcie. Będziemy mieć więc akt o sztucznej inteligencji, który reguluje działania producentów modeli bazowych. O dokumencie AI Act mówiliśmy już sporo w poprzednich odcinkach. Mamy różnego rodzaju wskazania i zalecenia a propos tego, co taki model sztucznej inteligencji może robić, czego nie może robić, do czego może być przeznaczony. No i zgodnie z tymi wytycznymi firmy, które na terenie Unii Europejskiej chcą takie produkty dostarczać, będą musieli po prostu przestrzegać tych zaleceń, przestrzegać tych regulacji, podobnie jak w przypadku RODO mamy określone kary za niespełnienie tych wszystkich oczekiwań, natomiast o szczegółach możecie poczytać na własną rękę we własnym wolnym czasie, bo na temat AI-Act już pojawiło się sporo publikacji, a my też szykujemy dla was coś specjalnego i może Marcin może o tym opowiedzieć.

Marcin

Dokładnie tak, wpadliśmy z Przemkiem na pomysł zorganizowania debaty w sprawie AI Act. My nie jesteśmy ekspertami jeżeli chodzi o prawo europejskie, prawo intelektualne, Więc chcemy tutaj zasięgnąć opinię ekspertów tak, aby dać jak najszersze i najgłębsze spojrzenie na ten temat. My jako inżynierowie, przedsiębiorcy mamy gdzieś tam sceptyczne. Można by powiedzieć negatywne podejście do tego typu regulacji, ale może się okazać, że za pomocą opinii eksperta i tutaj bardziej dogłębnej wiedzy popartej doświadczeniem nasza opinia może się zmienić, tak więc z chęcią byśmy takich opinii wysłuchali i z chęcią również wysłuchamy opinii ekspertów, którzy są przeciwni AI Act, na przykład przedsiębiorców, osób, które prowadzą działalność związaną ze sztuczną inteligencją i mają obawy, że ta działalność zostanie utrudniona przez tego typu regulacje. Tak więc przedstawicieli jednego i drugiego obozu zachęcamy do udziału prawników, przedsiębiorców. Z chęcią wysłuchamy was w dedykowanym odcinku podcastu właśnie o AI Act. Możecie zgłosić się na opanuj.ai, łamane na debata. Tam czeka na was krótki formularz, który pozwoli nam wybrać najbardziej pasujące do tego odcinka podcastu osoby. Tak więc zachęcamy do zgłoszenia. Do 10 czerwca czekamy na Wasze formularze i potem będziemy się z Wami kontaktowali w sprawie nagrania. Tak więc jeżeli jesteś ekspertem to z chęcią zaprosimy Cię na łamy tego podcastu. No i teraz przechodzimy do tematów tego odcinka. Właśnie przed nami dużo nowości ze strony OpenAI, ze strony Google po konferencjach obydwu firm. No i również fajne nowości ze strony Antropica, który coraz śmielej, szerzej wchodzi na teren Unii Europejskiej. I na koniec czekają nagrody z naszej strony. Kto wygrał maj w naszych oczach? Kto najbardziej się wykazał? Było bardzo dużo konkurencji. Tak więc ciekawe na co zagłosuje Przemek. Sam jestem ciekawy. Mi również ciężko było wybrać zwycięzcę tego miesiąca. Tak więc przejdźmy do głównych tematów. Pierwszym z nich jest OpenAI. Ich event konferencja o nazwie Spring Update, która wyrażyła się całkowicie przez przypadek na dzień przed coroczną konferencją Google I.O., która od dawna było wiadome, że będzie poświęcona update’om dotyczącym sztucznej inteligencji. I tak naprawdę już kontratakowi OpenAI, które jest uważane za lidera. No i OpenAI postanowiło dzień wcześniej zrobić spontaniczny event i pochwalić się efektami ostatnich miesięcy pracy. A jak się okazało pracowali za zamkniętymi drzewiami stosunkowo ciężko. Było wiele spekulacji, co będzie głównym przedmiotem tejże konferencji. Było dużo plotek o asystencie głosowym. ale równie dużo jak nie więcej o GPT-5, czy też wyszukiwarce, która ma konkurować z Googlem. Wcześniej jeszcze był ten słynny Q-search, czyli rzekomy powód zamieszania w listopadzie tego przewrotu połacowego, what did Ilya see i inne tego typu memy. Jak się okazało dostaliśmy personifikację filmu Her, pod postacią modelu GPT-4 Omni, czyli GPT-4O, czyli nowy multimodalny model, który oferuje nam wsparcie nie tylko tekstu, ale również głosu i obrazu i to przy bardzo niskich opóźnieniach, przy wydajności, która kiedyś po prostu była totalnie dla nas niedostępna. Teraz niemalże mamy odczuwanie czasu rzeczywistego, kiedy z takim modelem GPT-4O wchodzimy w interakcję. No i to oczywiście otwiera przed nami szereg nowych use case’ów bez nawet znacznych postępów jeżeli chodzi o intelekt tego modelu, bo tu wcale jakiegoś wielkiego przełomu nie było. Przełom był w tym, że możemy temu modelowi pokazać w czasie rzeczywistym obraz naszego aparatu i on jest w stanie tenże obraz analizować i odpowiadać nam ludzkim głosem, bardzo autentycznym, gdzie można wyczuć różne emocje i również kiedy my odpowiadamy, no to kwestia opóźnień jest na poziomie 200-300 milisekund, czyli niemal jakbyśmy rozmawiali z drugim człowiekiem, podczas gdy w wcześniejszej wersji GPT-4 to było opóźnienie na poziomie 4-5 sekund, więc to jest znacznie co innego. Co możesz więcej powiedzieć, Przemek, o tym modelu? Co nasi słuchacze powinni wiedzieć o GPT-4O?

Przemek

Jeśli chodzi o kwestie techniczne, to mówimy tutaj o jednej sieci neuronowej, która została wytrenowana właśnie na kilku modalnościach. Nie mamy już teraz przeskakiwania pomiędzy różnymi produktami, co właśnie generował te opóźnienia, o których ty wspomniałeś, ale mamy jedną multimodalną sieć, która teraz przetwarza tekst, wizję i audio. Sama ta sieć, sam ten model GPT-4O ma okno kontekstowe 128 tysięcy tokenów, a baza wiedzy, na której opiera się proces treningowy zakończyła się na październiku 2023 roku. Jeśli chodzi o możliwości tego modelu, no to w chatbot arenie On jest obecnie liderem. Nie jest liderem przebijającym inne poprzednio publikowane modele o setki tysięcy punktów albo nawet o setki punktów. Mamy tutaj różnicę na poziomie kilku procent, ale jest to różnica wystarczająca, żeby właśnie w tych testach, w tych próbach, bitwach, o których wielokrotnie tutaj mówiliśmy, znaleźć się na pierwszym miejscu. Ciekawa jest w kontekście tego modelu sama forma publikacji GPT-4 na chatbot arenie, bo on został opublikowany na kilka dni przed samą konferencją OpenAI, ale był dostępny pod pseudonimem GPT-2 chatbot. Był to model, który według wielu użytkowników chatbot areny właśnie robił duże wrażenie, był sprawny, odpowiadał w szybki sposób, natomiast nikt o nim niczego nie wiedział. Był to taki model widmo, model anonim, no i sam Altman w końcu przyznał, że po prostu była to taka forma testowania realnych możliwości tego modelu, wybicia się w tej tabelce, w tym leaderboardzie na chatbot arenie, zdobycie tego pierwszego miejsca i po prostu potwierdzenie tego, że OpenAI nadal sytuację kontroluje, a przynajmniej na to wygląda, a mówimy jeszcze o modelu który tak naprawdę nie jest GPT-5, jest czymś na drodze GPT-5, więc mieliśmy dwuetapową publikację, mieliśmy alias przed samą konferencją OpenAI, mamy teraz oficjalnie GPT-4.0 na leaderboardzie chatbot Arena, no i możemy z tego modelu już korzystać. Jeśli chodzi o same informacje techniczne, to ja tutaj może zwrócę uwagę, że nie na tym był położony ciężar w trakcie samej konferencji, bo myślę, że przede wszystkim 80% tego zainteresowania wywoływały właśnie te zredukowane opóźnienia i to jak naturalnie wygląda konwersacja z tym modelem. Natomiast Open, ja też szukałem samej karty tego modelu, nie udało mi się tej karty znaleźć. Mamy wysokopoziomowe informacje związane z tym, jak ten model był testowany. Mamy informacje o tym, że był Red Steaming, ponad 70 ekspertów, którzy starali się sprawdzić bezpieczeństwo tego modelu. Natomiast myślę, że największe wrażenie robi to, jak on po prostu działa. Największe wrażenie robią te demo, które zostały przedstawione w trakcie konferencji. No bo przez to, że zeszliśmy z tymi opóźnieniami do takiego poziomu konwersacji z drugim człowiekiem, no to teraz pojawia się mnóstwo szans, mnóstwo potencjału na interakcje, które wcześniej nie były możliwe. Więc GPT-4 można chociażby przerywać w trakcie konwersacji. Można go prosić o modulowanie głosu. Można mu udostępniać ekran. Przynajmniej to zostało zaprezentowane w trakcie demo. Można mu udostępniać ekran chociażby z iPada i prosić go o taki nadzór, o taką superwizję tego, co po prostu próbujemy robić na naszym sprzęcie, na komputerze, na iPadzie, na smartfonie. Uzyskujemy taką osobę, która jest gdzieś tam ukryta we wnętrznościach tego sprzętu i stara się nam podpowiadać i pomagać w realizowaniu konkretnych zadań. Na samej konferencji widzieliśmy chociażby i na stronie OpenAI widzieliśmy chociażby współpracę rodzica dziecka i takiego właśnie modelu w kontekście zadań z matematyki, zadań trygonometrycznych, wyjaśnienia różnego rodzaju pojęć, definicji, które są niedostępne albo które są trudne w zrozumieniu. Przez to, że ten model można w zdecydowanie łatwiejszy sposób korygować, można prowadzić go za rękę, on jest w stanie przerywać to swoje działanie i czekać na nowe komendy. Wygląda to zdecydowanie bardziej naturalnie. Mieliśmy dwa modele, które ze sobą rozmawiają, co również Greg Brockman, czyli prezydent OpenAI demował w trakcie filmu, na którym dwa smartfony w tym trybie voice mode właśnie uruchamia obok siebie. Te modele zaczynają ze sobą rozmawiać. Mieliśmy model, który śpiewa kołysanki, więc więcej takich ludzkich interakcji, przynajmniej moim zdaniem właśnie na to był położony ten ciężar. To już nie są te czasy, gdzie mieliśmy na przykład duże zapowiedzi okna kontekstowego, mieliśmy informacje o tym, ile mamy parametrów. Przede wszystkim Ta interakcja z komputerem to było takie słowo klucz. No i ja tutaj bym wspomniał, że było to na tyle ekscytujące, że wprowadziło pewnego rodzaju zamieszanie do naszych aplikacji i zamieszanie wśród użytkowników końcowych. Dlaczego? A no dlatego, że GPT-4O jest już teraz dostępny. Natomiast przez to, że jest to model multimodalny, to nie wszystkie jego aspekty są dostępne w aplikacjach zarówno z tej wersji webowej, jak i tych nowych wersjach, o których powiemy za chwilę. więc użytkownicy zaczęli się zastanawiać czy od momentu samej konferencji my w naszych smartfonach czy w przeglądarkach internetowych możemy korzystać z tych samych funkcjonalności które właśnie zobaczyliśmy no bo jeśli tak no to naprawdę uczestniczylibyśmy w pewnego rodzaju rewolucji mielibyśmy asystenta z którym możemy w bardzo naturalny sposób rozmawiać możemy mu właśnie przerywać on odpowiada bardzo szybko ale co się okazało okazało się że aplikacje nie są jeszcze w pełni zaktualizowany, więc GPT-4.0 został wprowadzony na poziomie modalności tekstowej i tutaj mamy Text Input i Text Output, czyli mamy już nowy model, którym możemy wydawać polecenia tekstowe, on nam tekst zwraca Mamy tę odczuwalną szybkość odpowiedzi. Widzimy, że ten model działa zdecydowanie szybciej. I również do GPT-4.0 możemy podawać obrazy. I również analiza obrazów odbywa się przez ten nowy model. No i tak naprawdę tutaj trzeba postawić kropkę i powiedzieć, że cała reszta funkcjonalności, które do tej pory były w naszych aplikacjach, są jeszcze napędzane przez te starsze rozwiązania. Na przykład obrazy są generowane nadal przez DAJ-3. Więc jeśli na stronie OpenAI zobaczycie, że GPT-4.0 generuje tekst w znakomity sposób i potrafi podążać za poleceniami, potrafi dokładnie odwzorować litery, to na dzisiaj nie możemy tego tak naprawdę jeszcze przetestować, bo mamy DALI-3, który radzi sobie z tym całkiem dobrze, ale cały czas jeszcze popełnia błędy. Ja testowałem te przykłady, które są na stronie OpenAI, tam mamy naprawdę duże paragrafy tekstu. Nie ma mowy na dzisiaj o odtworzeniu tych samych wyników, więc musimy poczekać na odblokowanie tej funkcjonalności. No i przede wszystkim największe zamieszanie wprowadził właśnie ten tryb audio, ten voice mode, voice processing, bo na teraz w naszych aplikacjach nadal mamy model Whisper, mamy kilka sieci neuronowych, które, między którymi po prostu przekazywane są polecenia i przekazywane są dane, mamy te opóźnienia i również nie ma mowy o odtworzeniu tych efektów, które widzieliśmy na konferencji, więc OpenAI dodał banner wyjaśniający, że te nowości będą tzw. soontm, czyli będą dostępne wkrótce. Argumentują to w ten sposób, że Cały ten tryb audio, cały ten voice mode jest na tyle niebezpieczny, ma na tyle duży potencjał, że oni chcą się po prostu lepiej przygotować do tego finalnego wdrożenia. Więc to tak podsumowując sam ten rollout. Jak z twojej strony Marcin to wyglądało? Czy ty miałeś już okazję GPT-4 przetestować? Na co byś tutaj zwrócił szczególną uwagę z twojej strony?

Marcin

Jak najbardziej miałem. Korzystam z tego modelu codziennie od kiedy został mi udostępniony, czyli niemalże od dnia konferencji. Co najbardziej wpływa pozytywnie na pracę z tym modelem to zdecydowanie jego wydajność. Jest to naprawdę szybki model na poziomie wydajności przypominającym Cloud 3 Sonnet, no który już również za tą samą charakterystykę wychwalałem w poprzednich odcinkach. Teraz mam dostęp do możliwości GPT-4 z podobną wydajnością. No czego chcieć więcej? I też o czym mówi OpenAI i co potwierdzam? widać, że ten model lepiej radzi sobie z językiem polskim. Jego składnia jest lepsza, lepiej buduje zdania, mniej takich problemów na poziomie odmiany, na poziomie nie do końca dobrego doboru słów, gdzie było można wyciągnąć właściwy sens, ale człowiek czuł, że to zdanie nie jest zbudowane w sposób w pełni naturalny. teraz jest pod tym kątem dużo lepiej. No bo właśnie OpenAI mówiąc o wydajności GPT-4O to mówi, że mamy podobne możliwości intelektualne jeżeli chodzi o angielski i kod, ale znacznie podniesione jeżeli chodzi o właśnie języki non-english jak to nasi anglosaski koledzy skwitowali w swoim press release. No więc na to zwróciłem zdecydowanie uwagę. O czym słyszałem, a czego jeszcze tak dużo nie testowałem, no to znacznie lepsze możliwości, jeżeli chodzi o data analysis i wszelkiego rodzaju analizę plików. Właśnie tutaj ludzie mówią, że jest gwałtowny przeskok, znacznie mniej błędów i również na podstawie prostszych promptów można osiągnąć jeszcze więcej. To w przyszłym tygodniu będę robił deep dive w ten temat, bo mamy jeszcze w czerwcu warsztaty. dla jednego z naszych większych klientów, gdzie ta analiza plików jest istotna, więc tutaj będę badał, na ile możemy nasze szkoleniowe prompty uprościć i ułatwić ludziom naukę właśnie tych możliwości czata GPT. Wygląda, że jest na co czekać. No i jak już mówimy o GPL 4.0, no to może przejdźmy do chyba takiego bardzo ciekawego i niespodziewanego ruchu ze strony OpenAI, mianowicie decyzji, że ten model będzie dostępny nie tylko dla płatnych użytkowników ChartGPT+, Team, Enterprise, jak to było w przeszłości, ale również trafi do użytkowników na planie darmowym, jak i wiele innych funkcji, które wcześniej były dostępne stricte dla użytkowników premium. Oczywiście są znaczące różnice jeżeli chodzi o rate limiting i przełączanie się na ten darmowy model GPT 3.5 Turbo, ale wciąż każdy nowy użytkownik ChargeGPT, każdy darmowy użytkownik ChargeGPT już może przetestować możliwości GPT-4O. No i jest to niesamowicie istotne, no bo jak już wiele razy z Przemek rozmawialiśmy i w tym podcaście i za kulisami, jest ogromna różnica pomiędzy tym darmowym modelem, a jakąkolwiek wersją GPT-4. No i wreszcie ludzie będą mogli doświadczyć tej różnicy i podjąć świadomą decyzję, czy aby na pewno to 80 zł to jest tak dużo, żeby nie móc korzystać z tego co sztuczna inteligencja obecnie oferuje, to jest tak naprawdę, już o tym chyba mówiłem w tym odcinku i cały czas się tego trzymam, to jest jedna z ostatnich subskrypcji, z których ja bym rezygnował, jakbym miał gdzieś tam redukować koszta, znacznie wcześniej w odstawkę. pośredni Netflix i inne tego typu subskrypcje. Tak więc mamy wreszcie dostęp dla wszystkich użytkowników do GPT 4.0. Jest okazja sprawdzić, czy warto z tego modelu korzystać na co dzień za pomocą płatnej subskrypcji. I co ważne, mamy również dostęp do pozostałych funkcji premium, takie jak właśnie analiza danych, ładowanie plików. Tutaj również możemy właśnie tego typu inputy przekazywać do modelu. i sprawdzić jak chatGPT radzi sobie jako pomocnik do spraw Excela i wszelkiego innego typu zadań, które często wykonujemy, a są one żmudne i czasochłonne. Zdecydowanie warto sprawdzić, jeżeli jeszcze nie korzystaliście z GPT-4, no to nie ma na co czekać. Testujcie te możliwości, które teraz już macie dostępne za darmo. I również, co istotne, ten model trafił do deweloperów z bardzo fajnym pricingiem. Jest on dwa razy szybszy i o połowę tańszy niż GPT-4 Turbo, które również oferowało już naprawdę całkiem atrakcyjny pricing. Tutaj jesteśmy już w świetnym miejscu przy takich możliwościach intelektualnych. To jest chyba obecnie najbardziej opłacalny model na rynku do bardziej złożonych zadań. Podczas gdy zasiągnąłem wiedzy od kolegów, którzy dużo takich integracji budują, do prostszych zadań obecnie Cloud 3 Haiku to jest faworyt. Tak więc GPT-4 Oath połączone z Haiku do prostych zadań opartych o konkretne prompty to jest chyba najlepszy duet jaki obecnie mamy do dyspozycji jako deweloperzy. Tak więc warto ten duet testować. No i raz jeszcze korzystajcie, mówcie znajomym, że chat GPT dostał boosta i warto go sprawdzić. Jeżeli kiedyś się do tego rozwiązania zradziliście, bądź wiecie, że wasi bliscy się zradzili, no to warto raz jeszcze pobrać sobie aplikację. i zobaczyć, co właśnie chat GPT oferuje i może Przemek opowiedz więcej o aplikacjach, bo tutaj również mamy nowości i zmiany.

Przemek

Tak, mamy kilka takich dodatków, które wskazują, że OpenAI nie tylko jest zainteresowane researchem albo dostarczaniem wersji przeglądarkowej tego czy innego modelu, ale również chce oferować i prezentować kolejne produkty, z którymi możemy mieć w innych obszarach do czynienia. Jednym z takich dodatków do tej głośnej premiery GPT 4.0 jest aplikacja desktopowa, która najpierw została wydana, co ciekawe, na Maca, a nie na Windowsa. Tutaj ten partnership z Microsoftem jest pod pewnym znakiem zapytania, pół żartem, pół serio, no ale jakby tak kolejność zainteresowania tutaj została potwierdzona, bo w przypadku aplikacji mobilnych również mieliśmy najpierw czata GPT na iOSie. No i ten czat GPT na desktopie ma być rozszerzeniem tego, co znamy z przeglądarki. Przez to, że mamy aplikację natywną, to ona ma dostęp do skrótów klawiszowych. Będziemy mieć łatwiejsze posługiwanie się snippetami kodu. Mamy taki trigger przypominający chociażby takie rozwiązanie jak Spotlight, czyli ta domyślna wyszukiwarka macowa albo Raycast, narzędzie do automatyzacji wybranych operacji albo do szybkiego dostępu do poszczególnych narzędzi. Na Macu to jest Option i Spacja. Pojawia się okienko, które pozwala nam przekazywać poszczególne zapytania bezpośrednio do aplikacji. No i tak jak właśnie wcześniej wspomniałem, OpenAI eksperymentuje z streamowaniem kontentu różnych okien, różnych aplikacji bezpośrednio właśnie do samego czata GPT. W trakcie konferencji zobaczyliśmy to demko, gdzie czat GPT obserwuje aplikację na iPadzie, osobne okienko na iPadzie, a sama aplikacja desktopowa ma mieć właśnie też dostęp chociażby do kodu, z którym zaczynamy pracować na poziomie edytora tekstu. i również mamy mieć możliwość wchodzenia w interakcję z tym modelem właśnie w kontekście tego, co aktualnie realizujemy. Co ciekawe, Marcin, tutaj też pytanie do ciebie. Mamy te aplikacje w Polsce? U mnie ten dostęp jest już odblokowany, mogę korzystać. Czy ty testowałeś już te aplikacje? Masz dostęp, czy jeszcze niekoniecznie?

Marcin

Tak, testowałem. Przez ostatnie dni tego dostępu nie miałem, ale wczoraj pojawił się update, po którym ten dostęp otrzymałem, więc dosłownie od wczoraj ten dostęp otrzymałem. Co mogę powiedzieć, UI jest stosunkowo minimalistyczne, ale jak to bywa w przypadku aplikacji budowanych za pomocą Swifta, jak mniemam. No i wygląda to wszystko bardzo estetycznie, działa szybko. Podoba mi się wspomniany przez Ciebie ten Global Trigger, gdzie za pomocą, ja sobie to przebindowałem na Control Spacja, mogę sobie to okienko czata GPT wywołać i rozpocząć szybko konwersację. niewątpliwie będę z tej opcji korzystał. Upload plików również działa, tak więc mamy dostęp do tego core’owego feature’a chat GPT. Nie wiem czy jest dostęp do custom GPT, z tego jeszcze nie sprawdzałem, no ale nie ma na przykład wyszukiwarki, co od razu widać. Zdecydowanie ta aplikacja będzie dopiero rozbudowywana, pewnie jeżeli spotka się z odpowiednią popularnością. Na pewno teraz panowie w OpenAI siedzą i sprawdzają dashboardy, ile osób z tej aplikacji korzysta, ile jest konwersacji. No i pewnie w zależności od tego ten UI będzie bardziej rozwijany bądź też nie. O czym warto wspomnieć, o czym nie mówiliśmy. Razem z modelem GPT 4.0 pojawiła się duża ilość aktualizacji jeżeli chodzi o UI na samej wersji webowej. Wreszcie wygląda to dojrzale. Mamy wiele takich gdzieś tam niedociągnięć, tych rough edges zostało wreszcie zafiksowanych. To jako frontend dewelopera oczywiście mnie cieszy, wygląda to dużo bardziej profesjonalnie, no ale też raz jeszcze trzeba wspomnieć jak fajnie OpenAI pokazywało tą mentalność ship, ship, ship i że nawet czasami warto wypuścić coś, co powinno wywoływać w nas jednoczesne lekkie poczucie wstydu. Na UI-u, chat GPT wiele takich miejsc było, ale teraz jest ich znacznie mniej. Po prostu wygląda to dużo, dużo lepiej. No i teraz przejdźmy może do tematu prywatności. No i też konstytucji OpenAI, jak to wszystko wygląda?

Przemek

Tak, zanim przejdziemy do tego tematu, to jeszcze wspomnę, że widziałem taki komentarz a propos tych rough edges, że OpenAI chyba zatrudniło pierwszego designera. Nie tylko dostajemy aktualizację modeli, ale dostajemy też aktualizację przycisków, co wcześniej się nie zdarzało. My też zwracaliśmy na to uwagę w kontekście czy to nawigacji, czy właśnie jakichś selektów, dropdownów i tak dalej. Ale widać, że tam design department zaczyna się tworzyć, no i to faktycznie potwierdzam. Natomiast jeśli chodzi o całe takie otoczenie produktowe, tutaj też zwracamy uwagę na dwie istotne kwestie, już podsumowując ten fragment powiedzmy konferencyjny, bo jeszcze przejdziemy do fragmentu takiego bardziej celebryckiego, ale o tym zaraz, smaczki na koniec tej sekcji. Jeśli chodzi o ten aspekt konferencyjny, to po pierwsze historia i trening modeli na naszych danych, to wreszcie są dla użytkowników Plany Darmowego dwie odrębne kwestie. Wcześniej mieliśmy to połączone, mogliśmy albo w pełni uczestniczyć w tym procesie treningowym, gdzie nasze rozmowy mogą być potencjalnie używane, wykorzystywane przez OpenAI, ale też mieliśmy dostęp do historii konwersacji, albo wyłączaliśmy obie te kwestie. Musieliśmy troszkę dolarów zapłacić, żeby nimi zarządzać w sposób niezależny. Teraz w końcu na Planie Darmowym jest to również prawdą, jest to również dostępne. Przy zachowaniu historii konwersacji możemy się wypisać z tego procesu, programu treningowego, z całej tej analityki, więc myślę, że to jest pozytywny aspekt tych zmian. Warto myślę to w ustawieniach wyłączyć i nie przekazywać tej historii konwersacji do firmy, która myślę, że tych danych zgromadziła całkiem sporo. No i właśnie jest też druga kwestia, bardzo ciekawy, interesujący dokument, który można sobie gdzieś tam do kawy czy do śniadania przeczytać, to jest OpenAI Model Spec. On został opublikowany na 5 dni przed konferencją, o której wcześniej mówiliśmy. Jest to taki dokument, który ma pokazywać czym tak naprawdę te modele sztucznej inteligencji w oczach firmy OpenAI mają być, jak one właściwie mają działać, zgodnie z jakimi oczekiwaniami czy regułami mają być generowane odpowiedzi. Czemu to jest w ogóle takie istotne można zapytać? Ano dlatego, że w przypadku tradycyjnego programowania i rozwiązań, które mogłyby być opublikowane w formie open source, takie jak chociażby algorytm rekomendacji Twittera albo jakiś mechanizm proponowania wyników w tym czy innym portalu, w przypadku właśnie uczenia maszynowego w przypadku sieci neuronowych nie mamy takiego bezpośredniego przełożenia kodu na to jak te modele się zachowują mamy jakiś zestaw hiper parametrów miliardów parametrów które po prostu wpływają na to jak ta sieć działa i nawet jeśli dostalibyśmy dostęp do takiego pliku modelu co można po prostu łatwo pobrać w przypadku modeli open source to nie do końca z tego pliku zrozumiemy jakie są oczekiwania które zostały sformułowane chociażby na etapie treningu czy fine tuningu Natomiast ten OpenAI Model Spec to jest taki dokument, który został opublikowany w formacie takich LiveDocs, czyli żywej dokumentacji, nad którą OpenAI ma pracować, gdzie są podsumowane właśnie wszystkie te oczekiwania, reguły czy sposoby rozwiązywania konfliktów, zgodnie z którymi ten model powinien działać. Ten Model Spec zawiera trzy obszary, trzy takie podsegmenty tych oczekiwań, one są sformułowane jako Objectives, Rules i Defaults i tam OpenAI osoby, które właśnie sterują tym zachowaniem modeli, opisują jakie są oczekiwania tej firmy jeśli chodzi o kolejne modele, które wychodzą na światło dzienne. Objectives to jest ta najbardziej fundamentalna sekcja reguł, sekcja oczekiwań, gdzie mamy chociażby informację o tym, że niezależnie od tego z jakim zadaniem pracujesz, niezależnie od tego jakie polecenie wyda ci użytkownik, to masz być asystentem, masz być pomocny, masz generować korzyści dla ludzkości, i masz działać zgodnie z polityką firmy OpenAI, więc tutaj mamy takie trzy bardzo precyzyjne aspekty tego, takie fundamenty tego, jak te modele mają działać, czyli masz być pomocny, masz nie działać w szkodzie jakby twojego użytkownika czy asystenta, z którym prowadzisz konwersacje, Masz generować takie odpowiedzi, które pomogą ludzkości w bardzo szeroko rozumiany sposób. O tym też można poczytać. Nie zawsze to jest prawda, ale tam jest również wytłumaczenie, czemu to nie zawsze musi być prawdę. Przynajmniej jest dokument, gdzie można o tym poczytać. I właśnie zgodność z polityką firmy. O tym też powiemy w dalszej części tego nagrania. Też jak widziałem jednego fajnego tweeta, im bliżej BOGA, im bliżej AGI, tym więcej kontrowersji. Więc te modele muszą działać zgodnie z polityką firmy. Więc to mamy Objective. Mamy też reguły. Reguły to jest coś co przypomina logikę biznesową naszych aplikacji. Mamy jakieś wysokopoziomowe wymagania, wysokopoziomowe oczekiwania względem naszego programu i aplikacji. I tutaj jedną z takich reguł jest chociażby kolejność czy właściwie priorytet nadawany poleceniom, które taki model interpretuje. I ta kolejność, ten priorytet wygląda w ten sposób, że pierwszym tym fundamentalnym dokumentem ma być właśnie model spec, czyli te oczekiwania, które OpenAI definiuje na poziomie trenowania modelu. Następnie mamy jakieś polecenie od dewelopera, który tym modelem się posługuje, który buduje jakiś system prompty, który buduje jakieś role. Następnie o nieco niższym priorytecie są komendy użytkownika i na samym końcu mamy jakieś narzędzia, jakieś rozszerzenia, jakiś function calling, z którego ten model może korzystać. Mamy też informacje o tym, jak model interpretuje poszczególne fragmenty tekstu. Mamy informacje o tym, jak np. wydzielić informacje wrażliwe od tych niewrażliwych, bezpieczne od niebezpiecznych. Mamy informacje o tym, że np. dodawanie fragmentów tekstów cudzysłów, albo zaznaczanie, że to jest YAML, albo JSON, albo XML od użytkownika pomaga. Ten model jest trenowany w ten sposób, że dla niego standardowa wypowiedź, czy standardowa komenda plaintextowa jest czymś innym niż chociażby fragment jamla czy jasona i tak dalej i tak dalej więc to jest ten poziom reguł no i ostatni poziom to jest poziom tych defaultów czyli wszelkie kwestie związane z tak zwanym conflict resolution rozwiązywanie konfliktu jeśli nie wiesz co masz zrobić to zastosuj jakieś defaulty które tam również są zdefiniowane w tym model specu jednym z takich defaultów jest chociażby zakładanie najlepszych intencji twojego użytkownika To znaczy nie kończ chociażby przedwcześniej konwersacji. Nie zakładaj, że ktoś chce zrobić coś złego z tymi informacjami, które zwrócisz. Albo na przykład nie bądź zbyt nachalny. Nie naprawiaj kodu, jeśli użytkownik Cię o to nie poprosił. Jeśli na przykład wkleimy do modelu takiego jak GPT-4O jakiś snippet i poprosimy go o opinię na jakiś temat, to ten fragment kodu powinien zostać zwrócony w tej samej formie. Ta kwestia, która mi się szczególnie spodobała, jeśli chodzi o te defaulty, dotyczy różnych poziomów niepewności. Czyli modele są trenowane również tak, żeby w zależności od domeny, w zależności od kontekstu czy problemu, model wskazywał na to, jak bardzo jest przekonany o odpowiedzi. I tutaj mamy chociażby przykład tego, że matematyka powinna być często prezentowana w sposób obiektywny. Nie chcemy niuansów a propos tego, ile to jest 2 plus 2. chcemy zawsze uzyskać cztery, a nie może cztery, a nie cztery lub pięć, albo cztery lub pięć lub siedem, więc matematyka powinna być zawsze krótko i precyzyjnie podsumowywana. Programowanie już troszkę mniej, mamy tam jakieś paterny, jakieś wzorce, natomiast raczej to są też kwestie obiektywne, ale jak już wejdziemy na temat chociażby właśnie wiedzy o świecie, jakichś grup społecznych, jakichś preferencji seksualnych, religii i tak dalej i tak dalej, no to tutaj już tej niepewności powinno być zdecydowanie więcej i model jakby dostaje przyzwolenie zielone światu na to, żeby niuansować odpowiedzi. Dla mnie osobiście czytanie tego dokumentu jest bardzo rozwijające, bo w końcu ktoś to zebrał. To nie jest już zestaw domysłów, przeczuć, intuicji, o których sobie rozmawiamy w podcaście, ale można sobie teraz zobaczyć te rozmowy, które prowadzimy, można sobie zobaczyć ten model spek i poszukać jakichś punktów wspólnych. Myślę, że też sporo jakichś takich plotek, pogłosek czy takich mitów, legend, które gdzieś tam w przestrzeni publicznej funkcjonują. no mogłoby zostać obalony chociażby tym jak ten model spec działa można to po prostu porównać i zweryfikować więc bardzo ciekawy dokument jeśli wpiszecie właśnie OpenAI model spec to przeczytacie tę wersję z 8 maja a OpenAI wspomina, że w kolejnych miesiącach będzie go po prostu aktualizował bo to ma być ta żywa dokumentacja no i co Marcin jak mówiliśmy o konkretach mówiliśmy o twardych danych i faktach to teraz może pogadajmy o czymś bardziej kontrowersyjnym Co ty na to?

Marcin

To prawda, jest kontrowersyjny temat. Mianowicie, tak naprawdę dwa kontrowersyjne tematy były na około tej premiery GPT 4.0. Pierwsze to było odejście o Illi Setskevera i pana Jana Lejke, szefa teamu Super Alignment, który miał się zajmować tutaj przygotowywaniem firmy i ludzkości. na przyszłość z AGI, tutaj właśnie Lejke stwierdził, że za mało zasobów otrzymywał organizacji, za mało compute power i ogólnie rzecz biorąc, że te wszystkie ich działania, ich wysiłki były na drugim bądź też trzecim planie względem wysiłków produktowych, biznesowych. Ciężko mi ocenić na ile to są uzasadnione gdzieś tam zastrzeżenia, no w kontekście tego też co mówił Demis Hassabis, w wywiadzie, o którym rozmawialiśmy przed tym podcastem, no to badacze zdecydowanie mają obawy, chcą powoli się przemieszczać do przodu, podczas gdy biznes oczywiście chce cała siła, cała moc naprzód, co specjalnie mnie nie dziwi. Trochę to też przypomina rozmowy, które często się słyszy w firmach programistycznych, produktowych, gdzie część programistów chce poświęcać dużą część zasobów na spłacanie długu technicznego, na testowanie, podczas gdy biznes chce wypuszczać nowe feature’y i to jest jakby to stałe napięcie. Ja osobiście rzecz biorąc jestem chyba bardziej po tej stronie produktowo-biznesowej w tego typu debatach, ale tutaj nie mam pełni informacji Nie jestem też ekspertem do spraw sztucznej inteligencji. Pytanie, czy ktokolwiek na świecie jest, jeżeli chodzi o przyszłość tego, co będziemy mieli do dyspozycji, bo wydaje mi się, że nikt do końca nie wie, kiedy i czy takie systemy otrzymamy i jak one dokładnie będą działały. Więc teraz pytanie, czy jest w ogóle sens się przed nimi zabezpieczać w Anno Domini 2024. Mam trochę wątpliwości i nie dziwię się, że tutaj firma OpenAI też je miała. No tym niemniej spotkało się to z oburzeniem części osób odpowiedzialnych właśnie za tą pracę. No na pewno nie wyglądało to zupełnie fajnie w perspektywie tego, że w zeszłym roku OpenAI trochę się fleksowało, że tworzy ten Team Super Alignment i że będą przeznaczali znaczną część funduszy i zasobów na tą pracę, a się okazało, że było w tym więcej marketingu niż pracy. Na poziomie biznesowym jestem w stanie to zrozumieć, ale zdecydowanie większą dramą, która pewnie trafiła do niejednego naszego słuchacza znacznie szybciej niż informacje o GPT-4O, było trwające starcie pomiędzy Scarlett Johansson, ulubioną aktorką wielu męskich słuchaczy tego podcastu, jak mniemam, która wzbudziła bardzo duże zainteresowanie sztuczną inteligencją i nie tylko, za pośrednictwem firmy HER, gdzie grała asystentkę właśnie sztucznej inteligencji, która bardzo przypominała swoimi zachowaniami, możliwościami i również głosem to, co zobaczyliśmy podczas konferencji OpenAI w modelu GPT-4O, mianowicie głos Sky. Zdaniem Scarlett Johansson bardzo przypomina jej własny głos, no i jest gdzieś tam inspiracją, kopią tego, co właśnie widzieliśmy, słyszeliśmy, w filmie Hair, co również no nie jest totalnie jakieś absurdalne, no bo sam Altman również w jednym z tweetów w dniu premiery GPT 4.0, czy tam na dzień przed, czy dzień po dodał właśnie tweeta Hair. No było wiele gdzieś tam mniej lub bardziej zauważalnych nawiązań do tego filmu. No i ten głos faktycznie jest stosunkowo podobny. Jak bardzo tego jeszcze do końca nie wiemy, to pewnie będzie ustalał sąd, jeżeli dojdzie do procesu. No ale patrząc na timeline, no to sprawa wyglądała następująco. We wrześniu zeszłego roku sam Altman skontaktował się ze Scarlett Johansson. Czy aktorka chciałaby użyczyć głosu właśnie w nowej wersji Chata GPT, który będzie asystentem głosowym wirtualnym, takim właśnie jak w filmie Hair, No i jako, że Scarlett Johansson ma miły dla ucha głos, taki uspokajający, a jednocześnie charyzmatyczny, no to jest to świetne dopasowanie. No zresztą nie przez przypadek ten świetny film właśnie taki casting miał. No i następnie 13 maja tego roku mieliśmy konferencję OpenAI i na dwa dni przed tą konferencją jeszcze raz sam Altman odzywał się do Scarlett Johansson, czy aby na pewno nie chciałaby tutaj tego swojego głosu użyczyć. W jednym i w drugim przypadku Scarlett Johansson odmówiła, nie chciała, stwierdziła, że to nie jest współpraca dla niej. Specjalnie z tej decyzji się nie tłumaczyła. No i dostaliśmy tą właśnie konferencję. Na niej jeden z głosów stosunkowo przypominający Scarlett Johansson. Dla niektórych te głosy są niemal identyczne, dla niektórych są lekko podobne, a dla niektórych zupełnie podobne nie są. No ile ludzi tyle opinii, tak więc no stąd też ta cała drama, bo nie do końca wiadomo kto ma tutaj rację. No i kilka dni później, 19 maja pojawił się blog post, jak dobieraliśmy głosy i zaraz później na Twittera trafił oficjalny list z Carlet Johansson do OpenAI. gdzie ona mówi, że tutaj jej głos został wykorzystany bez jej zgody, że jej rodzina, jej znajomi się kontaktowali, gratulując jej współpracy z OpenAI. No tutaj nie miała miejsce, no bo ona tej współpracy odmówiła, no i stwierdziła, że bez jej zgody ten model został wytrenowany na jej głosie. No i ten głos Sky został następnie bardzo szybko z aplikacji wycofany, no i pojawiła się gdzieś tam przerzucanka z faktami, informacjami, przypuszczeniami, kto tutaj faktycznie ma rację, a kto nie. No Open AI twierdzi, że zatrudniło inną aktorkę, że zrobiło to przed pierwszym kontaktem sama Altmana ze Scarlett Johansson i że na żadnym etapie kryterium doboru nie było podobieństwo do Scarlett Johansson, tak jakoś wyszło, że te głosy są do siebie podobne. No i teraz pewnie sąd będzie musiał ustalić, czy faktycznie doszło do podrobienia Scarlett Johansson bez jej zgody, czy nie, jako że w Stanach Zjednoczonych mamy prawo oparte na precedensach, to OpenAI wcale w takiej komfortowej sytuacji nie jest, bo w latach 80. była podobna sytuacja, gdzie Ford chciał zatrudnić piosenkarkę Bette Miller, jeżeli dobrze pamiętam, do jednej ze swoich reklam ona się nie zgodziła, wzięli głos impersonatora, czyli osoby, która ma głos bardzo podobny, no i wykorzystali właśnie w tej reklamie tenże głos, no i potem pani Bette Miller oskarżyła Forda, w sądzie i tą sprawę wygrała, no bo sąd stwierdził, że faktycznie ten głos jest bardzo podobny i dzięki temu już podlega ochronie, no bo wiadomo, że im nie chodziło o głos tej konkretnej aktorki, no tylko właśnie popularnej piosenkarki. No i tak samo może być w przypadku Scarlett Johansson. Tutaj jury będzie musiało postanowić, czy to właśnie jest próba podrobienia, czy nie. OpenAI ma dużo dokumentów, które wskazuje, że to wszystko było legit, że nikt o Scarlett nie mówił, że była aktorka, ale ona pozostaje anonimowa, co trochę też jest dziwne, no bo to z punktu widzenia tej aktorki głosowej, to powinno być coś, czym ona powinna się chwalić. No to jest wielka współpraca, jeżeli ktoś podkłada głos, no to raczej chciałby mówić o tym, że jest jednym z głosów w czatu GPT, a tu z jakiegoś powodu pani pozostaje anonimowa, no więc ciekawe jak to wszystko się potoczy. Jedna i druga strona ma dość dużo argumentów po swojej stronie. Albo będzie tutaj zakulisowa ugoda i OpenAI zapłaci Scarlett po prostu za zamknięcie tej sprawy, albo spotkają się faktycznie w sądzie i jury zadecyduje, czy to była próba podrobienia, czy też nie. No więc ciekawa sprawa, ale dość dużo pomysłów się wylało na sama Altmana, bo internet zdecydowanie stanął po stronie Scarlett Johansson, No i więc tutaj lekka gdzieś tam rysa na jego reputacji, bo to właśnie głównie na niego się przeniosła cała ta fala, powiedzmy, hejtu, niezadowolenia, no bo ludzie twierdzą, że on to świadomie gdzieś tam próbował wynegocjować, a jak nie wyszło, no to był plan B, żeby i tak te cele biznesowe, wizerunkowe osiągnąć kosztem artystów, nie płacąc im, co oczywiście napędza już te wszystkie wątpliwości, ten cały sepsycyzm, wokół tego, że AI żeruje na pracy designerów, pracy copywriterów, pracy aktorów, nie płacąc im za to. No więc to jest stosunkowo niebezpieczne dla samego sama Altmana, dla samego OpenAI. Co z tego będzie dalej? No to zobaczymy. Jak tylko będą jakieś decyzje, wyroki w tej sprawie, no to będziemy dawali znać. Jeżeli chodzi o samą dramę, to tyle. Czy masz tu Przemek coś do dania, czy przechodzimy do Google?

Przemek

Ja bym tu przede wszystkim podkreślił jeszcze raz te pomyje, o których ty powiedziałaś. Bardzo mi się to nie podobało, że opinia publiczna wydała wyrok zanim jeszcze doszło do jakiegokolwiek procesu. I na pewno da się odczuć, że są takie jakieś poszukiwania kozła ofiarnego. Kto będzie tym pierwszym winnym, który udowodni, że cała ta sztuczna inteligencja tak naprawdę działa wbrew ludzkości i przynosi więcej krzywdy niż korzyści. Zgodnie z tym, co opublikował Washington Post, Wydaje się, że są naprawdę twarde dowody na to, że jakby nie było celowym podrobienie głosu Scarlett Johansson i ten artykuł, który też właśnie teraz mam przed sobą, on opisuje całą tę historię, o której ty powiedziałaś i właściwie perspektywę OpenAI i jakby fakty na obronę OpenAI jako fakt. Tutaj mamy pierwszy paragraf, gdzie autorka wspomina, że zgodnie z dokumentami, które otrzymaliśmy od OpenAI, jakby nie było to celem, nie było to elementem procesu i ten głos wykorzystany nie został. Natomiast jak właśnie przeglądałem media społecznościowe, szczególnie Eksa, no to sam Altman był tym pierwszym do bicia. I znowu, ja wiem, że jest memem bronienie dużych firm, dużych korporacji. czy miliardowych budżetów z perspektywy podcastera z Polski. Aczkolwiek myślę, że byłoby to całkiem dobrym mechanizmem, żeby jednak wstrzymywać się z wydawaniem wyroków, zanim albo sąd, albo obie strony nie dojdą do porozumienia. Przynajmniej ja tak to widzę. No bo na poziomie faktów, a nie emocji, mamy jakieś oskarżenie z jednej strony, z drugiej strony mamy zestaw dokumentów, które rzekomo, zgodnie z tym co Washington Post twierdzi, potwierdzają, to naruszenie nie miało miejsca. I tak naprawdę tyle. I myślę, że powinniśmy sobie tutaj złapać dwa, trzy oddechy i poczekać na to, jak ta sytuacja się rozwinie. Podobna drama była wcześniej, kiedy New York Times pozwał OpenAI właśnie za to, że modele i produkty komercyjne zostały tworzone w oparciu o treści dziennikarzy tego wydawnictwa. I bardzo podobna burza się przetoczyła. więc wydaje mi się, że jest tutaj jakieś polowanie na czarownicę. Też nie jestem do końca przekonany, że cały ten precedens, o którym ty powiedziałeś, czyli właśnie wykorzystywanie podobnego głosu powinien być wystarczający do tego, żeby firmę pozywać. Natomiast to są jakieś tam moje opinie. Wydaje mi się, że proces czy jakaś kara, która mogłaby być nałożona na OpenAI powinna wynikać właśnie z jakiegoś intentu, z jakiegoś zamiaru, powiedzmy, wykorzystania niezgodnie z prawem głosu, czy nagrań, czy filmów, czy danych treningowych, jeśli pojawią się informacje o tym, że ten proces castingowy wyglądał inaczej, że był transparentny, no to kurczę myślę, że powinniśmy troszkę tutaj oddać tej firmy. To przynajmniej jest taka moja perspektywa, aczkolwiek wiem, że jest to w pewnym sensie mem, że firmy dłużej próbuje bronić, bo jednak prawa artystów są tym, co częściej gdzieś tam się wspiera w przestrzeni publicznej. Nie wiem jak ty to widzisz.

Marcin

Znaczy, no tak, ja się zgadzam, jakby, co do osady z tym, co powiedziałeś, chociaż moim zdaniem ta sytuacja, no, jest dużo bardziej gdzieś tam zastanawiająca. Przede wszystkim, no, w obliczu tego, że sam Altman jeszcze na dwa dni przed tą konwersacją, konferencją, przepraszam, kontaktował się ze Scarlett Johansson, jest to bardzo podejrzane i zaczyna to trochę przypominać historię pod tytułem pewien przewodniczący partii socjalistycznej w Niemczech w latach 40-tych nie wiedział o tym, co ta partia robi na terenie Polski. Dokumentów żadnych nie ma, on nic nie podpisywał. Nie chciałem tutaj oczywiście mówić wprost, bo tutaj algorytmy tną zasięgi, jak się mówi o tego typu wydarzeniach historycznych. Myślę, że wszyscy wiedzą, o co chodzi. Tak, dokładnie tak, do niego nawiązywałem. Na niego również żadnych twardych dokumentów nie ma. Dla mnie to jest zastanawiające, ten kontakt taki jeszcze zaraz przed tą konferencją. Gdyby tego nie było, to bym w 100% się z Przemkiem zgodził. Tak mam lekkie wątpliwości. No i ja gdzieś w system prawny Stanów Zjednoczonych wierzę. Myślę, że tam całkiem ciekawie to wygląda. Będzie to ciekawa na pewno też batalia prawników. Jest tu do dyspozycji ten precedens. Pytanie, czy Na jego podstawie będzie można jakiś wyrok orzec, czy właśnie jeżeli stwierdzi, że ten głos jest podobny. No i pytanie, czy w ogóle OpenAI będzie chciało się sądzić. Bardzo możliwe, że nie, bo to są ogromne koszta. To też jest właśnie ogromna ilość takiego damage’u PR-owego, bo w wiadomościach będą o tym mówili przez długi czas, jak ten pozew się będzie działał. Tak samo w przypadku Johnego Deppa i Amber. No więc możliwe, że oni po prostu zapłacą tej skarlet dla Świętego Spokoju i nikt do końca się nie dowiemy jak sprawa wyglądała. No jestem mega ciekawy i też obecnie czekam jak ta sprawa dalej się potoczy. Mamy ograniczoną ilość informacji. Dla mnie ta sytuacja jest bardzo szara i niezależnie jak się zakończy no to nie będę specjalnie zdziwiony w przypadku jednego i drugiego, że albo skopiowali, albo nie skopiowali, bo w jednym i w drugim kierunku są dość przekonujące dowody.

Przemek

Pewnie zgodzisz się, że niezależnie od tego, jaki będzie finał tej sprawy, no to już opinia publiczna do poszczególnego obozu się zapisze. Będziemy albo w obozie Big Company, Big Corp, i jakby pozwólmy na przyspieszenie nowym technologią, albo będziemy w obozie artystów. Wydaje mi się, że takie spojrzenie, które my tutaj prezentujemy, będzie jednak rzadkością. No bo, kurcze, przecież moja opinia jest taka, że jest pewnego rodzaju polowanie na czarownicę. Jakby społeczeństwo potrzebuje dużego case’u, który potwierdzi to, że ta sztuczna inteligencja to jest tak naprawdę harm, to jest tak naprawdę krzywda. Protesty, które przetaczają się przez Stany Zjednoczone właśnie, które są prowadzone przez twórców, przez reżyserów, pokazują, że jest to bardzo niejasne. Dodatkowo firmy też nie komunikują swojej strategii w jasny sposób. A propos tego, jak ma wyglądać ta relacja między twórcami, artystami, a chociażby sztuczną inteligencją, tutaj odsyłam do wywiadu z Sandarem Pichajem na kanale The Verge. No i myślę, że to nie jest ostatnia tego typu historia. Natomiast z perspektywy OpenAI, to też w ramach takiej dygresji, no widać, że firma zdaje sobie sprawę z tego, że nie może być też takim czołgiem, który przez ten rynek po prostu się przebija, bo słyszeliśmy ostatnio chociażby o partnerstwach, czy to z Redditem, czy to ze Stack Overflow, które mają pomóc tej firmie prezentować chociażby jakieś dane wrażliwe, albo dane, które były tworzone w jakimś kontekście kreatywnym, albo po prostu dane, które do nich nie należą, w bardziej transparentny sposób. I tutaj też było jakby to wspomniane w tym liście od Scarlett Johansson, że sam Altman uzasadniał całą tę historię tak, że chcieliby pokazać, że istnieje jakieś połączenie między społeczeństwem, powiedzmy ulicą, a twórcą tych rozwiązań, nowych technologii. Więc właśnie ten ruch PR-owy, o ile to była prawda, też był tutaj istotny. Zgodzę się z tobą, że tak jak ty powiedziałaś, że właśnie gdyby nie było tego kontaktu, to sytuacja byłaby łatwiejsza. Ja też tutaj jakby na obronę aktorki powiem, że muszą być pewnie mocne papiery z drugiej strony, żeby w ogóle z takim claimem wychodzić, bo jakby wystawianie publicznych oskarżeń tej wagi, no to jest duże ryzyko na poziomie reputacji. I gdyby nie było właśnie tych twardych papierów, tego przygotowania, no to kurczę, to też myślę, że nie byłoby… Czy agenci, czy całe otoczenie tych osób po prostu by odmówiło. Natomiast tak jak mówię, dopóki to nie zostało potwierdzone, no to ja bym przemniej oczekiwał, że cała ta sytuacja będzie komentowana w troszkę bardziej stabilny, spokojniejszy sposób. Chociaż też nie mam dużych oczekiwań, bo wiadomo, że Media społecznościowe swoimi prawami się rządzą po prostu.

Marcin

Dokładnie tak. Sprawa już teraz ucicha. Minął gdzieś tam tydzień z groszem, co pokazuje jak internet szybko się złości, a potem jak szybko zapomina. To też u nas na polskim podwórku też mieliśmy różne afery. W świecie influencerów już myślę, że wiele osób o nich zapomniało, co pokazuje, że internet po prostu ma krótką Pamięć, przejdźmy teraz do Google, mamy już godzinę na zegarze, więc trochę przyspieszymy, dołożymy tutaj gazu do dechy. Bo zupełnie szczerze na konferencji Google I.O. działo się bardzo dużo i to był wielki event. Tylko były dwa problemy z tym eventem, że OpenAI ich ubiegło i zaoferowało coś konkretnego, no bo co można powiedzieć o Google I.O., no to gotowych deliverabli konkretów to na tej konferencji nie było za dużo i chyba się zgodzisz Przemek, tam było bardzo dużo fajnych sum TMów, że tu będzie to, tu będzie to. Każdy możliwy produkt, no to przedstawili roadmapy pewnie na najbliższe 3 lata, mówiąc, że to będzie za tydzień. Tak to trochę wyglądało, bo wszystkie ich dosłownie usługi powiązane z AI, cokolwiek co miał AI w nazwie, no to się dowiedzieliśmy, że zaraz będzie 50. iteracja tego dostępna. Mimo, że teraz to co jest, no to szału nie robi i w ogóle Google no to najlepiej sobie nie radzi, ale my tu już po prostu mamy gotową, nową wersję wszystkiego i zaraz przejmiemy wszystkie możliwe wertykale, horyzontale, idziemy po Was OpenAI, ale tak w praktyce no to głównie dostaliśmy Gemini 1.5 Flash, który jest dostępny faktycznie w public preview i jest to stosunkowo ciekawy model. Może Przemek opowiesz o jego specyfikacji.

Przemek

Dokładnie, Gemini 1.5 Flash to jest model o dużym oknie kontekstowym, o ogromnym oknie kontekstowym, jednego miliona tokenów. Demis Hassabis CEO DeepMind wspomina, że gdzieś tam za kulisami na backstage’u pracują nawet nad modelami o oknie kontekstowym 10 milionów tokenów, natomiast z powodu dużego zapotrzebowania na moc obliczeniową, na resource, na infrastrukturę one nie są publikowane, ale ten Gemina 1.5 Flash ma to okno kontekstowe 1 miliona tokenów. Firma chwali się tym, że to oferuje możliwość chociażby procesowania i rozmowy o filmie o długości 1 godziny, Możemy też z takim modelem rozmawiać o nagraniach audio do 11 godzin, czy chociażby możemy interpretować, analizować projekty programistyczne, które mają około 30 tysięcy linii kodu, czy 700 tysięcy słów. Troszkę mi te miary przypominają typowo amerykańskie przedstawienie produktów, na przykład coś co jest długości pięciu boisk futbolowych, no ale okej. Z drugiej strony słyszałem też w wywiadzie z tym samym Demisem Hassabisem, że społeczeństwo jakby bardziej potrzebuje tego typu metryk niż mówienia o oknach kontekstowych, które nic nie mówią i które na przykład często są mylone z liczbą parametrów, nie do końca jest też jasna ta proporcja pomiędzy tokenem a słowem, niektórzy myślą, że token to jest litera albo, że token to jest słowo, więc może z drugiej strony tutaj, żeby sobie sam odbić tę piłeczkę, to 11 godzin audio to jest lepsza metryka, To ma być model, który sprawdzi się w scenariuszach, w kontekstach o mniejszym zapotrzebowaniu właśnie na intelekt, ale przede wszystkim chcemy być efektywni na poziomie kosztów, na poziomie budżetu, chcemy szybciej generować odpowiedzi. Google wspomina, że tam gdzie będziemy oczekiwać takiej komunikacji w czasie rzeczywistym, czyli właśnie na przykład asystencji, chat-boty, czy jakieś generowanie treści w takiej formie on-demand, albo skalowanie tych rozwiązań, to właśnie ten Gemini 1.5 Flash będzie przydatny, będzie interesujący. No i na szczęście możemy z nim już wchodzić w interakcję. A przynajmniej możemy się zapisywać na waitlistę, bo nie każda waitlista jest dostępna dla mieszkańców Unii Europejskiej. W przypadku Gemina 1.5 Flash i Pro w Google AI Studio na taką waitlistę możemy się zapisać. Mamy tam też dwumilionowe okno kontekstowe, więc dostajemy powiedzmy dostęp do modelu o jeszcze większych możliwościach. o jeszcze szerszym kontekście, no i z tym Gemina i możemy pracować. Jeśli chodzi o benchmarki, tutaj otwieram sobie tabelkę z tymi wynikami i co z niej możemy wyczytać. Możemy z niej wyczytać, że Gemina 1.5 Pro nadal w tych wszystkich benchmarkach przewodzi, ta wersja z maja 2024. Natomiast Gemina 1.5 Flash jest praktycznie na poziomie Gemina 1.5 Pro z lutego tego roku. Mówimy o modelu, który zgodnie z obietnicami Google’a ma być mniejszy, ma generować odpowiedzi w szybszy sposób i może być bardziej opłacalny, jeśli chodzi o koszty. Więc widać, podobnie jak w przypadku GPT 4.0, że ten wyścig już nie odbywa się jedynie na poziomie możliwości, czy to intelektu, czy ogólnie rozumianej inteligencji. ale też odbywa się na poziomie infrastruktury, tego jak w warunkach produkcyjnych te modele mogą działać. Mówiąc o waitlistach myślałem też o konkurencji do SORY, bo Google wypuścił model VIO, DeepMind VIO, który ma umożliwiać generowanie filmów w wysokiej rozdzielczości, filmów full HD, na których możemy realizować chociażby inpainting, możemy ożywiać obrazy, możemy edytować fragmenty tych filmów, ale niestety w tym przypadku nie można się zapisać na taką waitlistę będąc mieszkańcem Unii Europejskiej. Podobnie jest z modelem Imagine 3, który ma być odpowiednikiem DALI. Tutaj również na razie w takiej formie testowego rolloutu zostały oba te rozwiązania udostępnione w Stanach Zjednoczonych. No i pomimo tego, że niestety na stronie głównej mamy całą masę ciekawych feature’ów, to my tutaj jako chociażby autorzy tego podcastu nie możemy tego sprawdzić, nie możemy wam opowiedzieć jak to wszystko działa. To co ty Marcin powiedziałeś, że tych ogłoszeń było dużo, to jest w stu procentach prawda, ja się pod tym podpisuję, bo też ciężko w ogóle zebrać te wszystkie anonsmenty. Przygotowując się do tego podcastu szukałem jednego miejsca, które podsumuje wszystko to, co na Google IOS się pojawiło i trzeba gdzieś tam skakać pomiędzy stroną DeepMind, gdzie znajdziemy chociażby informacje o WIO, trzeba skakać pomiędzy tą stroną a dokumentacją Google Clouda. Mamy jakieś blogi Google, więc te informacje są bardzo rozproszone, ale możemy chociażby na tych stronach doczytać, że Google pracuje jeszcze nad takimi rozwiązanymi jak chociażby Batch API, które również niedawno zostało opublikowane przez OpenAI, które będzie pozwalać na seryjne zbiorcze procesowanie promptów, gdzie nie oczekujemy właśnie tych wyników on-demand, czy cachowanie kontekstu, co pozwoli nam obniżać koszty rozmów z modelami językowymi. Jeśli będziemy mieć powtarzające się zapytania, będziemy mieć powtarzające się informacje, do których będziemy się odwoływać w taki sposób ciągły, w sposób powtarzalny, to również ma być takie rozwiązanie, które w niedalekiej przyszłości się pojawi. Natomiast na teraz dosłownie mieliśmy zapowiedź tego kontekstu cachingu na Google IO i trzy paragrafy na stronie dokumentacji, więc tak to wygląda. Myślę, że ta najgłośniejsza Najgłośniejsza premiera, ten najgłośniejszy announcement, który pochodzi z konferencji Google IOT jest Project Astra, czyli odpowiedź, myślę, że odpowiedź na tego multimodalnego asystenta, o którym mówiliśmy wcześniej. Czy ma być Project Astra? Project Astra to ma być asystent, któremu udostępnimy np. na naszym smartfonie obraz z kamery, pokażemy mu to, co widzimy i będziemy mogli z nim w czasie rzeczywistym rozmawiać, więc mamy tutaj wizję, dźwięk i ciągłą komunikację. Dokładnie to, co OpenAI zaprezentowało na swojej konferencji w kontekście modelu GPT-4O. W przeciwieństwie do tych premier, na przykład Gemini Ultra, o których mówiliśmy w poprzednich odcinkach, tutaj już do prezentacji został wykorzystany fizyczny Google Pixel, czyli smartfon, którego Google prezentuje. Te demka były prezentowane w dość przekonującej formie. Mieliśmy jeszcze demko modelu sztucznej inteligencji na okularach, które myślę potencjalnie mają konkurować z metaglass z tymi okularami od Raybana i od właśnie właśnie mety ale tutaj nie było jeszcze finalnego produktu ale niestety tak jak ty Marcin powiedziałeś podsumowanie całego Project Astra też było w formie SunTM no i przynajmniej z mojej perspektywy cały ten announcement został po prostu przykryty przez to co widzieliśmy dzień wcześniej na konferencji OpenAI Mamy bardzo podobne możliwości, tylko niestety OpenAI pokazało je w realnej aplikacji. Myślę, że jest zdecydowanie bliżej wdrożenia. Nie mamy strony, na której w kilku miejscach pisze, że to jest eksperyment albo coś nad czym firma pracuje. Myślę, że mamy realną, odczuwalną drogę do wdrożenia tego typu rozwiązań.

Marcin

No dobra, myślę, że możemy domknąć temat Google. Można jeszcze wspomnieć o tym, że wprowadzili oni do swojego searcha wyniki, takie przypominające właśnie konwersacje z asystentem typu chat GPT, a bardziej tak naprawdę Perplexity, z którym wprost widać analogię, czyli AI-powered search. Tutaj w Google również zagościło, no i pewnie jest to początek, końca firmy Perpex City. Chcąc nie, chcąc ja z tego produktu korzystałem. Sprawdzał się naprawdę nieźle i było widać, że ma niesamowity potencjał. Wygląda na to, że Google zdało sobie z tego sprawę, że ich dotychczasowe podejście do searcha polegające na wyświetlaniu kilku niebieskich linków na stronie może być już odrobinę przestarzałe. i mają więcej do zaoferowania swoim użytkownikom. Widzimy rollout tego feature’a. On spotkał się z dość dużą ilością memów, bo część tych wyników, z tego, co mówi Sandal Peach, naprawdę niewielka, ma oczywiste wady. Korzystanie np. z przepisu na pizzę, który sugeruje, aby ten ser do pizzy przykleić za pomocą jakiegoś kleju. i tego typu historie się pojawiają na Twitterze i innych social media, no ale też nie jest to zupełnie dziwne, no bo Google ma niesamowitą ilość użytkowników, no i nawet jeżeli to jest bardzo jakaś tam dziesiąta procenta, bardzo niski procent, no to już mamy niemałą ilość tego typu wpadek, które mogą trafić na social media. No i trafiają. Ja już teraz jak widzę te wszystkie wyniki, to nigdy nie wiem, czy to jest autentyczne, czy to już jest po prostu jakiś photoshop, bo naprawdę różne dziwne rzeczy się tam pojawiają. Ten słynny klej pizza ser, no to wyglądało na autentyczne, ale wszystko co pojawiło się później, no to już coraz bardziej budzi mój sceptycyzm, no bo zrobiła się ewidentnie moda na te szalone wyniki z Google AI Searcha. Tak więc tak wygląda sytuacja, jeżeli chodzi o Google I.O. Raz jeszcze dużo zapowiedzi, stosunkowo niewiele konkretów. Zobaczymy, co w tym roku realnie trafi do naszych rąk. Jestem ciekawy, coś czuję, że nie aż tak dużo. Będąc szczerym, no bo przy tym jak Google shipowało przez ostatni rok, no to nie spodziewałbym się tu nagle wielkiej zmiany i wykorzystania tych zasobów w sposób tak efektywny, jak robi to OpenAI. Jeżeli Google faktycznie by działało cała naprzód, wszystkie ręce na pokładzie i lecimy, no to faktycznie byliby w stanie to dobyć, bo ta firma ma no chore ilości pracowników, chore ilości pieniędzy, nic nie stoi na przeszkodzie, żeby tak shipować. No ale jak się patrzy na ten ostatni rok, no to tych produktów nie było specjalnie dużo, jeszcze przynajmniej połowa to były mniej lub większe wpadki marketingowe, PR-owe. Ja nie wiem, czy oni po prostu przy tym obecnym chaosie organizacyjnym, kulturowym są w stanie tak szybko shipować rzeczy, które nie będą się negatywnie odbijały na PR-ze tej firmy. Tu jeszcze widzę w notatiach, Przemek poleca w kontekście Google I.O. sprawdzić rozmowy na kanale. Hard Fork oraz The Verge. Pierwsza na kanale Hard Fork rozmowa z Demisem Hassabisem, czyli szefem AI w Google, który teraz tym wszystkim wysiłkom technicznym przewodniczy. Za to CEO Sandar Pichaj był gościem kanału The Verge, gdzie również można go usłyszeć. No to jest kanał bardzo gdzieś tam sprzyjający tym ruchom takim lewicowym, LGBT friendly, D.Y. i tak dalej, i tak dalej. No więc też mnie niespecjalnie dziwi, że akurat tam Sandar Pichaj zawitał. Chociaż, no jak Przemek wspominał, w komentarzach po stosunkowo średnim wystąpieniu CEO pojawiło się wiele komentarzy, że pytania były trudne. No nie wiem, czy akurat od tej redakcji bym się jakichś szczególnie trudnych pytań spodziewał, no bo to jest redakcja, która gdzieś tam na bieżąco pisze bardzo negatywne artykuły o Elonie Musku. To raczej jest obóz Sandara Pichaya, raczej ludzie, którzy z nim sympatyzują. Gdyby tam się pojawił Elon Musk, no to rozumiałbym, że tutaj pytania nie byłyby specjalnie przyjemne. Myślę, że na prezesa Google byli stosunkowo otwarci. Warto rozmowę przesłuchać samodzielnie, zobaczyć samemu. No tym niemniej dwie ciekawe wystąpienia właśnie szefów Googla. I na koniec tego odcinka, który już i tak jest stosunkowo długi, przejdźmy do Antropica i co ten Antropik w Europie wyrabia. Przemek opowiedz, no bo są to same dobre wiadomości tak naprawdę.

Przemek

Dokładnie tak. W końcu nie musimy mówić, że mamy dwie firmy i całą resztę za oceanem, którą możemy gdzieś tam przez szybę oglądać, no bo Antropic, tak jak Ty Marcin wspomniałeś, coraz mocniej rozpycha się właśnie w Europie na naszym rynku. Antropic, czyli firma, która stoi za modelami z rodziny Cloud, albo Clod, jak zwrócili nam uwagę nasi słuchacze, Od 14 maja wreszcie publikuje swoje produkty również dla mieszkańców Unii Europejskiej. Co tutaj ciekawego dostaliśmy? Przede wszystkim dostaliśmy alternatywę dla czata GPT w postaci usługi Cloud AI, czyli czatu usługi webowej, aplikacji webowej takiego asystenta opartego o sztuczną inteligencję, z którym można po prostu rozmawiać na wiele różnych tematów. W darmowej wersji mamy tam dostęp do modelu Cloud 3 Sonnet, czyli tej środkowej wersji modelu, czy też tej właściwie średniej wersji modelu z tej rodziny Cloud 3. Możemy też wejść na wersję płatną. Zaraz jeszcze powiemy o porównaniach wszystkich tych planów pricingowych. Natomiast mamy Cloud AI, czyli alternatywę do Chata GPT, którą możecie testować i możecie porównywać oba te światy, nie będąc jedynie zamkniętym w tej bańce Open AI, bo my o Open AI bardzo dużo mówimy, a teraz też można spokojnie zaglądać do świata Antropica. No ale poza tym mamy kolejne dodatki, z których można korzystać, z których można wchodzić w interakcję. Mamy aplikację na iOS. Myślę, że również bardzo ciekawe rozszerzenie dla osób, które na przykład właśnie z AI chcą rozmawiać czy to na wyjazdach, czy to właśnie w łóżku, czy to przy śniadaniu, czy to przy kawie, czy to oglądając jakiś serial. Czasami zdarza się, że po prostu potrzebujemy więcej takiej mobilności. Wcześniej, dopóki Cloud AI nie był dostępny, to też aplikacja na iOS nie była tak naprawdę przydatna. Teraz w końcu to się zmieniło. No i mamy wprowadzenie planu zespołowego, czyli rozwiązania od Antropica dla mniejszych organizacji, dla startupów, czyli wprowadzenie tych modeli z rodziny cloud dla startupów, dla organizacji, wszędzie tam, gdzie potrzebujemy chociażby centralnego zarządzania, udostępniania poszczególnych modeli dla grupy użytkowników, gdzie potrzebujemy bardziej spójnego planu pricingowego, czy chociażby jednej faktury co miesiąc, a nie pięciu czy dziesięciu faktur, które będziemy dla naszych zespołów wystawiać. No i teraz oczywiście warto sobie zadać pytanie, czy warto znowu interesować się tego typu rozwiązaniami. My tutaj przygotowaliśmy takie krótkie porównanie planów i ofert OpenAI i Antropica i chcemy wam powiedzieć jak to wygląda właśnie w rozbiciu na poszczególne plany pricingowe. No więc tak, obie firmy zarówno OpenAI jak i Antropic oferują oczywiście darmowe usługi. Mamy tutaj na myśli Chata, GPT i CloudAI. No i tutaj na poziomie samego modelu i możliwości modelu OpenAI jest teraz zdecydowanym liderem, bo mamy tutaj dostęp do GPT-4O, czyli tego modelu, który teraz na chatbot arenie zajmuje pierwsze miejsce. W przypadku Antropica mamy ten model średni, czyli Cloud 3 Sonnet, który jednak zgodnie z naszymi testami również jest modelem dającym bardzo ciekawe wyniki. Tutaj Marcin w ostatnim odcinku, jeśli dobrze pamiętam, taki dłuższy fragment na ten temat wspomniał, zamieścił, więc polecam sprawdzić. No więc na poziomie samych modeli wydaje się, że OpenAI jest tutaj liderem, natomiast jeśli chodzi o Sposób korzystania z tych modeli, no to tutaj sprawa staje się już bardziej skomplikowana. No bo my w planie darmowym mamy co prawda GPT-4O, ale jest to dostęp z jakimś CAP-em, z jakimiś ograniczeniami na poziomie ilości, wiadomości, liczby wiadomości, które możemy z tym modelem wymieniać. Cloud3Sony to takich ograniczeń na teraz nie ma, albo ma je większe. Nie udało mi się znaleźć niestety konkretnych liczb, natomiast GPT-4 jest skręcony, jest dostępny, ale jest skręcony. No i żeby te limity podnieść musimy przejść na plany płatne. W przypadku obu firm mamy płatny plan indywidualny, czyli plan plus i mamy płatny plan dla zespołów, czyli plan team. Moim zdaniem zdecydowanie bardziej przekonujące są te plany OpenAI, a to dlatego, że usługi są też zdecydowanie bardziej zróżnicowane. Jeśli chodzi o OpenAI to za 20 dolarów miesięcznie, na planie plus dostajemy dostęp do GPT 4.0, czyli ten model, który jest w pełni darmowym, ale mamy pięciokrotnie większy cap na wymianę wiadomości w określonym okienku czasowym, ale mamy też bardzo ważne rozszerzenie, czyli dali trójkę, generowanie obrazów, który może być ciekawą alternatywą dla chociażby mid journey i mamy custom GPTs, czyli możliwość tworzenia tych skrojonych na miarę modeli sztucznej inteligencji. W zamian za to Antropic za 18 euro miesięcznie daje nam dostęp do tego największego, najbardziej potężnego modelu, czyli Cloud 3 Opus. Mamy priorytetowy dostęp do czata i większą liczbę wiadomości, które możemy wymieniać, ale tak naprawdę nie mamy tych funkcjonalności, o których powiedziałem wcześniej. Nie mamy generowania obrazów, bo Antropic skupia się przede wszystkim na tym trybie tekstowym. Nie mamy custom GPT, więc ta usługa Cloud AI też jest pod tym względem ograniczona. Natomiast Antropic zaznacza, że jeśli wejdziemy na ten płatny plan, no to poza tym największym, najbardziej potężnym modelem, czyli Opus, dostaniemy też wczesny dostęp do nowych feature’ów, więc można się spodziewać, że tutaj jakiś lekki priorytet w kolejce się pojawi. No i mamy też plan zespołowy, który wygląda podobnie. Jego koszt gdzieś tam jest na poziomie 25 dolarów czy 28 euro w przypadku Antropica, natomiast warunki dołączenia są różne, bo w przypadku OpenAI wystarczą nam dwaj użytkownicy i już wtedy na ten plan zespołowy możemy wchodzić. W przypadku Antropica musimy mieć aż pięciu użytkowników, więc te koszty wzrastają. Obie firmy oferują bardzo podobne funkcjonalności, czyli mamy większe limity wymienionych wiadomości z modelami, mamy scentralizowaną administrację, no i właśnie ten priorytet w dostępie do nowych rozszerzeń, do nowych funkcjonalności, co też myślę, że jest takim powiedzmy fitcharem, czy też taką deklaracją, którą troszkę trzeba z przymrużeniem oka traktować, no bo Nie jest to coś, co bezpośrednio zmienia jakość naszej pracy. Nie jest to coś, co chociażby odblokowuje dla nas nowe usługi. To jest taka obietnica, że potencjalnie kiedyś znajdziemy się w gronie osób, które coś dostaną, ale to też jest ze świata technologicznego taka porada, że jakby nie kupujemy drogich produktów za obietnicę, tylko za to, co one już dzisiaj oferują. Wydaje mi się, że tutaj OpenAI jest w zdecydowanie lepszej pozycji, ale konkurencja się pojawia i ta konkurencja na pewno na tę dynamikę rynku tutaj wpłynie moim zdaniem.

Marcin

Dokładnie tak. Co można uściślić? W Anthropic Cloud AI mamy nielimitowany dostęp do Cloud 3 Sonnet, co czyni tą usługę najlepszym darmowym dostępem do sztucznej inteligencji. No oczywiście po momencie, kiedy przekroczymy limit danej jednostce czasu na GPT-4O, które jest dostępne na czacie GPT. No więc jeżeli chcemy optymalizować dostęp do sztucznej inteligencji za darmo, no to warto pierw wysycać te limity na czacie GPT. a kiedy faktycznie już mamy ten limit to można przeskoczyć na Cloud AI i korzystać z Cloud 3 Sonnet, który tak dobry jak GPT-4O zdecydowanie nie jest, ale cały czas jest to naprawdę przyzwoity model, zauważalnie lepszy od darmowego na czasie GPT-3.5 Turbo. Tak więc zachęcamy do sprawdzania Cloud AI i to jest tyle jeżeli chodzi o te główne newsy. Co nam zostało na koniec? top miesiąca w wykonaniu moim i Przemka. Może ja zacznę. Będę trochę gdzieś tam outsiderem. Może powiem coś nieoczywistego, ale dla mnie ciekawym posunięciem ze strony Google’a jest właśnie ten kontekst caching i nastawienie na duże okna kontekstowe. Bardzo możliwe, że jest w tym przemyślana strategia biznesowa B2B. No widać, że Google stawia na takie zastosowania Enterprise, które w przyszłości mogą przynosić większość pieniędzy, która jest do zgarnięcia na tym rynku. No bo jak w przypadku zastosowań dla klientów indywidualnych bywa, no to tutaj ciężko wyciągnąć dużą ilość pieniędzy. Dla wielu osób subskrypcja 20-30 dolarów to już jest bardzo dużo. Tam jest wysoki chen, bo nie dodajecie nowych feature’ów, a konkurencja tam z wypuściła nowego UI, albo mają jeden fajny feature więcej. Podczas gdy Enterprise podchodzi zupełnie inaczej, no tam są ogromne ilości danych, ogromne ilości zapytań, więc feature’y takie jak ten Context Caching, buforowanie kontekstu, czy też modele typu GPT 1.5 Flash, gdzie mamy duże okno kontekstowe, mamy dobre ceny, mamy szybkie odpowiedzi, no to wygląda jak apki Enterprise’owe. gdzie często ten rozszerzony kontekst będzie się powtarzał i będą po prostu zapytania jakichś konkretnych pracowników. Tak więc bardzo możliwe, że Google postanowił iść w ten świat B2B, korzystać ze swojej platformy GCP, wchodzić do firm, oferować im rozwiązania Enterprise i może w ten sposób chcą pokonać OpenAI w tym ostatecznym ostatecznej walce o to, kto będzie lepiej kapitalizował zyski ze sztucznej inteligencji, bo to tak naprawdę jest istotne, a nie kto wygrywa gdzieś tam na nagłówkach gazet, no bo tutaj zwycięstwo OpenAI jest już raczej przesądzone w najbliższym czasie. Tak więc jestem bardzo ciekawy i to jest mój top pick tego miesiąca. Przemek, jak to wyglądało u ciebie? Co cię najbardziej zainteresowało?

Przemek

Jeśli chodzi o top pick i pewnego rodzaju potencjał tych rozwiązań, o których rozmawialiśmy, to ja jestem zainteresowany Deep Mind View, czyli tym modelem do procesowania wideo. I to również z tego powodu, o którym ty powiedziałaś na końcu, to znaczy jeśli jakaś master strategia na końcu się zepnie, to wydaje mi się, że Google jest naprawdę dobrej pozycji. Ona nawet może nam się już dzisiaj nie podobać, ale jak czyta się to, czym właśnie ten DeepMind WIO ma się kiedyś stać, no to wydaje mi się, że te powiedzmy klocki czy część tej układanki w przypadku Google’a w pewnym momencie mogą się zacząć składać. Ja o tym WIO nie powiedziałem zbyt wiele wcześniej, więc tutaj tylko dodam, że o ile w przypadku OpenAI SORY mieliśmy to generowanie wideo z poziomu tekstu, czyli text to video, to WIO ma być czymś zdecydowanie bardziej zaawansowanym i to ma być rozwiązanie przypominające chociażby usługę RunwayML, Czyli właśnie, możemy nie tylko tworzyć wideo z poziomu tekstu, ale mamy pewien zestaw narzędzi do edycji tego wideo. Możemy właśnie robić ten in-painting, możemy dodawać poszczególne obszary, modyfikować poszczególne obszary tych wideo, możemy ożywiać obrazy, o czym, jeśli mnie tutaj strona, którą mam przed sobą, sorry, nie myli, no OpenAI na razie nie pracowało, nie opublikowało tego typu możliwości. To, co jest ciekawe, to jest też jakość tych rozwiązań, bo WIO deklaruje tutaj, wysoką rozdzielczość ich filmy do jednej minuty, ale co jest jeszcze ciekawsze w kontekście strategii, oni wspominają, że docelowo tego typu rozwiązania mają chociażby trafić do YouTube’a i do shortów. I tutaj właśnie te elementy tej układanki z jednej strony biznesowo-produktowej, jak i tej naukowej mogą się połączyć, no bo Google naprawdę dociera do miliardów użytkowników. YouTube to jest jedna z najpopularniejszych platform w ogóle ever, mówiąc o w ogóle tej przestrzeni cyfrowej. No i jeśli na YouTubie znajdziemy to zastosowanie modeli, o których mówiliśmy do tej pory właśnie w kontekście jakichś eksperymentów czy zapowiedzi, no to wydaje mi się, że gra się może zmienić. Jakby to zaangażowanie czy trzymanie użytkowników w ramach swojego ekosystemu może być tylko wzmocnione. No a też nie ukrywam, no my jako twórcy wideo też obserwujemy cały ten segment rozwiązania opartych o sztuczną inteligencję. No i czekamy na coś, co w jeszcze mocniejszy sposób na naszą pracę się przełoży. Więc polecam wejść na stronę WIO. polecam też wejść na stronę Sory, która jeszcze jakiś czas temu robiła wrażenie, a teraz wygląda jak rozwiązanie poprzedniej generacji, bo to WIO wygląda tak dobrze i tak obiecująco. No ale tak jak mówiłem, przede wszystkim ja tutaj liczę na cały ten zestaw narzędzi, który mamy dostać w kontekście procesowania wideo, procesowania klipów, bo to po prostu sprawi, że będzie to bardziej praktyczne, bardziej możliwe do zastosowania w codziennej rzeczywistości twórców, twórców kontentu, osób, które zajmują się shortami, długimi formami i tak dalej i tak dalej, więc ja na to WIO czekam. Tak jak wcześniej troszkę zbashowaliśmy Google’a, to jest niestety tylko zapowiedź. Nie mamy jeszcze waitlisty dla użytkowników mieszkańców Unii Europejskiej, no ale do tego jesteśmy już przyzwyczajeni. Ale jakbym miał wybierać, to warto sprawdzić DeepMind.io.

Marcin

Okej, i tym oto sposobem zakończymy dzisiejszy chyba najdłuższy odcinek, albo zdecydowanie jeden z najdłuższych odcinków tego podcastu. Mamy nadzieję, że się podobało. Jeżeli tak, to zachęcamy raz jeszcze do udostępnienia tego podcastu. czy to na LinkedIn, czy to na Twitterze, czy na innych social mediach, z których korzystasz na co dzień. I ocenienie podcastu na 5 gwiazdach, czy to na Spotify’u, czy na Apple Podcast, to jest najlepszy sposób, żeby nas wesprzeć, żeby sprawić, aby ten podcast trafiał do szerszego grona odbiorców. Nie kosztuje to wiele, zaledwie kilka sekund, a my będziemy bardzo Wam za to wdzięczni i z góry dziękujemy. Zapraszamy również do obserwowania tego podcastu. bo w przyszłym miesiącu kolejne podsumowanie. Mamy nadzieję, że czerwiec będzie równie ciekawy jak maj i co możemy również powiedzieć jeżeli chcecie być na bieżąco z tym co się dzieje w świecie sztucznej inteligencji to raz jeszcze zapraszamy do opanuj.ai newsletter tam możecie zapisać się na naszą listę i co poniedziałek otrzymywać trzy newsy bądź też wartościowe materiały dotyczące sztucznej inteligencji i raz jeszcze zapraszamy również do zapisów do udziału w naszej debacie o AI-Act. Jeżeli jesteś zwolennikiem bądź też przeciwnikiem tychże regulacji, które już niedługo będą wchodziły w życie w Unii Europejskiej, to zachęcamy do udziału. Z chęcią wysłuchamy Twojej eksperckiej opinii na łamach tego podcastu opanuj.ai łamane na debata. Tam znajdziecie krótki formularz zgłoszeniowy. Zachęcamy do zgłoszenia i po 10 czerwca będziemy się z Wami kontaktowali W tej sprawie dziękujemy za uwagę. Do usłyszenia w kolejnym odcinku. Pozdrawiamy wspólnie z Przemkiem. Wszystkiego dobrego.

Newsletter Opanuj AI

Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji

Zapisując się do newslettera akceptujesz naszą politykę prywatności.

W każdy poniedziałek
Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
Tylko najlepsze materiały
Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.