Podcast Opanuj.AI
Bądź zawsze na bieżąco
3 lutego 2024
Recenzja ChatGPT Team, Google Gemini Pro w Polsce i wyciek Mistrala - Styczeń w AI
Słuchaj na twojej ulubionej platformie
Transkrypcja odcinka
Tekst wygenerowany automatycznie - może zawierać drobne błędy i literówki
Przemek:
Cześć, witajcie, to jest kolejny odcinek podcastu Opanuj.ai. Jak co kilka tygodni podsumowujemy nowości w świecie sztucznej inteligencji i machine learningu. Dzisiaj jak zwykle nasze podcastowe notion pęka w szwach. Opowiemy Wam co nieco o nowościach z Doliny Krzemowej, ale też z Europy, o nowych modelach, o zmianach pricingowych, o nowych feature’ach, ale to wszystko Za chwilę na początku klasyczna rekomendacja. Marcin ty ostatnio znakomicie sprawdzałeś się w polecaniu tych materiałów, które publikujemy. Także myślę, że tradycję warto utrzymać. Co dobrego, co dobrego w tym odcinku.
Marcin:
Zacznijmy tradycyjnie od newslettera OpanujAI. Jeżeli chcecie być na bieżąco z tymi odcinkami podcastu, jeżeli chcecie też otrzymywać na swoją skrzynkę co poniedziałek rano, trzy newsy zeszłego tygodnia, najważniejsze rzeczy, które w świecie AI się wydarzyły, to warto się zapisać na stronie opanuj.ai. Gwarantujemy zero spamu i jakościowe treści co tydzień. Jeżeli chodzi o dalsze rekomendacje związane z AI, to jesteśmy w trakcie promocji i przygotowania naszego nowego kursu, Opanuj Frontend AI Edition, więc za osób zainteresowanych programowaniem frontendowym i wykorzystaniem narzędzi AI podczas tego programowania, Serdecznie zapraszamy na stronę www.opanujfrontend.pl Tam znajdziecie wszystkie szczegóły odnośnie tego programu i dowiecie się czy jest to program skierowany właśnie do Was. Tyle jeżeli chodzi o rekomendacje na początek i myślę, że możemy przejść do newsów ze świata AI. Myślę, że już też tradycyjnie zaczniemy od OpenAI. Tutaj całkiem dużo się działo w styczniu. Nagrywaliśmy już w połowie stycznia odcinek specjalny, żeby podzielić się wszystkimi newsami. No i teraz mamy dla Was gdzieś tam wiadomości pracu boju, bo te nowości, które właśnie OpenAI wypuściło w połowie stycznia zdążyliśmy przetestować. No i jesteśmy chyba pod wrażeniem. Usługa w tym roku działa naprawdę nieźle, a nowości, które zostały zaoferowane również robią na nas wrażenie.
Przemek:
Myślę, że to może być interesująca część dla wszystkich słuchaczy, bo skupimy się tutaj na kontekście zespołowym, czyli nie będziemy mówić tutaj o indywidualnym wykorzystaniu czata GPT tak jak w poprzednich odcinkach, ale opowiemy jak pomaga on nam, czyli startupowie Młodej Dynamicznej Organizacji, a to wszystko z powodu wejścia na na nowy plan ChatGPT Team, o którym wspominaliśmy w jednym z ostatnich odcinków, na nowy plan, który jest takim sweet spotem pomiędzy planem indywidualnym, czyli ChatGPT Plus i planem dla dużych firm, ChatGPT Enterprise. Od kilku dni mamy okazję właśnie tego ChataGPT Team testować, a to wszystko z jednego konkretnego powodu, to znaczy chcieliśmy sprawdzić i właściwie zacząć reużywać nasze customowe GPTsy.
Marcin:
Jasne, jest tutaj dość ściśle, no bo samego custom GPT, który Ty stworzyłeś pierwotnie do właśnie pomocy nam podczas pracy nad kursem, mogłem korzystać jeszcze na planie chat GPT+, ale nie mogłem w żaden sposób go edytować. Żeby właśnie podzielić się dostępem administracyjnym, no to właśnie musimy mieć tą subskrypcję Team Noob Enterprise i na tym właśnie nam zależało, żebym ja również mógł do internali tego custom GPT uzyskać dostęp, żebym mógł go optymalizować pod nasze potrzeby.
Przemek:
W naszym przypadku testujemy dwóch asystentów. Jeden to jest taki ogólny custom GPT skupiony na doradzaniu w obszarze front-endu i programowania. Między innymi korzystamy z niego w trakcie pracy nad naszym front-end technologii radarem, którego również polecamy sprawdzić. A drugi custom GPT to jest asystent twórcy materiałów szkoleniowych, który również przydaje się nam w konkretnych usługach, które realizujemy, w projektach, które realizujemy. On tam jest bardzo mocno sprecyzowany na tworzenie skryptów, konspektów, rekomendowanie przykładów, opowiadanie. o tym jakie są definicje poszczególnych pojęć, które mu tam przekładamy czy tam podajemy. Więc z takimi dwoma asystentami pracujemy. No i mamy pierwsze wnioski. Przede wszystkim muszę powiedzieć, że po pierwsze to działa, jakby ta subskrypcja udało się włączyć bezproblemowo, zaproszenia poszły bardzo szybko na konto Marcina, u mnie również. Zaczęliśmy to testować i ten pierwszy case, czyli ta pierwsza obietnica reużywania customowych GPTs w zasadzie została spełniona, to znaczy mieliśmy we dwójkę dostęp do tego samego GPTSa, no ale tam była mała czkawka Marcin, to znaczy zaczęliśmy rozpracowywać model uprawnień, który tutaj może ciebie wypuszczę, no nie jest tak jasno i oczywiste jak moglibyśmy sobie tego życzyć.
Marcin:
UX nie jest najlepszy jak ogólnie w rozwiązaniach OpenAI. Ta pierwsza wersja zawsze jest stosunkowo biedna i myślę, że nie jedna firma software’owa wstydziłaby się wypuścić takie rozwiązanie na rynek, zwłaszcza mając tak dużo użytkowników, a OpenAI pokazuje, że liczy się szybkość, liczy się iterowanie, liczy się ulepszanie. I zresztą bardzo dobrze to robią, bo to na co narzekamy gdzieś tam w odcinkach to w kolejnym już zazwyczaj jest dopracowane i zwykle mamy kolejne rzeczy na które możemy trochę ponarzekać. No to jest ten problem, że tylko jedna osoba w danej chwili może być tym administratorem custom GPT i trzeba tego ownera zmieniać w panelu administracyjnym, jest to trochę upierdliwe, ale działa jak najbardziej, więc mam teraz dostęp, możemy po prostu na zmianę z przemkiem przełączać się jako admin danego custom GPT i wtedy mieć dostęp do tego panelu konfiguracyjnego, gdzie ustalamy custom instructions dla danego custom GPT, czy też wgrywamy jego bazę wiedzy, więc to działa, działa, chociaż tak jak mówię UX jest daleki od idealnego. I co jest genialne, o czym wspominaliśmy już w poprzednich odcinkach, wcześniej ogólnie w czacie GPT był ten problem, że mogliśmy rozmawiać tylko z jednym trybem, obecnie właśnie z jednym tak naprawdę custom GPT, bo te funkcje, które kiedyś były osobnymi trybami, czyli data analysis z dali, teraz są po prostu custom GPT. ale zmieniło się to, że możemy się przyłączać w trakcie jednej konwersacji pomiędzy tymi Custom GPT. Korzystamy z Małpy i wtedy możemy za pomocą nazwy danego Custom GPT włączyć go do rozmowy i wykorzystać, więc to jest naprawdę fajne. Mamy wreszcie ten experience, gdzie możemy ze wszystkich feature’ów, tych dostępnych właśnie dla subskrypcji płatnych, korzystać w ramach jednej konwersacji. To jest ogromny boost, jeżeli chodzi o produktywność, jeżeli chodzi o to, jak złożone możemy prowadzić rozmowy. Nie mogę się doczekać, żeby pokazać to kolejnym uczestnikom warsztatów, bo myślę, że to naprawdę jest game changer. Świetna funkcja, długo wyczekiwana. Co po raz kolejny pokazuje, że OpenAI cały czas iteruje słucha feedbacku i ten produkt staje się coraz lepszy. Praktycznie mija już niedługo rok od premiery GPT-4. Wtedy dostaliśmy goły model, który miał wiele niedoskonałości. A teraz, znaczy wiele niedoskonałości, to był świetny model, cały czas jest najlepszym modelem na świecie. Ale jeżeli porównamy sobie obecną wersję GPT-4 Turbo z tym co mieliśmy wtedy do dyspozycji no to jest niebo a ziemia. Bo co ważne to też jest coś co mnie bardzo cieszy. Charge GPT-4 w styczniu działa naprawdę stabilnie i działa też naprawdę szybko. W sensie jeżeli chodzi o performance to jest on dobry jak nigdy. Jeżeli chodzi o stabilność to też jest ona dobra jak nigdy. Bardzo rzadko mi się zdarzają networkerlory czy jakieś błędy. a szybkość odpowiedzi jest po prostu niesamowita. Nie jest to jeszcze GPT 3.5 Turbo, które jest dostępne dla użytkowników ChargePT Plus w tej przyspieszonej wersji, ale naprawdę, no teraz już nie ma czegoś takiego, że jeżeli zlecasz jakieś bardziej złożone zadanie, to możesz iść na kawę, no teraz już po prostu nie zdążysz sobie tej kawy zrobić, bo ta odpowiedź jest naprawdę szybka. Więc jeżeli ktoś był rozczarowany performencem albo stabilnością tej usługi, na przykład zrezygnował z ChargePT Plus, no bo stwierdził, że no fajnie, jest to gdzieś tam model, który ma duże możliwości, ale nie odpowiada mi z tych dwóch względów, no to warto zajrzeć ponownie, bo myślę, że się pozytywnie zaskoczycie.
Przemek:
Tutaj można jeszcze dodać, że z punktu widzenia OpenAI ten nowy interfejs to jest pewnie taka próba przełożenia praktyk czy też wzorców UXowych, do których już byliśmy przyzwyczajeni w innego rodzaju aplikacjach, bo to na przykład znany dobrze model ze Slacka, z Teamsów, gdzie po prostu małpą wspominamy innych użytkowników. Więc te zmiany w jakiś sposób są przekładane na to, jak działa czat GPT i wydaje mi się, że w tym roku możemy obserwować takie zacieranie się granicy pomiędzy rozmową z asystentem opartym o AI, a korzystanie z jakichś innych aplikacji do prowadzenia rozmów np. na poziomie organizacji. Właśnie ta mała, chociaż to jest tak naprawdę mała zmiana, Mocno zmienia to jak korzysta się z czata GPT i dodatkowo to zwiększone tempo odpowiedzi o którym ty wspomniałeś daje wrażenie tego, że taka komunikacja w czasie rzeczywistym jest już na wyciągnięcie ręki. Specjalnie jeszcze przed nagraniem tej rozmowy chciałem sprawdzić czy są jakieś limity jeśli chodzi o to przełączanie się pomiędzy GPTsami, ale tak naprawdę wydaje się, że nie ma tam żadnych limitów i ograniczeń. Możemy dowoli przed każdym zapytaniem zmieniać tego custom GPTSa, którego odpytujemy, te ikonki się zmieniają, więc jakby chat GPT odpowiada w innej roli, tam mamy podpięte inne custom instructions. No i to przypomina rozmowę tak naprawdę z kilkoma osobami jednocześnie na poziomie organizacji, więc takie modele, które znamy właśnie z komunikatorów, ze Slacków, z Teamsów, one się będą pojawiać w czacie GPT. Na pewno to nie jest już ten słynny dropdown, o którym wspominaliśmy w jednym z naszych odcinków, gdzie musieliśmy się przełączać pomiędzy różnymi trybami. Był cały dodatkowy narzut tego, żeby zrozumieć w jakim tak naprawdę kontekście prowadzimy rozmowy. Czy możemy generować obrazki, czy może powinniśmy teraz przejść na tryb data analysis, albo możemy ten data analysis wyłączyć. Jest to zdecydowanie łatwiejsze. Myślę, że będzie to jeszcze bardziej upraszczane. z biegiem czasu. Dodatkowo mamy też ważne zmiany na poziomie historii i prywatności naszych rozmów, co prawda nie są to takie zmiany, które są dostępne wyłącznie w planie team, natomiast w planie team i enterprise one stają się po prostu bardziej dostępne. W planie team podobnie jak w planie enterprise mamy rozłączone zarządzanie historią i ustawieniami prywatności. To co pojawia się w darmowej wersji czata GPT i w czacie GPT+, polega na tym, że albo decydujemy się na przechowywanie historii konwersacji i tym samym wykorzystywanie naszych rozmów w procesie trenowania modeli, albo wyłączamy obie te opcje. Od planu team w górę, czyli na planie team i enterprise mamy to rozłączone, co oznacza, że po prostu możemy mieć zachowaną historię konwersacji, a danych nie przekazywać do firmy Open. Ja myślę, że to również jest jeden z takich game changerów w perspektywie wielu menedżerów, wielu liderów technologicznych, którzy po prostu o te dane dbają. No i mamy też taki lekki upselling, bo mamy dostęp do nowej konsoli zarządzania właśnie organizacją, która również jest takim subsetem tego, co użytkownicy czata GPT Enterprise widzą. No i tam mamy m.in. podgląd sitów, czyli dostępów, które mamy na poziomie organizacji włączone. Mamy dedykowane sekcje do billingu. No i mamy też zablokowane sekcje, które są odblokowane w tym najwyższym planie. Wydaje mi się, że OpenAI no jednak sugeruje troszkę, co tak naprawdę jeszcze na ciebie czeka w tym najwyższym planie, gdybyś go włączył. Jest to w pewnym sensie technika upsellingowa, ale też nie przeszkadza bardzo, więc jestem z tym jak najbardziej ok. Zdecydowanie teraz łatwiej można sobie wyobrazić, czym ten plan Enterprise jest, bo wcześniej to nie było wcale takie takie jasne i proste, jeśli nie przebiłeś się przez zestaw salesów, którzy po prostu odpowiadali na formularze, albo tak jak w przypadku mnie, w ogóle nie odpisywali, bo wybierałem prawdziwy rozmiar firmy, czyli 2-3-4 osobowa, więc sporo plusów w tym chat GPT Team, całkiem dostępna cena, bo w przypadku subskrypcji rocznie mamy tylko 5 dolarów więcej za użytkownika, czyli 25 dolarów, a nie 20, tak jak w chat GPT+, Chyba, że zostajemy na planie miesięcznym, to wtedy płacimy o 10 dolarów więcej w porównaniu do plusa, bo płacimy 30 dolarów. Między tymi trybami można się przełączać. Co ważne, nie wiem Marcin jak u Ciebie, na moim koncie pojawił się zwrot, subskrypcja plusowa została anulowana i weszliśmy na nową subskrypcję teamową, więc nie płacimy dwa razy za ten pozostały okres rozliczeniowy. OpenAI tutaj bardzo ładnie zwrócił te pieniądze.
Marcin:
Wspominałeś o limitach, co prawda w innym kontekście, ale też istotnym limitem, jeżeli chodzi o to, jak korzystałeś z Charge’a PT do tej pory, był limit wiadomości. Szczerze mówiąc, ja nie wiem, czy on cały czas obowiązuje. Nie mam tutaj sprawdzonych informacji, bo dopiero właśnie zainspirowałeś mnie do tego, wspominając o limitach. ale ja tego limitu już nie spotkałem w tym roku, a korzystam bardzo aktywnie z ChatGPT każdego dnia, więc kolejna rzecz, która była uciążliwa, która zniechęcała ludzi do wykorzystywania płatnych subskrypcji ChatGPT albo została całkowicie zniesiona, albo jest ten limit znacznie wyżej podniesiony. Ja po prostu już go nie spotykam ani razu w tym roku, więc Kolejny powód, żeby moim zdaniem sprawdzić chat GPT+, Team bądź też Enterprise, bo naprawdę wygląda to nieźle. Myślę, że możemy przejść do kolejnego newsa, który też się pojawił, czyli zmian, jeżeli chodzi o API. Tych zmian było dość dużo. Część jest już dość mocno techniczna i myślę, że będzie odległa dla wielu słuchaczy. Chodzi o nowe modele embeddingów. więc jeżeli ktoś tworzy integrację swoich agentów, swoje chat-boty, to na pewno już jest na bieżąco z tą zmianą, a my wspomnimy o czymś, co myślę, że będzie interesowało większość ludzi, którzy gdzieś tam chce stworzyć swoje rozwiązania związane z AI. Mianowicie o znaczny spadek ceny modelu GPT 3.5 Turbo, jeżeli chodzi o API. Jest to cały czas najpopularniejszy model, ze względu na znacznie niższą cenę od GPT-4, które mimo wszystko w takich produkcyjnych zastosowaniach jest po prostu wciąż bardzo drogie. Za to ceny w chart GPT, nie chart GPT, a GPT-3.5 Turbo modelu samego w sobie dostępnego przez API spadły o połowę jeżeli chodzi o input i 25% jeżeli chodzi o output, jeżeli dobrze pamiętam. I jak Przemek słusznie zauważył przygotowując scenariusz do tego odcinka, Jest to zapewne odpowiedź na ruchy ze strony Google i nie tylko, no bo mamy dostęp do Google Gemini, która jeżeli zostajemy poniżej 60 zapytań na minutę, to mamy ten model dostępny zupełnie za darmo. Wiadomo, że w aplikacjach produkcyjnych to może być mało, ale jeżeli bawimy się, tworzymy jakiś własny, hobbystyczny projekt, a myślę, że wiele zastosowań to właśnie są tego typu projekty, na luty 2024 roku. Prawie mi się udało wypowiedzieć to słowo. Tak więc tutaj widzimy, że OpenAI też reaguje na ruchy konkurencji i obniża ceny, aczkolwiek cały czas pozostaje za konkurencją open source’ową, jeżeli chodzi o stosunek ceny do wydajności, bo francuski model Mixral na platformie na przykład OctoAI cały czas jest dostępny taniej i to prawie o połowę, a wydajność jest bardzo podobna w benchmarkach, co pewnie się sprowadzi do tego, że kolejna obniżka już niedługo, no bo siłą rzeczy OpenAI jako duża korporacja pewnie nawet będzie brała na siebie coraz większe koszta, będzie gotowa gdzieś tam tracić tak naprawdę na tym całym biznesie, żeby tylko utrzymać pozycję lidera. Co myślisz o tym Przemku? Jak gdzieś tam się odnosisz do obecnej sytuacji jeżeli chodzi o dostępne modele API i też jak wygląda w ogóle sytuacja z tymi modelami open source, gdzie też się dzieje coraz więcej?
Przemek:
Na pewno to jest istotne w kontekście bardziej złożonych scenariuszy, kiedy przepinamy się pomiędzy modelami na poziomie aplikacji. To jest dość już popularna praktyka, gdzie po prostu nie decydujemy się na korzystanie z najbardziej potężnego GPT-4, GPT-4 Turbo, które też jest po prostu znacznie droższe, ale w przypadku prostszych zadań, analizy sentymentu, generowania tekstu, gdzie nie tak bardzo nam zależy na konkretnych kryteriach, po prostu przepinamy się i schodzimy na tańszy model i myślę, że po prostu te proporcje pomiędzy GPT-4 a GPT-3.5 mogą teraz znowu się przechylić na stronę tego modelu tańszego, o którym Ty wspominałeś No bo widzimy to w wielu różnych kontekstach, to nie zawsze jest tak, że my potrzebujemy jakiegoś zaawansowanego reasoningu GPT-4 też ma swoje czkawki, odpowiada wolniej, nie zawsze jest to taki model, który po prostu jest wart i ceny, ale nie jest wart tych wszystkich trade-offów, które dalej mamy korzystając z niego, więc mamy tego GPT-3.5 który powoli, powoli gdzieś tam idzie w stronę zupełnie darmowego planu. Jak tutaj też słusznie zauważyłeś, nie jest to jeszcze w pełni darmowy plan, jest to plan niemal free, bo tam mamy 4.0 i dopiero 5.0 na końcu za 1000 tokenów. Ale myślę, że to idzie w stronę modeli niemal darmowych, które można wykorzystywać w aplikacjach lokalnych, deweloperskich, można sprawdzić potencjał tego czym właściwie są te wielkie modele językowe, bo to też nie jest oczywiste. Jeśli ktoś wcześniej miał obawy związane z tym, że właśnie ten jego rachunek znacznie wzrośnie, pojawią się kolejne opłaty na koncie, to w przypadku tego nowego planu pricingowego po prostu może spać spokojniej. To jest też spójne z tym co mówi sam Altman, który cały czas powtarza, że jeden z większych wymiarów konkurencyjności OpenAI to będzie po prostu obniżanie cen as simple as that, tak jak w przypadku innych gdzieś tam gałęzi branży IT, przemysłu, ogólnie rynku szeroko rozumianego po prostu ta cena regularnie pójdzie w dół. I to jest kolejny krok, który po prostu potwierdza, że to co mówi Pan Altman w praktyce się sprawdza. Ja jestem z tym jak najbardziej na tak. W kontekście Google’a i Gemini Pro ten plan jest również o tyle istotny, o czym będziemy zaraz mówić, bo okazuje się, że Gemini Pro naprawdę zaczyna nadganiać, przynajmniej na to wskazują benchmarki, no i OpenAI musi tutaj o tę konkurencyjność walczyć. Myślę, że tych największych announcementów, na które czekamy w tym roku, czyli albo radykalnie lepszych modeli, albo Gemini Ultra, Jeszcze nie ma, nie możemy o tym mówić, ale przynajmniej na poziomie ceny widać, że ta walka LLM-ów trwa na całego i myślę, że to się jeszcze długo nie zmieni. A propos tego fragmentu wcześniejszego, o którym wspominałeś, ja tutaj jeszcze sprawdziłem w tle. 100 wiadomości na 3 godziny, to jest niby teraz taki limit, który mamy w planie czat GPT Team. Natomiast jak to się przekłada na poszczególne zapytania, jak to się przekłada na model, na tryb advanced data analysis to również nie jest takie oczywiste, bo nam się zdarzało te limity wysycać po kilku analizach plików i to nie jest chyba tak, że to jest jeden do jeden takie samo tłumaczenie, chyba że widzisz to inaczej.
Marcin:
No tak, tylko wtedy gdzieś tam próbowaliśmy na limicie 30 wiadomości z tego co pamiętam, więc jest to trzykrotnie więcej. Myślę, że już gdzieś tam na warsztatach się nie spotkamy z sytuacją, że ktoś szczególnie aktywny tego limitu dotknie. Tak więc ja będę spał zdecydowanie spokojniej. 100 wiadomości to już jest naprawdę solidna liczba. Nawet jak były czasy, kiedy ten limit był na poziomie 50 wiadomości, to już realnie podczas codziennego użytkowania na ten limit nie natrafiałem. Przy 100 wiadomościach to dam jest praktycznie bez limitu. Ciężko mi sobie wyobrazić, żeby aż tyle tych wiadomości wymienić w przeciągu 3 godzin z czatem GPT. No chyba, że naszym celem jest właśnie, aby ten limit przekroczyć.
Przemek:
Tutaj myślę, że najważniejszy jest jakby cały taki proces, który przynajmniej ja stosuję, ty pewnie też, gdzie po prostu piszemy zapytanie, dostajemy odpowiedź, no i następuje pauza. To nie jest tak, że bardzo intensywnie te wiadomości wymieniamy, bo albo musimy się zastanowić, albo wykorzystujemy tę odpowiedź w zupełnie innym kontekście, no i to okienko się automatycznie przesuwa i mamy więcej space’u na to, żeby te 100 wiadomości wysycić.
Marcin:
Dokładnie, możemy teraz przejść do największej konkurencji OpenAI, czyli Google, które również gdzieś tam w styczniu zdecydowanie nie śpi i można powiedzieć, że kontratakuje jak prawdziwe imperium. I co mamy tutaj do dyspozycji? No przede wszystkim to, że w usłudze BART, która już niedługo nie będzie nazywała się BART, tylko będzie nazywała się właśnie Gemini, Dostaliśmy dostęp do Gemini Pro na terenie Unii Europejskiej, czyli też Polski. Chociaż, czy ten dostęp już dla wszystkich został przyznany, co do tego nie ma pewności. Sam Bart Tudesz Gemini nie jest do tego przekonany, no bo ja dziś rano próbowałem się od niego tego dowiedzieć. Pierw mi powiedział, że Niestety Gemini Pro jeszcze na terenie Unii nie jest dostępny. Po czym go zapytałem, a z jakiego modelu teraz korzystasz? Kiedy rozmawiamy na terenie Polski, Unii Europejskiej odpowiedział z pełnym przekonaniem, że Gemini Pro. Tak więc tutaj sytuacja nie jest do końca jasna, ale jako, że ten announcement był dopiero wczoraj, 1 lutego, stąd myślę, że jeszcze jest przestrzeń na tego typu niedokładne odpowiedzi, no bo jak wiemy te modele też nie są super dobre w takiej autorefleksji. GPT 4.3.5 również ma tego rodzaju wpadki, więc myślę, że to Gemini Pro faktycznie już dostępne jest, a jeżeli nie, no to jest kwestia godzin bądź też dni. A jest to gdzieś tam fajna wiadomość, mimo że te pierwsze benchmarki, które były dostępne w grudniu wielkiego szału nie zrobiły, no bo ten model wypadał na gorszy niż ChargePT 3.5. Tym niemniej to były takie benchmarki typowo techniczne. Ale jeżeli chodzi o user experience i o to jak oceniają ten model użytkownicy, no to wygląda to znacznie, znacznie lepiej. Przemek opowiedz skąd takie wnioski i też jakie kontrowersje to wywołuje. No temat jest ciekawy.
Przemek:
Żeby mówić o możliwościach modeli musimy tutaj wprowadzić chatbot arenę, czyli taką usługę narzędzie popularne w community machine learningu, które właśnie umożliwia testowanie i porównywanie poszczególnych możliwości poszczególnych modeli językowych. Ostatni update na chatbot arenie na leaderboardzie, który pokazuje wyniki modeli konkurujących ze sobą nawzajem, o których też zaraz powiemy, powiemy o tym jak cały ten mechanizm działa, wskazuje na to, że Gemini Pro ulokował się na drugim miejscu jeśli chodzi o te popularnie dostępne wielkie modele językowe, przebijając poprzednie wersje GPT-4, pozostawiając przed sobą tylko tę najnowszą wersję GPT-4 Turbo, co jest wynikiem radykalnie innym od tego na co się zapowiadało po premierze Gemini Pro, kiedy dokładnie tak jak Ty Marcin powiedziałeś, okazywało się, że Przynajmniej wyglądało na to, że ten model jest dość może przeciętny, ale też zawsze takie wypowiedzi to trzeba dawać z gwiazdką, bo przeciętny w dzisiejszych LLM-ach to jest przeciętny na poziomie niezaspokojonego użytkownika tej technologii, czyli robiący wrażenie, ale bardzo szybko stając się gdzieś tam może przestarzały miesiąc, miesiąc do miesiąca. W każdym razie teraz na chatbot arenie na leaderboardzie w wynikach porównań użytkowników Gemini Pro placuje się na drugim miejscu jedynie za najnowszą wersją GPT-4 Turbo. No i tutaj oczywiście po takiej samej fali ekscytacji pojawia się taka sama fala powątpiewania no bo właśnie tak jak ty Marcin powiedziałeś cały ten release plan Google względem modelu Gemini Pro jest nie do końca jasny. My nie wiemy kto tak naprawdę i kiedy uzyskuje dostęp do tego modelu. Jeśli chodzi o moje doświadczenia w Bardzie, no to mi na przykład Bard z całym przekonaniem mówi, że z Gemini Pro już korzystam i właśnie na tym jest oparta ta moja instancja, chociaż nie mogę generować obrazów, które też miały się w tym samym update’cie pojawić przy pomocy właśnie modelu Imagine 2, którego Google zapowiadał, więc jest to nie do końca jasne. Więc mamy przede wszystkim narzędzie Chatbot Arena, Mamy leaderboard, tam JimmyNyPro pojawia się na drugim miejscu. No i teraz warto byłoby jeszcze powiedzieć skąd właściwie takie miejsce. Może tutaj Marcin wprowadzisz ten temat. Sama aplikacja jest naprawdę bardzo interesująca i też zachęcamy od razu do skorzystania, do korzystania, do testowania tego o czym Marcin tutaj zaraz opowie.
Marcin:
Czartbot Arena jest dostępna w ramach Hugging Face i jest to bardzo ciekawy sposób na porównywanie możliwości modeli, zainspirowany tym jak środowisko naukowe podchodzi do recenzowania badań. gdzieś tam taką metodę double blind można powiedzieć czyli dostajemy wyniki z dwóch modeli i nie wiedząc z jakim modelem wchodzimy w interakcję wybieramy odpowiedź która bardziej nam odpowiada więc tutaj usuwamy wszelkiego rodzaju bajasy po prostu koncentrujemy się na jakości odpowiedzi i w ten sposób te modele właśnie są oceniane no i jak widać odpowiedzi z Gemini Pro są oceniane bardzo wysoko jeżeli chodzi o ten dostęp do Imagine 2, tego nowego modelu generowania obrazów przez Google, to tutaj ja się wykażę, doczytałem przed podcastem, że ten model jeszcze nie będzie dostępny w najbliższym czasie na terenie Unii Europejskiej. Po raz kolejny już nie będę tutaj narzekał na to, bo to po prostu jest coś do czego się trzeba przyzwyczaić. Obecnie ten model będzie dostępny tylko na terenie całego świata, poza tutaj naszym starym kontynentem. I co ważne, będzie też póki co dostępny tylko podczas promptowania w języku angielskim. To trochę mnie dziwi, szczerze mówiąc. Tutaj chyba po raz kolejny gdzieś tam Google gra bardzo defensywnie, no bo przetłumaczenie prompta z języka polskiego na angielski przez firmę, która oferuje usługę taką jak Google Translate, nie brzmi jak szczególnie wielkie wyzwania, a mimo to zdecydowali się, żeby tylko udostępnić ten model po angielsku. Jest to dla mnie takie zastanawiające, no ale cóż, pewnie z czasem doczekamy się dostępności zarówno na terenie Unii Europejskiej, jak i podczas promptowania w języku polskim. Wracając do samej Chatbot Areny, Bardzo ciekawe moim zdaniem rozwiązanie, które pozwala też testować modele w sposób bliższy człowiekowi niż te benchmarki, które zwykle widzimy w wszelkiego rodzaju artykułach, które właśnie pokazują jak taki benchmark techniczny, taki jak czy inne benchmarki mogą odbiegać od tego jak użytkownicy postrzegają dany model, no bo tak jak wspominaliśmy Gemini Pro w tych takich technicznych, tradycyjnych benchmarkach machine learningowych wypada na poziomie GPT 3.5 Turbo, podczas gdy jeżeli dajemy odpowiedzi użytkownikowi i on nie wie, że to jest ten Gemini Pro, no to wiele osób stwierdza, że ten modlopera lepiej nawet od starszych wersji GPT-4. No więc tutaj duże zaskoczenie. Są oczywiście kontrowersje, część ludzi powątpiewa, co to jest za wersja, bo kiedy oni korzystają z barda to są rozczarowani, a tutaj nagle w tym chatbot arenie to Jamie Naipro sobie super radzi, więc są jakieś wątpliwości, ale też nie widziałem żadnych konkretów. Ciężko też mi przypuszczać, żeby Hugging Face, chociaż teraz złapałem się trochę gdzieś tam za słowo, za język, no bo dopiero co mieliśmy ogłoszenie bliskiego partnershipu pomiędzy Hugging Face’em a Google’em. No nie chcę tutaj oczywiście nikogo oskarżać o jakieś fałszowanie wyników, żeby podciągnąć wyniki Google’a, ale to pewnie też może gdzieś tam stać za częścią tych kontrowersji, no bo dosłownie 2-3 tygodnie temu został ogłoszony ten partnership, a gdzieś tam wersja właśnie Gemini Pro Bard z 24 stycznia, no takie świetne wyniki osiągnęła. Ja mimo wszystko trzymam kciuki, żeby to faktycznie był tak dobry model i żebyśmy właśnie tak fajne narzędzie dostali za darmo do dyspozycji już na terenie Unii Europejskiej. Zdecydowanie wolałbym, żeby ludzie korzystali za darmo z czegoś co przypomina GPT-4, a nie GPT-3,5 jak to jest w przypadku darmowego czata GPT, który moim zdaniem obecnie robi trochę zły marketing całym LLM-om, no bo to już jest model, który ma swoje lata i takiego wrażenia jak GPT-4 zdecydowanie nie robi.
Przemek:
Zgadzam się. Myślę, że cały czas jeszcze w takiej powszechnej świadomości jednak marka tutaj odgrywa znaczącą rolę w postrzeganiu tej technologii. Kiedy Janek Kowalski albo też mówiąc w prostu ktokolwiek z naszych bliskich, z naszych rodzin, z osób nietechnicznych po prostu będzie testował LLM i będzie widział, że Google wypuszcza coś co nazywa się właśnie wielkim modelem językowym, jakąś usługą AI opartą na tej technologii i ona nie działa do końca dobrze, to też może mieć zupełnie mylne wrażenie a propos potencjału. Myślę, że cały czas ta marka Google mocniej przekłada się na to, jakie jest wyobrażenie w powszechnej świadomości tego czym te LLM są. niż np. OpenAI, bo OpenAI wiemy, że jest ogromną firmą z ogromnym potencjałem, ale jednak jest dość jeszcze hermetycznym tematem jeśli chodzi o takie usługi konsumenckie. To nie jest tak, że mamy telefony od OpenAI, nie mamy monitorów, komputerów od OpenAI. Mamy API od OpenAI, które jest niesamowite, ale myślę, że to właśnie na na przykładzie takich usług jak na przykład te wypuszczane przez Google, Janek Kowalski sobie robi opinię na temat tego co ta technologia potrafi. Więc na pewno tak jak wcześniej mówiliśmy o konkurencji na poziomie cen, tak samo konkurencja na poziomie możliwości tych modeli jest dobra z perspektywy użytkownika, to po prostu tylko napędzi rozwój. Ja ostatnio widziałem jakieś plotki krążące po Eksie, że na przykład z perspektywy OpenAI GPT-4.5 zostało zawieszone. tego typu plotki gdzieś tam krążyły po moim exie właśnie chyba celem tego, żeby skupić się na GPT-5. Przed nami jeszcze Gemini Ultra, więc myślę, że nudy nie będzie na tym rynku. A tak naprawdę mamy styczeń, mamy tak naprawdę pobudkę wiosenną po tym okresie świątecznym, kiedy też można było odnieść wrażenie, że jest pewnego rodzaju cisza w Eterze. No to wszystko rusza i tylko czekać na te kolejne wiadomości.
Marcin:
Zdecydowanie. Powiem jeszcze trochę więcej o tym wspomnianym już przeze mnie partnership’ie pomiędzy Google a Hugging Face. Może nie partnership’ie, a współpracy, bo też mamy ładne słowo w języku polskim, żeby tutaj nikt nie narzekał, że używam niepotrzebnych anglicyzmów. Tak więc możemy od kilku tygodni deployować i trenować modele Hugging Face właśnie na platformie Google Vertex AI. Mamy tam do dyspozycji naprawdę potężne maszyny, na które większość z nas nie jest w stanie sobie pozwolić. Tak więc, jeżeli chcecie te modele open source wypróbować np. Mixtara 7B to macie taką możliwość za pośrednictwem Hugging Face i Google Vertex AI. Na pewno jest to ciekawa współpraca. Zresztą wspominaliśmy o niej dosłownie wczoraj w najnowszym wydaniu Frontend Tech Radaru. To jest coś co warto mieć na uwadze. No i pewnie też to przyspieszy implementację wszelkich rozwiązań AI. w aplikacjach webowych, co jest czymś, czemu gorąco kibicujemy, bo potencjał tu jest naprawdę duży. No i myślę, że możemy zamknąć tym oto sposobem sagę Google i ogólnie sagę korporacyjną tak naprawdę i przejść do tych bardziej startupowych rozwiązań. Pierwszym z nich, które ma nowości do dyspozycji jest Meet Journey. Opowiedz Przemek, co tam Meet Journey dla nas szykuje.
Przemek:
W kontekście Midjourney to znowu nawiąże do tego kontekstu organizacji i zespołów, bo myślę, że to jest bardzo ciekawa nowość, z której te zespoły mogą korzystać w kontekście chociażby marketingu, kampanii marketingowych, takich publikacji dużej skali. Tam bardzo często pojawia się potrzeba polegania na podobnych stylach generowanych ilustracji obrazów, które Midjourney dla nas tworzy. Co jak każdy użytkownik Midjourney i tego typu usług wie nie jest tak zupełnie łatwym zadaniem, to znaczy jeśli chcemy uzyskać 4, 5, 6, 7 ilustracji, które wyglądają podobnie, no to naprawdę trzeba się na tym nagłowić, bo napisanie jednego prompta jest stosunkowo łatwe i te dojście do efektów też jest już stosunkowo łatwe przy tych modelach, które mamy dzisiaj. Natomiast powielenie tego kilkukrotnie wcale takie oczywiste nie jest. No i zaczęły się pojawiać różne sposoby na to, żeby ten styl mieć bardziej pod kontrolą. O ile pamiętamy w jednym z ostatnich odcinków, w jednym z niedawnych odcinków wspominaliśmy o kreatorze, który pojawił się w Meet Journey, który pozwala na przejście takiego zestawu AB testów, na końcu których dostajemy link właśnie z pewną referencją, z pewnym identyfikatorem stylu, którego możemy używać. Mogę już teraz mylić np. naszego YouTube’a, Twittera i podcasty, ale to była jedna z takich funkcjonalności, którą wystawiła Meet Journey. Natomiast teraz pojawia się kolejna opcja, która ma nam pomóc w większej skali generować podobne ilustracje, podobne względem siebie i to jest nowość o nazwie Style References. Na czym to ma polegać? To ma polegać na odwoływaniu się do zdjęć i ilustracji, które w naszych promptach będziemy przekazywać za pomocą urla, za pomocą po prostu adresu. Możemy przy pomocy parametrów wskazać podobieństwo względem którego chcemy nowy obraz wygenerować i to ma sprawić, że po prostu uzyskamy coś powiedzmy na kształt czegoś, co już istnieje mówiąc wprost. Możemy sobie to łatwo wyobrazić, kiedy generujemy pierwszy obrazek pod konkretną kampanię mailową, modyfikujemy tego prompta kilkukrotnie, dochodzimy do takiego stylu, który nam się podoba. Przez to, że te ilustracje są hostowane w galerii mid-journey to mamy też urlat do tego obrazka. I z tym urlem możemy wykonywać kolejne zapytania mówiąc midjourney, że słuchaj stwórz mi coś podobnego do czegoś co znajduje się pod tym adresem URL. Więc myślę, że od strony interfejsu to jest całkiem interesujące rozszerzenie. To nadal jest coś co wymaga wiedzy technicznej, wiedzy takiej programistycznej. Trzeba się znać na parametrach, wiedzieć gdzie przekazać i tak dalej. Nie jest to przeciągnięcie obrazka na przykład na pole tekstowe tak jak w przypadku czata GPT Vision. Natomiast myślę, że w dużej skali każde tego typu rozwiązanie, które po prostu wprowadzi więcej spójności, bardziej jednolity styl tych generowanych ilustracji będzie na plus. Mid Journey tutaj zapowiada, że to jest jeszcze wczesna beta, że to nie jest jakby do końca rozwiązanie produkcyjne, ono może się zmieniać. Natomiast można testować czy faktycznie pomaga, czy faktycznie ułatwia generowanie tych ilustracji podobnego kształtu.
Marcin:
Dokładnie tak i może jeszcze sprzedam tipa, którego ty mi pokazałeś niedawno i znacznie to usprawniło moją pracę z Mid Journey, czyli możliwość wstawiania placeholderów do naszego prompta. Powiedzmy, że chcemy wygenerować postacie robotów i chcemy, żeby one się znajdowały w różnych lokalizacjach, w biurze, na plaży i gdzieś tam powiedzmy na boisku. Ja wcześniej robiłem to za pomocą trzech osobnych promptów, mówiłem Robots having fun in the office, in the beach, in the stadium. Jest możliwość zrobienia tego za pomocą jednego prompta. Korzystamy z klamry i po przecinkach wstawiamy te fragmenty, które chcemy podmienić i żeby Mid Journey za nas wykonało tak naprawdę trzy zapytania. Tak więc klamry i po przecinku wstawiamy te fragmenty, które chcemy, aby zostały po prostu wykorzystane w trzech osobnych promptach, tylko że piszemy prompta jednego. Gorąco polecam, no bo to znacznie gdzieś tam podnosi produktywność i nie trzeba po prostu robić tylu copy-paste’ów. Dla mnie to było bardzo męczące, więc dzięki Przemek za tego tipa. I też, może ja mam tipa dla osób, które lubią anime, tak jak ja. Jeżeli chcecie generować fajne obrazy właśnie w stylistyce anime, no to teraz macie ku temu jeszcze lepsze warunki. Już wcześniej Midgerny radziło sobie z tym naprawdę nieźle, ale teraz wypuścili w wersji alfa dedykowany model, który specjalizuje się właśnie w obrazach anime. On nazywa się Niji 6 i jeżeli chcemy z niego skorzystać, to musimy do dowolnego bota mi journey wysłać komendę settings i tam z dropdowna wybrać sobie właśnie ten model, który specjalizuje się w ilustracjach anime, więc jeżeli chcecie mieć jakąś tam fajną ilustrację z postaciami z Bleacha, z Naruto, z Jujutsu Kaisen, no to jest ku temu świetna możliwość. Testowałem to trochę dzisiaj rano i wyniki są naprawdę imponujące. więc osoby lubiące animacje w stylu japońskim mają coś fajnego do pobawienia się przez najbliższe dni. Gorąco polecam i szczerze mówiąc to było dla mnie zaskoczenie, że Mid Journey wypuściło coś takiego, ale z drugiej strony patrząc na na to, co się dzieje na tych grupowych czatach na Discordzie, gdzie ludzie po prostu generują swoje ilustracje. Tu dość dużo ludzi generuje tego typu ilustracje. Widocznie po prostu widzieli duże zainteresowanie tego typu obrazami, tego typu ilustracjami. Tak więc super, gdzieś tam coś nowego dla zajawkowiczów. No i ostatni gdzieś tam news z naszej strony, kontrowersyjny. Ale myślę, że jak najbardziej również budzący duże nadzieje, jaka przyszłość nas czeka, zwłaszcza w kontekście modeli Open Source. Przemek opowiedz, co tam się działo z tym słynnym leakiem mixtralowym.
Przemek:
Zaczęliśmy od dużych korporacji, więc trzeba skończyć na community i to na firmie, którą lubimy tutaj wymieniać i o której lubimy opowiadać w tych naszych podcastach. Leak, pewnego rodzaju śledztwo i afera, o tym właśnie chcemy powiedzieć. Tak naprawdę kwestia ostatnich dni. Wspominaliśmy wielokrotnie tutaj o Hugging Face’ie. O Hugging Face’ie wspominamy też na naszym YouTubie. To jest platforma między innymi do hostowania otwartych modeli językowych. Tak się składa, że jakiś czas temu na tym Hugging Face pojawił się dość nietypowo nazwany model o możliwościach robiących ogromne wrażenie, bo tak jest streszczenie tej historii. Natomiast nie było konkretnego brandingu. Był anonimowy użytkownik, była nazwa modelu, która tak naprawdę nie mówiła skąd ten model pochodzi. I jakby plotka, czy też taka wieść o tym modelu zaczęła krążyć po 4chanie, zaczęła krążyć po Eksie, wypowiadali się kolejni inżynierowie machine learningu. Mówiąc, że słuchajcie, nie wiemy co to jest, nie wiemy skąd to pochodzi, ale to jest naprawdę dobre. To jest tak dobre, że spowodowało to plotki o tym, że to nikt inny jak firma Mistral wypuściła w formie ukrytego, szeptanego marketingu jeden z nowych, nadchodzących modeli. który miał spowodować zamieszanie w środowisku. Model się nazywał Miku, co miało wskazywać na Mistral Quantized, czyli pewną zoptymalizowaną wersję jednego z nowszych modeli od firmy Mistral. Bo tak naprawdę poza firmą Mistral nie wydaje się, że inni gracze na rynku chcieliby coś takiego robić. Wiemy, że Mistral też przygotowuje się do wypuszczania większych modeli, które mają konkurować z GPT-4. obietnica powiedzmy ataku branży open source, świata open source na te duże korporacje. Jeszcze tego nie doczekaliśmy, ale wiemy, że to jest gdzieś przed nami. No i w tych plotkach, w całej tej sytuacji okazało się, że było sporo prawdy, bo szef firmy Mistral wypowiedział się w końcu komentując tę sytuację. No i wspomniał, że to faktycznie jeden z pracowników, czy jeden z klientów, który miał dostęp do wczesnej wersji tego modelu Mistral Medium. Po prostu zdecydował się na udostępnienie jej w sieci Szef Mistrala jakby tutaj przyznał rację gdzieś tam tym plotkom, pogłoskom Natomiast twierdził, że to była jedna z wcześniejszych wersji, że oni pracują na czymś zdecydowanie bardziej dopracowanym Że ten polishing jest na zdecydowanie większym poziomie Myślę, że skończyło się na czymś pomiędzy takim marketingiem szeptanym, a jakąś awarią, jakimś incydentem, jakimś emergency, na który leadership musiał reagować. Ciekawa historia, bo też pokazuje jaka jest właśnie dynamika całego tego świata modeli językowych, jak dużo jest ostrożności. Często o tym mówimy w kontekście korporacji, ale firmy open source też na pewno dbają o to, żeby te modele po prostu nie pojawiały się z nienacka. Tam są konkretne release plany, changelogy i strategie marketingowe i ogromne pieniądze w tle, bo przede wszystkim też o to chodzi. Jedna z takich sytuacji ostatnio na wielu nagłówkach portali branżowych coś mi mówi, że nie ostatnia w dalszej perspektywie.
Marcin:
Najbliższe miesiące pokażą, czy doczekamy się modelu open source, który ma performance na podobnym poziomie do GPT-4. Jeżeli tak, no to ten słynny artykuł, który szerokim echem rozszedł się w zeszłym roku o tym, że korporacje wcale nie mają tego słynnego motu na modele AI będzie zdecydowanie bliższy prawdzie niż się mógł wydawać do tej pory. Osobiście gdzieś tam trzymam kciuki, bo to również na pewno te korporacje zmotywuje do jeszcze szybszej iteracji. Nie wiem, jakby to miało wyglądać w przypadku OpenAI, jeżeli mam być szczery, ale my tutaj jesteśmy fanami konkurencji i tego, żeby ta branża szła do przodu. Nie obawiamy się apokalipsy w 2025 roku, jak coraz więcej youtuberów, których nie pozdrawiam. Nie mogę sobie tego odmówić, ale coraz więcej widzę gdzieś tam clickbaitowych, moim zdaniem niefajnych materiałów, które zbierają zdecydowanie za dużo wyświetleń. Więc jeżeli chcecie, żeby takie bardziej przyziemne treści trafiały do szerokiego grona, odbiorców, no to zachęcam, żeby ten nasz podcast udostępniać szeroko osobom oczywiście zainteresowanym bez spamowania. No tym niemniej wydaje mi się, że my tutaj dbamy o sumienność, rzetelność i o to, żeby przekazywać fakty, konkretne informacje, które możecie zastosować w swoim codziennym życiu prywatnym i biznesowym, zamiast gdzieś tam operować na emocjach i gdzieś tam skupiać się na wizjach, które moim zdaniem powinny jeszcze pozostać w książkach. Science Fiction. Skończyłem swój rant, w każdym odcinku jakiś musi być. I to też zresztą jest powoli koniec tego odcinka, ale zanim on nadejdzie, no to tradycyjnie Topka, czyli co gdzieś tam przykuło naszą największą uwagę. Przemek może zacznij.
Przemek:
To ja może słowem komentarza do tego, co powiedziałaś. Myślę, że to jest trochę tak, że my de facto tracimy na tym, jak podchodzimy do przedstawiania tej tematyki sztucznej inteligencji. To znaczy ten nasz podcast nie ma takich zasięgów jak materiały niektórych innych autorów, które właśnie czy to nawołują do zablokowania tej technologii, czy wspominają, że pojutrze stracimy pracę, czy że apokalipsa już nadeszła i tylko po prostu mało kto jest z tego świadomy. No niestety tak ten rynek wygląda. Staramy się do tego tematu podchodzić trochę inaczej. Natomiast dzięki za każdy komentarz, za każdą gwiazdkę, za każdy share tego naszego podcastu. Myślę, że przez te ostatnie miesiące pokazaliśmy Wam, że jest też taka inna, myślę, że bardziej racjonalna strona opowiadania o tej technologii i każdy, kto chce nas śledzić w każdym kolejnym miesiącu się po prostu do tego Natomiast jeśli chodzi o topkę tego odcinka, to ja powiem, że czekam na te aktualizacje od Google. Dzisiaj popraizuję troszkę dużą korporację, natomiast cały czas wydaje mi się, że ta zdrowa konkurencja na rynku dużych modeli językowych po prostu będzie korzystna dla wszystkich, dla zwykłych użytkowników, dla takiego ogólnego wyobrażenia a propos tego czym są te wielkie modeli językowe. Czekam na tego Gemini Pro, my mamy też na blogu o panu EA porównania, tam Bart dostawał bardzo po DE jeśli chodzi o porównanie z chatem GPT+. Więc trzeba zrobić trzecią rundę, więcej czasu też spędzimy w chatbot arenie, na pewno po tym odcinku potestujemy różne modele, pogłosujemy na to wszystko. I myślę, że jest na to czekać, więc ode mnie podsumowując, JimmyNyPro w Bardzie i myślę, że w kolejnym odcinku będziemy już mieć miesiąc solidnego testowania, bo myślę, że na dniach i u Ciebie i u mnie to się pojawi i znowu pokażemy jak to tak naprawdę działa.
Marcin:
Ja gdzieś tam, moją topką jest sama metodologia Chatbot Arena jest dla mnie bardzo ciekawa, żeby właśnie porównywać metody, same modele przepraszam, z punktu widzenia jak postrzegają je użytkownicy, a nie benchmarki machine learningowe, które często gdzieś tam odbiegają od tego codziennego użytkowania, więc jest to bardzo fajny sposób, żeby modele ze sobą porównywać. Mam nadzieję, że Czartboard Arena będzie coraz popularniejsza, dużo ludzi będzie z tego korzystało, żebyśmy mieli jak najbardziej wymierne statystycznie wyniki. Tak więc zachęcam do brania udziału w kolejnych edycjach tych zawodów. Plus jeden na tego co powiedział Przemek, ja też osobiście liczę, że w lutym doczekamy się Gemini Ultra, które może też nieźle zamieszać. Co prawda w benchmarkach wypadało bardzo podobnie do GPT-4, ale biorąc pod uwagę, że Gemini Pro wypadało podobnie do chat GPT 3.5, a się okazało dużo lepsze, to kto wie, czy z Gemini Ultra nie będzie powtórki i ten lider nam się zmieni. Ja wielokrotnie wspominałem na bazie przeczytania książki Genius Makers, że DeepMind to jest naprawdę solidna ekipa i oni też potrafią zrobić dużo hałasu, potrafią zrobić dobry marketing. Co prawda w grudniu nie wyszło im to najlepiej, ale liczę, że w 2024 pokażą pazur, no bo, tak jak Przemek wspominał, konkurencja to jest coś, co zawsze jest gdzieś tam z korzyścią dla użytkowników. Może nie zawsze, to jest uproszczenie, ale gdzieś tam ja póki co, jeżeli chodzi o modele RLM, jak już wspominałem, jestem stosunkowo Spokojny. Myślę, że w ten sposób zamkniemy ten odcinek. Raz jeszcze zachęcam do zapisywania się na nasz newsletter o Panu EA i zachęcam również do oceniania tego podcastu na platformach Spotify oraz Apple Podcast. To jest świetny sposób, żeby poświęcić dosłownie minutkę i pomóc nam trafić do właśnie większego grona odbiorców, bo dzięki temu platforma wie, że ten podcast jest jakościowy i warto go podawać dalej. Tak jak wspominałem, ta nasza konkurencja, za którą szczególnie nie przepadamy, tych gwiazdek ma całkiem dużo, więc gdzieś tam do tych naszych piętnastu na Spotify fajnie jakby kolejne piętnaście przybyło. Będziemy za to bardzo wdzięczni. No i osoby, które chcą bliżej poznać technologię OpenAI, ChargePT wraz z tymi wszystkimi nowościami w kontekście firmy zachęcamy do naszych warsztatów na www.opanuj.eu na szkolenia. Znajdziecie szczegółowe informacje. Można tam się z nami umówić na domową konsultację. Poznamy wasze potrzeby i zobaczymy czy możemy gdzieś tam wejść we współpracę i wam pomóc. Dziękujemy. za uwagę. Dziękujemy za kolejne podsumowanie miesiąca. Bardzo miło było tutaj z Tobą Przemek porozmawiać po raz kolejny. No i widzimy się najpóźniej za miesiąc. Do usłyszenia. Wszystkiego dobrego. Cześć.
Newsletter Opanuj AI
Subskrybuj ręcznie selekcjonowane materiały z obszarów AI i rynku nowych technologii, które pomagają dowozić lepsze rezultaty i budować kulturę innowacji
- W każdy poniedziałek
- Otrzymuj podsumowanie najważniejszych informacji z branży AI i nowych technologii. Gwarantujemy zero spamu i tylko wartościowe treści.
- Tylko najlepsze materiały
- Materiały zamieszczane w newsletterze przechodzą proces selekcji, gdzie wymagamy jakości i możliwej do wykorzystania wiedzy.