· pojedynek · Przeczytasz w 7 min
ChatGPT Plus czy Google Bard - który asystent okaże się lepszy?
TL;DR
Czy $20 USD miesięcznie to inwestycja warta swojej ceny? Właśnie tyle kosztuje subskrypcja ChataGPT Plus - postanowiliśmy sprawdzić, czy opłaca się z niej korzystać po wejściu na rynek darmowego Google Barda.
Premiera Google Barda mocno namieszała na rynku wielkich modeli językowych dostępnych w Unii Europejskiej. Darmowy i turbopopularny ChatGPT zyskał konkurenta z logo Google, co mogło przekonać część użytkowników do zmiany. Dla nas prawdziwym testem było jednak porównanie Barda z ChatemGPT Plus, którego na dzisiaj uważamy za domyślnego LLMa i naszego osobistego asystenta.
Aby sprawdzić, który asystent wypadnie w naszym teście lepiej, przed oboma modelami postawiliśmy kilka zadań z zakresu kreatywności, rozumienia przestrzeni, matematyki a także kojarzenia faktów i podawania źródeł. Każdy model został zapytany o to samo, a jednak odpowiedzi - co zobaczycie poniżej - okazały się w kilku przypadkach skrajnie inne.
Jak sądzicie, jakim wynikiem zakończył się nasz pojedynek?
Fakty i źródła
W pierwszym zadaniu chcieliśmy sprawdzić jak oba modele poradzą sobie ze zwracaniem faktów potwierdzanych przez źródła. W szerszym kontekście był to test zaufania do danego modelu, czyli próba zaadresowania jednego z częściej pojawiających się ryzyk w kontekście korzystania z narzędzi opartych o sztuczną inteligencję.
Początkowym promptem był:
Opisz krótko pięć osiągnięć z których słynie Robert Oppenheimer. Wymień źródła na podstawie których budujesz swoją odpowiedź.
A oto odpowiedzi obu asystentów:
Co ciekawe, Google Bard wypadł w tym teście lepiej - podał źródła i umożliwił mi sprawdzenie faktów na własną rękę. Dla mnie to argument za przyznaniem punktu właśnie temu modelowi językowemu.
Wynik pojedynku: ChatGPT Plus 0:1 Google Bard
Zadanie matematyczne
W tym zadaniu chcieliśmy sprawdzić, czy matematyka będzie w zasięgu obu konkurentów. Aby pomóc im w rozwiązaniu zadania, w prompcie zamieściłem zdanie sugerujące, żeby podejść do problemu krok po kroku. To technika zwana Chain-of-Thought
, która wg wielu badań znacznie poprawia jakość odpowiedzi w takich zadaniach.
Początkowy prompt wyglądał następująco:
Oblicz wartość wielomianu w(x) = 4x^3 - x^2 - 4x + 1 dla x równego 7. Przedstaw obliczenia krok po kroku.
Jak tym razem poradziły sobie LLMy?
Poprawną odpowiedzią - przy nie do końca poprawnych obliczeniach cząstkowych - jest ta zwrócona przez ChataGPT Plus. Mamy remis.
Wynik pojedynku: ChatGPT Plus 1:1 Google Bard
Uzupełnienie wg wzoru
W tym zadaniu chciałem wykorzystać technikę o nazwie few-shot prompting
czyli takie podejście do konwersacji z LLMem, gdzie wykorzystam z góry zdefiniowane przykłady oczekiwanych rezultatów. Miało to posłużyć poprowadzeniu modelu za rękę. A jak wyszło?
Początkowy prompt:
Normalizuję dane podawane przez użytkowników tak, aby po każdych pięciu otrzymanych znakach wstawić pomiędzy nie trzy znaki minus. Uzupełnij dane wg przykładu:
Dane: aaaaabbbbbcccccddddd
Normalizacja: aaaaa---bbbbb---ccccc---ddddd
Dane: abcdefghijklmnopqrstuvw
Normalizacja:
Niestety, Google Bard nie wypadł najlepiej a liczenie znaków okazało się za trudne. ChatGPT Plus ponownie na wygranej pozycji.
Wynik pojedynku: ChatGPT Plus 2:1 Google Bard
Test na kreatywność
W tym zadaniu postanowiłem przed oboma zawodnikami pytanie otwarte związane z generowaniem pomysłów na filmu o określonej tematyce. Dla mnie, aspirującego YouTubera, mogłoby ono pomóc w twórczym odblokowaniu pomysłów na dalszą działalność i liczyłem na kreatywne sugestie modeli.
Początkowy prompt:
Rozwijam kanał na YouTube dedykowany pasjonatom składania samolotów z papieru. Przez ostatnie trzy lata mój kanał rozwinął się do 20 tys. subskrypcji jednak teraz zaczyna brakować mi pomysłów. Opisz 10 przykładowych pomysłów na filmy które pomogą mi przebić szklany sufit i zachęcić nowych odbiorców do oglądania moich materiałów.
Czy zostanę milionerem przy wsparciu AI? Sami zobaczcie:
Tutaj - przyznaję - opierałem się jedynie o subiektywne odczucia. Nie zdefiniowałem obiektywnej metody oceny obu odpowiedzi, ale jak dla mnie te zwrócone przez ChataGPT Plus są bardziej przekonujące. Może o 5% a nie 50%, ale wciąż - to ten model wybrałbym na zwycięzcę tego zadania.
Wynik pojedynku: ChatGPT Plus 3:1 Google Bard
Wnioskowanie w przestrzeni
To jedno z moich ulubionych zadań-pułapek. Opisuję zadanie nie podając wszystkich informacji i sprawdzam, czy dany model językowy zauważy pułapkę, jaką na niego zastawiłem. Pułapka dotyczy rozmieszczenia punktów w przestrzeni, w relacji względem siebie, a nie tylko opisanych miarą odległości. To kluczowy element rozwiązania tego zadania.
Początkowy prompt:
Na swojej mapie zaznaczyłem trzy miasta. Odległość pomiędzy pierwszym i drugim to 20km, natomiast między pierwszym i trzecim to 60km. Czy wyruszając w podróż z pierwszego miasta w kierunku trzeciego odwiedzę miasto drugie?
To jak, kto nas przeprowadzi przez mapę?
Na pewno nie będzie to Google Bard, który w swojej odpowiedzi jest zbyt pewny siebie. Nawet przy dodatkowych pytaniach Bard nie był w stanie zauważyć swojej pomyłki i uparcie trwał przy swoim stanowisku. Odpowiedź ChataGPT Plus zawiera refleksję na temat brakującego kontekstu, za co ode mnie duży plus. No cóż - zwycięska passa trwa.
Wynik pojedynku: ChatGPT Plus 4:1 Google Bard
Osobisty nauczyciel
To jedno z tych zastosowań LLMów, które mają ogromny potencjał w kontekście wpływu tej technologii na naszą rzeczywistość. W końcu kto nie chciałby wynająć zawsze cierpliwego, zawsze gotowego do pomocy nauczyciela, który będzie tłumaczył dane pojęcie tak długo, aż zrozumiemy? W moim przypadku tak długo, aż nie zejdziemy na poziom pięciolatka.
Jak wyglądał początkowy prompt?
Wiem, że nasza obserwowalna rzeczywistość składa się z trzech wymiarów przestrzeni. Wiem też, że niektóre teorie (np. teoria strun) zakładają istnienie przestrzeni o większej liczbie wymiarów. Jak mogę sobie wyobrazić te przestrzenie? Wytłumacz tak jakbyś rozmawiał z pięciolatkiem.
Kto byłby lepszym nauczycielem?
Moim zdaniem byłby to ChatGPT Plus. Odpowiedź Google Barda jest zbyt schematyczna i “sucha” - nie bierze pod uwagę mojego poziomu zrozumienia tematu. W odpowiedzi konkurenta najbardziej cenię sobie metaforę teleportacji albo odniesienie do gry, co będzie zdecydowanie łatwiejsze do zrozumienia przez młodego użytkownika tego rozwiązania.
Wynik pojedynku: ChatGPT Plus 5:1 Google Bard
Wchodzenie w rolę
To zadanie przedstawia kolejne zaskakujące wykorzystanie wielkich modeli językowych. Okazuje się, że możemy z nimi konwersować tak, jakbyśmy rozmawiali ze znanymi postaciami z historii - a każda z nich miałaby własny punkt widzenia związany z publikacjami, filozofią życiową oraz okresem, w którym żyła. W moim przypadku chciałem przejść przez trzy różne epoki i pogadać z kimś, kto niestety nie nagrał żadnego dostępnego dzisiaj podcastu.
Początkowy prompt:
Wciel się w rolę 3 filozofów - Zenona z Kition, Św. Tomasza z Akwinu oraz Nietzschego i odpowiedz jak powinienem spędzić ostatni miesiąc wakacji. Odpowiedź wesprzyj konkretnymi postawami promowanymi przez każdą z tych osób.
Kto wypadł lepiej?
Jak dla mnie nie ma tutaj jednoznacznego zwycięzcy, a oba modele zrealizowały zadanie w dość podobny sposób. Każda rola daje nieco inną odpowiedź, która opiera się o poglądy wybranych przeze mnie osób. Z czystym sumieniem przyznaję po jednym punkcie.
Wynik pojedynku: ChatGPT Plus 6:2 Google Bard
Asystent programisty
Clue programu - czy model językowy może być użytecznym asystentem programisty? Sprawdźmy to na przykładzie zaprojektowania systemu, dla którego wymagania zostały zdefiniowane w bardzo ograniczony sposób.
Początkowy prompt:
Jesteś doświadczonym Front-End developerem specjalizującym się w języku TypeScript. Zaprojektuj przykładowy model danych (interfejs) który posłuży mi jako kontrakt między klientem a serwerem w aplikacji do zarządzania profilem na Instagramie.
Z kim mógłbym wykonać wspólny pair programming?
Tutaj mam pewne wątpliwości. Odpowiedź Google Barda nie jest tak zła, żeby tylko z tego powodu punkt przyznawać dla ChataGPT Plus. Jest to dość dosłowne zrozumienie problemu i odpowiedź jednym interfejsem, który może dotyczyć początkowego problemu.
Sęk w tym, że ChatGPT zrobił to lepiej.
Zrobił klasyczny “underpromise & overdeliver” - wziął ograniczone wymagania i zaprojektował system z wieloma encjami, które są od siebie zależne. Pokazał, jak poradzić sobie z tym problemem na poziomie wyższym niż oczekiwany. I to już mocny argument za tym, żeby przyznać temu modelowi punkt.
Ostateczny wynik pojedynku: ChatGPT Plus 7:2 Google Bard!
Nie było zaskoczenia
ChatGPT Plus, oparty o najbardziej zaawansowany obecnie model językowy, czyli GPT-4, okazał się zdecydowanie lepszy od darmowego Google Barda. Produkt od Googla zyskał punkt w pytaniu o źródła (widać doświadczenie wyszukiwarkowe), zyskał również punkt w zadaniu polegającym na wchodzeniu w trzy role… i to w zasadzie tyle.
ChatGPT Plus był bardziej kreatywny, rozumiał przestrzeń, nie wpadał na miny. Był modelem, który dawał odpowiedzi, przy których nie łapałem się za głowę, a raczej kontrolowałem opady szczęki. To model, z którego korzystam na codzień i mam nadzieję, że dzisiejszy test przekonał was do tego samego.
A jeśli nawet teraz macie wątpliwości, czy inwestycja $20 USD miesięcznie w ChatGPT Plus jest warta swojej ceny, to zapraszam na nasz kanał na YouTube, gdzie odpowiadamy na to pytanie nieco szerzej.