ChatGPT Plus czy Google Bard - który asystent okaże się lepszy?

Premiera Google Barda mocno namieszała na rynku wielkich modeli językowych dostępnych w Unii Europejskiej. Darmowy i turbopopularny ChatGPT zyskał konkurenta z logo Google, co mogło przekonać część użytkowników do zmiany. Dla nas prawdziwym testem było jednak porównanie Barda z ChatemGPT Plus, którego na dzisiaj uważamy za domyślnego LLMa i naszego osobistego asystenta.

Aby sprawdzić, który asystent wypadnie w naszym teście lepiej, przed oboma modelami postawiliśmy kilka zadań z zakresu kreatywności, rozumienia przestrzeni, matematyki a także kojarzenia faktów i podawania źródeł. Każdy model został zapytany o to samo, a jednak odpowiedzi - co zobaczycie poniżej - okazały się w kilku przypadkach skrajnie inne.

Jak sądzicie, jakim wynikiem zakończył się nasz pojedynek?

Fakty i źródła

W pierwszym zadaniu chcieliśmy sprawdzić jak oba modele poradzą sobie ze zwracaniem faktów potwierdzanych przez źródła. W szerszym kontekście był to test zaufania do danego modelu, czyli próba zaadresowania jednego z częściej pojawiających się ryzyk w kontekście korzystania z narzędzi opartych o sztuczną inteligencję.

Początkowym promptem był:

Opisz krótko pięć osiągnięć z których słynie Robert Oppenheimer. Wymień źródła na podstawie których budujesz swoją odpowiedź.

A oto odpowiedzi obu asystentów:

Co ciekawe, Google Bard wypadł w tym teście lepiej - podał źródła i umożliwił mi sprawdzenie faktów na własną rękę. Dla mnie to argument za przyznaniem punktu właśnie temu modelowi językowemu.

Wynik pojedynku: ChatGPT Plus 0:1 Google Bard

Zadanie matematyczne

W tym zadaniu chcieliśmy sprawdzić, czy matematyka będzie w zasięgu obu konkurentów. Aby pomóc im w rozwiązaniu zadania, w prompcie zamieściłem zdanie sugerujące, żeby podejść do problemu krok po kroku. To technika zwana Chain-of-Thought, która wg wielu badań znacznie poprawia jakość odpowiedzi w takich zadaniach.

Początkowy prompt wyglądał następująco:

Oblicz wartość wielomianu w(x) = 4x^3 - x^2 - 4x + 1 dla x równego 7. Przedstaw obliczenia krok po kroku.

Jak tym razem poradziły sobie LLMy?

$Odpowiedź na pytanie matematyczne$

Poprawną odpowiedzią - przy nie do końca poprawnych obliczeniach cząstkowych - jest ta zwrócona przez ChataGPT Plus. Mamy remis.

Wynik pojedynku: ChatGPT Plus 1:1 Google Bard

Uzupełnienie wg wzoru

W tym zadaniu chciałem wykorzystać technikę o nazwie few-shot prompting czyli takie podejście do konwersacji z LLMem, gdzie wykorzystam z góry zdefiniowane przykłady oczekiwanych rezultatów. Miało to posłużyć poprowadzeniu modelu za rękę. A jak wyszło?

Początkowy prompt:

Normalizuję dane podawane przez użytkowników tak, aby po każdych pięciu otrzymanych znakach wstawić pomiędzy nie trzy znaki minus. Uzupełnij dane wg przykładu:

Dane: aaaaabbbbbcccccddddd
Normalizacja: aaaaa---bbbbb---ccccc---ddddd

Dane: abcdefghijklmnopqrstuvw
Normalizacja:

Niestety, Google Bard nie wypadł najlepiej a liczenie znaków okazało się za trudne. ChatGPT Plus ponownie na wygranej pozycji.

Wynik pojedynku: ChatGPT Plus 2:1 Google Bard

Test na kreatywność

W tym zadaniu postanowiłem przed oboma zawodnikami pytanie otwarte związane z generowaniem pomysłów na filmu o określonej tematyce. Dla mnie, aspirującego YouTubera, mogłoby ono pomóc w twórczym odblokowaniu pomysłów na dalszą działalność i liczyłem na kreatywne sugestie modeli.

Początkowy prompt:

Rozwijam kanał na YouTube dedykowany pasjonatom składania samolotów z papieru. Przez ostatnie trzy lata mój kanał rozwinął się do 20 tys. subskrypcji jednak teraz zaczyna brakować mi pomysłów. Opisz 10 przykładowych pomysłów na filmy które pomogą mi przebić szklany sufit i zachęcić nowych odbiorców do oglądania moich materiałów.

Czy zostanę milionerem przy wsparciu AI? Sami zobaczcie:

Tutaj - przyznaję - opierałem się jedynie o subiektywne odczucia. Nie zdefiniowałem obiektywnej metody oceny obu odpowiedzi, ale jak dla mnie te zwrócone przez ChataGPT Plus są bardziej przekonujące. Może o 5% a nie 50%, ale wciąż - to ten model wybrałbym na zwycięzcę tego zadania.

Wynik pojedynku: ChatGPT Plus 3:1 Google Bard

Wnioskowanie w przestrzeni

To jedno z moich ulubionych zadań-pułapek. Opisuję zadanie nie podając wszystkich informacji i sprawdzam, czy dany model językowy zauważy pułapkę, jaką na niego zastawiłem. Pułapka dotyczy rozmieszczenia punktów w przestrzeni, w relacji względem siebie, a nie tylko opisanych miarą odległości. To kluczowy element rozwiązania tego zadania.

Początkowy prompt:

Na swojej mapie zaznaczyłem trzy miasta. Odległość pomiędzy pierwszym i drugim to 20km, natomiast między pierwszym i trzecim to 60km. Czy wyruszając w podróż z pierwszego miasta w kierunku trzeciego odwiedzę miasto drugie?

To jak, kto nas przeprowadzi przez mapę?

Na pewno nie będzie to Google Bard, który w swojej odpowiedzi jest zbyt pewny siebie. Nawet przy dodatkowych pytaniach Bard nie był w stanie zauważyć swojej pomyłki i uparcie trwał przy swoim stanowisku. Odpowiedź ChataGPT Plus zawiera refleksję na temat brakującego kontekstu, za co ode mnie duży plus. No cóż - zwycięska passa trwa.

Wynik pojedynku: ChatGPT Plus 4:1 Google Bard

Osobisty nauczyciel

To jedno z tych zastosowań LLMów, które mają ogromny potencjał w kontekście wpływu tej technologii na naszą rzeczywistość. W końcu kto nie chciałby wynająć zawsze cierpliwego, zawsze gotowego do pomocy nauczyciela, który będzie tłumaczył dane pojęcie tak długo, aż zrozumiemy? W moim przypadku tak długo, aż nie zejdziemy na poziom pięciolatka.

Jak wyglądał początkowy prompt?

Wiem, że nasza obserwowalna rzeczywistość składa się z trzech wymiarów przestrzeni. Wiem też, że niektóre teorie (np. teoria strun) zakładają istnienie przestrzeni o większej liczbie wymiarów. Jak mogę sobie wyobrazić te przestrzenie? Wytłumacz tak jakbyś rozmawiał z pięciolatkiem.

Kto byłby lepszym nauczycielem?

Moim zdaniem byłby to ChatGPT Plus. Odpowiedź Google Barda jest zbyt schematyczna i “sucha” - nie bierze pod uwagę mojego poziomu zrozumienia tematu. W odpowiedzi konkurenta najbardziej cenię sobie metaforę teleportacji albo odniesienie do gry, co będzie zdecydowanie łatwiejsze do zrozumienia przez młodego użytkownika tego rozwiązania.

Wynik pojedynku: ChatGPT Plus 5:1 Google Bard

Wchodzenie w rolę

To zadanie przedstawia kolejne zaskakujące wykorzystanie wielkich modeli językowych. Okazuje się, że możemy z nimi konwersować tak, jakbyśmy rozmawiali ze znanymi postaciami z historii - a każda z nich miałaby własny punkt widzenia związany z publikacjami, filozofią życiową oraz okresem, w którym żyła. W moim przypadku chciałem przejść przez trzy różne epoki i pogadać z kimś, kto niestety nie nagrał żadnego dostępnego dzisiaj podcastu.

Początkowy prompt:

Wciel się w rolę 3 filozofów - Zenona z Kition, Św. Tomasza z Akwinu oraz Nietzschego i odpowiedz jak powinienem spędzić ostatni miesiąc wakacji. Odpowiedź wesprzyj konkretnymi postawami promowanymi przez każdą z tych osób.

Kto wypadł lepiej?

Jak dla mnie nie ma tutaj jednoznacznego zwycięzcy, a oba modele zrealizowały zadanie w dość podobny sposób. Każda rola daje nieco inną odpowiedź, która opiera się o poglądy wybranych przeze mnie osób. Z czystym sumieniem przyznaję po jednym punkcie.

Wynik pojedynku: ChatGPT Plus 6:2 Google Bard

Asystent programisty

Clue programu - czy model językowy może być użytecznym asystentem programisty? Sprawdźmy to na przykładzie zaprojektowania systemu, dla którego wymagania zostały zdefiniowane w bardzo ograniczony sposób.

Początkowy prompt:

Jesteś doświadczonym Front-End developerem specjalizującym się w języku TypeScript. Zaprojektuj przykładowy model danych (interfejs) który posłuży mi jako kontrakt między klientem a serwerem w aplikacji do zarządzania profilem na Instagramie.

Z kim mógłbym wykonać wspólny pair programming?

Odpowiedź na pytanie o wsparcie w programowaniu

Tutaj mam pewne wątpliwości. Odpowiedź Google Barda nie jest tak zła, żeby tylko z tego powodu punkt przyznawać dla ChataGPT Plus. Jest to dość dosłowne zrozumienie problemu i odpowiedź jednym interfejsem, który może dotyczyć początkowego problemu.

Sęk w tym, że ChatGPT zrobił to lepiej.

Zrobił klasyczny “underpromise & overdeliver” - wziął ograniczone wymagania i zaprojektował system z wieloma encjami, które są od siebie zależne. Pokazał, jak poradzić sobie z tym problemem na poziomie wyższym niż oczekiwany. I to już mocny argument za tym, żeby przyznać temu modelowi punkt.

Ostateczny wynik pojedynku: ChatGPT Plus 7:2 Google Bard!

Nie było zaskoczenia

ChatGPT Plus, oparty o najbardziej zaawansowany obecnie model językowy, czyli GPT-4, okazał się zdecydowanie lepszy od darmowego Google Barda. Produkt od Googla zyskał punkt w pytaniu o źródła (widać doświadczenie wyszukiwarkowe), zyskał również punkt w zadaniu polegającym na wchodzeniu w trzy role… i to w zasadzie tyle.

ChatGPT Plus był bardziej kreatywny, rozumiał przestrzeń, nie wpadał na miny. Był modelem, który dawał odpowiedzi, przy których nie łapałem się za głowę, a raczej kontrolowałem opady szczęki. To model, z którego korzystam na codzień i mam nadzieję, że dzisiejszy test przekonał was do tego samego.

A jeśli nawet teraz macie wątpliwości, czy inwestycja $20 USD miesięcznie w ChatGPT Plus jest warta swojej ceny, to zapraszam na nasz kanał na YouTube, gdzie odpowiadamy na to pytanie nieco szerzej.

Fakty i źródła

Zadanie matematyczne

Uzupełnienie wg wzoru

Test na kreatywność

Wnioskowanie w przestrzeni

Osobisty nauczyciel

Wchodzenie w rolę

Asystent programisty

Nie było zaskoczenia

Newsletter Opanuj AI