Grok 3 detronizuje ChatGPT. Musk: “Najmądrzejsza sztuczna ...

3 dni temu

Bankier.pl

Udostępnij na XTweetnij

Grok 3 detronizuje ChatGPT Musk Najmądrzejsza sztuczna

Kiedy chiński DeepSeek wymienia ciosy z OpenAI w walce o palmę pierwszeństwa w AI, zagrożenie dla Amerykanów przychodzi z zupełnie innego kierunku – z własnego podwórka. Elon Musk, przodujący buntownik Doliny Krzemowej, i jego xAI, właśnie wp

Kiedy chiński DeepSeek wymienia ciosy z OpenAI w walce o palmę pierwszeństwa w AI, zagrożenie dla Amerykanów przychodzi z zupełnie innego kierunku – z własnego podwórka. Elon Musk, przodujący buntownik Doliny Krzemowej, i jego xAI, właśnie wprowadzili Grok 3, model sztucznej inteligencji, który według testów miażdży konkurencję, w tym także ChataGPT, pod względem mocy i możliwości. Co więc potrafi trzecie wcielenie “czata z Twittera” i czy uda mu się wywrócić stolik gigantów technologicznych?

/ xAI

Grok od samego początku miał być „niegrzecznym” chatbotem – alternatywą dla ugrzecznionych modeli AI, które unikają kontrowersji. Pierwsza wersja, uruchomiona pod koniec 2023 roku, miała z założenia mówić rzeczy, których konkurencja by nie powiedziała. Grok 2, wydany w 2024 roku, był już bardziej zaawansowany, szybszy i lepiej przystosowany do kodowania oraz analizy tekstu, ale wciąż ustępował największym modelom OpenAI czy Google.

Teraz nadszedł czas na trzecie wcielenie. Grok 3 to jednak nie tylko aktualizacja, a raczej zupełnie nowa wersja i widoczny przeskok technologiczny. Model ma być ponad dziesięć razy potężniejszy od swojego poprzednika i posiadać mechanizmy zaawansowanego rozumowania, które pozwalają mu dzielić złożone problemy na części, analizować je i auto weryfikować odpowiedzi.

Za przełomową mocą Grok 3 stoi superkomputer Colossus, stworzony przez xAI w zaledwie osiem miesięcy. System ten wykorzystuje ponad 100 tysięcy GPU Nvidia, co przekłada się na setki milionów godzin obliczeń przeznaczonych na trening modelu, przewyższając tym samym swojego poprzednika, Grok-2, dziesięciokrotnie.

„Grok ma na celu zrozumienie wszechświata” – powiedział Musk na początku prezentacji Grok 3. „Kieruje nami ciekawość dotycząca natury wszechświata – to właśnie sprawia, że dążymy do maksymalnego poszukiwania prawdy, nawet jeśli jest ona czasem sprzeczna z poprawnością polityczną.”

Wstępne testy sugerują, że Grok 3 wyprzedza nie tylko swoje wcześniejsze wersje, ale i największych rywali – OpenAI, Google oraz DeepSeek.

Grok 3 wyraźnie przewyższa konkurencję we wszystkich testowanych kategoriach:

Matematyka (AIME'24) – osiągnął wynik 52, podczas gdy drugi najlepszy model (Grok 3 mini) miał 40. Pozostałe modele (Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet i GPT-4o) uzyskały znacznie niższe wyniki, z GPT-4o na końcu z zaledwie 9 punktami.
Nauki ścisłe (GPQA) – Grok 3 uzyskał imponujące 75 punktów, wyraźnie dystansując konkurencję (najlepszy wynik poza Grok 3 to 65).
Kodowanie (LCB Oct-Feb) – ponownie na prowadzeniu z wynikiem 57, co jest znaczącą przewagą nad resztą stawki (drugi najlepszy model – Grok 3 mini – uzyskał 41).

Grok 3 nie tylko wygrywa, ale w niektórych testach wręcz deklasuje rywali, zwłaszcza w matematyce i naukach ścisłych.

Chatbot Arena także dla xAI

Model od xAI wygrywa także w teście Chatbot Arena, jednej z najbardziej miarodajnych platform do oceny AI. To system, w którym użytkownicy anonimowo porównują odpowiedzi modeli w bezpośrednich pojedynkach.

Wczesna wersja Grok 3 („chocolate”), osiągnęła wynik blisko 1400 punktów, wyraźnie wyprzedzając GPT-4o, Gemini 2 Pro i DeepSeek-V3, które uplasowały się w zakresie 1350–1380 punktów. Przewaga jest znacząca, co sugeruje, że nowy model Muska nie tylko dogonił czołówkę, ale może realnie zagrozić liderom rynku.

Grok-3 ponownie dominuje również w testach rozumowania i obliczeń w czasie rzeczywistym.

Matematyka (AIME’24): Grok-3 Reasoning Beta osiąga 96 punktów, dystansując konkurencję – Gemini-2 Flash Thinking (73) i Deepseek-R1 (80).

Nauka (GPQA): Grok-3 (85) znów wygrywa, ale przewaga nad rywalami (Gemini-2: 74, Deepseek-R1: 78) jest mniejsza.
Kodowanie (LCB Oct-Feb): Grok-3 mini Reasoning (80) i Grok-3 Beta (79) także prowadzą, wyprzedzając m.in. Gemini-2 (65) i Deepseek-R1 (73).

Twórców nadal nie opuszcza humor. AI ma dwie wersje: „Think” i „Big Brain”

Nowością są dwa tryby działania: standardowy „Think” i „Big Brain”, przeznaczony do najbardziej wymagających zadań. Równocześnie xAI zapowiada uruchomienie Deep Search, nowej generacji wyszukiwarki AI, oraz integrację Grok z funkcją syntezowanego głosu. Na razie dostęp do modelu mają subskrybenci X Premium Plus, ale Musk już testuje kolejne płatne opcje, w tym zaawansowany pakiet SuperGrok.

Rewolucyjny? Czas pokaże...

Nie oznacza to jednak, że Grok jest wolny od problemów. Wcześniejsze wersje słynęły z kontrowersyjnych odpowiedzi, oskarżeń o dezinformację i brak filtrów, co może oznaczać, że Musk znów igra z ogniem. Co więcej, xAI planuje otwarcie kodu źródłowego – co może być ukłonem w stronę społeczności, ale też dowodem na to, że prawdziwa gra o miano pierwszeństwa dopiero się rozpoczyna.

Źródło: