Mentionsy

Opanuj.AI Podcast

02.08.2025 06:27

Czy AI spowalnia programistów? Halucynacje w NCBR, koniec AI za pół darmo i Kimi K2 czyli nowy chiński król OpenSource. | Opanuj.AI Lipiec 2025

W najnowszym odcinku podcastu omawiamy wpływ AI na polskie innowacje, w tym kontrowersyjny przypadek firmy KP Labs, której projekt kosmiczny został odrzucony przez NCBR na podstawie domniemanych halucynacji. Rozmawiamy także o badaniu, które wykazało spadek produktywności programistów o 19%, analizujemy zmiany w modelach cenowych w narzędziach takich jak Cursor i Claude Code oraz oceniamy jakość benchmarków AI, w tym głośny test "Humanity's Last Exam" oraz zmieniające się warunki rynkowe dla narzędzi AI. Dodatkowo, przyglądamy się najnowszym chińskim open-source’owym modelom AI czyli Kimi-K2 oraz Qwen3-Coder. Posłuchajcie i koniecznie podzielcie się opinią w komentarzach!

00:00 - Zapowiedź odcinka

04:45 - Halucynacje w NCBR

20:36 - AI spowalnia programistów? Komentujemy badanie

45:26 - Zmiany w cennikach AI dev-tools

01:08:50 - Kryzys w benchmarkach

01:19:55 - Nowy król OS z Chin: Kimi-K2

NCBR Humanity Last Exam KP Labs Google Przemku Przemek Tenex Devs VIM Antropica Puls Biznesu Antropik Future House Crowe Anthropic Copilot

Szukaj w treści odcinka

Znaleziono 9 wyników dla "Humanity Last Exam"

kontrowersyjnego benchmarku Humanity Last Exam.

No ale też niestety pogadamy o pewnej dramie, czy o pewnej wpadce benchmarku Humanity Last Exam.

Mamy taki test jak Humanity Last Exam, który składa się z 2,5 tysiąca pytań pokrywających nauki ścisłe, m.in.

Jeden z popularnych testów wiedzy ogólnej, czyli MMLU jest teraz rozwiązywany przez większość modeli na poziomie ponad 90%, natomiast jeśli chodzi o Humanity Last Exam, to tutaj mamy najlepszy wynik 25% i to jest grog czwórka bez dodatkowych narzędzi, a 44% kiedy pozwolimy mu korzystać z internetu, więc ponad połowa tych zadań

No i oni stwierdzili, że ogólnie z tym Humanity Last Exam to jest pewien problem.

widzieli też ekspertów, popatrzyli na to Humanity Last Exam, no i wnioski nie były zbyt pozytywne.

Jak to Panie Marcinie wyszło, co z tym Humanity Last Exam?

No tutaj eksperci z tej firmy Future House głównie skazują na takie dwie wady za Humanity Last Exam.

W publikacji, która stoi za tym Humanity Last Exam czytamy, że badacze, recenzenci, eksperci domenowi mieli mniej więcej 5 minut na ocenę każdego pytania pod kątem zgodności z ich dziedziną, z ich ekspertyzą i złożoności.

Ostatnie odcinki

AI zamiast lekarza? ChatGPT Health vs Google Me...
01.02.2026 18:45
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38
Cursor 2.0 vs Windsurf SWE-1.5 - dobrze, szybko...
04.11.2025 05:00
Czy agenci AI zdominują branżę e-commerce? Chat...
04.10.2025 06:10
Czy agenci AI zdominują branżę e-commerce? Chat...
03.10.2025 05:05
GPT-5: sukces i porażka. Koniec marzeń o AGI pr...
01.09.2025 09:02
Czy AI spowalnia programistów? Halucynacje w NC...
02.08.2025 06:27
5 mitów programowania z AI - zapomnij o Vibe Co...
29.07.2025 06:00