En ny benchmark för AI-kodning, kallad DeepSWE, har presenterats av startupen Datacurve. DeepSWE består av 113 uppgifter från 91 kodprojekt med fem olika programmeringsspråk och visar betydligt större skillnader mellan AI-modellerna än dagens etablerade benchmarksystem.

I testet hamnar GPT-5.5 i topp med 70 procents resultat, följt av GPT-5.4 på 56 procent och Claude Opus 4.7 på 54 procent. Googles Gemini 3.5 Flash når 28 procent.

Detta kan ha implikationer för hur vi utvärderar och jämför AI-modellers förmåga att programmera.

Vad innebär detta för svensk vård? Det kan innebära att vi får bättre verktyg för att utvärdera och förbättra AI-system som används inom vården, vilket kan leda till mer effektiva och precisa lösningar för patienter och vårdpersonal.