Secondo il team leader Tristan Hume, il team di ottimizzazione delle prestazioni di Anthropic, che valuta i candidati al lavoro dal 2024, rivede il suo test di colloquio tecnico per contrastare gli imbrogli assistiti dall’intelligenza artificiale.

Anthropic ha implementato un test da portare a casa per i candidati al lavoro. Il miglioramento delle capacità degli strumenti di codifica dell’intelligenza artificiale ha reso necessarie frequenti revisioni di questo test, progettato per valutare le competenze dei candidati. Tristan Hume, responsabile del team, ha descritto dettagliatamente queste sfide in un post sul blog mercoledì.

Hume ha dichiarato: “Ogni nuovo modello Claude ci ha costretto a riprogettare il test”. Ha osservato che “Quando è stato assegnato lo stesso limite di tempo, Claude Opus 4 ha sovraperformato la maggior parte dei candidati umani”. Successivamente, “Claude Opus 4.5 corrispondeva anche a quelli”, riferendosi ai candidati umani più forti.

Questo sviluppo ha presentato un problema significativo nella valutazione del candidato. L’assenza di supervisione di persona ha reso impossibile impedire l’utilizzo dell’intelligenza artificiale durante il test. Hume ha spiegato: “Sotto i vincoli del test da portare a casa, non avevamo più modo di distinguere tra il risultato dei nostri migliori candidati e il nostro modello più capace”.

La proliferazione degli imbrogli legati all’intelligenza artificiale, già osservata nelle istituzioni educative di tutto il mondo, ora ha un impatto sui laboratori di intelligenza artificiale. Anthropic, tuttavia, possiede risorse distinte per affrontare questo problema specifico.

Alla fine Hume sviluppò un nuovo test. Questa valutazione rivista si concentra meno sull’ottimizzazione dell’hardware, rendendola impegnativa per gli attuali strumenti di intelligenza artificiale. Nell’ambito del suo post ha pubblicato il test originale, invitando i lettori a proporre soluzioni alternative. Il post affermava: “Se riesci a migliorare Opus 4.5, ci piacerebbe sentire la tua opinione”.


Credito immagine in primo piano