I ricercatori del MIT CSAIL hanno sviluppato PDDL-INSTRUCT, un quadro di ottimizzazione delle istruzioni progettato per migliorare le capacità di pianificazione in più fasi di modelli linguistici di grandi dimensioni (LLM). Il metodo combina il ragionamento logico basato sulla catena di pensiero con un validatore di piani esterno per aumentare la generazione di piani logicamente validi rispetto a risultati plausibili ma errati.

Il framework addestra i modelli a riconoscere e spiegare perché un piano candidato ha fallito. Questi fallimenti possono includere precondizioni insoddisfatte, effetti errati, violazioni del frame o un obiettivo non raggiunto. Questo processo è abbinato a suggerimenti logici sulla catena di pensiero che guidano il LLM a eseguire un’inferenza passo passo sulle transizioni di stato e azione. Ciò produce sequenze tracciabili di stato→azione→stato, scritte come ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.

Per la convalida esterna, PDDL-INSTRUCT integra il validatore del piano VAL, che controlla ogni passaggio del piano generato. Il validatore fornisce un feedback binario (valido/non valido) o dettagliato, con il feedback dettagliato che si traduce in prestazioni superiori. Il sistema utilizza un processo di ottimizzazione in due fasi. La prima fase penalizza gli errori nelle catene di ragionamento e la seconda fase ottimizza l’accuratezza della pianificazione finale.

Il sistema è stato valutato utilizzando il benchmark PlanBench, che include domini di pianificazione noti per sfidare i LLM, come Blocksworld, Mystery Blocksworld e Logistics. Nel dominio Blocksworld, un modello Llama-3-8B ottimizzato ha raggiunto un tasso del 94% di generare piani validi. I modelli precedenti avevano una validità quasi nulla su Mystery Blocksworld, un dominio in cui i nomi dei predicati sono offuscati per impedire la corrispondenza dei modelli. PDDL-INSTRUCT ha ottenuto un miglioramento fino a 64 volte in questo ambito.

Significativi incrementi di performance sono stati registrati anche nel settore della logistica. In tutti gli ambiti di test, il framework ha fornito un miglioramento assoluto fino al 66% rispetto ai modelli di base non ottimizzati. I ricercatori hanno inoltre notato che le prestazioni miglioravano con budget di feedback più lunghi e risultati più dettagliati del validatore.

L’attuale implementazione di PDDL-INSTRUCT si applica ai domini PDDL classici e dipende dal validatore VAL come oracolo esterno. I risultati mostrano un metodo per radicare il ragionamento LLM nella semantica formale da utilizzare nei sistemi ad agenti che possono includere un verificatore durante la pianificazione. L’estensione del quadro per gestire attività di pianificazione a lungo orizzonte, temporali, numeriche e sensibili ai costi rimane un’area su cui si dovrà lavorare ulteriormente.