Dernière avancée en date dans le domaine des chaînes de pensée (Chain of Thought). XoT utilise du reinforcement learning préentrainé et une recherche arborescente de Monte Carlo pour intégrer des connaissances de domaines externes dans la génération des pensées (thought). En effet, la recherche Monte Carlo explore les structures de pensées potentielles puis crée un réseau de politique et de valeur pour ces pensées (un réseau de politique sélectionne les actions à entreprendre à partir d'un état (thought ou pensée) donné, un réseau de valeur évalue la qualité d'un état donné et s'il correspond à une pensée permettant de résoudre le problème) et déduit la meilleure trajectoire de pensée possible pour résoudre le problème.
La méthode proposée est très performante et procède à peu d'appels aux LLM (un seul appel avec la trajectoire de pensée calculée par la recherche Monte Carlo).
300 shaares