Everything Of Thoughts : Defying The Law Of Penrose Triangle For Thought Generation

300 shaares

Filters

Links per page

20 50 100

Everything Of Thoughts : Defying The Law Of Penrose Triangle For Thought Generation

Dernière avancée en date dans le domaine des chaînes de pensée (Chain of Thought). XoT utilise du reinforcement learning préentrainé et une recherche arborescente de Monte Carlo pour intégrer des connaissances de domaines externes dans la génération des pensées (thought). En effet, la recherche Monte Carlo explore les structures de pensées potentielles puis crée un réseau de politique et de valeur pour ces pensées (un réseau de politique sélectionne les actions à entreprendre à partir d'un état (thought ou pensée) donné, un réseau de valeur évalue la qualité d'un état donné et s'il correspond à une pensée permettant de résoudre le problème) et déduit la meilleure trajectoire de pensée possible pour résoudre le problème.
La méthode proposée est très performante et procède à peu d'appels aux LLM (un seul appel avec la trajectoire de pensée calculée par la recherche Monte Carlo).

text-ai

November 9, 2023 at 22:26:26 UTC * · permalink

https://arxiv.org/pdf/2311.04254.pdf

Filters

Links per page

20 50 100