300 shaares
Les auteurs introduisent YaRN (Yet another RoPE extensioN method), une méthode pour étendre la fenêtre de contexte des LLM, nécessitant 10 fois moins de tokens et 2,5 fois moins d'étapes d'entraînement que les méthodes précédentes. Les modèles LLaMA fine-tunés avec YaRN ont une longueur de contexte de 128k (https://github.com/jquesnelle/yarn).