YaRN: Efficient Context Window Extension of Large Language Models

300 shaares

Filters

Links per page

20 50 100

YaRN: Efficient Context Window Extension of Large Language Models

Les auteurs introduisent YaRN (Yet another RoPE extensioN method), une méthode pour étendre la fenêtre de contexte des LLM, nécessitant 10 fois moins de tokens et 2,5 fois moins d'étapes d'entraînement que les méthodes précédentes. Les modèles LLaMA fine-tunés avec YaRN ont une longueur de contexte de 128k (https://github.com/jquesnelle/yarn).

text-ai

November 6, 2023 at 10:29:10 UTC * · permalink

https://arxiv.org/pdf/2309.00071.pdf

Filters

Links per page

20 50 100