Daily Shaarli

All links of one day in a single page.

May 20, 2024

Chunking Techniques with Langchain and LlamaIndex

Toutes les méthodes de chunking de documents disponibles dans Langchain et LlaMa Index.

Les plus intéressants sont ceux qui se basent sur la structure du document comme le markdown ou le HTML.

Cela n'est néanmoins pas suffisant car on peut perdre le contexte d'un chunk à l'autre. Par exemple, si le deuxième chunk fait référence au sujet du premier mais sans le reformuler.

Dans les techniques plus avancées, on peut noter le Semantic Splitting qui tente de découper les chunk entre les phrases en fonction du moment ou on change de sujet.