작성일 : 24/08

https://llmlingua.com/llmlingua.html

0. 문제상황 및 방향성


최근 LLM에 긴 prompt를 넣는 방향으로 사용되고 있음 (RAG, CoT 등)

그러나 긴 prompt의 경우 inference 속도를 늦출 뿐 아니라, 비용 역시 많아지게됨.

이를 해결하는 방향으로 Prompt Compression이 제시됨.

1. LLMLingua


https://arxiv.org/abs/2310.05736

LLMLingua demo : https://huggingface.co/spaces/microsoft/LLMLingua?source=post_page-----e421bc4a2d73--------------------------------

Untitled

  1. Budget Controller

  2. Iterative Token level compression