작성일 : 24/08
https://llmlingua.com/llmlingua.html
최근 LLM에 긴 prompt를 넣는 방향으로 사용되고 있음 (RAG, CoT 등)
그러나 긴 prompt의 경우 inference 속도를 늦출 뿐 아니라, 비용 역시 많아지게됨.
이를 해결하는 방향으로 Prompt Compression이 제시됨.
https://arxiv.org/abs/2310.05736
LLMLingua demo : https://huggingface.co/spaces/microsoft/LLMLingua?source=post_page-----e421bc4a2d73--------------------------------
Budget Controller
Iterative Token level compression