Prompt Compression

작성일 : 24/08

최근 LLM에 긴 prompt를 넣는 방향으로 사용되고 있음 (RAG, CoT 등)

그러나 긴 prompt의 경우 inference 속도를 늦출 뿐 아니라, 비용 역시 많아지게됨.

이를 해결하는 방향으로 Prompt Compression이 제시됨.

Untitled

Budget Controller
- compression ratio 결정
- prompt를 여러 종류로 나누고, 각 종류별로 다른 compression ratio를 결정
  - instruction, question 은 적은 compression ratio
  - demonstration은 높은 compression ratio
- sentence 기준으로 dropout
Iterative Token level compression
- prompt를 segment 단위로 나누고, 그 안에서 perplexity를 계산하며 (small LM 사용) token 압축