왜 우리는 전방 KL(왼쪽 그림)을 사용하여 데이터/모델로부터 근사 분포를 수용할까요? (오른쪽 그림)과 비슷한 알고리즘을 향해 노력해보는 건 어떨까요?아니면 전체 분포에 대한 것이 아니라 최근성 편향으로 KL을 최소화하고 있기 때문에 이미 그렇게 하고 있는 걸까요?