
가상현실과 증강현실 환경에서 제스처 인식은 직관적인 상호작용을 가능하게 하는 핵심 기술로 주목받아 왔다 그러나 기존 연구들은 주로 인식 정확도에 집중하여 실제 맥락을 반영한 의도 파악에는 한계가 있었다. 본 연구에서는 컨텍스트를 상황 요소(전투, 요리, 제작)로 정의하고, 이를 활용하여 사용자가 인벤토리 내 특정 아이템을 사용하는 제스처를 취했을 때, 보다 의도에 부합하는 아이템 자동 선택이 가능함을 검증한다. MediaPipe로 수집한 제스처 데이터를 활용해 동일한 모델 기반에서 컨텍스트 입력의 유무를 비교한 결과, 컨텍스트를 반영했을 때 아이템 선택의 정확도가 뚜렷하게 증가하였다. 이를 통해 컨텍스트가 제스처 기반 인터랙션의 정확성과 일관성에 기여함을 확인하였으며, 나아가 제스처 인코더와 컨텍스트 인코더를 결합한 소프트트리 기반 프레임워크를 제안한다.