#개념
장면 이해(Scene Understanding)는 이미지 또는 비디오에 포함된 객체, 속성, 공간적 배치, 상호 관계 및 맥락 정보를 통합적으로 분석하여 전체 장면의 의미를 해석하는 컴퓨터 비전의 고수준(high-level) 과제다.단순히 객체의 존재 여부를 식별하는 것을 넘어, 객체 간 관계(예: 사람-의자-앉다), 공간적 구조(전경/배경, 거리, 깊이), 물리적 상호작용, 사회적 맥락, 사건의 의도 등을 종합적으로 추론하는 것이 핵심이다. 장면 이해는 일반적으로 다음과 같은 세부 과제를 포함한다.장면 이해 과제
- 객체 탐지(Object Detection): 이미지 내 객체의 위치와 범주를 식별한다.
- 이미지 분할(Image Segmentation): 픽셀 단위로 객체 또는 영역을 구분한다(시맨틱/인스턴스/파노픽 분할 포함).
- 관계 추론(Relationship Reasoning): 객체 간의 관계(예: ‘위에 있음’, ‘잡고 있음’)를 추론한다.
- 장면 분류(Scene Classification): 전체 장면의 유형을 판단한다(예: 실내/실외, 교차로, 병원 등).
- 3D 구조 추정(3D Scene Understanding): 깊이 추정, 포즈 추정 등을 통해 공간 구조를 복원한다.
mAP, 분할의 IoU, 관계 탐지의 Recall@K 등 다양한 지표를 활용한다.장면 이해는 자율주행 차량의 환경 인식, 로봇 내비게이션, 지능형 영상 감시, 의료 영상 분석, 증강현실(AR), 인간-컴퓨터 상호작용(HCI) 등 다양한 분야에서 핵심 기술로 활용된다. 예를 들어 자율주행 시스템은 단순히 보행자를 인식하는 것뿐 아니라, 보행자의 이동 방향, 신호등 상태, 주변 차량과의 관계 등을 종합적으로 해석해야 안전한 의사결정이 가능하다.최근에는 대규모 비전-언어 모델(Vision-Language Model, VLM)의 발전으로 텍스트와 이미지를 함께 이해하는 장면 이해 기술이 확장되고 있다. 이러한 모델은 이미지 설명 생성(Image Captioning), 시각 질의응답(VQA), 상황 추론 등 고차원적 의미 해석을 수행할 수 있다.장면 이해는 저수준 시각 정보 처리에서 고수준 의미 추론까지를 포괄하는 복합적 과제로, 단순 인식(task recognition)을 넘어 상황 인지(context awareness)를 목표로 하는 컴퓨터 비전의 핵심 연구 영역이다.#관련 용어
#직무 연관도
DAData Analyst보통
영상 데이터 기반 상황 분석 및 의사결정 지원
DSData Scientist밀접
관계 추론 모델 개발, 멀티모달 학습, 3D 장면 구조 연구
DEData Engineer높음
자율주행·로보틱스 환경 인식 시스템 구현
#사용 사례
장면 이해 기술은 단순 객체 인식을 넘어 상황을 해석하고 의사결정을 지원하는 핵심 기술로 활용된다. 로봇은 장면 이해를 통해 작업 공간의 구조를 파악하고 물체를 조작하며, 보안 시스템은 이상 행동을 감지하고, 의료 영상 시스템은 병변의 위치와 주변 조직과의 관계를 분석한다.
자율주행 차량은 교차로 장면에서 보행자, 차량, 신호등, 도로 표지판의 위치와 상태를 인식하고 그 관계를 종합적으로 해석하여 주행 여부를 판단한다.
#참고 자료
#추천 포스트
© 2024 diki All rights reserved.