| 컴퓨터 비전 취준생, 최신 기술을 익혀야 하는 이유는?

 

면접 시 신입에게 확인하는 주요 체크 포인트로는 관심도/ 패기/ 기본기 등이 있는데요. 기술의 발전 속도가 굉장히 빠른 현시점에는 최신 기술의 습득 속도 (하다못해 그 기술을 이해하고 있는가)가 중요한 합/불 판단 요소로 작용하기도 합니다.

 

좀 더 자세히 말해보자면 최신 기술이 이전 기술의 어떤 부분을 바탕으로  나온 것인지, 패러다임이 어떻게 바뀌고 있는지, 현 시장 상황 등 단순히 기술 이름을 알고 있는가가 아닌, 기술을 이해하는 것이 중요한데요. 그래야 내가 직면한 문제를 해결할 수 있는 ‘적합한 모델을 선택할 수 있는 안목’을 갖출 수 있기 때문입니다.

 

물론 펀더멘탈이 무엇보다 중요하겠지만, 이런한 최신 기술의 흐름을 잘 알고 있는지가 실제 면접장에서는 합불을 판가름하는 키포인트가 되기도 합니다. 그래서 오늘은 컴퓨터 비전 분야에서 대중적으로 사용하는 기술부터 최신 기술까지! 2D/3D Vision, 멀티모달, Visual SLAM 기술들을 간략하게 살펴보고자 합니다.

 



| 2D 컴퓨터 비전

▶ ViT :  Dino V2

ViT 모델 중 현재 SOTA라고 할 수 있는 모델인데요. 이미지 분류 시, 레이블이 적거나 없는 데이터 환경에서도 높은 성능을 보입니다.

 

 

▶ 실시간 Object Detection : Yolo v11, Grounding Dino

Yolo V11을 활용한 실시간 객체 감지

Yolo V11은 이전 모델 대비 아키텍처와 학습 방법에서 중요한 개선을 도입하며 특징 추출 능력을 향상시켰습니다. 이에 더 빠른 속도와 높은 정확도를 제공하는데요. 객체의 크기와 복잡한 배경에서도 감지 성능이 뛰어납니다.



Zero-Shot Object Detection이 가능한 Grounding Dino

Grounding Dino는 텍스트만으로 객체를 검출하여, 새로운 클래스 내 Annotated Data 없이도 객체 탐지가 가능합니다.

 


▶ Semantic Segmentation : Mask R-CNN ,SAM

객체 구분 및 분할의 정확성을 올린 Mask R-CNN 

해상도 처리 정확도가 떨어지는 문제를 해결하기 위해 RolAlign을 도입해서 분할 정확도 성능을 향상시켰습니다. 이에 정확한 객체 경계 표현 및 다양한 객체 크기 처리 등이 용이해졌습니다.

 

 

Zero-Shot Learning을 활용한 SAM(Segemnt Anything)

Zero-Shot Learning(ZSL)은 모델이 학습 데이터에서 보지 못한 클래스(또는 객체)를 예측할 수 있도록 하는 기술인데요. 개와 고양이를 학습한 모델이 “코끼리”라는 설명만 듣고 코끼리를 인식할 수 있으며, 새로운 객체나 클래스에 대한 추가 학습 없이도 객체 탐지가 가능합니다.

 
 
 
 
 
 
 

▶ Human Pose Estimation : RTM-Pose, ViT Pose, Pose Anything


Classification을 활용하여 좌표를 예측하는 RTM-Pose

Gaussian Label Smoothing 방법을 사용하여 포즈의 X, Y 축을 분류해 포즈를 추정합니다.

 



ViT를 백본으로 사용하고 가벼운 디코더를 활용한 ViT Pose

특별한 도메인 지식 없이도 전역적 특성 추출 능력으로 더 자세하게 포즈를 추정할 수 있습니다.

 



학습 데이터가 없어도 자세 추정이 가능한 Pose Anything

객체의 각 Key Point 간 연결을 고려한 GNN 접근 방식을 활용하여 포즈를 추정합니다.

 

 

 

 

| 3D 컴퓨터 비전

현재 IT 업계가 가장 주목하는 자율주행, AR/VR, 로봇 내비게이션 등 최신 기술에

필수적으로 활용되는 기술로, 3차원 공간 정보를 추정하여 모델을 생성합니다.

 

▶ 3D Object Detection : SMOKE, ImvoxelNet 

1개의 Bounding Box에서 정보를 얻어 객체를 표현하는 SMOKE 

객체 단일 Keypoint 추정과 회귀를 통해 얻은 3D 변수를 결합하고 3D Bounding Box를 예측하여 객체를 검출합니다.

 


 

2D 이미지의 특징을 3D Voxel Grid로 표현하는 ImvoxelNet

3D Point Cloud나 LiDAR 데이터 없이도 이미지 기반 특징만을 활용하여 3D 환경에서 객체를 검출합니다.

 

 


▶ 3D Depth Estimation : MonoDepth, MonoDepth, RAFT-Stereo

1개의 이미지로 Depth를 추정하는 MonoDepth

Depth를 추정하기 위해 1개의 이미지만을 넣고 Disparity(시차)를 찾아나갑니다. Transformer 기반으로, 전통적인 CNN보다 더 정확한 깊이 예측을 수행할 수 있습니다.

 

 

상대적 환경에서 정확도를 개선하는 MonoDepth

MonoDepth는 각 이미지 픽셀 별로 깊이 구간 별 중심을 예측하여 Depth를 추정합니다.

초기 모델은 각 픽셀의 깊이를 연속적으로 회귀 방식으로 예측했는데요. 최신 기술에서는 깊이를 여러 구간으로 나누고, 깊이 구간 중심값을 학습하는 접근 방식이 추가되어 더 안정적이고 정확한 깊이 추정이 가능해졌습니다.

 

 

스테레오 매칭 문제를 해결하여 깊이를 추정하는 RAFT-Stereo

RAFT-Stereo는 3D Depth Estimation에서 핵심 병목 현상이었던 Disparity 추정 문제를 해결하였는데요. 좌우 스테레오 이미지 쌍을 사용해 각 픽셀의 시차(Disparity)를 계산하고, 이를 기반으로 깊이를 추정합니다. RAFT-Stereo는 특히 정밀한 시차 계산과 효율성을 강조한 최신 기술로, 자율주행, 로봇 공학, 3D 재구성 등 다양한 분야에서 활용됩니다.

 
 
 
 
 
 
 

▶ 3D Reconstruction : Dust3R, VGGSfM, MASt3R

SfM을 응용한 현재 가장 많이 활용되고 있는 대표 3가지 복원 방법입니다.

혹시 아직 COLMAP만 사용해 보셨나요? 이젠 VGGSfM과 MASt3r의 시대라 할 수 있는데요. VGGSfM과 MASt3r도 한번 사용해 보는 건 어떠신가요?

 

2D-3D Mapping Network를 사용하여 3D 복원을 구현한 Dust3R

Dust3R는 Transformer 모델을 활용하여 3D 공간에서 이미지 매칭 문제를 해결하였습니다.

 

 


End to End로 더 강인한 3D 복원 방법을 
구현한 VGGSfM

VGGSfM은 이미지 트래킹에서 도출되는 포즈 추정부터 Solver 까지 모두 엮어 3D 복원합니다.

 


 

3D 환경에서 이미지 매칭 문제를 다룬 MASt3R

MASt3R은 DUSt3R의 개선된 모델로, 이미지 매칭을 3D로 다루면서 복원 퀄리티를 높였습니다.




 

▶Neural Rendering : NeRF, 3DGS(3D Gaussian Splatting)

Volume Rendering 기법을 활용하는 NeRF

NeRF는 일반 카메라로 촬영한 이미지를 공간 상의 색과 밀도가 누적된 결과로 표현하고,

이를 역으로 활용하여 공간의 모습을 추정합니다.

 



100FPS 이상 빠른 렌더링 속도를 보여주는 3D Gaussian Splatting

3D Gaussian Splatting은 기존 3D 렌더링 방식보다 훨씬 빠른 속도를 제공하며, 100FPS 이상의 렌더링 속도를 달성할 수 있는 기술로 주목받는데요. 각 이미지 screen마다 모든 3D Gaussian을 projection 한 후, 작은 단위의 tile로 나눠 각 tile마다 color & opacity accumlation을 병렬로 실행합니다.

 

 

 

 

| 멀티모달 AI

AI의 발전에 따라 CV에서도 단순한 이미지 분석을 넘어 텍스트, 이미지, 소리 등 다양한 형태의 데이터를 종합적으로 처리하는 멀티모달이 각광받는 중인데요. 멀티모달에 필요한 기술들을 나열해 보자면 아래와 같은 기술들이 있습니다.

 

▶ CLIP(Contrastive Language-Image Pre-Training)

멀티 모달의 시초라 할 수 있는데요. 대규모 이미지-텍스트 쌍의 데이터 셋과 Contrastive Learning을 활용하여 이미지-텍스트 간 유사도를 예측할 수 있습니다.

 

▶ Grounding DINO

위에서도 설명드린 Grounding DINO는 이미지 학습 단계에서 새로운 클래스나 레이블이 없이도 클래스 인식과 처리가 가능합니다.

 

▶ Flamingo

Input 데이터로 이미지와 텍스트 모두 받아 그에 대해 가장 적절하게

텍스트를 출력합니다.

 

▶ LLaVA

이미지-텍스트 쌍 데이터가 단순 이미지를 설명하는 pair 형식이 아닌 이미지를 포함한 지시문 데이터 형식을 제안합니다.

 

▶ BLIP

Frozen 이미지 인코더와 Frozn LLM 사이의 Information Bottleneck 역할을 수행하는 Q-Former를 활용하여 LLM의 텍스트 Output에 Visual Feature을 제공합니다.

 

▶ PaLM-E

로봇틱스를 위해 개발된 멀티모달 모델로써, 멀티모달 모델 PaLM을 로봇 에이전트로부터 얻은 센서 데이터로 보완함으로써 구체화(Embodied)합니다.

 

 


 

| 카메라 센서로 주변 환경을 인식하는 Visual SLAM

최근 컴퓨터 비전 연구들은 영상으로부터 여러 물체들을 인식하고 깊이를 추정하며 주위 환경을 3D로 복원하는 복잡한 작업이 탁월한 결과를 보여주는 중인데요.

 

특히, 로봇같이 주위 환경에 대해 다양한 정보를 취득하고 어떻게 행동할지 결정하는 과정에서 영상 정보는 매우 중요합니다.  현재 자율주행 자동차부터 드론, 휴머노이드 로봇, 강아지 로봇 등이 주목받는 시점에, Visual SLAM은 이런 자동차/로봇들에게 ‘눈’과 두뇌가 되어주는 매우 중요한 기술로 각광받고 있습니다. 

 

Visual SLAM을 구현하기 위해서는 필수적으로

1. Visual SLAM의 기본이 되는 3D 회전과 이동,  카메라 투영 방법

2. 영상 처리와 다중 시점 기하학 (영상처리 기법과 모션 추정 방법)

3. 비선형 최적화(여러 시퀀스에서 얻은 이미지들의 동일한 지점을 관찰하여 노이즈 데이터를 처리)

개념을 익혀야 하는데요.

 

필수 개념들이 너무나 많기에, 이 중 영상처리와 다중 시점 기하학 관련 몇 가지만 개념만 소개해 보자면

 

▶ Local Feature Detection

특징점은 SLAM의 기본 단위로, 안정적인 추적과 매칭을 위한 시작점입니다.

두 개의 이미지 사이에서 공통된 3D 공간인 Local Feature를 검출합니다.

 


 

▶ Local Feature Matching

두 개의 이미지 사이에서 공통된 3D 공간인 Local Feature 간의 매칭을 합니다.

특징점이 검출된 후, 매칭이 제대로 이루어져야 에센셜 행렬 계산과 같은 후속 작업이 가능한데요. 두 프레임(또는 시점) 간의 특징점 대응을 통해 모션과 구조를 추정합니다.

 

 


 

▶ Epipolar Geometry

다중 시점 간 점의 기하학적 관계를 이해하고, 필터링을 통해 올바른 매칭을 유지합니다. 에센셜 행렬(Essential Matrix)과 기본 행렬(Fundamental Matrix)의 이론적 기반이 됩니다.

 

 


 

▶ Essential Matrix

정규화된 이미지 평면에서 매칭 쌍들 사이의 기하학적 관계를 다룹니다. 카메라 경로를 계산하고, 구조를 복원하는 데 사용되는데요. 카메라의 내재 파라미터를 고려한 모션 추정과 깊이 계산에 필수적입니다.

 


더 많은 필수 영상 처리 기법과 모션 추정 방법 &비선형 최적화 기법이 궁금하다면?

 여기 강의 페이지 하단의 필수적인 학습이 필요한 기법들을 확인해 주세요.

https://bit.ly/40jupP8 

 
 
 
 

 
 



혹시 위에서 설명드린

– 2D/3D 컴퓨터 비전

– 멀티모달 AI

– 공간지능(Visual SLAM을 활용한 공간구성)

에 관심 있다면 2025 현시점 최신 기술까지 커버하는 [컴퓨터 비전 초격차] 강의를 경험해 보세요.

현재로서 이렇게 최신 기술까지 커버하는 강의는 없다고 자부할 수 있습니다!

 

NeRF, 3D Gaussian Splatting, VIO, VLM, foundation model,

불과 한 달 전 공개된 SAMURAI까지!

 

아래 [강의 보러가기]를 클릭하여 2025 컴퓨터 비전  풀 커버 커리큘럼을 확인해 보세요!

 

 

⭐ 전 세계가 주목하는 컴퓨터 비전 기술 총집합!
T사의 FSD 컴퓨터, A사의 Vision Pro, 오픈AI 회사의 Figure o1에 쓰이는 컴퓨터 비전 핵심 기술 학습

 

⭐ 3개 최종 프로젝트로 직/접 기술 구현

✅ 3D 공간 인식 프로젝트 (IKEA 가구들을 3D 공간에 생성 + 렌더링)

✅ 멀티모달 로봇 프로젝트 (언어로 로봇과 공간 정보 소통)

Meta Quest의 AR/VR 헤드셋 트랙킹 소프트웨어 프로젝트 (V-SLAM 프로젝트)

 

⭐단순히 최신 기술만 학습? NO! 기존 기술의 원리를 응용해나가며 최신 기술 학습

과거의 기술부터 흐름을 알려주고, 사용처를 구분해서 알려드릴게요.

 

[강의 보러가기]

끝없이 이어질 인공지능의 이야기
AI:ing에서 당신의 커리어 성장이 시작됩니다.

ALL

IT

AI:ING only

AI Double UP

AI 자격증(AICA)

이벤트