9-(2) Fully Convolutional Networks(FCN)의 주요 특징과 기존 CNN 기반 분류 모델과의 차이점은 무엇인가요?
9-(2) Fully Convolutional Networks(FCN)의 주요 특징과 기존 CNN 기반 분류 모델과의 차이점은 무엇인가요?
🟢 Fully Convolutional Networks(FCN)
- FCN(Fully Convolutional Networks for Semantic Segmentation), 2014
- 최초의 CNN 기반 세그멘테이션. FC layer 제거 → Conv만으로 dense prediction 가능
- classification CNN → segmentation으로 확장
⚪ 기술적 전환점: FCN (Fully Convolutional Networks)
- Semantic Segmentation 분야의 발전에 기틀을 마련한 모델
- 기존의 Classification 모델(e.g., VGG, ResNet)들이 공간 정보를 압축하는 Fully Connected Layer를 사용했던 것과 달리, FCN은 이 부분을 Convolutional Layer로 대체하여 픽셀 위치 정보를 끝까지 보존함
- 이 연구는 Classification을 위해 사전 훈련된 VGG를 Segmentation 작업에 효과적으로 전이 학습(Transfer Learning) 하는 방법론을 제시
⚪ FCN의 구조
1) Convolution Layer를 통해 Feature 추출
2) 1x1 Convolution Layer를 이용해 피처맵의 체널수를 데이터셋 객체의 개수와 동일하게 변경(Class Presence Heat Map 추출)
3) Up-sampling: 낮은 해상도의 Heat Map을 Upsampling(=Transposed Convolution) 한 뒤, 입력 이미지와 같은 크기의 Map 생성
4) 최종 피처 맵과 라벨 피처맵의 차이를 이용하여 네트워크 학습
—
⚪ 마무리하며
“Our key insight is to build ‘fully convolutional’ networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning.”
출처: Long, J., Shelhamer, E., & Darrell, T. (2015). Fully Convolutional Networks for Semantic Segmentation. CVPR. https://arxiv.org/abs/1411.4038
🟢 예시 답안 (코드잇 제공)
- Fully Convolutional Networks(FCN)는 기존의 CNN을 확장하여 픽셀 단위의 예측을 수행하는 신경망 모델입니다. 일반적인 CNN 기반 분류 모델은 입력 이미지에서 특징을 추출한 후, 완전 연결층(Fully Connected Layer)을 거쳐 최종적으로 하나의 클래스를 출력합니다. 그러나 FCN은 완전 연결층을 제거하고, 대신 컨볼루션 연산만을 사용하여 전체 이미지의 공간적 정보를 유지하면서 픽셀 단위로 클래스를 예측할 수 있도록 설계되었습니다.
- FCN의 가장 큰 특징은 업샘플링(Upsampling) 또는 디컨볼루션(Deconvolution) 연산을 사용하여 입력 이미지와 동일한 크기의 출력을 생성할 수 있다는 점입니다. 이를 통해, 이미지 내 각 픽셀에 대해 클래스 라벨을 할당하는 Semantic Segmentation 작업이 가능해집니다.
- 기존의 CNN 기반 분류 모델과 비교했을 때, FCN의 주요 차이점은 다음과 같습니다.
- 첫째, 출력 형태의 차이입니다. 일반적인 CNN 모델은 전체 이미지에 대한 하나의 클래스 예측값을 반환하는 반면, FCN은 입력 이미지와 동일한 크기의 픽셀 단위 예측 결과를 출력합니다.
- 둘째, 완전 연결층(Fully Connected Layer)의 제거입니다. FCN은 전통적인 CNN에서 마지막에 사용되는 완전 연결층을 제거하고, 모든 레이어를 컨볼루션 연산으로 대체하여 입력 이미지의 공간적 정보를 유지합니다.- 셋째, 업샘플링을 활용한 복원 과정입니다. CNN의 다운샘플링(Stride, Pooling) 과정에서 손실된 해상도를 복구하기 위해 FCN은 업샘플링 기법을 활용하여 원본 크기의 예측 맵을 생성합니다. 이를 통해 모델이 픽셀 단위로 세밀한 예측을 수행할 수 있도록 합니다.
This post is licensed under CC BY 4.0 by the author.