Quantization 6
- 17-(2) Streamlit, FastAPI로 구성된 시스템에 Triton 기반 추론 서버를 통합하려면 어떤 구조로 설계하는 것이 바람직하다고 생각하나요?
- 17-(1) 모델 서빙이란 무엇이며, 왜 필요한가요? 실제 서비스 환경에서 서빙 프레임워크가 어떤 역할을 하나요?
- 16-(3) 현존하는 AI 웹/앱서비스를 하나 선정하세요. (가상의 서비스로 해보는 것도 좋아요.) 그 서비스가 지금까지 학습한 Docker, 추론 최적화, Streamlit, FastAPI로 구현되었다고 가정하고, 전체 아키텍처를 작성해보세요. 만약 가능하다면, 보안 요소(CORS 등)/멀티유저 요청 처리 방안(비동기 처리, 대기 큐 등)/클라우드 배포 구조(GCP, AWS)/모니터링 및 로깅 전략 까지 포함하여 작성해보세요.
- 15-(3) 양자화나 모델 경량화 후 실제 서비스에서 성능이 저하되지 않도록 하기 위해 어떤 테스트나 확인 절차가 필요할까요?
- 15-(2) 양자화 기법인 Post-Training Quantization과 Quantization-Aware Training의 차이를 설명해보세요.
- 15-(1) 딥러닝 모델을 ONNX, TensorRT 등의 포맷으로 변환해야 하는 이유는 무엇인가요?