본문 바로가기
반응형

Kubernetes 배포2

vLLM 서빙 완전 가이드: FastAPI·Kubernetes·RAG 결합으로 초저비용 고속 배포 vLLM 서빙 완전 가이드: FastAPI·Kubernetes·RAG 결합으로 초저비용 고속 배포vLLM 서빙은 대규모 언어모델(LLM)을 더 빠르고 더 싸게 제공하기 위한 최적의 선택입니다. 본 글은 vLLM 서빙을 중심으로 FastAPI와 Kubernetes를 결합해 프로덕션 환경에 배포하고, RAG·캐시·모니터링까지 묶어 엔드투엔드 아키텍처를 만드는 방법을 담았습니다. vLLM 서빙으로 지연·비용을 줄이는 법을 단계별로 설명합니다. FastAPI 게이트웨이, vLLM 런타임 설정, 양자화·배칭·스펙큘러티브 디코딩, 쿠버네티스 오토스케일, 프롬프트/결과/임베딩 캐시, RAG 결합, 프로메테우스 모니터링과 롤백 전략까지 실제 운영에 필요한 구성요소를 예제 코드와 함께 정리했습니다. 목차 1. 왜 vL.. 2025. 8. 29.
GitHub Actions CI/CD로 Docker 앱 자동 배포: 실전 구축 가이드 GitHub Actions CI/CD로 Docker 앱 자동 배포: 실전 구축 가이드GitHub Actions CI/CD를 활용해 Docker 기반 애플리케이션을 자동으로 빌드·테스트·배포하는 방법을 한 번에 정리했습니다. 브랜치 전략부터 워크플로우 YAML, 캐시/보안 최적화, 롤백까지 실제 운영에 바로 쓰는 실전 가이드입니다. GitHub Actions CI/CD 파이프라인으로 Docker 앱을 자동 빌드·테스트·보안검사·배포하는 과정을 단계별로 안내합니다. 브랜치 전략, 시크릿·OIDC 설정, 캐시·병렬처리로 속도와 비용을 줄이는 팁, Kubernetes/서버 배포 예제, 모니터링·롤백 전략까지 담았습니다. 목차 1. 왜 GitHub Actions CI/CD인가 2. 사전 준비와 리포지토리 구조 3.. 2025. 8. 23.
반응형