본문 바로가기
프로그래밍/프로젝트

AWS 서버가 다운되는 이유 정리

by 숙님 2023. 12. 1.
728x90

오늘 담당하는 웹의 aws서버가 잠시 다운되었다.. (강제야근)

리눅스로 만든 홈페이지인데, 원인에 대한 에러메세지를 보기 전에 서버가 다운되었다 ...(원인 파악의 어려움)

 

[사건의 개요]

- 5시쯤 리눅스에서 시스템 오류
- aws에서 자동으로 문제 감지
- aws에서 자동으로 인스턴스 재시작하려 함
- 6시쯤 aws에서 디스크 부족으로 서버 다운
- 강제 인스턴스 재시작
- 정상 서버로 돌아옴

 

[일반적인 해결책] 

  1. 하드웨어 문제:
    • 실제 하드웨어 결함: 특정 하드웨어가 고장났을 경우, AWS는 자동으로 트래픽을 다른 가용 영역으로 전환하려고 시도
    • 인스턴스 유형의 제한: 선택한 인스턴스 유형이나 크기의 인스턴스가 사용 가능한 리전에 부족한 경우 서버 다운이 발생할 수 있음
  2. 네트워크 문제:
    • VPC 구성 오류: Virtual Private Cloud의 서브넷, 라우팅 테이블, 보안 그룹 등의 설정이 잘못되면 서버 간의 통신이 방해받을 수 있음
    • DDoS 공격: 대규모의 DDoS 공격은 네트워크 리소스를 과도하게 사용하여 서버 다운을 유발할 수 있음
  3. 소프트웨어 문제:
    • 애플리케이션 버그: 애플리케이션 코드에서 발생한 버그가 서버를 불안정하게 만들 수 있습니다. 로깅 및 모니터링을 통해 이벤트를 추적할 수 있음
    • 의존성 문제: 애플리케이션이나 미들웨어의 의존성 버전 충돌 또는 문제가 발생할 경우 서버에 영향을 미칠 수 있음
  4. 리소스 부족:
    • 자원 초과: 예상치 못한 트래픽 급증으로 자원(예: CPU, 메모리)이 고갈되면 서버 다운이 발생할 수 있음
    • 스케일링 문제: Auto Scaling이 적절하게 구성되어 있지 않거나 효과적으로 작동하지 않을 경우 서버 부하에 대응하지 못할 수 있음
  5. 보안 문제:
    • 인증 및 권한 문제: AWS 계정 또는 서비스 간의 인증 및 권한 설정 문제는 서버 접근에 영향을 미칠 수 있음
    • 보안 강화 부재: 필요한 보안 조치가 제대로 구현되지 않았을 경우, 악성 공격으로부터 서버가 영향을 받을 수 있음

[그 외]

- 서버 다운의 구체적인 이유를 파악하려면 AWS 콘솔 또는 AWS CloudWatch와 같은 도구를 사용하여 로그를 확인(AWS CloudWatch, AWS CloudTrail, VPC Flow Logs 등을 통해 로그를 확인)

- 이벤트 및 경고를 살펴보는 것이 도움

- AWS Trusted Advisor를 사용하여 리소스 최적화 및 보안 권장 사항을 검토

- AWS 지원팀에 문의하여 상세한 원인을 파악

 

댓글