TODO…Python의 생존 분석에 대해 알아보기

생존 분석은 관심 이벤트까지의 예상 시간을 조사하기 위해 널리 사용되는 통계 방법입니다.

의약품
  • 환자 생존 시간 분석
프로젝트
  • 신뢰성 분석
  • 다운타임 분석
경제
  • 기간 분석
인적자원부
  • 직원 참여, 유지 및 만족도에 대한 통찰력을 이해하고 얻으십시오.

어치버스의 직원 참여 및 유지 보고서에 따르면 직원의 52%가 2021년에 새 직장을 찾을 계획이며, 최근 31개국 30,000명 이상의 직원을 대상으로 한 설문조사에 따르면 40%가 직장을 그만둘 것을 고려하고 있는 것으로 나타났습니다.
Forbes는 주로 팬데믹 고갈, 대규모 인재 이주를 예측하는 Linkedin 전문가, #Great Resignment 및 #Great Reshuffle 주제로 인해 이러한 추세를 “Turnover Tunami”라고 부릅니다.
논의하다.

언제나처럼 데이터직원 참여 및 유지에 대한 통찰력을 얻으면 이직률을 줄이고 참여도가 높고 참여도가 높으며 만족도가 높은 팀을 구축하는 데 도움이 됩니다.

다음은 HR 팀이 직원 이직률 데이터에서 발견할 수 있는 몇 가지 예입니다.

  • 남아있거나 떠나는 직원들의 구체적인 특징은 무엇입니까?
  • 직원 그룹마다 이직률이 비슷합니까?
  • 직원이 일정 시간이 지나면 퇴사할 가능성은 얼마나 됩니까? (즉, 2년 후)

데이터 선택

캐글 제공 IBM에서 생성한 가상의 직원 이직률 및 성과 데이터 세트직원 이직률 및 중요한 직원 특성을 조사하여 기존 직원의 생존 시간을 예측하는 데 사용됩니다.

생존 기능 개념

이벤트삶/죽음 또는 체류/휴가와 같은 흥미로운 경험
생존 시간관심 이벤트 전 시간입니다.
그 데이터에서
직원이 퇴사하기 전까지의 기간

질문 검토

검열된 관찰(검열 관측)누군가에 대한 이벤트가 기록되지 않은 경우 이벤트 시간 데이터에 나타납니다.
이는 크게 두 가지 이유 때문일 수 있습니다.

  • 이벤트가 아직 발생하지 않은 경우(예: 생존 시간을 알 수 없음/사임하지 않은 사람에게 오해의 소지가 있는 경우)
  • 데이터 손실(즉, 손실) 또는 연락 지점 손실

검토 질문 유형

  1. 왼쪽 관찰자(왼쪽 검열됨): 생존기간이 관찰기간보다 짧다
  2. 오른쪽(오른쪽 검열): 생존기간이 관찰기간보다 길다
  3. 간격 – 잘림(간격 중도절단됨): 수명을 정확하게 정의할 수 없음

가장 일반적인 유형은 우측 관측 중단(오른쪽 검열)일반적으로 생존 분석을 통해 처리됩니다.

그러나 다른 두 개는 추가 조사가 필요할 수 있는 데이터의 문제를 나타냅니다.

아래 다이어그램과 같이 유형이 구성되는 방식입니다.


다른 그림은 다음과 같습니다.


생존 기능

생존 S

즉, 생존 함수는 개인이 시간 t 이후에 생존할 확률입니다.

S

생존 곡선


생존 기능 특징

  • T ≥ 0 및 0 < t < ∞
  • 증가하지 않는다
  • 만약에 t = 0이면 S
  • 만약에 t=∞이면 S

위험 함수

위험 함수는 위험 함수라고도 합니다.

위험 함수 또는 위험률 h

위험 함수와 생존 함수는 다음 공식을 사용하여 서로 도출할 수 있습니다.



위험 함수가 무엇을 의미하는지 자세히 살펴보겠습니다.

  • 위험 함수는 순간적인 의미, 즉 사건이 매우 짧은 시간에 발생할 확률을 의미합니다.
    정의에서 알 수 있듯이 매우 짧은 시간에 일어나는 극단적인 의미입니다.
  • 위험 함수는 확률로 정의되지만 비율로 이해할 수 있습니다.
    위험함수의 정의에서 분모는 확률, 분자는 시간이므로 단위시간당 발생확률로 이해할 수 있다.
    또한 위험함수 값이 (0,1) 사이가 아니므로 단위시간당 발생률(
  • 위험 함수는 조건부 확률로 정의됩니다.
    즉, 모든 개체 이벤트가 아니라 시간입니다.
    최대 위험률을 가진 살아있는 유기체입니다.
  • 생존 분석에서는 위험 함수가 생존 함수보다 더 중요합니다.
    위험 함수의 시간 경과에 따른 추세는 위험이 시간에 따라 변한다는 것을 나타내므로 생존 함수보다 위험의 변화에 ​​대해 더 나은 정보를 제공합니다.



Kaplan-Meier 추정기

기존 생존함수의 경우 특정 분포를 가정할 때만 위험함수를 사용한다.

$f_t$에 대한 분배 가정이 필요하다는 특징이 있습니다.

카플란-마이어(Kaplan-Meier 추정기)비모수 추정기이므로 데이터 분포에 대한 초기 가정이 필요하지 않습니다.
또한 관찰된 생존 시간에 대한 생존 확률을 계산하여 우측 중도절단된 관찰을 처리합니다.
실제로 곱셈 한계 추정기로도 알려진 확률의 곱 규칙을 사용합니다.


$d_i$ : $t_i$ 시간에 발생한 이벤트 수
$n_i$ : 살아남은 객체의 최대 $t_i$ 수

시간 t_i에서의 생존 확률은 이전 시간 t_{i-1}에서의 생존 확률 곱하기 시간 t_i에서의 생존 확률의 백분율과 같다고 생각할 수 있습니다.


분석하다

KMF를 위한 서바이벌 기능

인용하다

https://github.com/Idilismiguzel/Machine-Learning/blob/master/Survival_Analysis/Survival_Analysis.ipynb

https://towardsdatascience.com/hands-on-survival-analysis-with-python-270fa1e6fb41

https://ilovedata.github.io/teaching/biostat-grad/survival/survivalintro.html

https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset