수업외 정리

24-01-10 통계

glenlee 2024. 1. 11. 01:22

1) 표본평균의 분포는 중심극한정리에의해 결국 정규분포에 가까워집니다.
2) 관측된 자료의 수 (=N)가 30이상일때는 모수가 정규분포를 따르지 않더라도 정규분포로 인정합니다.
3) 뚜렷한 관측값이 있을때는 귀무가설이 아닌 대립가설을 사용합니다.
4) 유의확률 (p value)가 0.05이상일때는 귀무가설을 채택하고 0.05미만일때는 귀무가설을 기각 즉, 대립가설을 채택합니다.
5) 검정통계량-알파(α)

혹시 틀린부분이 있다면 알려주세요.

 

요약변수와 파생변수

 

요약변수 : 수집된 정보를 분석에 맞에 종합한 변수,  많은 모델이 공통으로 사용할수있어 재활용성 높다

                  )기간별/상품별 구매금액, 횟수

 

 

 

파생변수 : 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 (논리적 타당성 필요) 

                  ) 근무시간 구매자수, 주활동 지역, 라이프스타일 변수 

 

 

변수의 구간화

 

binning 연속형변수를 범주형변수로변환하기 위해50개 이하의 구간에 동일한 수 의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는방법

 

▷ 연속형 (continues) : 연속적인 값을 갖는 데이터

· 수치적인 의미가 있으며 소수점으로 표현되는 경우
· 평균, 표준편차, 분산, 퍼센트 표현  몸무게
 예) 시간, 길이

 

 

 

의사결정나무

의사결정 나무 모형을 통해 연속형 변수를 범주형으로 변환한다.

 

 

1.명목척도(nominal scale) 개체나  사람이 다르다는 것을 보이기 위해 이름이나 범주를 대표하는 숫자로 부여하는 방식. 명목척도는 측정대상을 상호배타적인 집단으로 분류하는데 사용된다. 명목척도는 단지 빈도수를 계산하는데 유용하다. 명목척도에서는 빈도와 퍼센트를 계산하므로 평균은 의미가 없다.

전화번호,주소

 

 

2. 서열척도(ordinal scale)

서열척도(순위척도)는 측정대상간에 높고 낮음과 같이 개체나 사람들의 순서에 대한 값을 부여하는 척도이다. 서열척도는 빈도를 계산할 뿐만 아니라 중앙치, 퍼센트, 기타 다른 다양한 통계량에 이용될 수 있다.

순위, 서열

 

 

 

3. 등간척도(interval scale)

등간척도(구간척도)는 속성에 대한 각 수준간의 간격이 동일한 경우에 이용된다. 인치, 센티미터, 파운드, 정도와 같은 단위로 측정이 된다. 그러나 절대적인 원점은 존재하지 않는다는 점이 다르다. 이 척도는 순위 뿐만 아니라 측정치간의 차이에 대해서도 그 의미가 있는 척도이다. 일반적으로 5점 척도 또는 7점 척도의 리커트 스케일에서 많이 사용된다.

온도, 지능지수

 

4. 비율척도(ratio scale)

 척도를 나타내는 수가 등간일 뿐만 아니라 의미있는 절대 원점을 가지고 있는 경우에 이용된다. 이 척도는 등간척도가 가지는 특성 외에 절대원점이라는 개념을 갖고 있으며 일반적으로 적용되는 통계기법은 등간척도와 같다.

자연수,몸무게

[출처] 변수 및 척도의 종류|작성자 파리

 

질적 자료(분류 자료)- 수치로 측정이 불가능한 자료 명목척도: 단순한 번호로 차례의 의미는 없다. (예: 전화번호, 등번호, 성별, 혈액형, 주소 등.)순서척도(서열척도): 순서가 의미를 가지는 번호. (예: 계급, 순위, 등급 등.)
양적 자료(수량 자료)-계량화가 가능한 자료 구간척도: 순서뿐만 아니라 그 간격에도 의미가 있으나, 0에 절대적인 의미는 없다. (예: 온도, 지능지수 등.)비율척도: 0을 기준으로 하는 절대적 척도로, 간격뿐만이 아니라 비율에도 의미가 있다. (예: 절대온도, 금액, 몸무게, 키 등.)

 

 

모집단 : 조사의 대상이 되는 모든 개체값의 집합 연구자가 알고싶어하는 대상 또는 효과의 전체

             ) 고등학교  3학년 남학생의 평균키가 알고싶다.

              ->모집단: 대한민국 전체 고등학교 3학년 남학생의 키

 

 

모수  : 모집단을 조사하여 얻을수있는 통계적인 특성치 모집단 분포의 특성을 규정짓는 척도

           일반적으로 알려져있지않은 미지의 상수 통계적 추론을 통해 추론한다

           통계적 추론 모집단에서 추출한 표본 특성을 분석, 모수에 대해 추측 ㅎ토론하는 과정

 

표본 모집단의 부분 집합 일반적으로 전수검사 하기 어려워 모집단에서 무작위로 추출하여 검사 한다

 

귀무가설, 공가설, 영가설 (Null Hypothesis)  H。
     - 가설이 옳은 것이라고 일단 가정하고 시작하는 그러한 가설 
        . 진실일 가능성이 적어 처음부터 버릴 것이 예상되는 (버리고싶은) 가설
        . 부정하고 싶은 가설
     - 기각의 대상이 되는 가설
        . 기각되기를 바라고 설정된 가설
     - 직접적으로 검정의 대상으로 삼는 가설
        . 귀무가설은 범위가 협소하여, 직접 진위 확인의 대상이 되고,
        . 거짓으로 확인되어 기각되면, 곧바로 범위가 넓은 대립가설이 참이라고 주장할 수 있음
     - 우연성에 의한 가설
        . 관측된 결과가 과거와 같은 유형으로 단지 우연의 산물이라고 주장하는 가설
        . 보수적,전통적,소극적,부정적 입장을 취하는 가설
     - 이에 대립되고 입증하고픈 가설은, => 대립가설 또는 연구가설 임

 

  ㅇ 대립가설 (Alternative Hypothesis), 연구가설 (Research Hypothesis)  H₁
     - 가설검정에서 귀무가설과는 대립되는 가설
     - 귀무가설이 기각되면 채택되는 가설
     - 귀무가설에 대립되며 실제로 입증하고픈 가설
     - 표본으로부터 분명하게 밝히고 싶은 가설

 

 

유의 수준

1. 가설검정에서 귀무가설의 기각/수용을 하기위한 판단기준

  ㅇ 가설검정은, 항상 귀무가설이 옳다는 전제하에서, 검정통계량의 실제 결과가, 
     - 귀무가설이 취하는 확률분포 상에서, 
     - 귀무가설의 정당성이 `의심스러운` 범위에서 나타나는지 여부에 따라,
     - 귀무가설의 기각/수용 여부를  결정하게 됨

  ㅇ 여기서, 귀무가설이 `의심스러운` 확률 수준을, => 유의수준 이라고 함       ☞ 유의성 참조
     - 귀무가설 확률분포에서 발생할 가능성이 희박한 확률 수준 (보통, 5%, 1% 등 작은 값)

  ㅇ 만일, 실제 결과가, 귀무가설이 주장하는 바와 달리, 
     - 가능성이 희박한 유의수준 이내의 확률 값으로써 나타나면(발생한다면), 
     * 귀무가설 전제 그 자체가 잘못된 것으로 추론할 수 있으므로,
     - 전제로 한 귀무가설은 기각하고, 
     - 입증하고픈 대립가설을 채택하게 됨

  ㅇ 한편, 유의수준의 설정은,
     - 연구수행자가 귀무가설의 기각 기준으로 삼도록,
     - 사전에 이렇게 작게 취하는 확률값(유의수준)을 설정 함 (보통, 5%, 1% 등 작은 값)
2. 유의 수준 (有意 水準, Level of Significance)  : α

  ㅇ 귀무가설이 틀려질 유 의미(有 意味)한 확률적 수준 (리스크)
     - 검정통계량 결과에서 귀무가설이 틀리다고 여겨질 경우가 일어나는 확률적 수준
     - 우연으로 보기에는 유의미하여, 귀무가설을 기각하게되는 수준

  ㅇ 통상적으로, 사용하는 유의수준 확률 값은,  1%(0.01), 5%(0.05) 등
     - 작은 값 인데도 불구하고 일어났다면, 우연으로 보기 어렵다는 상식적인 확률값

     - 예를들면, 어떤 검정에서 유의수준을 특정값으로 정하고, 이에따라 계산된 기각역에 의해,
        . 만일, 검정통계량 결과가 기각역 내에 속하면, 귀무가설을 기각하게 됨
           .. 이때부터, 입증하고픈 대립가설을 채택하며, 이론적 설명을 하게 됨
        . 만일, 검정통계량 결과가 기각역이 아닌 수용역에 속하면, 귀무가설을 수용하게 됨
           .. 즉, 귀무가설이 틀려질 경우가 희박 함
4. 임계값 (Critical Value) / 기각치 (Reject Value)

  ㅇ 귀무가설의 기각 여부를 결정하는 기준값(경계)             ☞ 검정 판단 기준 참조
     - 이 값은 유의수준(α)에 의해 결정되는 변량 값

  ㅇ 즉, 유의수준(α)에 대응되는 표본분포 상의 확률변수 값
     - 유의수준(5%, 1%)은, 확률 값이고, 
     - 임계값은, 그에 대응하는 확률변수(변량) 값 임
1. 검정의 판단 기준

  ㅇ 표본 관측 결과(검정통계량)가 나타난 위치에 의거함
     - 표본 관측 결과(검정통계량)가 귀무가설 기각역에 포함 여부에 따라,
     - 귀무가설의 수용(Accept),기각(Reject)을 결정하게 됨
1. p 값 (Significance Probability, 유의 확률, 검정 확률)

  ㅇ 통상, 가설검정에서는, p 값을 계산함으로써, 가설(귀무가설)의 지지 여부를 판단하게 됨
     - 이는, 검정통계량의 값을, 기각치와 값으로 직접 비교하는 대신에, 
     - 그에 대응하는 확률 값으로 검정을 하여, 보다 정량적이고 합리적인 접근을 하려고 함

  ㅇ 사실, p 값은, 가설검정에서, 귀무가설이 옳는다 가정 하에,
     - 극단적인 값이 나올 (나올 가능성이 희박한) 확률 값을 말함

  ㅇ 결국, 귀무가설을, 지지하는 정도를 보여주는, 확률 값으로,
     - 검정통계량 (수집된 표본)의 관측 값들이 취하는 확률분포를 이용하여, (관측 때 마다 다르므로)  
     - 귀무가설 H0이, (틀려질) / (기각 가능한) / (귀무가설 모형과 양립할 수 없는),
        . 최소 유의수준 확률 (최소 유의 확률)을 지칭함
     - (귀무가설이 옳다고 하는 가상의 세계에서, 데이터가 나타나기 쉬운 정도의 확률 값)

  ㅇ 따라서, 이 확률 값이 작다면, 
     - 전제로 하는 귀무가설이 틀렸을 가능성이 높다는 것임
        . 즉, 귀무가설을 기각할 수 있게 됨
ㅇ 기각 판단 여부 (기각 판단 기준 : 유의수준 α)
     -  p 값 ≤ α : 관측 후 계산된 p 값이, 주어진 유의수준 α 보다 작으면, 귀무가설(H。) 기각
     -  p 값 > α : 관측 후 계산된 p 값이, 주어진 유의수준 α 보다 크다면, 귀무가설(H。) 수용

     * (p 값 : 관측으로부터 계산된, 귀무가설을 지지하는 정도를 보여주는, 확률 값)
     * (유의수준 :  귀무가설의 정당성이 `의심스러운` 확률 수준)

  ※ 예를들면, 관측된 p 값이 어떤 정해진 확률 값(유의수준 α = 0.01, 0,05 등) 보다 작게 나오면,
     - 귀무가설이 타당하지 않음을 의미
     * 즉, 어떤 의미있는 다른 새로운 주장 또는 실제로 입증하고픈 대립가설이 오히려 타당함

등분산성은 분산분석(ANOVA)을 통해 서로 다른 두개 이상의 집단을 비교하고자 할때, 기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미하게 된다.++

 

 

'수업외 정리' 카테고리의 다른 글

24-01-11 가설검정  (0) 2024.01.12
24-01-11 통계실습 통계검정  (0) 2024.01.11
240108복습 시각화  (0) 2024.01.09
240108복습 데이터 불러오기  (1) 2024.01.09
240108복습 데이터 통합하기  (0) 2024.01.08