본문 바로가기
취미. Hobby/책. Book & Writing

[만화로 배우는 통계학]

by 202020 2014. 11. 19.
반응형

책이름 : 만화로 배우는 통계학

저자 : 신 타카하시

출판사 : 성안당



간단히 말해 통계학이란 표본이 되는 정보를 통해 모집단의 상황을 유추해 내는 학문이다.


통계학에서는 조사대상으로 삼아야 할 집단을 모집단,

모집단에서 추출된 몇몇 개체 집단을 표본이라고 한다.


측정 불가 데이터는 '카테고리 데이터'

측정 가능 데이터는 '수량 데이터'라고 한다. 

카테고리 데이터는 각 항목의 격차가 균등하지 않고

수량 데이터는 각 항목의 격차가 균등하다.

하지만, 실무에서는 카테고리 데이터를 수량 데이터로 취급하는 경우가 종종 있다. (맛있다 : 1점, 맛없다 : 2점)


도수분포표와 히스토그램은 '대충' 데이터의 전체적인 분위기를 직감적으로 파악하기 위해 사용한다.

데이터 전체의 분위기를 '수학적'으로 파악하는 방법으로 평균, 중앙값, 표준편차를 들 수 있다.


중앙값은 데이터를 순서로 늘어놓았을때 중간에 오는 값을 말하고

데이터 개수가 홀수개일때는 정가운데 값이고

데이터 개수가 짝수개일때는 가운데 있는 두개 값의 평균이다.

수치가 지나치게 크거나 지나치게 작은 데이터가 섞여있을 경우에는 평균보다 중앙값을 산출하는 편이 타당하다.


분포된 정도를 표시하는 것이 표준편차이다.


표준화란 평균에서 떨어진 정도라든지 데이터의 '분포된 정도'를 바탕으로 점수의 가치를 검토하기 쉽게 해주는 데이터 변환이다.

표준값 = (데이터 - 평균)/표준편차


만점에 관한 기준이 달라지더라도 그 표준값의 평균은 반드시 0, 표준편차는 반드시 1이다.


히스토그램의 계급의 크기를 극한까지 작게 한 곡선의 식을 통계학에서는 '확률밀도함수'라고 한다.


수량 데이터와 수량 데이터를 비교할 때 관련이 있는 정도를 나타내는 지표가 '상관계수'이다.

수량 데이터와 카테고리 데이터의 관련 정도를 나타내는 지표는 '상관비'이다.

카테고리 데이터와 카테고리 데이터의 관련 정도를 나타내는 지표는'크래머의 연관계수'이다.

각 지표들은 1 또는 -1에 가까울 때 강하게 관련된 것이며, 0에 가까울 때 관련되지 않은 정도를 나타낸다.


표본데이터를 기반으로 분석자가 모집단에 대해 세운 가설이 옳은지 아닌지를 추측하는 분석 방법이 '검정' 또는 '통계적 가설 검정'이다. 



반응형

댓글