2014년 12월 22일 월요일

Simpson's paradox 심슨의 패러독스



심슨의 패러독스는 유명하지만, 약간의 배경지식이 필요하고, 정확히 이해하지 않으면 자신있게 얘기하기 어려운 문제.
데이타가 의심스러우면 층화, 그룹핑 이전의 원자료를 확인할 필요가 있다는 것을 데이타 분석을 하는 사람들이 알 필요가 있음. 만약 확인하지 못했으면 엉뚱한 소리 하지 말고 결론을 유보해야 함.

심슨의 패러독스에 대한 설명은 위키피디아에 잘 나와 있음.
http://en.wikipedia.org/wiki/Simpson's_paradox

첫번째 일화에 대한 설명

Berkeley gender bias case[edit]

One of the best-known real-life examples of Simpson's paradox occurred when the University of California, Berkeley was sued for bias against women who had applied for admission to graduate schools there. The admission figures for the fall of 1973 showed that men applying were more likely than women to be admitted, and the difference was so large that it was unlikely to be due to chance.[10][11]
ApplicantsAdmitted
Men844244%
Women432135%


But when examining the individual departments, it appeared that no department was significantly biased against women. In fact, most departments had a "small but statistically significant bias in favor of women."[11] The data from the six largest departments are listed below.
DepartmentMenWomen
ApplicantsAdmittedApplicantsAdmitted
A82562%10882%
B56063%2568%
C32537%59334%
D41733%37535%
E19128%39324%
F3736%3417%
The research paper by Bickel et al.[11] concluded that women tended to apply to competitive departments with low rates of admission even among qualified applicants (such as in the English Department), whereas men tended to apply to less-competitive departments with high rates of admission among the qualified applicants (such as in engineering andchemistry). The conditions under which the admissions' frequency data from specific departments constitute a proper defense against charges of discrimination are formulated in the book Causality by Pearl.[3]



- 1973년에 UC버클리가 대학원 입학에서 여성에 대한 차별로 고소당함. 만2천명이 넘는 지원자 중 남자의 합격률은 44%, 여성의 합격률은 35%로 남성이 높았고 우연히 저런 결과가 나올 가능성은 낮았음.
-그러나 개별 학과의 자료를 조사해본 결과 여성에게 불리하게 편향된 과는 없어 보였고, 오히려 작지만 통계적으로 남성에게 불리한 편향을 확인했음.

-원인은 여성들이 경쟁률이 높고, 합격률이 낮은 학과(영문학 등)에 지원하는 경향이 있었고, 남성은 경쟁률이 낮고, 합격률이 높은 학과(공학, 화학 등)에 지원하는 경향이 있었기 때문에 개별학과의 합격률은 통계적으로 여성이 높지만, 전체의 합계에서는 여성의 합격률이 낮은 것으로 보였던 것임.

합격률을 남여로 구분해서 보았기 때문에 저런 착각이 발생했던 것이고, 통계적으로 의심스러운 상황이 보이면 원자료를 확인해서 차이의 원인을 확인해야 함.

만약 누군가가 나쁜 마음을 먹으면 다양한 방식으로 데이타를 그룹핑, 층화해서 위와 같은 방식으로 유의한 차이를 만들어낼 수 있음.
물론 의도하지 않는 실수가 나올 수도 있음.


http://vudlab.com/simpsons/

시간을 내서 위의 사이트에서 시험해보면 어떤 상황에서 이런 일이 발생하는지 감을 잡을 수 있음.



윗글은 아랫글에 대한 배경설명에 가까움.

가계부채에 관한 착각, 착시http://runmoneyrun.blogspot.kr/2014/12/blog-post_22.html


댓글 없음:

댓글 쓰기