책을 읽다보니 '여론조사'가 여러 가지 방법으로 조작될 가능성이 크다는 이야기가 나오더군요. 여론을 있는 그대로 보여주기는커녕 오히려 여론을 호도하는 경우도 꽤 많다고 그 책은 지적합니다. 

1년에도 수십, 수백 종의 여론조사 결과가 발표되는데, 그것들 중 몇 가지는 '과연 그럴까?'란 의구심을 자아냅니다. 예전에 쓴 글에서 대표적인 사례를 소개한 적이 있죠. ('여론조사를 경계해야 하는 이유') 모르긴 해도 아래와 같은 방법 중 하나 이상을 써서 사전적으로 혹은 사후적으로 조작된 것은 아닐까요? 5가지 유형으로 정리해 봤습니다.



1. 여론조사의 실시시기를 조절하는 방법

- 오전 10시에 가정집에 전화해서 설문합니다 → 대부분 주부들이 전화를 받죠.
- 오후 2시에 번화가에서 '대면 질문'을 합니다 → 사무직 회사원들을 거의 못 만나죠.
- 대형 자연재해 이후 정부의 지지도를 조사합니다 → 많은 사람들이 정부에 우호적이지 않겠죠.


2. 여론조사 표본을 조작하는 방법

- 집단 조작 : 유기농식품을 선호하는 집단에게 유기농식품의 효능에 대해 묻습니다.
- 지역 조작 : 전통적인 여당 텃밭에서 여당 지지도를 조사합니다.
- 조사매체 조작 : 온라인으로 조사합니다 → 컴퓨터 사용에 능한 젊은 세대로 표본이 국한되죠.


3. 여론조사 결과를 '이상하게' 발표하는 방법

- 국산 쇠고기 맛이 더 좋다고 대답한 사람 30%, 수입 쇠고기 맛이 더 좋다고 답한 사람 10%, 국산이든 수입이든 맛의 차이가 없다고 답한 사람 60%라는 결과가 나왔다면, 
→ 쇠고기를 구입하는 사람의 70%가 '딱히' 국산 쇠고기를 선호하지 않는다고 발표합니다. 이런 발표는 사실에 부합되긴 하지만, 국산 쇠고기를 좋아하지 않는 사람들이 많다는 식으로 여론을 호도합니다.

- 결과가 의뢰인의 뜻에 반하게 나오면, 아예 그 결과를 발표하지 않거나 필요한 부분만 떼어서 발표합니다. → 아마도 이런 경우도 꽤 될 듯 하네요.


4. 답변을 한쪽으로 유도하는 방법

- 자사의 신형 자동차와 경쟁사의 신형 자동차를 비교 평가해 달라고 하면서, 시승 운전을 할 때는 자사의 신형 자동차만 제공합니다. → 실제로 닷지 자동차에 대해 그렇게 한 적이 있다고 하네요,

- 유행에 뒤떨어지는 옷과 자사의 옷을 함께 나열해 놓고 '무엇이 가장 유행하고 있는가'라고 묻습니다. → 리바이스가 이런 방법을 써서 "대학생 중의 90%가 리바이스 501 청바지가 대학가에서 유행한다고 대답했다"라고 조사 결과를 발표했습니다. 유치한 방법처럼 보이지만, 교묘하게 비교 대상을 선정하면 아주 효과적인(?) 방법이기도 합니다.


5. 유도질문을 하는 방법

아래와 같이 '네'라는 답변을 계속하게 만들어서 맨 마지막 질문에도 '네'라는 대답을 얻어내는 방법입니다. 가장 악의적이면서 교묘한 방법이죠.

- 환경 파괴로 인해 이상한 질병이 새로 생길까 두려운가요?   네.
- 핵무기의 과도한 경쟁의 지구를 파멸시킬 것 같은가요?  네.
- 체르노빌 원전 폭발과 같은 참사가 다시 일어날까 염려되나요? 네
- 원자력 개발의 확대를 막아야 한다고 생각하나요? 네.

답변자는 자신의 '일관성'을 유지하려는, 본능에 가까운 의도 때문에 이렇게 자신도 모르게 '네'라고 대답하게 됩니다.


여론조사의 신뢰도는 표본을 얼마나 고르게 선정했냐에 달려있습니다. 표본이 모집단을 얼마나 옳게 반영하느냐가 핵심이죠. 그러나 표본을 잘 선정하더라도 문제는 여전히 존재합니다. 왜냐하면 여론조사 받는 걸 좋아하는(그것에 별 거부감이 없는) 사람들이 대부분 조사에 응하기 때문입니다. 

그러므로 아무리 공신력이 있는 단체에서 발표되는 여론조사라도 그 결과를 그대로 믿기 전에 한번쯤 의심해 볼 일입니다. 정보가 홍수를 이룰수록 그 속에 쓰레기도 많은 법이니 말입니다.

(*출처 : '괴짜생태학', 웅진지식하우스)


inFuture 아이폰 앱 다운로드       inFuture 안드로이드 앱 다운로드


  
,

미국의 인기잡지였던 리터러리 다이제스트(Literary Digest)가 1936년 대선에서 누가 승리할지를 예측하기 위해 여론조사를 실시했습니다. 그들은 1000만 명에게 엽서를 발송해서, 236만 명으로부터 답변을 회수했습니다.

결과는 랜든(Alfred M. Landon)이 57%, 루즈벨트(Franklin D. Roosevelt)가 43%의 지지율을 얻는다는 것이었습니다. 그래서 리터러리 다이제스트는 '랜든이 루즈벨트를 이기고 대통령에 당선될 것'이라고 당당하게 발표했지요.


하지만 개표를 해보니 결과는 반대였습니다. 여론조사와는 달리 공화당의 알프레드 랜든은 고작 38%를 득표한 반면, 민주당 소속의 프랭클린 루즈벨트는 62%를 득표해서 루즈벨트가 가볍게 승리를 거두었습니다. 투표 결과와 무려 19%나 틀려서 여론조사 사상 최대의 오차라는 불명예를 입은 리터러리 다이제스트는 이 실수 때문에 신뢰도가 급격히 추락해서 결국 문을 닫고 맙니다.

여론조사 실패의 이유는 리터러리 다이제스트가 236만 명이나 되는 표본의 크기를 너무 신뢰한 나머지 표본의 타당성을 간과하는 실수를 저질렀기 때문입니다. 그들은 전화 가입자와 자동차 소유자의 의견을 조사하면 승리자를 예측할 수 있다고 생각했지요.

헌데 1936년 당시는 대공황이 최악이었던 시절로 전화나 자동차는 부의 상징이었습니다. 또한 그 부유한 사람들 중에는 보수적 성향의 공화당을 지지하는 자들이 상당히 많았죠. 랜든 지지율이 높게 나온 이유가 여기에 있습니다.

리터러리 다이제스트는 전화 가입자와 자동차 소유자들의 주소를 확보하기가 쉽고 그들이 1000만 명이나 되기 때문에 유권자 전체의 의견을 대변한다고 간주하는 오류를 범했습니다. 그래서 236만 명이라는 거대한 표본에도 불구하고 선거 결과를 잘못 예측한 겁니다. 타당하지 않은 표본을 여론조사에 사용했다는 점이 예측 실패의 근본원인이었습니다.

반면, 똑같은 시기에 고작 1500명이라는 작은 표본만 가지고 비교적 근사하게 대선 결과를 예측한 회사가 있었는데, 바로 여론조사 전문기관으로 유명한 갤럽(Gallup)입니다. 그들은 조사 대상자를 미국 전역에서 추출하는 ‘할당추출법’을 사용해서 1500명을 대상으로 여론조사를 실시했습니다. 

랜든이 44%, 루즈벨트가 56%의 지지율을 얻자 그들은 루즈벨트의 승리를 옳게 예상했습니다. 리터러리 다이제스트보다 표본이 훨씬 적음에도 불구하고 실제 선거 결과와 6% 밖에 차이가 나지 않은 이유는 “최대한 무작위로 골고루 표본을 할당해서 여론조사를 하면 누가 이길지 예측할 수 있다”는 여론조사의 기본 원칙을 준수했기 때문입니다. 

이렇듯 올바른 여론조사가 되려면 표본이 무엇이냐가 아주 중요합니다. 리터러리 다이제스트의 사례는 여론조사를 경계해야 할 충분한 이유입니다. 선거철이 다가오면 여기저기서 여론조사 결과가 보도되는데, 지지율 결과만 볼 것이 아니라 표본이 합리적으로 선택됐는지를 면밀히 살펴볼 일입니다. 여론조사 결과에 현혹되지 않으려면 말입니다. ^^



인퓨처컨설팅 & 유정식의 포스트는 아이폰 App으로도 언제든지 볼 수 있습니다. 다음의 링크를 눌러서 여러분의 아이폰에 inFuture App(무료)을 설치해 보세요
                 여기를 클릭!


  
,

여러분이 어느 학교 학생들의 몸무게를 조사한다고 가정해 보십시오. 그 학교 학생 수가 아주 많은 탓에 모든 학생을 조사하기가 곤란해서 일부(예를 들어 300명 정도)만 무작위로 뽑아 몸무게를 조사했다고 하겠습니다. 그래서 다음과 같은 통계치를 얻었습니다.

몸무게 평균 = 53 Kg
표준편차 = 5 Kg

이런 통계치는 무엇을 의미할까요? 어떤 의미가 통계치 안에 숨어 있는 걸까요? 많은 사람들이 평균과 표준편차를 보고 '그냥 그런가보다'라며 넘어가고 맙니다.

평균과 표준편차에 숨은 의미는 다음과 같습니다.

[정규분포를 따를 경우]
"임의의 표본이 [평균 + 2표준편차]와 [평균 -  2표준편차] 사이에 해당할 확률은 95%다"  
(여기서 2표준편차는 표준편차에 2를 곱한 값을 말함)

말이 좀 어렵죠? 쉽게 말해 이런 뜻입니다. 표준편차가 5 Kg 이므로 2표준편차는 10 Kg 이죠. 그렇다면, 몸무게를 조사한 학교에 찾아가서 처음 만나는 학생을 저울 위에 올려놓을 경우 그 학생의 몸무게가 43 Kg과 63 Kg 사이에 해당할 확률이 95%가 된다는 의미입니다. 그러니까 그 학생의 몸무게가 43 Kg 보다 작거나 63 Kg 보다 클 확률은 5% 밖에 안 된다는 뜻이죠.

정당지지율이나 후보 지지율 등을 위한 설문조사에서 언급하는 '95% 신뢰구간'이라는 말은 바로 실제의 지지율이 '[평균 + 2표준편차]와 [평균 -  2표준편차] 사이에 놓일 확률이 95% 임'을 지칭하는 문구입니다. 이와 같은 평균-표준편차-신뢰구간 사이의 관계를 '2표준편차의 법칙'이라고 외우면 기억하기 좋을 겁니다.

이제 곧 지방선거가 실시될 텐데요, 여러분은 신문이나 방송에서 이렇게 이야기하는 걸 들을지도 모릅니다.

" 총 1000 명의 유권자에게 출구 조사를 실시한 결과, A후보의 지지율은 45%, B후보의 지지율은 43%로 나타났습니다. 95% 신뢰구간에서 표본 오차는 공히 ± 2% 입니다.
따라서 두 후보가 표본 오차 내에서 막상막하의 지지율을 보이는 것으로 해석됩니다."

이 뉴스를 들은 B후보는 오차범위인 2%를 자신의 지지율인 43%에 더하면 45%가 되기 때문에 A후보에게 결코 밀리는 것이 아니라며 안심할지 모릅니다. 어디까지나 1000 명에게만 설문조사해서 얻은 결과이기 때문에 개표가 진행되면 A후보를 따돌리고 더 많이 득표하리라 기대할지도 모릅니다.

그러나 B후보는 이런 뉴스를 듣고 낙담을 해야 옳습니다. 왜 그럴까요?

표본오차는 바로 2표준편차를 의미합니다. 따라서 A후보와 B후보는 각각 다음과 같은 지지율 분포를 갖습니다.

A후보 : 지지율이 43% ~ 47% 일 확률이 95%

B후보 : 지지율이 41% ~ 45% 일 확률이 95%

이 두 개의 분포를 그림으로 보면 다음과 같습니다. (손으로 그려서 보기가 어려울지 모르겠네요. ^^)


이 그림에서 빗금 친 부분이 A후보가 B후보보다 앞서는 상태입니다. 빗금 친 부분의 면적은 정규분포에서 84%에 해당합니다. 통계를 아시는 분들은 금세 계산할 텐데요, '더보기'를 눌러보면 단서가 나옵니다. 이것을 가지고 간단한 일차방정식을 풀면, 빗금 친 부분의 면적이 얼마인지 구할 수 있을 겁니다.


여하튼, 이 말은 바로 A후보가 B후보를 이길 확률이 84%나 된다는 이야기입니다. 84%라는 확률은 대단히 큰 확률입니다. 따라서 B후보는 웬만해서는 A후보를 이길 수 없죠. 특정 투표함에서 몰표가 나오지 않는 한 힘든 일입니다.

평균과 표준편차, 신뢰구간과 오차범위(또는 표본오차)의 관계를 올바르게 알면, 통계 결과를 잘못 해석하는 일이 대폭 줄어들 테고 좀더 올바르게 의사결정하는 데에 도움을 얻으리라 생각됩니다. 통계와 친하게 지내십시오. 평균과 표준편차의 의미만 잘 알아도 통계는 50% 먹고 들어갑니다. ^^

*참고도서 : 'Super Crunchers', Ian Ayres, 2007


인퓨처컨설팅 & 유정식의 포스트는 아이폰 App으로도 언제든지 볼 수 있습니다. 다음의 링크를 눌러서 여러분의 아이폰에 inFuture App(무료)을 설치해 보세요
               여기를 클릭!



  
,