통계, 그 새빨간 거짓말   

2010. 9. 10. 09:00


며칠 전, 지하철을 타기 위해 플랫폼에 서있다가 이런 광고를 봤습니다. 정확한 토씨는 잊었지만, 거기엔 이렇게 적혀 있더군요.

"우리 회사 FC(파이낸셜 컨설턴트, 보험영업인)들 중 4분의 1은 월 500만원 이상을 법니다"

보험회사의 핵심역량은 보험상품의 설계보다는 보험영업인들의 영업력에 달렸습니다. 사실 보험상품에서 차별화를 꾀하기가 어렵다고들 말합니다. 그렇기 때문에 능력있는 보험영업인을 잘 모집하고 교육시켜서 그들을 오랫동안 영업을 하도록 해야 회사로서 이득이죠.

그래서 보험영업인들이 얼마나 회사에 오래 남아 일하느냐를 측정하는 '정착율'이란 지표는 보험회사에서 매우 중요한 지표로 관리됩니다. 당연히 위의 광고 카피는 우수한 영업인력을 유인하려는 목적으로 만들어졌겠죠?

헌데, 보험영업인의 4분의 1, 즉 25%가 월수입 500만원 이상이란 말을 문자 그대로 믿어야 할까요? 전 좀 의심이 들더군요. 그래서 통계에 젬병이지만, 한번 따져보기로 했습니다.

우선 그 회사 보험영업인들의 월수입 분포가 '정규분포'를 따른다고 가정해 봤습니다. 하지만 정규분포를 그리려면 월수입의 평균과 표준편차를 알아야 합니다. 위의 광고문구만 보고는 어떤 분포를 따르는지 알기가 불가능하죠.

그래서 전 '표준정규분포(평균이 0이고 표준편차가 1인 정규분포)'를 먼저 상정한 다음에 이렇게 저렇게 해서(trial & error 방식으로) 대략 다음과 같은 정규분포를 따를 것이라 결론을 내렸답니다.

 월수입 분포 추정 결과 

평균 : 약 300만원    
표준편차 : 약 300만원인 정규분포

이걸 그림으로 그리면 다음과 같습니다.

(정규분포로 추정한 월수입 분포)


이 그림에서 오른쪽에 파랗게 빗금쳐진 부분이 전체의 25%, 즉 4분의 1을 나타냅니다. 그들은 500만원 이상의 월수입을 올리는 사람들입니다. 문제는 왼쪽에 빨갛게 빗금쳐진 부분입니다. 그것도 전체의 25%를 차지하는데 그들의 수입은 보다시피 100만원 이하입니다. 게다가 월수입이 마이너스인 사람도 상당히 많이 존재합니다(약 16%의 사람들에 해당).

월수입이 500만원 이상인 사람이 4분의 1이나 된다는 광고 카피의 이면에는 월수가 100만원도 안 되거나 오히려 회사에 돈을 내고 다니는(즉 월수입이 마이너스인) 사람도 있음을 이 그림이 보여줍니다. 물론 애초에 정규분포를 잘못 추정했기 때문에 이런 결과가 나왔을지 모르죠. 하지만 통계를 유리한 쪽으로만 해석해서 광고를 보는 사람들을 현혹시킬 의도가 없다고 장담할 수 있을까요?

그런데, 보험영업인들의 월수입 분포가 정규분포를 따를 거라는 위의 가정이 과연 옳을까요? 우리는 보통 아주 잘 버는 사람과 아주 못 버는 사람들은 소수이고, 중간 정도 버는 사람들이 가장 많으리라는 '정규분포식 고정관념'을 가지고 있습니다. 위의 그림처럼 '종 모양'의 그래프를 머리 속에 그리곤 하죠.

하지만 실제의 분포는 다른 양상으로 나타나는 경우가 많습니다. 예를 들어 블로그들의 RSS구독자수 분포를 그려보면, 극소수의 블로그는 구독자수가 매우 많은 반면, 대부분의 블로그들은 구독자수가 거기서 거기인 모양이 나타납니다. 소위 '승자 독식 현상'이 그림으로 그려지죠. (이와 같은 현상을 예전에 포스팅한 적이 있으니 참고하세요)

보험영업인들의 월수입 분포도 RSS구독자수 분포처럼 '승자 독식 현상'으로 나타나진 않을까요? 만약 그렇다면 아래의 그림처럼 분포가 그려집니다. 

(손으로 그리다보니 그림이 이상하네요. '승자독식형' 분포를 가정하여 그린 그래프)


먼저 이 그래프가 매끄럽게 연속선으로 그려진 탓에 월수입이 100~500만원 사이에 있는 사람도 꽤 많다고 착각할 수 있다는 점에 유의하세요. 이 부분(100~500만원 사이)에 찍히는 점들은 조밀하지 못합니다. '밀도'로 본다면 100만원 이하인 쪽(빨갛게 표시된 부분)이 더 조밀하게 점들이 모여 있지요.

데이터가 없기 때문에 이 그림도 역시 추측에 불과하지만, 정규분포로 추정할 때보다 월수입이 100만원에 미치지 못하는 사람들(빨갛게 빗금쳐진 부분)이 더 조밀하게 존재함을 암시합니다. 500만원 이상 버는 사람이 25%나 된다는 선전의 뒷면에는 '100만원도 못버는 사람들이 50% 혹은 60% 이상이나 된다'는 사실이 숨어있을지 모릅니다. 어디까지나 짐작이지만, 의심을 거두기가 어렵습니다.

마크 트웨인은 "세상에는 3가지의 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계"라고 말한 적이 있습니다. 사실 통계는 거짓말을 하지 않습니다. 그걸 자기 입맛대로 재단하는 사람들이 거짓말을 하는 것이죠.

대부분의 사람들이 100만원도 제대로 못 버는데도, 상위 25%인 사람들이 500만원을 버니까 중간 정도만 하면 3~400만원은 벌 거라면서 잘못된 환상을 심어주는 건 아닌지 경계해야 합니다. "우리 회사 직원들은 평균 연봉이 1억 원입니다."라는 말은 그 자체가 거짓은 아닙니다. 평균이란 통계치가 쓰이지 말아야 할 곳에 쓴 사람이 바로 거짓말쟁이입니다.

통계에 속지 마십시오.


inFuture 아이폰 앱 다운로드       inFuture 안드로이드 앱 다운로드 


  
,

지난 번에 한RSS의 구독자수 분포를 분석한 글을 올린 적이 있습니다. '경영' 카테고리에 속한 60개 블로그의 구독자수가 '승자독식현상(Winner-take-all)'처럼 보인다는 글이었지요. 비록 '아름다운' 패턴의 승자독식 그래프는 아니었지만, 상위 30%가 구독자의 80%를 점유하는 현상으로 보아 블로그에도 승자독식현상의 가능성이 숨어있을지도 모른다고 결론 내렸습니다.

그 글을 쓴 날짜가 4월 17일이었는데, 두달 여가 흐른 지금은 어떤 분포로 변했는지 궁금했습니다. 지금 다시 그래프를 그려보면 흥미로운 패턴이 나타날지 보고 싶었지요.

우선 2가지 가설을 세웠습니다(이 가설은 2달 여의 기간에만 해당됩니다).

가설 1 : 승자독식현상으로 다가간다.
가설 2 : 승자독식현상으로부터 멀어진다.

이 2개의 가설을 검증하기 위해 지난 번에 작성했던 엑셀 파일을 다시 꺼내 현 시점(6월 25일)에서 구독자수를 입력했습니다. 현재 한RSS 경영 카테고리에 등록된 블로그 수는 좀 늘어서 68개입니다. 입력을내고 다음과 같은 그래프를 얻었습니다. 핑크색선이 현재이고, 남색선이 4월 17일 그래프입니다.

(데이터 출처 : 한RSS 경영 카테고리 구독자수)


보다시피 1위 블로거의 구독자수는 확실하게 상승했습니다. 333명이 늘었으니까요. 위의 그래프에서 주목할 만한 패턴은 7위~30위 구간입니다. 다른 구간에 비해 구독자수의 증가가 확연하게 보입니다. 이러한 패턴의 변화를 보면, 위의 가설 중 2번째인 '승자독식현상으로부터 멀어진다'가 옳다는 결론을 내리게 됩니다. 

그러나 위의 그래프는 구독자수의 절대치를 데이터로 그린 것이므로 해석할 때 유의해야 합니다. 2달 여 동안 블로그스피어의 부피가 늘었기(즉, 블로그스피어에 유입되는 사람 수가 늘었기) 때문일지도 모릅니다. 구독자수를 데이터로 그래프를 그리면, 새로 유입되는 사용자가 늘수록 그래프가 위로 상향(shift)되기 마련입니다.

이런 해석 오류를 없애려면, 아래의 그림처럼 구독자에 대한 누적점유율을 가지고 그래프를 그려야 합니다. 역시 핑크색선이 현 시점이고, 남색선이 4월 17일의 그래프입니다.

(데이터 출처 : 한RSS 경영 카테고리 구독자수)


누적점유율 그래프의 '위로 볼록한 정도'가 작아졌군요. 상위 블로거들의 누적점유율이 약화됐다는 의미로 해석됩니다. 앞에서 언급했듯이 7위~30위의 블로거들이 상대적으로 점유율의 향상이 두드러집니다. 최상위권인 1위~6위는 구독자수의 절대치는 늘었지만 점유율은 오히려 떨어졌군요.

결론적으로 말해, 적어도 한RSS의 경영 카테고리에서는 승자독식현상으로부터 멀어짐(가설 2)을 알 수 있습니다. 비록 2달 여의 기간이지만 승자들의 상대적 영향력이 떨어진 반면 중간층이 약진했습니다. 이를 두고, 블로그스피어에서 '평등'으로 가는 지향력이 존재한다고 말할 수 있을까요? 블로그스피어의 민주화라 말할 수 있을까요?

저는 내심 찬성하고 싶지만, 엄밀히 말해 이 분석만을 가지고는 알지 못합니다. 2달 여의 시간은 짧기도 하거니와 68개의 블로그가 속한 경영 카테고리만을 대상으로 했으니까요. 데이터를 보유한 한RSS측에서 전체 카테고리를 대상으로 분석을 해보거나, 메타블로그가 개별 블로그들의 트래픽 데이터를 전부 조사해 본다면, 위 가설의 참/거짓 여부가 드러날 겁니다. 

블로그스피어는 참 재미난 곳입니다. 반(半)익명성의 세계에서 매순간 꿈틀거리는 변화의 힘을 느낍니다. 오프라인에서는 점점 심화되는 승자독식현상이 블로그스피어에서는 다른 양상(예:평등, Fat Tail 등)으로 나타날지도 모릅니다. 인터넷이란 매체가 지닌 개방성과 파급성 때문이 아닐까 합니다. 어른들이 자주 쓰는 말로 그래야 '캄푸라치'가 되지 않을까요? ^^

분석한 내용은 아래의 엑셀 파일을 참고하세요.



  
,

블로그에도 승자독식 현상이?   

2009. 4. 18. 13:46

심심풀이로 블로그별 구독자 수를 기준으로 1위에서 60위까지를 그래프를 그려 보았다. 아래 그래프에서 핑크색 곡선은 순위별 '구독자수 분포'이고, 남색 곡선은 '누적점유율'을 나타낸다.

(데이터 출처 : 한RSS 중 '경영' 카테고리에 속한 60개의 블로그별 구독자수. 2009년 4월 17일 기준)

이 그래프에서 80대 20법칙의 모습이 발견된다. 딱 들어맞진 않지만, 상위 30%(18위)의 블로거들이 구독자의 약 80%를 차지하기 때문이다. 또한 1위부터 6위의 블로거들이 약 50%의 구독자를 점유하고, 나머지 블로거들은 긴 꼬리를 나타내는 것도 볼 수 있다. 

이 그래프를 가지고 파워 블로거들이 대부분의 구독자를 점유하는 소위 '승자독식(the-winner-take-all)' 현상이 존재한다고 판단할 수 있을까?  이 그래프만으로는 데이터 수가 작아서 섣불리 그렇게 판단하기는 어렵다. 겨우 60개의 블로그를 가지고 구독자 수 분포를 그렸기 때문이다(심심풀이였음을 양해 바란다). 사실 승자독식 현상이라고 판단하려면 80대 20법칙보다 더 심해야(예컨데 99대 1의 법칙 정도) 한다.

하지만 충분한 시간과 데이터를 확보한 후에 한RSS에 등록된 모든(카테고리 불문하고) 블로거들을 구독자 수를 기준으로 1위부터 나열해 본다면, 등수가 낮아질수록(즉, 1위에서 멀어질수록) 구독자수가 급감하는 전형적인 '승자독식'의 패턴을 발견할지도 모르겠다. 승자독식의 강도(1위에서 멀어질수록 얼마나 급감하는지)가 어느 정도일지는 알 수 없지만 말이다.

그렇다면, 블로거들간의 '구독 네트워크'는 파워 블로거라는 허브들로 연결선들이 집중된 모습의 그물망으로 나타날 것이다. 아마 그것은 A.R.바라바시가 말한 '척도없는 네트워크'가 아닐까?

만약에 전세계의 모든 블로그를 대상으로 통계를 내본다면 어떨까? 짐작컨데, 그때도 승자독식 패턴이 나타나겠지만, 동시에 크리스 앤더슨이 말한 '롱테일(Long tail)'이 발견될지도 모르겠다. 낮은 등수의 블로거들이 비록 소수지만 어느 정도의 구독자를 확보하고 있어서, 꼬리에 해당하는 구독자 수를 모두 더하면 상위 블로거들의 구독자 수를 압도한다는 것이 롱테일 현상이다. 하지만 위 그래프는 롱테일이라 말하기에 부족하다. 데이터가 얼마 안 되기 때문이다.
 
그러나 저러나, 왜 파워 블로거들은 구독자의 거의 대부분을 점유할 수 있을까? 그들에겐 여타 블로거들에게는 없는 특별한 능력이 있는 것일까? 무엇이 그들에게 승자독식의 위치를 점하게 했을까?

잘은 모르겠으나, 아마도 그 이유는 파워 블로거들과 여타 블로거들 사이에 존재하는 미묘한 차이 때문은 아닐까? 작은 오차가 축적되어 커다란 효과로 나타난다는 '나비효과' 때문은 아닐까? 그 미묘한 차이, 파워 블로거를 여타 블로거들과 차별되게 만드는 요인이 무엇인지는 콕 집어 말하기 어렵다. 블로그스피어는 상호작용이 끊임없이 벌어지고 증폭되는 복잡한 장(場)이기 때문이다.

그렇다면 파워블로거가 될 수 있는 방법은 스스로 찾아야 한다. 혹시 그렇게 되길 원한다면 말이다.




  
,