돌처럼 딱딱하게 냉동된 감자를 벽에 던지면 당연히 여러 가지의 크기로 깨집니다. 어떤 것은 포도알만 하고 또 어떤 것은 쌀알 만하겠죠. 냉동 감자 수천 개를 벽에 던진 후에 깨진 감자 조각들을 크기가 큰 것부터 작은 것 순으로 나열해보고 그래프를 그린다면 어떤 패턴이 나타날까요? 아마 여러분은 중간 정도 크기의 조각이 가장 많고 양쪽으로 갈수록 개수가 줄어드는 종(bell) 모양의 정규분포 곡선을 머리 속에 그릴 겁니다.

하지만 깨진 감자들은 정규분포를 그리지 않음을 덴마크의 과학자들이 발견했습니다. 그들은 실제로 냉동감자를 깨뜨리는 실험을 한 결과, 조각의 무게가 반으로 줄 때마다 개수가 6배씩 늘어나는 패턴을 발견했습니다. 이를 그래프로 그려보면 오른쪽으로 갈수록 아래로 뚝 떨어지는 '둥근 L자' 모양이 됩니다. 무게가 큰 덩어리는 얼마 안 되는데 반해, 무게가 그보다 작은 덩어리들은 '긴 꼬리'를 형성하는 패턴이죠. 아래의 그림에서 음영이 칠해진 그래프처럼 오른쪽으로 갈수록 뚝 떨어지듯이 급감하는 모양을 갖는 분포를 ‘멱함수(power law) 분포’라고 부릅니다. 정규분포(실선으로 그려진 그래프)와 비교해 보면 그 차이가 상당히 크다는 점을 알 수 있습니다. 

(*출처 : 하단에 명기한 논문)


정규분포를 따를 것 같지만 그렇지 않은 경우는 아주 많습니다. 지진의 경우에도 에너지 방출이 두 배로 되면 빈도가 네 배로 줄어드는 멱함수 패턴을 따릅니다. 산불의 경우에는 피해 면적이 두 배가 되면 그런 산불은 2.48배로 드물어진다고 합니다. 상위고객 20%가 매출의 80%를 기여하고, 20%의 제품이 이익의 80%를 올리는 등 우리가 보통 80대 20법칙으로 알고 있는 것도 사실은 멱함수의 일종입니다. 면적을 기준으로 미국에서 가장 큰 도시부터 순서대로 2,400곳을 나열해보면 어떤 분포가 나올까요? 1997년에 실시한 연구에 따르면 특정 크기의 도시의 수는 면적의 제곱에 반비례하는 멱함수 분포를 띱니다. 풀어서 말하면, 어떤 도시보다 면적이 절반인 도시는 4곳이 있고, 그보다 2배인 도시의 수는 4분의 1이라는 의미입니다.



그렇다면, 직원들의 성과 분포는 어떨까요? 역량이든 업적이든 평가가 끝나면 인사팀은 평가 서열을 결정하고 등급별로 직원들을 배분하는 작업을 합니다. 등급은 보통 5개로 나뉘는데, 가장 높은 등급인 S등급에 10퍼센트, A등급에 20퍼센트, 중간 등급인 B등급에는 40퍼센트, C등급에는 20퍼센트, 가장 낮은 등급인 D등급에는 10퍼센트의 직원들을 강제로 할당하곤 합니다. 이 등급을 기준으로 기본급 인상률과 성과급 지급액이 결정되고, 승진에 필요한 점수가 누적되죠. 이렇게 좌우 대칭의 분포로 평가 등급을 결정하는 이유는 직원들의 역량과 업적의 분포가 정규분포를 따른다고 믿기 때문입니다. 거의 모든 기업의 인사 담당자들(경영자들도 마찬가지)은 신장(키)의 분포처럼 직원의 성과도 평균과 표준편차가 명확한 종(鍾) 모양의 곡선을 그릴 거라 여깁니다. 실제의 성과 분포가 정규분포가 아닐지도 모른다는 의심을 아무도 하지 않죠.

직원들의 성과는 정말 정규분포를 따를까요? S등급부터 D등급까지 직원들을 강제 할당하는 상대평가 방식이 정말 실제를 옳게 반영하는 걸까요? 어니스트 오보일 주니어(Ernest O'Boyle Jr.)와 허먼 아귀니스(Herman Aguinis)는 정규분포에 대한 사람들의 맹목적인 믿음이 과연 옳은지를 검증하기 위해 5가지 분야에서 총 633,263명을 대상으로 연구를 수행한 결과, 5가지 분야에서 모두 정규분포적 관점이 현실을 올바로 반영하지 못한다고 결론 내렸습니다. 

오보일과 아귀니스는 연구자, 연예인, 정치인, 아마추어 및 프로 운동선수의 실제 성과 분포는 정규분포가 아니라 멱함수 분포에 가깝다는 사실을 규명했습니다. 먼저 오보일과 아귀니스는 54개의 세부 연구 영역에서 연구자들이 2000년 1월부터 2009년 6월 사이에 얼마나 많은 논문을 상위 5개 학술 잡지에 게재했는지 분석했습니다. 총 490,185명의 데이터가 수집됐는데, 54개 세부 영역들 모두 정규분포보다는 멱함수 분포에 가깝다는 사실이 발견되었습니다. 아래의 그래프가 보여주듯, 9년 동안 1편의 논문을 게재한 연구자들이 거의 대부분이고 그보다 더 많은 수의 논문을 펴낸 연구자들은 오른쪽으로 갈수록 급감하는 모양을 띠었습니다. 좌우 대칭의 종 모양을 갖는 정규분포와는 완전히 딴판이었죠.

(*출처 : 하단에 명기한 논문)



연예계에 종사하는 17,750명을 대상으로 한 분석에서도 마찬가지 패턴이 발견되었습니다. 에미상, 그래미상, 골든글로브상 등 42개의 시상에서 상을 받았거나 후보에 오른 사람들의 분포를 그려보니 역시 오른쪽으로 갈수록(상을 받거나 후보에 오른 회수가 증가할수록) 해당자가 급감하는 멱함수 패턴이 나타났습니다. 정치인들의 재임기간을 분석해도, 운동선수들의 성적과 범실(error) 분포를 따져봐도 마찬가지였습니다. 

실제 데이터를 분석한 오보일과 아귀니스의 연구는 비록 실제 기업의 직원 성과를 직접적으로 분석하지는 않았지만, 직원들의 성과 분포도 멱함수 분포에 가까울 가능성이 높다는 점을 강하게 시사합니다. 직원들의 성과 분포를 정규분포라 간주하고 S등급부터 D등급까지 강제 할당하는 관행이 얼마나 잘못된 가정에 기반하고 있는지를 보여주죠. 

정규분포는 표본을 이루는 개별 사건들이 독립적이고 서로 동일할 경우에 성립됩니다. 특정 학교 학생들의 신장(키) 분포가 정규분포를 따르는 이유는 신장에 관한 한 학생들이 서로 상호작용을 하지 않을뿐더러 학생 한 명이 표본에 추가될 때 분포에 미치는 영향력은 학생들 모두 동일하기 때문입니다. 하지만 개별 사건들이 상호작용을 벌이는 네트워크의 일부이고 특정 사건의 영향력이 다른 것보다 월등할 수 있는 상황이라면 정규분포는 현실을 올바로 표현하지 못합니다. 

조직 내의 직원들은 독립적인 존재가 아니라 서로 유기적으로 협력하고 정보를 주고 받는다고 우리는 모두 동의합니다. 따라서, 직원들의 성과가 정규분포를 따르리라는 가정은 정규분포의 형성 조건에 비춰 봐도 상당히 잘못된 믿음임을 알 수 있죠. 직원의 성과가 멱함수 분포에 가깝기 때문에 대부분의 직원들의 성과는 거의 비슷한 수준이고 특출 난 성과를 보이는 직원은 극소수라고 봐야 합니다. 그러므로 5개 등급으로 나눠 기본급과 성과급을 차등 적용하는 관행은 '성과에 따른 보상(Pay for Performance)'이라는 성과주의의 철학에 오히려 반하는 조치입니다. 성과주의 제도를 올바로 운영하려 한다면, 대부분의 직원들에게는 거의 비슷한 수준으로 보상하고, 누구나 공히 인정하는 특출한 직원이 있다면 그에게 모든 구성원들의 합의와 동의 하에 추가로 보상하는 것이 옳습니다.

신입사원을 채용할 때 역량이 떨어지는 사람부터 역량이 뛰어난 자까지 정규분포에 들어맞게 사람을 뽑는 기업은 없을 겁니다. 여러분 조직의 채용 능력이 형편 없는 수준이 아니라면, 대개 역량이 중간 이상은 되는 직원들을 뽑을 겁니다. 사람의 역량이 쉽게 변하지 않는 속성의 것이라면(사실 한 사람의 역량은 교육 등을 통해서 쉽게 바뀌지 않습니다), 직원들의 역량 분포가 회사에 들어오자마자 갑자기 정규분포를 띤다고 보기엔 무리가 있습니다. 그렇지 않습니까? 그러므로 역량 분포를 정규분포에 맞게 재단해서 그에 따라 보상하겠다는 발상은 정말로 모순인 셈이죠.

직원들을 정규분포에 근거한 상대평가를 통해 강제 할당하는 조치는 대단히 잘못된 가정을 품고 있습니다. 행정적 편의를 위해 상대평가를 유지하면서 현실을 왜곡하고 불필요한 오해와 불만을 야기하는 우를 더 이상 범하지 말기 바랍니다. 직원들을 상대평가하지 마십시오.

(*추신 : 이 글은 '승자독식의 구조'가 옳다고 주장하는 게 아님을 말씀 드립니다. 직원들의 성과 분포가 적어도 정규분포는 아님을 말하는 글입니다.)

(*참고논문)
THE BEST AND THE REST- REVISITING THE NORM OF NORMALITY OF INDIVIDUAL PERFORMANCE.



  
,



돌처럼 딱딱하게 냉동된 감자를 벽에 던지면 당연히 여러 가지 크기로 깨지겠죠. 어떤 것은 포도알만 하고 또 어떤 것은 쌀알만 할 겁니다. 냉동 감자 수천 개를 벽에 던진 후에 깨진 감자 조각들을 크기가 큰 것부터 작은 것 순으로 나열해보고 그래프를 그려본다면 어떤 규칙이 발견될까요? 아마 여러분은 중간 정도 크기의 조각이 가장 많고 양쪽으로 갈수록 개수가 줄어드는 종(bell) 모양의 정규분포 곡선을 머리 속에 그릴지 모릅니다.



하지만 깨진 감자들은 정규분포를 그리지 않음을 덴마크의 과학자들이 발견했습니다. 그들은 실제로 냉동감자를 깨뜨리는 실험을 한 결과, 조각의 무게가 반으로 줄 때마다 개수가 6배씩 늘어나는 패턴을 발견했습니다. 이를 그래프로 그려보면 오른쪽으로 갈수록 아래로 뚝 떨어지는 '둥근 L자' 모양이 됩니다. 무게가 큰 덩어리는 얼마 안 되는데 반해, 무게가 그보다 작은 덩어리들은 '긴 꼬리'를 형성하는 패턴이죠. 이렇게 그래프의 오른쪽으로 갈수록 뚝 떨어지듯이 급감하는 모양을 갖는 분포를 ‘멱함수(power law) 분포’라고 부릅니다.
 
면적을 기준으로 미국에서 가장 큰 도시부터 순서대로 2,400곳을 나열해보면 어떤 분포가 나올까요? 1997년에 실시한 연구에 따르면 이것 역시 정규분포가 아니었습니다. 특정 크기를 지닌 도시의 수는 면적의 제곱에 반비례하는 멱함수 분포였기 때문입니다. 풀어서 말하면, 어떤 도시보다 면적이 절반인 도시는 4곳이 있고, 그보다 2배인 도시의 수는 4분의 1이라는 의미입니다.

정규분포를 따를 것 같지만 그렇지 않은 경우는 아주 많습니다. 지진의 경우에도 에너지 방출이 두 배로 되면 빈도가 네 배로 줄어드는 멱함수 패턴을 따릅니다. 산불의 경우에는 피해 면적이 두 배가 되면 그런 산불은 2.48배로 드물어진다고 합니다. 상위고객 20%가 매출의 80%를 기여하고, 20%의 제품이 이익의 80%를 올리는 등 우리가 보통 80대 20법칙으로 알고 있는 것도 사실은 멱함수의 일종입니다.

정규분포는 가운데에 솟아오른 종 모양이 특정 사건을 예측하는 데 도움을 줍니다. 예를 들어 평균이 10이고 표준편차가 1이면, 특정 사건이 8에서 12에 해당할 확률이 95%라는 식으로 예측할 수 있죠. 그러나 멱함수 분포는 정규분포와는 달리 ‘전형적’인 값이 없습니다. 물론 멱함수 분포의 평균과 표준편차를 계산할수는 있지만 그 값은 무의미합니다. 그래서 멱함수 분포를 가지고는 어떤 일이 일어날지 예측이 매우 어려워집니다. 만약 어떤 현상이 멱함수 분포를 보인다면 예측하려는 시도를 포기하는 것이 좋습니다.

정규분포는 표본을 이루는 개별 사건들이 독립적이고 서로 동일해야만 성립됩니다. 특정 학교 학생들의 신장(키) 분포가 정규분포를 따르는 이유는 신장에 관한 한 학생들이 상호작용을 하지 않고 학생 한 명이 표분에 추가될 때의 영향력은 다른 학생들과 동일하기 때문입니다. 하지만 개별 사건들이 상호작용을 벌이는 네트워크의 일부이고 특정 사건의 영향력이 다른 것보다 월등한 '승자 독식'의 패턴이 나타난다면 정규분포는 실제를 올바르게 반영하지 못합니다.

어떤 현상을 접할 때 그것이 정규분포를 따르리라 자동적으로 간주하는 경향이 있습니다. 분포 그래프를 그려보면 금세 알 텐데 말입니다. 혹시 정규분포를 가정하고 수립한 계획이나 모델이 있다면, 지금 당장 확인해 보는 것은 어떨까요? 그동안 계속된 의사결정의 실패는 정규분포가 아닌 것을 정규분포라고 가정했기 때문일지도 모릅니다.

세상은 생각보다 '정규적(normal)'이지 않으니까요.


(*참고도서 : '세상은 생각보다 단순하다', '거의 모든 것의 미래', '경영, 과학에게 길을 묻다')


inFuture 아이폰 앱 다운로드       inFuture 안드로이드 앱 다운로드


  
,

통계, 그 새빨간 거짓말   

2010. 9. 10. 09:00


며칠 전, 지하철을 타기 위해 플랫폼에 서있다가 이런 광고를 봤습니다. 정확한 토씨는 잊었지만, 거기엔 이렇게 적혀 있더군요.

"우리 회사 FC(파이낸셜 컨설턴트, 보험영업인)들 중 4분의 1은 월 500만원 이상을 법니다"

보험회사의 핵심역량은 보험상품의 설계보다는 보험영업인들의 영업력에 달렸습니다. 사실 보험상품에서 차별화를 꾀하기가 어렵다고들 말합니다. 그렇기 때문에 능력있는 보험영업인을 잘 모집하고 교육시켜서 그들을 오랫동안 영업을 하도록 해야 회사로서 이득이죠.

그래서 보험영업인들이 얼마나 회사에 오래 남아 일하느냐를 측정하는 '정착율'이란 지표는 보험회사에서 매우 중요한 지표로 관리됩니다. 당연히 위의 광고 카피는 우수한 영업인력을 유인하려는 목적으로 만들어졌겠죠?

헌데, 보험영업인의 4분의 1, 즉 25%가 월수입 500만원 이상이란 말을 문자 그대로 믿어야 할까요? 전 좀 의심이 들더군요. 그래서 통계에 젬병이지만, 한번 따져보기로 했습니다.

우선 그 회사 보험영업인들의 월수입 분포가 '정규분포'를 따른다고 가정해 봤습니다. 하지만 정규분포를 그리려면 월수입의 평균과 표준편차를 알아야 합니다. 위의 광고문구만 보고는 어떤 분포를 따르는지 알기가 불가능하죠.

그래서 전 '표준정규분포(평균이 0이고 표준편차가 1인 정규분포)'를 먼저 상정한 다음에 이렇게 저렇게 해서(trial & error 방식으로) 대략 다음과 같은 정규분포를 따를 것이라 결론을 내렸답니다.

 월수입 분포 추정 결과 

평균 : 약 300만원    
표준편차 : 약 300만원인 정규분포

이걸 그림으로 그리면 다음과 같습니다.

(정규분포로 추정한 월수입 분포)


이 그림에서 오른쪽에 파랗게 빗금쳐진 부분이 전체의 25%, 즉 4분의 1을 나타냅니다. 그들은 500만원 이상의 월수입을 올리는 사람들입니다. 문제는 왼쪽에 빨갛게 빗금쳐진 부분입니다. 그것도 전체의 25%를 차지하는데 그들의 수입은 보다시피 100만원 이하입니다. 게다가 월수입이 마이너스인 사람도 상당히 많이 존재합니다(약 16%의 사람들에 해당).

월수입이 500만원 이상인 사람이 4분의 1이나 된다는 광고 카피의 이면에는 월수가 100만원도 안 되거나 오히려 회사에 돈을 내고 다니는(즉 월수입이 마이너스인) 사람도 있음을 이 그림이 보여줍니다. 물론 애초에 정규분포를 잘못 추정했기 때문에 이런 결과가 나왔을지 모르죠. 하지만 통계를 유리한 쪽으로만 해석해서 광고를 보는 사람들을 현혹시킬 의도가 없다고 장담할 수 있을까요?

그런데, 보험영업인들의 월수입 분포가 정규분포를 따를 거라는 위의 가정이 과연 옳을까요? 우리는 보통 아주 잘 버는 사람과 아주 못 버는 사람들은 소수이고, 중간 정도 버는 사람들이 가장 많으리라는 '정규분포식 고정관념'을 가지고 있습니다. 위의 그림처럼 '종 모양'의 그래프를 머리 속에 그리곤 하죠.

하지만 실제의 분포는 다른 양상으로 나타나는 경우가 많습니다. 예를 들어 블로그들의 RSS구독자수 분포를 그려보면, 극소수의 블로그는 구독자수가 매우 많은 반면, 대부분의 블로그들은 구독자수가 거기서 거기인 모양이 나타납니다. 소위 '승자 독식 현상'이 그림으로 그려지죠. (이와 같은 현상을 예전에 포스팅한 적이 있으니 참고하세요)

보험영업인들의 월수입 분포도 RSS구독자수 분포처럼 '승자 독식 현상'으로 나타나진 않을까요? 만약 그렇다면 아래의 그림처럼 분포가 그려집니다. 

(손으로 그리다보니 그림이 이상하네요. '승자독식형' 분포를 가정하여 그린 그래프)


먼저 이 그래프가 매끄럽게 연속선으로 그려진 탓에 월수입이 100~500만원 사이에 있는 사람도 꽤 많다고 착각할 수 있다는 점에 유의하세요. 이 부분(100~500만원 사이)에 찍히는 점들은 조밀하지 못합니다. '밀도'로 본다면 100만원 이하인 쪽(빨갛게 표시된 부분)이 더 조밀하게 점들이 모여 있지요.

데이터가 없기 때문에 이 그림도 역시 추측에 불과하지만, 정규분포로 추정할 때보다 월수입이 100만원에 미치지 못하는 사람들(빨갛게 빗금쳐진 부분)이 더 조밀하게 존재함을 암시합니다. 500만원 이상 버는 사람이 25%나 된다는 선전의 뒷면에는 '100만원도 못버는 사람들이 50% 혹은 60% 이상이나 된다'는 사실이 숨어있을지 모릅니다. 어디까지나 짐작이지만, 의심을 거두기가 어렵습니다.

마크 트웨인은 "세상에는 3가지의 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계"라고 말한 적이 있습니다. 사실 통계는 거짓말을 하지 않습니다. 그걸 자기 입맛대로 재단하는 사람들이 거짓말을 하는 것이죠.

대부분의 사람들이 100만원도 제대로 못 버는데도, 상위 25%인 사람들이 500만원을 버니까 중간 정도만 하면 3~400만원은 벌 거라면서 잘못된 환상을 심어주는 건 아닌지 경계해야 합니다. "우리 회사 직원들은 평균 연봉이 1억 원입니다."라는 말은 그 자체가 거짓은 아닙니다. 평균이란 통계치가 쓰이지 말아야 할 곳에 쓴 사람이 바로 거짓말쟁이입니다.

통계에 속지 마십시오.


inFuture 아이폰 앱 다운로드       inFuture 안드로이드 앱 다운로드 


  
,