예전에 올린 포스팅 중에 '능력 없는 직원들이 더 많이 착각한다'란 글이 있습니다. 그 글에서 자신의 능력이 다른 사람에 미치지 못하는 데도 자신이 평균 이상의 실력을 지녔다고 인식한다는 실험 증거를 들며 '자기평가(Self-Assessment)'의 무용함을 지적했습니다. 오늘은 그 글을 확장하여 자기평가의 결과가 행동경제학에서 말하는 '닻 효과(Anchoring Effect)'을 일으킴으로써 평가자들로 하여금 피평가자의 진정한 역량을 올바로 판단하지 못하도록 유도한다는 점을 이야기하며 자기평가의 무용함을 강조하고자 합니다.

'닻 효과'란 사전에 노출된 정보에 의해 의사결정의 결과가 영향을 받는 현상을 가리키는 말입니다. 행동경제학의 선구자인 대니얼 카네만과 아모츠 트버스키가 수행한 실험을 통해 유명해진 개념이죠. 피실험자들에게 아프리카 국가 중 유엔(UN) 가입국은 몇 퍼센트일지를 맞혀보라고 질문을 던지기 전에 룰렛에 나온 수를 보여주면, 피실험자들이 어림짐작으로 내놓은 답은 룰렛 수에 근접해집니다. 피실험자들은 룰렛에 나온 숫자가 10이면 25%로, 룰렛 수가 65이면 45%로 답했습니다. 아프리카 국가의 유엔 가입률과 아무 상관 없는 숫자가 피실험자들의 판단이 멀리 가지 못하도록 닻이 됐던 겁니다.



뉴질랜드 캔터베리 대학교의 제 첸(Zhe Chen)과 사이먼 켐프(Simon Kemp)는 승진심사를 할 때 지원자들의 자기평가 결과가 평가자들의 판단을 잡아두는 닻이 됨을 실험을 통해 규명했습니다. 그들은 학부생 80명을 모집하여 무작위로 네 그룹으로 나눴습니다. 학생들에게는 승진을 원하는 가상의 대학 강사가 제출한 2~3페이지짜리 지원서를 읽고 그 사람의 승진 여부를 결정하는 학과장의 역할이 주어졌습니다. 지원서는 크게 지원자 신상정보, 강의 경력 및 연구 성과, 자기평가로 구분되었는데, 자기평가 부분에는 지원자가 스스로 자신의 강의 능력, 연구 성과, 기여도를 10단계로 평가한 표가 들어 있었습니다.

첸과 켐프는 지원자의 '강의 경력 및 연구 성과'를 '좋다', '별로다'의 2가지 경우로 조작하고, 자기평가 결과를 '높다', '낮다'의 2가지 경우로 꾸밈으로써 모두 4가지 종류의 지원서를 만들어 각 그룹의 학생들에게 하나씩 배포했습니다. 그런 다음, 지원자의 자기평가 표와 동일한 포맷의 표에 평가 점수를 기입하도록 했습니다. 그 결과, '좋다-높다'라고 조작된 지원서를 읽은 학생들은 평균 8.8점(10점 만점)이라고 평가한 반면, '별로다-낮다'란 지원서를 본 학생들의 답은 6.8점으로 나타났습니다. 지원자가 자기평가를 어떻게 했든 지원자의 강의 경력과 연구성과를 보고 평가해야 함에도 불구하고, 2점이라는 차이는 평가자의 평가가 지원자의 자기평가에 크게 영향을 받았다는 걸 뚜렷하게 보여줍니다. 

첸과 켐프는 이와 같은 닻 효과가 평가 초보자인 학생들 때문에 나타난 것은 아닌지 확인하기 위해 전문성을 갖춘 교수들을 차출하여 평가자의 역할을 맡겼습니다. 교수들을 두 그룹으로 나눠 자기평가 결과가 '높다'인 지원서와 '낮다'인 지원서를 검토한 후 평가하도록 하니, 이번에도 닻 효과가 뚜렷하게 나타났습니다. 지원자의 자기평가 점수가 높은 지원서를 본 교수들은 평균 6.4점으로, 자기평가 점수가 낮은 지원서를 검토한 교수들은 평균 4.7점으로 평가했던 겁니다. 전문성이 닻 효과를 줄이지 못한다는 걸 증명한 셈입니다. 흥미로운 것은 교수들이 초보자인 학생들에 비해 지원자에게 박한 점수를 주었다는 것입니다. 전문성이 높을수록 상대방에게 높은 기준을 요구하기 때문이겠죠. 하지만 그런 냉정한 판단 기준은 지원자의 자기평가가 유도하는 닻 효과 앞에서 무력해졌습니다. 교수들도 지원자의 강의 및 연구 성과보다는 자기평가 점수에 끌어당겨지고 말았습니다.

지원자가 1명이 아니라 2명이면 닻 효과는 어떻게 나타날까요? 첸과 켐프는 지원자별로 4가지 종류의 지원서(강의/연구성과와 자기평가가 각각 '좋다-높다', '좋다-낮다', '별로다-높다', '별로다-낮다')를 만든 다음, 두 지원자의 지원서를 짝을 지어 네 그룹의 평가자들에게 평가하도록 했습니다. 이때에도 역시 닻효과가 뚜렷하게 나타났습니다. 평가자들이 전체적으로 강의 및 연구 성과가 좋은 지원자에게 높은 점수를 주었다는 점에서 긍정적으로 볼 수 있었지만, 그래도 여전히 지원자의 자기평가가 평가 결과를 좌우했습니다. '별로다-높다'인 지원자(7.3점)가 '좋다-낮다'인 지원자 만큼(7.5점)의 점수를 받았으니 말입니다.

일련의 실험으로 증명된 변하지 않는 사실은 지원자가 스스로 자신의 실력을 측정한 자기평가 점수가 평가자의 평가에 상당한 영향을 미친다는 것입니다. 이 실험의 결과는 기업에서 이루어지는 평가 관행에 직접적인 시사점을 줍니다. 평가제도를 설계할 때 평가자가 피평가자의 자기평가 결과를 참조해야 하는지의 여부, 2차평가자가 1차평가자의 평가를 열람해야 하는지의 여부, 점수로 자기평가를 내려야 하는지의 여부 등을 놓고 논쟁이 벌어지곤 합니다. 첸과 켐프의 실험은 확실한 결론을 내리도록 해 줍니다. 점수로 쓰인 자기평가 결과는 무용하거니와 평가자에 의해 참조될 경우 평가 결과를 왜곡시키고 맙니다. 평가자가 전문성을 갖춘 사람이라 해도, 비교가 가능한 다른 피평가자가 있다 하더라도 닻 효과는 떨어질 줄 모릅니다. 자기평가 점수를 평가 점수에 반영하지 않는다고 해도 자기평가 결과를 참조(혹은 열람)하도록 하면 결국 자기평가 점수는 최종 평가 점수에 반영되는 꼴입니다.

자기평가를 수행하는 조직에서는 지금부터라도 닻 효과의 개입을 최소화하는 방향으로 여러 평가(승진, 인사, 채용 등) 프로세스를 개선할 필요가 있습니다. 평가 지표를 만드는 지난한 과정보다 쉽고 빠르고 효과적인 방법이니까요.



(*참고논문)
Self-Assessments Produce Anchoring Effects in Promotion Decisions
Anchoring effects on performance judgments




  
,



많은 기업에서 직원들 스스로 자신의 역량을 평가하는 '자기평가' 과정이 있습니다. 자기평가의 목적은 지난 1년 간의 역량 개발 과정을 반성하면서 자신의 장단점을 다시금 성찰하고 향후 역량 개발의 방향을 설정하는 데 도움을 얻기 위해서입니다. 하지만 현장에서 부하직원들과 관리자들이 이러한 목적을 올바르게 인식하고 이행하는 경우는 애석하게도 그리 많지 않습니다. 자기평가는 평가 절차 중 하나의 요식 행위로 여겨지거나, 부하직원들이 관리자들에게 자신의 역량을 어필하고 정당화하는 수단으로 사용하는 것이 현실이죠.

보통 자기평가 결과는 최종 평가점수에 반영하지 않는 것이 일반적입니다. 이에 대한 반론은 별로 없습니다. 그런데 관리자(팀장)가 부하직원의 역량을 평가할 때 자기평가 결과를 참조해야 하는가를 놓고서는 종종 의견이 대립되곤 합니다. 자기평가 결과를 참조하거나 혹은 옆에 나란히 놓고 평가하는 방식(수기로 이뤄지든 PC를 통하든)을 찬성하는 사람들은 부하직원이 스스로 느끼는 자기의 '역량 수준'을 인정해 주어야 한다고 말합니다. 팀장이 부하직원 개개인의 역량 개발 과정과 단계를 모두 알지 못하는 게 현실이기 때문에 자기를 잘 아는 사람은 바로 자신이라고 말합니다. 자기평가 결과를 참조하지 않을 바에야 왜 자기평가라는 소모적인 과정을 진행하느냐고 반문하기도 합니다.



이와 반대측에 서있는 사람들은 반드시 팀장이 부하직원의 역량을 독자적으로 평가해야 한다고 말합니다. 자기평가 결과는 대개 '관대하게' 나온다는 이유 때문입니다. 과대평가된 자기평가 결과를 참조하면 아무리 관리자가 주관을 가지고 평가하려 해도 영향 받기 마련이라고 주장하죠. 능력이 출중하지만 겸손한 직원들은 상대적으로 불리하고, 능력이 없으면서 자기PR에는 능한 직원들에게 높은 점수를 줄지도 모른다고 염려합니다. 그래서 평가의 왜곡을 막으려면 자기평가 결과는 일체 들춰보지 못하도록 해야 한다고 말합니다.

여러분은 이 상반되는 주장 중에서 어떤 것이 옳다고 생각합니까? 이 질문에 답을 하기 위해 코넬 대학교의 저스틴 크루거(Justin Kruger)와 데이비드 더닝(David Dunning)이 수행한 유명한 실험을 살펴보는 것이 좋겠군요. 크루거와 더닝은 실험에 참여하면 학점에 유리한 점수를 주겠다고 하고  45명의 코넬대 학생들을 모았습니다. 그들은 학생들에게 20개로 이루어진 논리적 사고 시험을 치르도록 했습니다. 그런 다음, 크루거와 더닝은 학생들에게 질문을 던졌습니다. 첫 번째 질문은 "자신의 논리적 사고 역량 수준이 어느 정도라고 생각하는가?(percentile)"였고, 두 번째는 "시험 점수가 다른 학생들과 비교하여 몇 등이라고 생각하는가?(percentile)"였습니다.

답변 결과를 평균하니 학생들은 자신의 논리적 사고 역량을 상위 34%라고 답했습니다. 또한 시험 점수도 상위 39%에 해당할 거라고 말했죠. 학생들이 자신의 역량과 시험점수를 객관적으로 판단했다면 평균이 상위 50% 라고 나왔겠지만, 실험 결과는 학생들이 자신을 과대평가하는 경향이 있음을 드러냈습니다. 과대평가하는 경향은 시험 점수가 저조한 학생(하위 25% 이하)들에게서 가장 크게 나타났습니다. 논리 문제를 못 풀었으면서도 자신의 논리적 사고 역량 수준이 높고 시험도 잘 봤을 거라고 착각한다는 의미입니다. 이를 '자신감 착각'이라고 부릅니다.

크루거와 더닝은 유머 감각과 문법 실력 등에 대해서도 비슷한 실험을 수행했는데 결과는 비슷하게 나왔습니다. 먼저 학생들의 유머 감각을 테스트해서 상위자부터 하위자까지의 '유머 감각 서열'을 만들어냈습니다. 그런 다음 코미디 작가들이 쓴 우스운 이야기 30개를 골라서 코미디언들에게 메일로 보냈죠. 코미디언들이 30개의 이야기를 읽고 전혀 재미있지 않음(1점)부터 아주 재미있음(11점)까지 평가해 주길 요청하기 위해서였습니다. 8명의 코미디언이 답변을 보내왔는데 이야기의 재미에 대한 그들의 의견은 거의 일치했습니다. 일관성이 있다는 뜻이었죠.

크루거와 더닝은 학생들에게 똑같은 30개의 이야기를 평가해달라고 했습니다. 그랬더니 유머 감각 테스트에서 고득점을 얻은 학생들은 코미디언들의 판단과 78퍼센트 정도 일치했습니다. 하지만 유머 감각 테스트에서 하위 25%에 해당하는 저득점자들은 코미디언들이 재밌다고 평가한 이야기 중에서 44퍼센트만 재미있다고 생각하고, 재미없는 이야기 중 56퍼센트를 재미있다고 평가 내렸습니다. 본래 유머 감각 테스트에서 하위 그룹에 랭크됐으니 이같은 불일치는 예상된 결과였습니다.

학생들에게 자신의 유머 감각이 평균보다 얼마나 높냐는 질문을 던졌더니 66퍼센트의 학생들이 다른 사람보다 유머 감각이 좋다는 평가를 내렸습니다. 그리고 유머 감각 테스트에서 하위 25%에 해당하는 학생들이 자신의 유머 감각을 평균보다 높게 평가한다는 결과가 나왔습니다. 다시 말해 객관적으로 능력이 처지는 사람들이 '자신감 착각'을 더 강하게 보였습니다.

이 실험은 우리 인간에게 '자신의 능력을 인식하는 능력'이 진화되지 않았음을 시사합니다. 자신의 능력을 실제보다 과대하게 인식하는 능력이 환경 적응에 유리했기 때문일지 모르겠네요. 어쨌든 크루거와 더닝의 실험에서 나타나는 소위 '더닝-크루거 효과'는 자기평가를 참조하거나 열람하는 일이 평가의 왜곡을 가져올 수 있다는 점을 경고합니다. 또한 '더닝-크루거 효과(Dunning-Kruger Effect)'가 관리자의 '관대한 평가 경향'을 부추겨 이득을 보는 직원들은 역량이 부족한 사람들일지 모른다는 점도 시사합니다. 결과적으로 역량을 높게 평가 받아 마땅한 직원들은 상대적으로 손해를 입습니다. 게다가 겸손하기까지 하면 더욱 그렇겠죠. 

서두에 언급했듯이 자기평가는 반성과 계획을 위한 보조장치이지, 점수에 반영한다거나 관리자의 평가에 영향을 주는 견제장치가 아닙니다. 평가의 왜곡을 막으려면 직원들의 심리가 어떠하고, 평가의 과정에서 어떠한 심리적 오류가 발생하는지 면밀히 검토할 필요가 있습니다. 적어도 지금의 평가제도가 '더닝-크루거 효과'를 방관하여 직원들의 '자신감 착각'에서 헤어나오지 못하는 일은 없어야겠습니다. 
 
(*참고논문 : Unskilled and Unaware of it )



  
,