AI면접 최고 득점자는 왜 인천공항공사 낙방했나

일러스트= 김영석

올해 상반기 인천국제공항공사에 지원한 K씨는 자신의 방 책상에서 ‘AI(인공지능) 면접’을 봤다. 그는 책상에 올려져 있는 거울을 보며 머리를 빗었고, 넥타이 매무새가 흐트러지지 않은지 확인한 뒤 자신의 노트북을 켰다. 한 시간 남짓 걸리는 면접 시간 동안 그는 자신이 누구인지, 왜 인천공항공사에 입사하고 싶은지 등을 노트북 상단에 있는 카메라 구멍을 보며 또박또박 얘기했다. 면접이 끝나자 AI는 K씨에게 7가지 등급 가운데 최고 등급인 ‘S’를 줬다. 면접을 본 213명 가운데 AI로부터 S를 받은 사람은 K씨가 유일했다. 그런데 K씨는 인천공항공사 입사에 실패했다. 인천공항공사 관계자는 “AI 면접에서 좋은 점수를 받았지만, 면접관들은 K씨가 도저히 우리 회사와는 맞지 않는다고 생각했다”고 말했다.

최근 기업들은 하나둘씩 인공지능(AI) 컴퓨터를 신입사원 선발에 활용하고 있다. 2018년 AI 면접이 본격 보급된 이후 이를 채용 과정에 활용하는 회사나 단체가 500곳이 넘는 것으로 추산된다. 하지만 여기서 의문 하나. 과연 인공지능과 인간이 매기는 점수가 비슷할까. 공기업인 인천공항공사와 한국공항공사가 그 결과를 공개했는데, 인간과 인공지능의 판단에는 적지 않은 차이가 있는 것으로 나타났다.

◇한 면접자 놓고 AI는 ‘최우수’, 면접관은 ‘불합격’

지난해 본지 한 기자가 IT 기업 ‘마이다스아이티’ 본사에서 AI 면접을 체험하는 모습. / 이신영 영상미디어 기자

인천공항공사는 지난해 신입사원 채용에서 처음으로 AI 면접을 도입했다. 인천공항공사 관계자는 “보다 정확하고 객관적으로 신입사원을 뽑기 위해, 신기술인 AI 면접이 실제로 얼마나 효과가 있는지 살펴보겠다는 목적이 컸다”고 말했다. 서류와 필기 전형에서 합격한 213명은 모두 컴퓨터 앞에서 AI 면접을 봤다. 물론 지원자에 대한 최종 평가는 회사 내부 고위 간부와 대학교수 등으로 구성된 면접관들의 몫이었다. AI 면접 결과는 면접관들에게 참고용으로 제공됐다.

AI가 진행한 면접은 크게 자기소개→기본 질문→성향 파악→상황 대처→보상 선호→심층 대화로 구성된다. AI가 화면을 통해 지원 동기를 물으면 카메라를 보고 답해야 한다. 또 ‘나는 울고 싶을 때가 많다’ 등의 질문에 ‘매우 그렇다’부터 ‘전혀 그렇지 않다’까지 가운데 하나를 선택하는 객관식 질문도 있다. 각종 상황을 주고 짧은 시간 안에 풀어야 하는 사고력 테스트도 진행된다.

면접이 끝나면 AI는 ‘신뢰’, ‘전략적 사고’, ‘관계력’, ‘실행력’, ‘가치’. ‘조직 적합’, ‘호감도’ 등 7가지 항목에 S·A·B+·B·B-·C·D 가운데 하나를 부여한다. 또한 이 모두를 종합한 평가 등급도 제시한다.물론 면접을 본 지원자는 그 결과를 알 수 없고, 인천공항공사에만 통보된다.

그런데 올해 지원자 K씨의 경우 AI 평가와 실제 면접관 평가 사이에 적지 않은 차이가 있었다. AI는 K씨에게 S(신뢰), B+(전략적 사고), A(관계력), S(실행력), A(가치), S(조직 적합), A(호감도)를 부여했다. 이를 바탕으로 종합 평가에서도 최고 등급인 ‘S’등급을 줬다. AI가 내놓은 총평은 이랬다. ‘자신감을 바탕으로 맡은 일을 주도적으로 진행한다. 다만 약점으로는 다른 사람보다 우월하다고 여기고 대접받고자 하는 경향이 있다.’ 그런데 비록 약점이 보였지만, AI는 K씨의 다른 면을 높게 평가해서 최고 등급을 부여했다.

그런데 실제 면접관들이 K씨에게 내린 최종 평가는 달랐다. 인천공항공사 관계자는 “K씨가 적극성을 보여줬지만, 대학교수님들이나 회사 간부님들 앞에서는 겸손함과 인성이 부족해 보였을 수 있다”고 말했다. 그렇다면 AI가 K씨에게 ‘신뢰’ 영역에서 최우수 등급을 부여한 것은 어떻게 된 것일까. 인천공항공사 관계자는 “AI 평가에서 신뢰는 얼마만큼 상황에 긍정적인지 적극적인지를 보여주는 지표인데, 긍정적인 면이 지나치면 실제 면접에서는 겸손함이 부족해 보일 수 있다”고 말했다. 결국 K씨는 최종 면접에서 탈락했다.

AI 면접을 처음 실시한 지난해에도 비슷한 결과가 나왔다. 정의당 심상정 의원실에 따르면 AI 면접을 본 인천공항공사 면접자 213명 가운데 S등급을 받은 사람은 2명이고, 16명은 최하 등급인 D등급을 받았다. 하지만 실제 S등급을 받은 2명 모두 불합격한 반면, D등급을 받은 16명 가운데는 6명이나 합격한 것으로 나왔다. S등급을 받은 Y씨의 경우 세부적으로는 각각 A(신뢰), B+(전략적 사고), A(관계력), A(실행력), A(가치), A(조직 적합), S(호감도)를 받았다. AI는 Y씨에 대해 ‘책임감이 강하고, 업무 결과가 좋지 않은 경우에도 기꺼이 책임지려 한다. 사소한 일에 불안해하지 않는다. 지나치게 문제가 될 약점이 없다. 전반적으로 뛰어나며 좋은 성과를 낼 가능성이 크다’고 평가했다. 소위 좋은 말은 다 쓰여 있었던 것이다. 그런데 Y씨에 대한 실제 면접관들의 평가는 다소 달랐다. 인천공항공사 관계자는 “Y씨의 태도나 인성에 대해서는 AI 면접 결과처럼 무난하다는 평가가 나왔지만, 향후 수행할 업무에 대해 물었더니 만족할 만한 수준의 답이 나오지 않았다. 그래서 면접관들은 직무 역량에 미달한다고 판단한 것 같다”고 말했다.

반대의 경우도 있었다. AI 면접에서 D등급을 받은 L씨는 무난히 최종 합격자 명단에 이름을 올렸다. L씨는 기술직군에 응시했는데, AI는 그가 자기 자신에 대해 긍정적이지 못하고, 상대의 정서와 의도를 파악하는 능력이 떨어진다고 평가했다. 하지만 L씨를 실제로 면접한 면접관 6명(내부인사 3명, 외부인사 3명)은 L씨에게 모두 A등급을 줬다. 인천공항공사 관계자는 “L씨의 경우는 AI 면접에서 노트북에 자신의 눈을 똑바로 맞추지 못하는 등 다소 집중하지 못했던 것 같다”며 “하지만 실제 면접관들 앞에서는 또박또박 겸손하게 대답을 잘했고, 묵묵하게 일을 잘 수행해낼 것으로 보고 상당히 높은 점수를 줬다”고 했다.

◇기업·면접관 “없는 것보다는 낫지만…”

면접관들은 AI가 없는 것보다는 낫지만, 보완할 점이 적지 않다고 지적했다. 김포공항과 제주공항을 운영하는 한국공항공사는 지난해 상반기 AI 면접을 도입했지만, 한 차례만 실시하고 중단했다. 실효성이 떨어진다고 판단했기 때문이다. 한국공항공사 성승면 인사부장은 “객관성이나 투명성에 도움이 될지는 모르겠지만, 여러 면접자에 대한 총괄 평가 문구가 같은 경우가 적지 않은 등 생각보다 큰 도움이 되지는 못했다고 봤다”고 말했다.

이와 함께 ‘호감도’에 항목에 대한 정확성도 높여야 한다는 지적도 있다. 호감도는 면접에 임하는 태도나 표현하는 능력, 면접자 개인의 매력 등을 나타내는 요소다. 프로그램을 개발한 ‘마이다스아이티’는 “구직자 3000명으로부터 동의를 받아서 질문에 대한 답변 영상을 녹화해 1억 개가 넘는 데이터를 바탕으로 평가한다"고 말했다. 하지만 한 대기업 관계자는 “실제 면접을 해보면 AI가 호감도가 높다고 판단한 것과는 달리 겸손하지 못하거나 답변하는데 다리를 떠는 경우도 봤다”며 “AI가 중요하게 보는 컴퓨터 앞 표정이나 태도로 그 사람의 호감도를 평가하는 데는 무리가 있는 거 같다”고 말했다. 인천공항공사 외부 면접위원으로 참여한 김민희 한국상담대학원대학교 교수는 “AI 면접의 정확성을 높이기 위해 합격자들이 실제 직장에서 어떤 평가를 받는지 등을 추적해 데이터를 반영할 필요가 있다”고 말했다.

프로그램 개발 업체는 AI 면접과 실제 면접 간 차이가 존재하는 것은 당연하다는 입장이다. 마이다스아이티 관계자는 “공정성과 객관성을 보완하고, 면접관들이 면접자에 대해 참고할 수 있는 정보를 최대한 제공하는 게 AI 면접의 주목적이기 때문에 차이가 존재할 수밖에 없다”며 “이는 마치 대학 학점이나 토익 점수가 높다고 해서 그 사람을 꼭 합격시켜야 하느냐는 질문과 같은 이치”라고 말했다. 그러면서도 “많은 사람이 AI 면접을 보면서 더 많은 데이터를 축적해 프로그램을 업데이트하고 있기 때문에 정확성은 점점 높아질 것”이라고 말했다.