AI 일반 (기술외)

AI하러 왔는데, AI 빼고 다한다? - 금융 AI 시작하기

작동미학 2020. 12. 27. 16:38
반응형

 "AI 하러 왔는데, 와.. AI 빼고 다하는 것 같아요"라는 말은 의외로 모든 회사에서 AI를 지향하는 담당자에게서 들을 수 있는 이야기이다.

 

 

 금융 쪽뿐만 아니라 다른 산업 분야도 마찬가지로, 모두들 연구실이나 각 교육기관에서 AI 모델을 주로 배우던 전공자들이 회사에 입사했을 때 당면하는 맨 첫 상황이기 때문이다. 특히나 지금처럼 많은 회사에서 AI 분야를 시작하는 태동기일 때는 더욱 그렇다.

 

 그리고 이는 최근 수년간의 기업 AI강연의 단골 메뉴이기도 하다. AI라는 업무에서 모델링 업무의 비율은 20%도 안된다는 이야기다. 교육받던 시절에는 각종 인식 모델의 장단점이나 정확도 향상, 여러 가지 이론적인 내용이 중요하지만 기업에 들어가 막상 AI 부서에 배치되면 이런 일보다는 숨겨졌던 나머지 일들이 대부분을 차지하고, AI가 처음 시작되는 회사일수록 그 숨겨진 업무 비율이 훨씬 더 큰 것이다.

 

 먼저 간단한 가이드를 하나 소개해보자. 우리들의 영웅, 앤드류 응 교수의 AI Transformation Playbook이라는 짧은 가이드이다.

 

landing.ai/ai-transformation-playbook/ 

 

AI Transformation Playbook - Landing AI

AI (Artificial Intelligence) technology is now poised to transform every industry, just as electricity did 100 years ago. Between now and 2030, it will create an estimated $13 trillion of GDP growth. While it has already created tremendous value in leading

landing.ai

 

 이 가이드에는 AI를 처음 시작하는 회사에서 어떻게 AI를 초기에 도입할지에 대한 내용을 기술하고 있다. 회사 초기에 AI를 전파하려고 했던 앤드류 응 교수의 고민이 간결하게 담겨있는 문서이다. "아니 왜 딥러닝과 Grandient Boosting방법의 장단점이 아니라 이런 것들을 고민해야 하나요?"라고 물을 수 있는데, 기업 현실에서는 사실 너무도 당연한 일이다. 왜냐하면 기업의 여러 가지 업무 절차가 AI 기술과는 거리가 있을 뿐 아니라, 그것을 수용하게 될 담당자들이 이러한 변화를 수용할 준비가 되어 있는 곳이 별로 없기 때문이다.

 

 AI 전문가들은 인식 모델에 특화되어 기술을 확보하고 있지만, 실제는 해당 업무를 담당하던, AI경험이 없는 실무자들이 하고 있으며 AI가 해결해주는 것은 사실은 해당 업무의 비교적 작은 영역이라는 점이 큰 괴리의 시작이고, AI 전문가들이 해당 업무 분야에 대해서 생각보다 배우기 쉽지 않으며, 기존 업무 담당자와 협업을 통해서 이를 해결해야 하는 것이 두 번째 허들이 된다. 즉 기존 업무 담당자들이 처리하는 업무의 전체 큰 틀에서 AI 기술이 작동되도록 잘 배치하고 유지 가능하도록 하는 일이 생각만큼 만만치 않다는 의미다.

 

 그러면 이것을 시작으로 AI를 처음 시작할 때 만나는 어려움들을 몇 개로 나눠서 알아보도록 하자.

 

 첫번째 어려움은 바로 AI 담당자들이 실제 개선해야 할 업무 전체를 이해하기가 매우 어렵다는 사실이다. 기업의 업무 프로세스는 쉬워 보이지만, 매우 많은 것들이 얽혀서 협업되고 진행되며 부분 부분 장기간의 노하우를 담고 있다. 이를 업무 담당자는 다양한 경험을 통해서 처리하고 있고, 아마도 AI 업무 담당자는 이 업무의 일부를 자동화하는 것이 주어진 대부분의 현실이다. 그래서 막상 모델 전문 지식으로 똘똘 뭉친 AI 담당자들이 이 문제를 해결하려고 하면, 혼자서 할 수 있는 일이 거의 없다는 것을 곧 깨달을 수 있다.

 

 대부분의 AI 교육은 일반 빅테크 IT 회사들(구글, 페이스북, 네이버, 카카오 같은)이 고민하는 도메인에 대한 문제들이며 이 문제의 특징은 AI 연구자들 스스로도 어렵지 않게 데이터에 대한 판단을 할 수 있다는 점이다. 나는 회사에서 와서야 왜 연구자들이 구글이나 페이스북의 문제를 다루는지 알게 되었다. 즉, 시중의 이미지 인식 문제로 치면 딱히 무슨 전문가가 아니더라도 해당 이미지가 고양이인지 강아지인지를 쉽게 판별하여 옳고 그름을 알 수 있다는 이야기이다. 즉, 회사로 치자면 업무 프로세스를 이미 AI담당자들도 알기 쉬운 상황이라고 기대하게 된다. 시간이 소요되더라도 AI담당자가 데이터를 모으고 모델링을 하고 개선하는 일을 스스로 할 수 있을 것 같다고 막연히 생각하는 것이다.

 그런데 기업의 업무들은 이런 것들이 가능하지 않은 경우가 의외로 많고, 개인적으로 거의 대부분이 그렇다. 예를 들어 보자. 기계 고장을 판단하는 AI 모델을 만든다고 하면 우선 기계가 만들어내는 데이터를 이해해야 하고, 가장 중요한 것이 어떤 것이 고장인지를 정의할 수 있어야 하는데, 그러기가 어렵다는 이야기다. 그 기계의 담당자는 AI담당자가 경험해보지 못한 또 다른 우주를 갖고 있기 때문이다. 그 의미를 단기간에 배우는 것은 큰 도전이다.

 이렇게 업무 파악이 되지 않으면 기계가 만들어 내는 데이터가 무엇인지를 모르고 그러면 feature engineering을 하기가 어렵다. 고장을 제대로 정의하기 어려우며, 모델을 만들어도 잘 판별하는지 평가를 하기가 어렵다. 대체 무엇이 고장이란 말인가! 그리고 모델 성능이 저하되었을 때 개선하기는 더더욱 어려워진다. 따라서 기존 업무 담당자와 모델을 처음 구축하는 사람, 그 모델을 운영하여 유지하는 사람 간에 효율적인 커뮤니케이션과 협업, 업무 영속성이 필수이다.

 

 다르게 표현해보자면 AI 업무 담당자 입장에서 이미지 인식을 해야 하는데 내가 장님인 상황이다. 이게 생각보다 난감한 일이다. 이제 장님인 내게 본다는 것은 무엇이고 고양이와 강아지의 차이를 알려줘야 하는 사람을 찾아야 업무 진행이 되겠다. 바로 기존 업무 담당자이다.

 

 이 상황에서 AI담당자가 아닌 기존 업무 담당자의 의지는 어떤가? 대부분 업무 담당자들은 기존의 다른 업무와 AI 담당자들과의 업무 협업을 동시에 수행하는 게 일반적이기 때문에 업무 우선순위가 낮은, 부업(?) 상태인 경우가 대부분인 것이 인지상정이고, 그 사람의 기존 KPI와도 별 상관이 없다. 게다가 AI 자동화는 현업 담당자의 업무를 앗아갈 수 있는 상황인지도 모르는 알 수 없는 존재이다. 팀 간 이해관계와 팀원 간 이해관계가 복잡하게 얽혀서, 협조한다는 것이 그렇게 마음이 썩 내키지 않을 수 있다. 대개 이렇다 보니 임직원들 간의 업무 협조에 대한 설전이 한바탕 오가는 것이 일반적이겠다.

 

 생각보다 이 이해관계를 풀어나가는 것에 시간이 꽤 소요된다. 상위 임원 간의 전폭적인 지지와 노련한 업무 담당자의 지원 없이는 AI담당자와 한 몸처럼 움직여 문제를 풀어나가는 게 어렵고, 설사 최초 구축을 했다 하더라도 이것이 지속적으로 운영되기가 어려운데, 이 부분을 잘 풀어나가 줘야 하는 게 명백한 첫 번째 허들이다. 이를 위해 AI담당자는 갑자기 커뮤니케이션과 화술의 달인이며 밀고 당기기의 제왕이 되어야 하지만, 직장에서 제일 어려운 일 중의 하나 아닌가.

 

 두 번째 어려움은 당연히도 데이터에 대한 어려움이다. 대부분 AI 교육기관에서는 데이터는 잘 정제되어 제공된다. 그것은 아르바이트를 고용하여 해결할 문제이지 AI 연구자들이 해결해야 할 문제가 아니었다. 그런데 위 제시된 첫 번째의 문제 때문에 이 label이 잘 된 다량의 데이터를 확보하는 것이 쉽지 않다. 아르바이트를 쓰면 되는 것일까? 아니다 어떤 문제들은 그 업무에 고도의 훈련된 자만이 이 label문제를 해결할 수 있고 그 분들은 지금 회사의 급한 불을 끄느라 바쁘지 않은가. 그리고 적정량의 데이터를 확보하는 것도 문제이고 전처리까지 다양하게 잘해줘야 정확도를 올릴 수 있는 것이 문제이다. 그렇게 이를 해소하는데 긴 시간과 비용이 들어갈 수 있다는 것이 또다른 허들이다. 아 이 정도 상황이라면 정말 제가 직접 하겠어요 라는 생각이 굴뚝같으나, 아무리 들여다봐도 사실 나는 해당 업무를 잘 모르기 때문에 제대로 데이터를 전처리하고 모으고 정제할 수 없다. 주변의 담당자들의 AI 업무 숙련도와 의지가 꽤 올라와야만 다른 업무들이 빗발치는 와중에서도 이런 것들이 사실은 가능하다. 이 어려움의 다양한 모습들이다.

 

 세 번째 어려움은 혁신에 관한 것이다. 모든 회사에서 혁신을 필요로 하지만 처음에 잘 되기 어려운 이유를 꼽으라면, 처음에는 그것이 기존 방법보다 나쁘기 때문이다. 아니 나쁘다고?

 그렇다. 코닥이 다른 회사들보다 디지털카메라를 먼저 시작했다는 일화는 유명하다. 물론 그 시작을 이어나가지는 못해서 코닥을 세계적인 회사로 지속시켜줄 뻔한 그 혁신은 일찌감치 역사 속에서 사라졌는데, 처음 만들고 나니 필름 카메라에 비하여 훨씬 형편없던 것이다. 그러나 사실 가능성을 믿고 지속 투자하면 어느 순간에서인가 필름 카메라를 뛰어넘는 디지털카메라가 나오기 시작한다. 방식 자체가 결국에는 경쟁이 되지 않기 때문이다. 그 처음은 미약하지만 끝은 창대하다. 하지만 역시 그 처음의 미약함을 회사에서 인내하고 지속할 수 있는지가 바로 세 번째 어려움이다. AI의 초기 도입 비용과 허들은 기존 방법보다 높기 때문에 이 허들관리가 중요하다.

 AI를 회사에 도입하는 이유가 궁극적으로는 비용 절감인데, 초기에는 생각보다 많은 비용이 들어가기 때문에 이를 먼저 인지하고 설득해나갈 필요가 있다. 많은 비용을 들여서 프로젝트를 성공시켰는데, 의외로 전보다 비용은 더 들어가고 효과는 덜 나올 수 있다. 초기에는 충분한 정확도 확보에 필요한 데이터도 부족하고, 모델 개선도 짧기 때문에 흔히 발생하는 상황이다. 그리고 AI 전문가와 협업해야 하기 때문에 회사로서는 추가 인건비까지 감당해야 하는 값비싼 업무 개선이 바로 AI 도입이라고 볼 수 있다. 이것을 뚫고 나가야 하는 것이 바로 세 번째 어려움이다.

 

 AI에 대한 어떤 문제를 풀기 위해서는 업무담당자는 기본적으로 위 3가지 문제를 모두 가지고 있기 때문에, AI 업무 담당자는 먼저 모델보다는 이를 푸는 모든 일을 다 하는 상황에 빠지게 된다. 오히려 모델은 가장 무난하고 빠른 알고리즘을 택하면 금방 끝난다. 오히려 기교있는 모델보다는 단순하고 빠른 모델이 예측하기도, 운영하기 더 쉽기도 하다. 그래서 적절히 데이터가 담긴 csv만 확보하면 제일 쉬운 것이 중상급의 모델을 확보하는 일이다. 하지만 그 최초 확보가 엄청난 허들들이다. 하나하나가 모든 이들에게 도전받는 과제이며, 쉽지 않다는 것은 해본 사람만이 안다.

 

 그런데 해결책은 없을까? 아니다. 힌트는 있다.

 

 첫 번째 어려움은 가급적 AI 업무 담당자가 실제 해당 업무 담당자를 쉽게 이해할 수 있는 업무 영역을 고르면 해결된다. 자연어나 이미지, 영상이 대표적인 업무 분야라고 생각한다. 앤드류 응 교수는 음성인식을 선택했다. 누구라도 어떤 음성이 어떤 글자로 변환되는지 알 수 있다. 필요하면 내가 업무 담당자를 대신할 수도 있다. 맨 먼저 이런 분야를 시작해야 조직 내에서 빠르게 일처리가 가능하다. 물론 실제 업무 담당자와 협업은 필요하겠지만, 이렇게 상호 간에 업무를 대신할 수 있을 정도의 업무 영역이 주는 가속은 생각보다 엄청나다. 해당 업무에 대해 AI 업무 담당자가 한치의 이해도 할 수 없는 분야인 경우는 엄청난 업무 지연을 각오하고 시작해야 하며, 초기 프로젝트로 선정하기에는 재앙에 가까운 영역이라고 봐도 되므로 성공 시 투자 효과가 엄청난 분야가 아닌 바에야 절대 피하라는 조언을 주고 싶다.

 

두 번째 어려움은 조직 내 데이터 확보 상황을 미리 파악하고 많은 분류된 데이터를 확보할 수 있는 분야를 골라야 한다는 점이다. 실무에 약한 AI 담당자는 이렇게 데이터가 부실한 영역을 건드리는데, 곧바로 나락으로 빠질 수 있다고 생각한다. 데이터가 부실하면 처음에도 힘들지만 개선도 어렵다. 의외로 많은 회사에 엄청난 데이터가 있다. 눈으로 먼저 그 데이터를 확인하고, 분량도 어느정도 되며 전처리해서 사용 가능한 데이터가 확보되어 있는 분야를 골라야 한다. label이 되어 있는 분야가 먼저고 최소한의 비용으로 그것이 가능해야 한다. 여기서 본인이 가진 팁은 여러가지 데이터를 모아서 join을 통해서도 label을 확보할 수 있다는 말이다. 기계의 고장이라면 기계의 고장을 기록한 일지가 보관된 시스템을 찾으면 둘을 join 할 수 있다. 은행에서 어떤 행동 패턴에 대한 연체 여부를 label 하고 싶으면 고객의 연체 원장과 join을 하면 뽑아낼 수 있다. 어떤 상담 내용 직후 며칠 안에 고객이 연체를 일으켰는가? 상담 DB와 연체 DB를 join 하면, 조금 거칠기는 하지만 초기 데이터를 뽑을 수가 있다! 그리고 이렇게 한번 잘 뽑아놓은 실제 회사 데이터는 두고두고 활용할 수 있다. SW나 모델 개선 정확도, 장비 성능 등 이것으로 테스트하면 공개 데이터로 나오는 힘없는 결과보다 훨씬 더 내부적으로 설득력 있다.

 

세 번째 어려움은 가급적 적은 비용으로 시작할 수 있도록 하고 작은 성공을 유도할 수밖에 없다. 앤드류 응 교수의 가이드와도 일맥상통한다. 구축과 유지에 적은 비용이 들도록 pilot형태를 선택하는 것도 좋다. 최대한 단순하게 우선 그것이 가능하며 가능성이 있다는 것을 증명하는데 집중해야 한다. 본격적인 투자를 하기에 앞서 임원들, 상사도 근거가 필요하기 때문이다. 그리고 성공 시에 회사 내에서 기여도 큰 분야를 먼저 고르는 안목도 중요하다. 전체 문제가 어떤 것인지 수소문하고 물어서 범위를 좁혀 나가는 접근이 필요하다. 회사에서 가장 중요하게 이익을 결정짓는다고 생각되는 분야를 먼저 검토해야 한다. 즉 위 첫 번째 두 번째가 만족되는 분야에서 조직의 관심이 가장 많은 분야(개선 시 효용이 가장 큰)를 먼저 골라야 하며 우선해야 하는 것이다. 그래야만 초기의 비싼 구축과 유지를 감당할 틈이 보이게 된다.

 

 그리고 마지막으로 또 하나는 "쉬워야"한다. 쉽고 간단한 설명과 논리는 더 멀리 전파되고 받아들여진다. AI 담당자의 현란한 어려운 설명은 불행히도 전파력만 떨어뜨린다. 오히려 자랑하고 싶은 기술 이야기는 빼는 것도 좋다. 분명하게 각 담당자에게 와 닿을 1차 메시지를 우선으로 한다.

 

 정리해보자면, AI담당자도 데이터를 다루고 이해하고 평가할 수 있는 분야에서 시작해야 한다. 데이터는 어느 수준 이상으로 쌓여있거나 최소한의 노력으로 만들어 낼 수 있어야 한다. 그리고 그중에서도 가장 돈이 되는 분야를 우선해서 배고프게 최소의 비용으로 진행시켜야 한다. 그리고 이 과정을 설득할 때는 쉬운 내용으로 설명하고 독려해야 한다. 배포하는 자료나 여러 가지 면에서 마찬가지다. 이렇게 시작하는 것을 추천한다.

 

반응형