AI 일반 (기술외)

AI 도입은 초기에는 완전 자동화가 아니라, 다수의 초보 보조자를 두는것과 같다

작동미학 2021. 1. 3. 22:31
반응형

 대한민국에서 최근 수년 안의 AI 인식 전환은 알파고가 이루었고 그 역할을 화려하게 해냈었다. 이제는 모르는 사람이 없는 이벤트가 되어 버렸는데, 당시에 인간 프로기사보다 바둑을 더 잘하는 AI로서 당당하게 등장한 것이다. 알파고는 그 대상이 동양적인 바둑이라는 점과 그 상대가 이세돌 프로기사였다는 점, 바둑과 이세돌 프로기사에 대한 존경심이 많은 우리나라에서 그야말로 나라 전체에 충격을 준 이벤트였다.

 

 그러나 이 알파고의 부작용도 만만치 않는데, 바로 AI에 대한 여러가지 환상이다. 바로 머신러닝이 기술이 기업에 적용되었을 때 곧바로 완전 자동화를 꿈꾸는 달인으로서 간주될 수 있다는 점이다. 하지만 기업에 적용될 수 있는 머신러닝/딥러닝의 한계는 대개 비슷비슷하다고 생각한다. 전략적으로 데이터를 모아 오지 않았기 때문에, 훈련용 데이터가 부족한 것이 일반 적이다. 따라서 염두에 두어야 할 것은

 

 "처음에는 부족할 수 밖에 없는 데이터에서 그것도 그 데이터에서 배운 것만 할 수 있는 초급 보조자 정도의 수준이라는 점이다."

 

 조금더 설명해보자면 알파고는 가상으로 바둑을 빠른 속도로(기계끼리의 대전이므로 기다릴 필요가 없다) 두면서 자신을 훈련시킬 수 있기 때문에, 바둑 둘 사람이 없어서 진도가 못 나가는 상황에 놓이지는 않는다. 그러나 일반적인 기업의 AI를 훈련시킬 때는 그렇지 못하다. 돌려서 비유해보면, 알파고의 바둑은 일반적으로는 데이터를 무한히 증식시켜 훈련시킬 수 있다. 따라서 알파고는 데이터가 부족한 문제가 없고, 컴퓨팅만 있으면 된다(이 분야를 강화 학습이라고 한다. 대개 단순한 룰의 게임들이 기반이 된다. 그리고 그 특징은 컴퓨터 내에서 빠른 속도로 게임을 무한정해볼 수 있다. 즉 훈련의 입력이 되는 상황이 무한정 생산된다. 대부분의 기업 환경과는 다르다)

 

 그런데 기업에서 이렇게 풀리는 문제는 없다고 해도 과언이 아니다. 데이터를 모아야 하고, 그 데이터가 어떤 것인지 수기로 태깅을 해주어야하고(label), 그 데이터로 훈련시키는 작업의 반복이다. 즉 데이터가 무한하지 않고 사실은 대부분 부족하다. 

 그리고 이 유한하고 부족한 데이터로 학습한 AI의 문제는, 그 듬성듬성한 데이터로 관찰하지 못하고 있는 영역의 데이터에 대해서는 무슨 일을 어떻게 처리할지 알 수 없다는 점이다. 이 한계는 생각보다 더 장기화 될 수도 있다. 다만, 그럼에도 불구하고 장점은 업무 처리 속도는 훨씬 빨라서, 초급 비서를 원하는 만큼 복제해 둘 수가 있다. 컴퓨팅만 허용하면 인건비 대비해서는 저가에 백 명이든 천명이든 백만 명이든 늘릴  수 있다. 즉, 고속으로 수작업할 수 있는 초급 보조자를 둘 수 있는 것이다.

 

 좀 과장해보자면 맨 초기에는 아래와 같은 상황일 수 있다고 생각한다. 물론 데이터와 AI모델이 어떻게 되느냐에 따라 그 초보 보조자가 얼마나 숙련자가 될 수 있을지는 상황에 따라 다르다.

 

"아니 그러면 경제성 확보가 어려운것 아닌가요?"

 

라고 얘기할 수 있겠지만, 약 백명의 초급 보조를 동원해서라도 업무를 해야 할 필요가 있다고 하면 상황이 달라진다. 기업의 AI에 있어서 효과는 따라서 초급 보조가 대규모로 작업해주면 좋은 분야를 고르는 것도 방법이다. 매우 빠른 속도로 이 초급 보조자의 업무를 대리해줄 수 있기 때문이다. 그리고 데이터가 누적되고 모델이 고도화되면 이 초급 보조자는 점점 더 준 숙련자의 수준으로 올라오게 된다.

 

 즉 초기의 AI 도입은 이렇게 기존 숙련된 업무 담당자에게 수많은 초급 보조자를 붙여주는 형태로 고려되는게 정석이라고 생각한다. 반자동화라는 얘기다.

 

 "아니 전부 자동화되는 것도 아니군요. 하지만 그렇다고 해도 AI도입에 대비해 달라질 것은 없는 것 아닌가요?"

 

 아니다. 위의 상황이 기정 사실이라면 달라질 것이 몇 가지 있다.

 

 첫째로, 반자동화를 염두해두는 형태로 설계해야 한다는 점이다. 작업의 정확성 여부가 중요한 작업에서는 더욱 그렇다. 숙련된 담당자의 중간 확인과 AI의 대량 보조 작업이 결합된 형태가 필요하다. 업무 담당자가 전체적인 관리 감독을 할 수 있게 UI/UX에 더 근본적으로 신경을 써서 진행해야 한다.

 전체 현황을 모니터링 하면서 예외 상황의 것들은 당시의 데이터를 열람해서 내용을 확인할 수 있게 해 주어야만 전체 운영이 가능하다. 시스템 도입 초기에는 더욱 그렇다. 만약에 AI라고 해서 전체 판단을 시스템이 모두 하는 형태로만 고려하고 업무 담당자는 그 처리 현황을 제한되게만 알도록 설계되어 있다면, 지속 가능하기가 어려워지는 것은 두말할 필요가 없겠다. 이런 체계 없이는 민감한 업무 분야에 적용할 수도 없다.

 

 이 시스템은 업무 담당자가 이 실수 가능한 수백 수천명의 초급 보조자를 얼마나 효율적으로 모니터링하고 다룰 수 있게 해 주느냐에 따라 그 신뢰성과 개선 가능성이 달려 있다. 그리고 이 신뢰하에 이 시스템은 계속 개선될 기회를 얻게 될 수 있다.

 

 두번째로, 신규 발생하는 데이터가 잘 축적되고 관리되도록 해야 한다. 즉, 향후 개선을 위한 모델링을 위하여 label이나 데이터 축적을 하는 작업을 동시에 염두에 두고 시스템이 설계되어야 한다는 점이다. 오류가 발생하면 자동으로 보관해두고, 무엇보다 해당 label 정보가 잘 보관되어야 한다. 이상 징후를 판정하는 시스템이라면 해당 이상 징후가 수기로 판단되는 데이터나 특이 데이터들을 별도로 저장해두어야 한다. 다양하게 담당자가 판정한 내용도 마찬가지이다. 초급 보조자의 실력을 올려줘야 하므로 시스템 개선 대비하여 부족한 데이터를 보완해나갈 수 있는 체계도 같이 가지고 있어야 효율적인 것이다. 아니면 따로 별도의 추가 비용을 들여서 이 일을 하게 되는데, 초기 구축할 시스템 안에 합류시켜 전체 비용을 줄여야 한다.

 간혹 이런 label 없이 unsupervised로 해결할 수 있다는 주장을 할 수도 있으나, unsupervised는 프로젝트 초기에 label이 불가능할때 처음 시도하는 방법일 뿐이다. label이 있는 데이터로 훈련한 모델의 정확도로도 경제성 확보가 어려운 경우가 대부분이기 때문에, 결국 label 된 데이터 관리는 지속 해당 프로젝트에 필수이다.(개인적으로는 unsupervised 만으로 실제 회사에서 지속 가능하게 AI를 구축할 수 있다는 생각에 대해서는 부정적인 편이다)

 

 세번째로는 룰 기반과 결합되는 것이다. AI 모델의 최대 목표는 사실은 최대한 일반화된 범용의 처리이다. 그러나 데이터가 부족한 상황에서는 명확한 룰 기반의 결합을 피할 이유도 없다. 다만, 다행히도 AI기반의 처리 엔진에 룰 기반을 삽입하는 것은 별로 어려운 일은 아니므로, 처음에 설계 철학이 중요한 정도이다. 몇 가지 기존 시스템의 명백한 룰을 도출하여 잘 정리해서 앞이나 뒤에 적용해두거나, 업무 분석과정에서 분명한 룰을 몇 가지 안정장치로 두면, 데이터 부족으로 인한 시스템 오동작을 일정 수준 이상 막을 수 있다.

 

 기업이 도입할 AI 시스템은 불행히도 알파고처럼 무제한의 가상 게임속에 탄생할 수가 없는, 데이터 부족에 시달리는 아직은 더 배워야 하는 그러나 빠른 속도로 작업할 수 있는 다수의 보조자이다. 따라서 업무 담당자와 어떻게 잘 융화되어 일을 잘 처리하도록 할 수 있을지, 체계적으로 어떻게 더 지속 가능하게 발전시킬지가 포함되어야만 더 빠르게 원하는 효율성에 다가설 수 있다. 단순히 AI 모델만 강조되어 초기 설계/구축되면, 위 몇 가지 조언 사항이 아쉽게 되는 때가 반드시 오게 된다. 사실은 오히려 AI모델에 대한 검토/결정보다 이 후선 프로세스에 대한 고민이 해당 AI 프로젝트를 더 장기적으로, 현실적으로 잘 이끌 수 있다. 앞서 글에서도 밝혔듯이, AI모델의 미세한 정확도 차이보다는 충실한 데이터 관리와 실제 업무를 책임지는 담당자와의 협업 구조가 프로젝트의 초기 론칭 및 유지에는 훨씬 더 중요한 것이다.

 

 그렇다고 너무 실망할 필요는 없다. 머신러닝 AI 모델은 기존의 단순한 룰처리에 비하여 더 세련되게 각 상황에 대한 복잡한 패턴을 인식하도록 할 수 있다. 고지식한 로봇이 아니라 세련된 업무 보조자가 될 구조를 내재하고 있는 셈이다. 시간이 지날수록 개선되며, 최근 상황을 시시각각 반영하게 할 수도 있다. 이것은 룰 처리 시스템으로는 반대로 구현하기 어려운 기능이다. AI는 본질적으로 데이터에 기반하여 행위하는 것이기 때문이다. 그리고 많은 아르바이트 생을 고용하여 수기로 처리한 분야라면 매우 소수 인원의 검증과 위 시스템만으로도 빠르고 대규모로 그 처리가 가능할 수 있다.

 

반응형