안녕하세요, 밸런스히어로에서 AI & Data 조직을 이끌고 있는 Jace입니다. 밸런스히어로는 인도 중산층을 대상으로 Mobile Instant Micro Credit 상품을 운영하고 있습니다. 별도의 지점 및 담보 없이 앱을 깔고 Micro Credit 상품을 신청하면 1분만에 모든 신용평가 프로세스가 끝나고 심사 결과를 확인할 수 있습니다. 승인 및 거절 여부, 대출 금액과 적용 금리, 그리고 이용 기간 네 가지가 심사 결과의 주요한 요소입니다. 오늘은 이중에서 대출 금액이 어떻게 결정되는지에 대해서 공유 드리려고 합니다.
인도는 GDP 기준으로는 세계 5위지만 1인당 소득은 세계 138위입니다. 인도의 국민은 가난하지만 인도의 14억명이라는 세계 1위의 인구의 절대숫자가 있기 때문입니다. 인도 인구구조 중심을 이루는 인도의 중산층은 월급여가 30만원에서 50만원 수준입니다. 농촌, 자영업, 콜센터, 배달 노동자 등 여러 형태 직업을 가지고 있지만 안정적인 급여나 소득원을 가지고 있는 경우는 드뭅니다. 급여를 현금으로만 받는 경우도 많습니다. 이러한 인도의 중산층은 10억명이라는 큰 숫자를 차지하지만, 이중에서 금융의 혜택을 받는 경우는 극소수입니다. 인도의 은행들은 고정적인 소득/급여가 계좌명세서에서 보이지 않으면 자금을 내주지 않습니다. 또한 고객이 취업을 한지 얼마 되지 않아 급여내역이 적거나, 신용내역이 적은 Thin Filer의 경우는 두 말 할 것 없습니다. 인구는 14억명이지만 실질적인 금융 혜택은 일부만 누리고 있습니다.
그러나 이는 한국, 그리고 다른 선진국들도 마찬가지입니다. 소득정보가 없는데 대출을 내어주는 금융회사는 없습니다. 한국에서 학자금 대출, 비상금 대출, 주부 대출 등이 있지만, 그 대출금액의 규모가 100만원에서 300만원 정도로, 최대 3억까지도 가능한 직장인 신용상품 또는 개인사업자 신용대출에 비하면 굉장히 작습니다. 담보대출은 더 큰 금액이 나올 수 있겠지만, 지금 다루는 주제는 무담보 신용대출입니다. 담보도 없는데 소득증빙이 없거나 소득금액이 작은 경우에 대출을 승인해주는 경우는 거의 없습니다. 그것이 선진국에서 인도로 진출한 은행들도 인도 중산층에게 자금 지원을 해주지 않는 이유입니다. 인도의 중산층은 선진국 대비 직업의 안정성이 낮으며 고정적인 소득/급여도 없는 경우가 많기 때문입니다.
그러나 밸런스히어로 AI팀의 생각은 다릅니다. 우리는 소득증빙 없이도 연체없이 원활히 상환할 유저를 AI 기술로 구분할 수 있다고 믿습니다. 밸런스히어로가 사용하는 ACS(Alternative Credit Scoring) Engine에서는 기존 금융회사에서 사용하던 전통적인 데이터보다 SMS, Installed App, GPS Location, App activity, Device info 등과 같은 Alternative Data가 더 중요하게 쓰입니다. 인도 중산층의 신용위험도를 평가할 때는 전통적인 CB(Credit Bureau) 점수는 잘 작동하지 않고, 당사에서 개발한 ACS Engine이 훨씬 더 잘 작동하는 것을 이미 확인했습니다. 그래서 저희는 생각했습니다. 전통적인 소득증빙이 없는 고객이라할지라도, 적절한 대출금액을 AI 기술과 Alternative Data를 사용해서 구분해낼 수 있지 않을까?
기존의 대출금액 산정 방법
전통적인 금융회사에서 소득증빙이 없는 고객에 대해서 무담보 신용대출을 내주지 못하는지를 이해하기 위해서는, 기존에 어떻게 대출금액을 산정하는지를 먼저 이해해야합니다. 일반적으로 무담보 신용대출에서 적절한 대출금액을 결정하기 위해서 사용되는 방법은 가처분소득(Disposable Income)과 신용점수(CB Score)를 이용하는 방법입니다. 일반적으로 아래와 같은 프로세스를 따르게 됩니다.
1. 고객의 급여 및 소득 정보를 알아낸다.
고객이 근로자라면 급여명세서/원천징수영수증/ 급여이체내역 등을 통해서 급여를 알아낸다. 고객이 사업자라면 종합소득 증빙자료 등을 통해서 소득을 알아낸다. 이를 통해 월소득(monthly income)을 계산한다.
2. 고객의 고정 지출 정보를 알아낸다.
고객의 계좌내역이나 카드내역을 통해서 소비내역을 파악한다. 그 중에서 월 고정 지출액(Fixed expense)을 알아낸다. 만약 여기에서 월 고정 지출액이 월 소득과 비슷하거나 넘은 상태라면 대출을 거절할 수 있다.
3. 고객의 기존 가지고 있던 대출의 상환액 정보를 알아낸다.
고객의 CB(Credit Bureau) 정보를 통해 현재 타 대출사로부터 빌린 대출 정보를 알아낸다. 이를 통해 고객이 현재 지출하고 있는 월 상환액(monthly EMI)를 계산한다. 만약 여기에서 월 상환액이 이미 월소득과 비슷하거나 넘은 상태라면 대출을 거절할 수 있다.
* EMI = Equated Monthly Installment
4. 고객의 가처분소득 정보를 알아낸다.
고객의 가처분소득이란 고객이 월에 번 급여 또는 소득에서 실제로 소비가 가능한 금액을 말한다. 위에서 고정 지출이나 대출 상환액은 다음 달이 되어도 무조건 빠져나가는 돈이기 때문에, 가처분 소득 계산 시에는 이를 제외해줘야 한다. 따라서 아래의 공식을 통해 가처분소득(Disposable Income)을 계산한다.
*Disposable Income = monthly income - monthly fixed expense - monthly EMI
5. 최종적으로 대출 승인금액을 결정한다.
위에서 계산한 가처분소득을 계산했을 때, 일정 수준 이상이고, 내/외부적으로 평가한 고객의 신용이 승인 가능한 정도라면 대출 승인금액을 계산한다. 대출 승인금액은 가처분소득을 기준으로 해서 신용도가 높을 수록, 대출상품의 만기가 길 수록 더 높아진다. 이자율과 이자금액을 고려할 수도 있다. 그 공식은 대출사마다 다르나, ML(Machine Learning) model 수준으로 복잡하지 않고 직관적인 수준이다.
기존 방법의 문제점
위의 기존 방법은 얼핏 보면 합리적이어 보이지만, 인도 중산층을 타겟하는 경우에는 적합하지 않을 수 있습니다. 아래와 같은 문제점들이 있기 때문입니다.
급여/소득/소비/신용 정보와 관련된 자료를 제출하지 않거나 제출하지 못하는 경우에는 기존 방법으로 대출 승인금액을 결정할 수 없습니다. 언급한 모든 자료가 제공되는 것을 가정하고 있습니다. 따라서 자료가 모두 없거나, 일부만 있는 경우에는 대출의 적정금액을 산출할 수가 없습니다.
위와 같은 자료의 제출 중 일부는 직접 서류를 발급받아서 제출해야 합니다. 지점 방문이나, Email 제출, Fax 제출, App에서 문서를 업로드해야할 수도 있습니다. 이러한 과정은 여러가지 문제를 야기합니다.
고객이 행정기관이나 지점에 방문을 해야합니다. 이는 지점 없이 운영되는 인터넷전문은행이나 Fintech 기업에서는 굉장히 큰 부담입니다.
인도의 성인문맹률은 30%에 달하며 전반적인 교육환경이 열악합니다. 해당 자료를 요청받고 제출을 하는 것 자체가, 인도인에게는 매우 큰 부담이 됩니다.
사용하는 정보가 제한적입니다. 급여/소득/소비/신용 정보만이라, 온라인 환경에서 발생하는 여러 대안 정보(Alternative Data)를 사용하지 않는 것은, 가용한 정보의 일부만 사용하는 것입니다. 인터넷전문은행이나 Fintech 기업은 위에서 언급된 정보말고도 여러 활용 가능한 정보가 많기 때문에 이를 잘 활용해야 하는데요, 전혀 사용하지 않아 적합하지 않은 방법론이라고 할 수 있습니다.
특히 사회초년생이나 금융취약계층, Thin-Filer(금융이력 부족자) 등을 대상으로는 신용 정보나 급여/소득 정보가 누락이 되어, 이러한 방법론을 적용할 수가 없습니다. 앞서 개요에서 말씀드렸 듯, 특히 인도의 경우에는 저신용자 및 급여 추적이 어려운 경우가 많습니다. 따라서 적용가능한 대상자의 범위가 한정적이라는 문제가 있습니다.
또한 기존의 가처분소득 계산의 방식을 보시면, AI/ML 기술을 사용하지 않고 회계적인 방식을 사용한다는 것을 알 수 있습니다. AI/ML 기술의 수준이 높아진만큼, 이를 레버리지하는 것은 굉장히 중요합니다.
급여를 현금으로 받아서 내역자체가 없는 경우는 어쩔수 없지만, 내역이 있더라도 그것을 제출하는 것 또한 큰 허들입니다. 지점을 방문할 필요 없이 온라인으로 제출할 수 있게 하여도 여전히 어려운 것은 마찬가지 입니다. 당사에서는 소득의 증빙을 얻기 위해, 온라인 상으로 은행계좌내역서 제출을 요구를 했었는데, 단 28%의 고객만이 제출에 성공하였고, 나머지 72%는 제출을 포기하거나 시도하다가 실패 하였습니다
우리의 Vision과 Challenge
밸런스히어로의 비전은 모두를 위한 금융, Finance For All 입니다. 우리는 모든 인구가 금융의 혜택을 누릴 때까지, 계속 금융서비스를 발전해나갈 것입니다. 소득이 없더라도, 신용점수가 없더라도, 신용점수가 낮더라도, 모두 금융의 혜택을 누릴 수 있어야합니다. 우리는 이를 위해서 새로운 방법을 개발해야만 했습니다. 당사가 설정한 요구사항은 다음과 같았습니다.
Requirements
1. 모든 대출 신청자, 사회초년생이나 금융취약계층 등이라고 할지라도 적절한 승인금액을 산출할 수 있다.
2. 모든 종류의 대안정보(Alternative data)를 사용할 수 있는 구조로서, Big Data를 모두 사용할 수 있어 보다 정교한 측정이 가능하다.
3. 특정한 데이터가 누락이 되어도 사용할 수 있다. 예를 들어 NTC(New-to-Credit)이어서 신용데이터가 전혀 없다고 할지라도, 또는 사회초년생이라서 급여정보가 전혀 없다고 할지라도 값을 산출할 수 있다. 또한 특정한 대안 데이터가 누락되어도(예를 들어 위치정보 수집 거부로 인한 위치정보 누락) 역시 값을 산출할 수 있다.
4. 최근에 발전된 AI/ML 기술의 이점을 최대한 레버리지할 수 있다.
이는 Finance For All을 달성하기 위해 어떤 것도 타협할 수 없다는 저희의 의지였습니다. 쉽지 않은 목표라서 여러가지 시행착오를 겪었지만, 밸런스히어로 AI팀은 마침내 이를 모두 만족하는 새로운 방법론을 개발했습니다. 이렇게 개발된 방법론은 특허*로 출원 및 등록이 되어있으니, 자세한 방법론을 참고하기 위해서는 특허 공개전문을 직접 보시는 것을 추천 드립니다.
* 대안 데이터와 구간중도절단 추정방법론을 이용한 무담보 대출의 승인금액 산출 시스템 / 특허등록번호: 1028170000000
밸런스히어로가 독자 개발한 새로운 대출금액 산정 방법
밸런스히어로는 대출금액을 산정하기 위해서 새로운 접근 방법을 시도했습니다. 소득을 기반으로 적절한 대출금액을 설정하는 것이 아니라, 설정된 대출금액이 연체가 나지 않고 잘 상환되고 있는지에 주목을 한 것입니다. 이를 위해 새로운 Problem Statement를 만들었습니다.
Problem Statement
1. 어떤 대출 신청 L에 대해서, 신만이 아는 적절한 대출금액 = 정답 = A가 있다고 가정한다.
2. 무담보 대출상품의 설계 상 최소 대출금액 m과 최대 대출금액 M을 정보로서 받는다. 그러면 다음이 성립한다.
*m<= A <= M
* 예를 들어, 직장인 신용대출이면 최소금액을 1000만원(=m) 최대금액을 3억(=M)으로 설정
3. 과거 대출 상환 기록을 데이터로서 가져온다. 과거 대출 상환 기록을 보았을 때, 어떤 대출 신청자 U가 대출금액 B를 승인을 받고
3-1. 정상상환을 했다면, 적절한 대출금액보다 같거나 더 적은 금액을 내어준 것이므로 다음의 부등식이 성립한다.
*A >= B_repay
3-2. 연체를 했다면, 적절한 대출금액보다 더 큰 금액을 내어준 것이므로 다음의 부등식이 성립한다.
*A < B_overdue
4. 위의 정보를 바탕으로 고객마다 개인화된 GLB(Greatest Lower Bound)와 LUB(Least Upper Bound)를 다음과 같이 산출할 수 있다.
*GLB = MAX(m, B_repay_1, B_repay_2, B_repay_3, …, B_repay_n)
*LUB = MIN(M, B_overdue_1, B_overdue_2, B_overdue_3, …, B_overdue_n)
5. 그러면 다음과 같이 개인화된 적절한 대출금액이 있을 것으로 간주되는 구간을 구할 수 있다.
*GLB <= A <= LUB
6. 이렇게 문제를 설정하면, 이는 개인화된 Label 정보가 정확한 값으로는 주어지지 않고 구간(interval)으로 주어지는 구간중도절단 문제(Interval Censored data problem)이 된다. 따라서 이러한 문제에 대응되는 ML algorithm을 이용하여 A의 값을 추정할 수 있게 된다.
이렇게 문제를 설정하게 되면 소득/소비/신용 정보로부터 적절한 대출금액을 산정하는 계산 과정에서, 연체가 나지 않고 잘 상환될 만한 적절한 대출금액을 예측하는 Prediction 문제로 바뀌게 됩니다. 따라서 지도학습(Supervised Learning) 방법론을 사용할 수 있게 문제가 바뀝니다. 여기서 지도학습 모델을 아래와 같이 디자인하게 되면 당사에서 설정했던 요구사항들을 모두 만족시킬 수 있게 됩니다.
Supervised Learning Model Design
7. 이 때 (GLB, LUB) Tuple은 Label로서 기능하게 되고, 모든 종류의 데이터, 전통적인 신용데이터나 금용데이터 뿐만이 아니라 새로운 형태의 대안데이터(정형, 반정형, 비정형 데이터 등)를 ML Features로 사용하여 모형을 구축할 수 있다.
8. Supervised Learning 방법을 사용할 때 Features에 Null을 허용하는 방법론을 선택하면, 일부 Features의 누락이 있다 하더라도 모형을 사용할 수 있게 된다. 이를 통해 모든 대출 신청자에게 적절한 대출 승인금액을 산출할 수 있다.
9. 또한 (GLB, LUB) Tuple의 구축 과정에서 모형이 자연스럽게 대출신청자의 부도확률을 고려할 수 있게된다.
10. 또한 f(X) = Model(features) = Y = (GLB, LUB)의 형태이므로, 비슷한 데이터 형상을 가진 고객은 비슷한 값이 도출되는 구조로서, 여러번 대출을 정상상환한 고객과 비슷한 고객은 높은 승인금액이 나올 확률이 높아지게 된다.
새로운 방법론의 특징과 효과
위에서 당사에서 개발한 새로운 방법론의 디자인을 보면 아래와 같은 특징이 있다는 것을 유추할 수 있습니다.
회계적인 방식이 아닙니다. 최근에 엄청난 발전을 보이고 있는 AI/ML 기술의 이점을 레버리지할 수 있습니다.
Input Data로 어떤 제한도 없습니다. SMS와 같은 Text Data, 사회관계망과 같은 Graph Data, 전통적인 금융데이터, Device에 기반한 Alternative Data, 모두 사용할 수 있습니다. 이를 통해 당사가 가진 Alternative Data의 이점을 레버리지할 수 있습니다.
Input Data에 소득/소비/신용 데이터도 당연히 들어갈 수 있습니다. 따라서 소득증빙이 된 경우에, 그 이점을 온전히 사용할 수 있습니다. 모델의 Input Data로 들어가서 결과값에 영향을 주기 때문입니다. 당사에서는 Disposable Income을 계산하는 모든 중간값과 결과값을 ML Features 중 일부로 사용해서, 그러한 이점을 온전히 누리도록 설계했습니다.
Label로 사용되는 (GLB, LUB) Tuple의 구축 과정에서 Repay/Overdue 정보를 사용했기 때문에, Model의 학습하는 과정에서 자연히 부도확률을 고려하게 됩니다. 따라서 별도의 신용평가점수를 동시에 사용해서 복잡한 대출 승인금액을 결정하는 등의 로직을 추가로 사용할 필요가 없습니다. 그냥 Prediction Value를 적절한 대출금액으로 그대로 사용하면 됩니다.
ML Algorithm을 고를 때 결측(Missing Value)을 허용하는 방법론을 선택하면, 예를 들어 XGBoost와 같이 결측치를 허용하는 Algorithm을 사용하면, 특정한 데이터가 누락이 되더라도 정상적인 Prediction Value를 얻을 수 있습니다. 예를 들어 사회초년생이어서 소득 데이터가 없거나, NTC(New-to-Credit)이라서 신용데이터가 없더라도 적절한 대출금액을 산출할 수 있게 됩니다.
동일한 Input Data가 들어갈 때 동일한 Prediction Value가 나오는 형태이므로, 비슷한 형상을 가진 고객은 비슷한 값이 도출되는 구조입니다. 따라서 여러번 대출을 정상상환한 고객과 비슷한 고객은 높은 승인금액이 나올 확률이 높아지게 됩니다. 반대로 과거에 대출을 연체한 고객과 비슷한 고객이 새로 들어오면, 더 낮은 승인 금액이 나올 확률이 높아지게 됩니다.
도입 후의 변화
새로운 방법론 도입 이후 우리는 여러 긍정적인 변화를 이루었습니다. 이제는 소득증빙 없이도, 모델이 모든 유저에 대해 적절한 대출 가능 금액을 자동으로 산출해줍니다. 과거에는 인도의 높은 문맹률, 고객의 이해 부족, 기술적 문제 등으로 인해 소득증빙을 요구하면 72%의 유저가 이탈했으며, 이는 곧 고객 4명 중 3명을 잃는 것을 의미했습니다.
하지만 지금은 그럴 필요가 없습니다. 당사는 소득증빙 없이도 이전보다 더 높은 성능으로 대출한도를 과학적으로 예측하고 있으며, 고객의 SMS 데이터를 분석해 금융 거래 내역을 기반으로 급여와 소득까지 자동으로 추정하고 있습니다. 이 모든 과정은 고객의 별도 행동 없이 진행되므로, 신용평가 단계에서 발생할 수 있는 이탈을 효과적으로 줄이고 있습니다.
다음에 기회가 되면, SMS Data를 이용한 급여/소득 추정에 대한 주제로 Post를 올리도록 하겠습니다.
마무리하며
밸런스히어로의 타겟 시장은 인도입니다. 인도에서 제대로된 금융 혜택을 받는 인구는 14억 인구 중에서 매우 일부에 불과합니다. 밸런스히어로는 모두를 위한 금융, ‘Finance for All’을 추구합니다. 이번에 소개한 사례는 이러한 노력의 일부입니다. 인도에는 아직도 금융으로 인한 혜택을 받지 못하는 사람들이 많기 때문에, 우리는 계속해서 더 많은 사람들에게 더 나은 금융 서비스를 제공하기 위하여 최선을 다할 것입니다.