奇趣闻 > 数码科技 > \

个人金融借贷场景下,大数据风控的行业分析及应用分析

原标题:个人金融借贷场景下,大数据风控的行业分析及应用分析

大数据风控是现在金融科技公司白热化竞争的业务场景,那大数据风控到底是什么?这个行业前景如何?有哪些机构在布局竞争?有哪些产品形态?本文将围绕个人借贷场景,为你一一揭晓。

一、大数据风控是什么?

大数据风控按照通俗的概念解析:通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。

这句话涵盖大数据风控必要的4个要素:

1. 原材料:大数据

2. 实现方式:技术模型

3. 目标人群:场景中的群体。

由于本文主要指个人借贷场景,则目标人群是借款人。还有其他场景,例如信用卡场景对于信用卡申请人、购物场景针对分期用户、租房场景针对租金分期用户、投保场景针对投保人、投资理财针对投资人等。

4. 目的:风险控制和风险提示。一般机构主要有2个目的:

  • 目的1:针对降低损失,需要对好坏用户进行识别
  • 目的2:针对获取最大化利润,需要对用户资质分层。

潜在的特点是可以大批量实时实现风险控制和风险提示。

二、传统风控与大数据风控的区别

大数据风控的叫法其实就是为了与传统风控做区分。

传统风控在2016年之前相对比较普遍,其特点是线下风控场景为主,需要用户填写一大堆个人信息及提供工作证明、流水证明、住址证明等,审核时间一般为1-3天,银行体系会更长3-7天左右。

正常情况,一份用户资料表需要填写包括以下这些信息:姓名、性别、年龄、身份证号、家庭地址、学历、家庭人数、婚姻状态、单位名称、单位电话、工作职务、单位性质、收入来源、收入水平、配偶详情、经营企业详情、其他资质等信息。

除了这些信息,还需要提供纸质的身份证复印件、工作收入证明(盖章)、半年银行流水、水电费或房屋租赁合同等。

另外,银行等持牌机构还会查询用户在央行的征信报告,用于辅助风控。

这些数据潜在的意义可以这样解读:除了年龄代表准入门槛,一般的借贷产品要求借款人需要有22岁以上才可以申请,现金贷产品会把年龄门槛放到18-20岁及以上。部分产品要求学历是高中及以上,或者要求非在校生。其他的分组后分别代表借款用户的还款能力,负债情况及信用情况(这里不细分还款意愿)。

直接体现或者间接体现还款能力的:

  1. 家庭人数。家里人多,你还不起,催收后有人可以帮你还;
  2. 2.婚姻状态,大部分家庭,结婚的比未婚的家庭收入或经济稳定更好;
  3. 3.单位名称、单位电话、工作职务、单位性质、收入来源、收入水平,直接体现收入水平及收入稳定性情况;
  4. 4.经营企业详情、其他资质等信息。

体现负债情况和信用情况的:央行征信报告

拿到这些信息及材料后,由风控专员凭借经验及按照标准化流程审核材料真实性。例如工作收入证明通过拨打公司电话核查有无本人及职位情况、其他资质材料看印章判断真实性,流水会打银行电话抽查真实性等。

传统风控的模式及节奏是不符合互联网金融高速发展的节奏的,互联网金融时代都是按秒级几百上千用户群同时发起贷款申请,如果按照人工审核,从进件到批核整个流程可能要1个月时间都没法完成。

传统风控向大数据风控的升级,即是行业发展的需要,也受益于各类用户数据被标准化对外,也就是API的形式对外输出,金融机构可以直接接入各种必须的数据接口,用于获取用户的数据。

整个流程从用户填写将近所有的信息,变成只要提供姓名、身份证、银行卡号、手机号这个4个要素就可以获得全部或大部分风控必需的用户信息。

大数据风控的快捷得益于各种标准化的数据接口,但由于代表用户的各种数据是分别存在与不同的机构中,这些数据原则上需要用户授权才能对外,而且数据输出需要进行合规脱敏的处理。

所以,大数据风控需要获取到与传统风控要求用户填写的所有信息、或者直接或间接证明用户还款能力、还款意愿、负债情况及信用情况必须的数据,每个类型需要接入几个数据来源,缺失的类型还需要找到能够替代的数据接口。

大数据风控需要的数据类型,在后面章节再详解。

三、哪些行业及场景需要大数据风控

除了借贷场景,还有哪些场景需要用到大数据风控?

这里,猎人简单举几个例子:

金融行业最常见就是投融资板块,投资板块,需要对非法集资、洗钱、资金盗刷等风险进行防控。

借贷板块,需要进行贷前进行反欺诈及用户风险识别、授信风险评估、贷中风险评估及贷后风险预警。

电商行业需要在用户注册环节进行防薅羊毛、对已注册充值用户需要防止其资金被盗刷、账户被盗及发生交易后对经常拒付的情况需要识别。

保险行业特别是寿险产品,需要对投保人身份进行核实,防止有不良行为投保用户过审发生骗保。

除了这些常见的行业场景,其实各行各业只要涉及到个人信息及资金交易的,都会用到大数据风控,唯一的区别就是针对不同场景的需要的数据及策略是不一样的。

四、大数据风控行业有哪些机构参与

传统风控基本都是由金融机构内部的风险部门及门店经理组成,大数据风控更多是由第三方机构提供。

大数据风控行业主要有以下7大类型机构参与:

  1. 监管部门旗下或牵头的机构:百行征信、互金协会及小贷协会等;
  2. 非银放贷机构旗下金融科技公司:持牌小贷公司、P2P机构等,例如玖富及宜信;
  3. 电商旗下金融科技公司:京东金融、蚂蚁金服等;
  4. 互联网巨头旗下金融科技公司:度小满金融、腾讯云等;
  5. 银行系金融科技公司:银联智策、建行金科等;
  6. 企业服务类:系统服务商、技术提供商、数据中介商等,例如同盾及百融;
  7. 支付机构旗下金融科技公司:天翼征信:新颜征信等。

这些机构拥有场景、资金、放贷业务三者全部或者其中一块要素,这些要素决定了其在大数据风控的竞争壁垒。

场景代表有源源不断的数据,及精准的客群画像,可以无成本或低成本用于风控业务;

资金代表了可以随意切进任一借贷场景,获取数据及影响产品形态;

放贷业务表示在特定场景有一定的用户借贷表现的数据及基础的风控能力,部分机构的成熟风控能力还可以直接对外输出变现,切入到体系外的场景获取更多的数据。

因此,数据量级、数据成本、风控经验、资金风险承受能力综合决定了一家机构在大数据风控是否有足够的竞争力。

五、大数据风控机构存在的意义

个人借贷金融板块的大数据风控行业的前景,主要可以看2方面:

一个是不含房贷的国内消费金融市场规模及渗透情况。只要消费金融市场的存量客户,有复贷需求,且增量客群还有转化空间,代表着借贷业务是持续发生的,则这里对风控的需求是持续不断的。

我国个人消费金融的市场规模从2013年的12亿到2018年的将近38亿,翻了3倍有多;而不含房贷的规模到2018年则到了8亿,渗透率为22.36%。如果到2020年渗透率可以提升2.5%,则市场规模有个3.5万亿的提升。这个空间足够众多公司在此竞争。

大数据风控机构其中的一个收入来源就是数据接口的调用次数计费,这个调用次数息息相关的是借贷用户数量。

而央行内收录的大部分信贷记录用户都是属于银行等相对高质量用户群体,这些群体都有可能下沉到非银系的互联网金融中发生贷款行为,同时不在央行体系的信贷用户,都是互联网消费金融机构的潜在客户。

通过央行查询量,可以侧面知道在银行体系信贷需求的用户数量,这部分用户80%以上是无法获取银行体系的贷款的,因此理论上是可以成为消费金融机构的潜在客群。

2015年的6.3亿次查询到2018的17.6亿次查询,说明需要信贷的用户非常多,但这么大的查询量,有信贷记录人数才增加了1亿,说明大部分用户都无法获得贷款或者非常需要贷款,会同时在多个机构申请贷款,才会每人产生近10次的查询次数。

六、处于消费金融产业链什么位置

已知大数据风控机构在消费金融场景中是非常有前景的,我们了解下其在消费金融产业链中的角色及功能,消费金融产业链的角色包括:

  1. 监管机构:银保监会、中国人民银行等;
  2. 消费金融服务提供商:商业银行、电商平台、持牌公司、分期平台、非持牌机构;
  3. 资金提供方:自有资金、信托、ABS、银行借贷、同业拆及P2P;
  4. 第三方支付机构:负责提供支付通道,给予消金机构放款或者代扣还款;
  5. 催收或不良资产机构:负责贷后逾期不还及失联客户;
  6. 消费者:不同场景的消费需要的资金需求是不一样的;
  7. 风控及征信机构:负责提供大数据风控服务,包括数据、技术服务、模型策略等。

除了消费者外,产业链中的各个角色都有附加风控及征信机构角色的可能,对外输出大数据风控能力。

七、个贷风控场景及解决方案

猎人将消费金融大数据风控场景分为5个环节6个应用场景:5个环节包括反欺诈、身份核验、贷前审核、贷中监控及贷后催收;6个应用场景分别对应不同的环节。

反欺诈环节:

对申请借贷的用户群体进行反欺诈识别,识别能力主要依赖于风险名单,高危名单(在逃、黄赌毒、涉案)、法院失信被执行人等名单,另外还有虚拟手机号、风险IP、风险地区等名单,通过名单进行反欺诈识别。

再深入点,可以在用户使用的设备端进行反欺诈识别,查看是否是风险设备;还可以通过群体关联,找出是否团伙欺诈行为。例如申请集中在一个IP地址,一个户籍地,通讯录都有同一个人联系方式等。

身份核验环节:

进行借贷同行业身份核验。在反欺诈识别过程中,无风险用户来到身份核验环节,这里可以通过身份证2要素接口,核验用户的姓名身份证号是否正真实;通过活体识别判断是否用户本人在操作;通过运营商核验接口,核验用户的姓名身份证手机号是否一致,手机号是否本人实名使用;通过银行卡核验,核验用户的提供的银行卡是否本人,防止贷款成功后,贷款资金到他人账户被冒用。

贷前审核环节:

授权信息获取,针对身份核验通过的用户,进行有感知或无感知的必要信息获取,为后续模型评分准备好数据。无感知获取的包括多头借贷数据、消费金融画像数据、手机号状态和时长数据等;有感知(需要用户提供相关账户密码)获取的数据有:运营商报告、社保公积金、职业信息、学历信息、央行征信等。

借贷用户的分层及授信,针对以获取的用户相关数据,根据不同的算法模型输出针对用户申请环节的评分卡、借贷过程的行为评分卡、授信额度模型、资质分层等模型。不同机构对于不同环节的模型评分叫法不一样,目的都是围绕风险识别及用户资质评估。

贷中监控:

之前环节获取的数据大部分还可以用于贷后监控,监控各项正常指标是否往不良转变,例如本来无多头借贷情况的,申请成功贷款后发现该用户在别的地方有多笔借贷情况,这时可以将该用户列为重点关注对象,防止逾期。

贷后催收:

此时需要催收的主要针对失联部分客户,这部分客户在贷款时填写的号码已经不可用,需要通过大数据风控公司通过某些手段获得该客户实名或非实名在用的其他号码,提高催收人员的触达几率。

八、大数据风控常用的数据类型

大数据风控离不开数据,这些数据猎人将主要的7大类型,这7大类型的存在主要有2大原因:

一是这些数据维度基本可以直接或间接体现用户的还款能力、负债情况、信用情况及其他潜在风险,大部分数据维度都已在金融信贷风控环节得到有效的验证,除了个别场景对于少部分类型数据不太合适外。

二是这些数据都经过标准化的处理,且在其体系内与合作的借贷机构客群最低的交叉比例超过40%以上,也就是借贷机构的100个用户中可以在这个数据接口中查到其中40人及以上的数据。

还有一些原因是这些数据来源的更新频率足够满足风控公司的要求,特别是高风险名单这些要求是实时的,而身份证要素这些则无需更新实时问题也不大。

数据类型主要有:

  • 身份信息:身份证、银行卡、手机卡、学历、职业、社保、公积金;
  • 借贷信息:注册信息、申请信息、共债信息、逾期信息;
  • 消费信息:POS消费、保险消费、淘宝消费、京东消费;
  • 兴趣信息:APP偏好、浏览偏好、消费类型偏好;
  • 出行信息:常出没区域、航旅出行、铁路出行;
  • 公检法画像:失信被执行、涉诉、在逃、黄赌毒;
  • 其他风险画像:航空铁路黑名单、支付欺诈、恶意骗贷。
九、大数据风控的数据源头

大数据风控需要的数据类型这么多,那来源是哪里,或者说这些数据掌握在哪些机构中?

  • 身份证数据源头:公安一所、公安三所、身份证信息查询中心;
  • 银行卡数据源头:各类银行、各地银联;
  • 手机号数据源头:移动、联通、电信;
  • 学历数据源头:学信网;
  • 社保公积金数据源头:社保局、公积金管理中心;
  • 借贷数据数据源头:央行征信中心、有信贷业务的银行、消费金融机构、小贷公司、P2P及有放贷业务的金融机构(保理机构);
  • 出行数据数据源头:中航信、铁路总局、出行APP、运营商、有定位的APP;
  • 消费数据:银行、电商平台、第三方支付、场景平台;
  • 兴趣爱好数据源头:运营商、各类PC平台网站、各类APP、搜索引擎、手机系统商。

其实以上源头直接从事数据输出业务的只是一小部分,原因是大部分源头公司对数据合规输出及场景管理无专门部分负责,而且数据业务盈利不是其主要的业务。

因此活跃在大数据风控行业,提供数据业务的是一些通过相关关系获得代理权的数据代理商,及为这些源头公司提供系统服务的系统商。

十、人工规则及机器模型

大数据风控的实现方式是传统风控的专家经验模型、及现今依赖算法模型两种方式结合较多。原因是算法模型在大多数常规情况是可以准确识别风险情况,但少部分特殊情况需要人工参与干涉修正及调优的。

专家经验模型的流程是将遇到的新问题(新申请用户的资料)作为入参,风控专家根据历史出现的情况(不同客群的好坏表现)归纳起来,从中找出相关规律(A客群对应好的,B客群对应坏的,C客群没遇到过,但可能是好的等),从而判断新问题可能发展的路径情况(新客户贷后是好的或者坏的)。

算法模型,主要依赖统计学公式,流程是将新数据(新申请用户的资料)作为入参,算法模型(随机森林、决策树、逻辑回归等)在大量的历史客户样本喂养后,已经可以区分出不同客群的好坏表现,从中而判断新用户在模型结果中对应的是好还是坏客户分类。这其中会引入第三方的数据源(KS 、IV、AUC等都是判断第三方数据有效性的指标),看哪些数据能够提升算法模型的识别准确率。

其实从流程看出,算法模型无非把人工经验环节换成了算法模型替代,以此实现批量找出能够判断好坏客户的规律,并将其标准化。但遇到一些不在历史数据中的情况时,算法模型就可能无效,需要人工参与调优,为了解决新问题算法模型表现不太好的情况,现在有机构尝试用新的算法或逻辑去模仿人工调优这个工作。

十一、大数据风控的产品形态

大数据风控行业中最常见的产品形态有4种:

  1. API接口:主要输出裸字段、脱敏后字段或者评分值;
  2. SDK:爬虫类产品、设备指纹等;例如学历爬虫接口,输入用户账号密码可以登录学信网将用户的学历学籍信息爬取下来。
  3. H5报告:用户风险报告、用户评分报告等;
  4. 机器模型及决策引擎。

API接口及SDK一般是有风控模型团队机构需求较大,需要详细字段入参来喂养模型;部分无模型团队的机构,但有技术部门支持开发的,一般喜欢直接采用API的评分或H5报告;而机器模型及决策引擎主要是有钱但不熟悉风控行业或者现有技术团队不熟悉大数据风控的,会直接购买模型及决策引擎直接启动信贷业务。

以上的产品形态主要还是针对B端客户,有些大数据风控机构开拓C端业务的推出APP内置报告的产品形态。

最后

大数据风控是个很复杂的体系,其在个贷风控领域的应用已相对成熟,这个场景的竞争现处于白热化阶段,已知这个细分市场的风控产品的创新已经到了一个瓶颈,无论机构大小只能围绕数据覆盖率及风控识别能力两个维度进行优化。

同时由于有消费金融需求的个体基本都得到了刚好甚至超出其还款能力的信贷服务,因此开拓新客群的获客成本明显高于前两年,这是大多金融机构合规产品获利能力无法覆盖的,规模维稳甚至紧缩的情况导致提供个人风控的大数据风控机构的收入水平其实在下降。

另一个状况是针对小微企业端的风控服务重新被大数据风控机构重视并逐渐加大研发力度,望在小微企业风控的白热化到来前,先占据一定的市场规模,形成有力的壁垒活下去。

#专栏作家#

大数据猎人,微信公众号:date-hunter,人人都是产品经理专栏作家。多年金融行业(基金、理财、保险、信贷等行业)相关战略研究、行业分析、商业模式搭建经验,熟悉金融+大数据+风控+营销领域。

题图来自 Unsplash,基于 CC0 协议

显示全文

相关文章