研究 | 大数据征信的相关政策及存在问题_研究

互联网金融发展对大数据征信的需求越来越大。征信系统建设已经成为我国重要的金融基础设施之一。我国的征信市场目前还不太健全，信用数据呈碎片化，这在很大程度上影响了消费金融行业的可持续发展。

大数据征信的难题

征信法律是大数据征信的第一个难题

2014年3月，美国国家消费者法律中心对主要的大数据征信公司进行了调查并发表了一篇重要的调查报告，题目是《大数据，个人信用评分的大失望》。文章指出大数据征信公司的信息错误率高于50%。这些公司的数据模型繁多又复杂，使用不准确的数据，有“垃圾进，垃圾出”之嫌。文章对这些公司的合法性提出质疑，建议政府加强监管。

大数据征信在中国问题更大。“征信管理条例”明确规定“采集个人信息应当经信息主体本人同意，未经本人同意不得采集。”。这比美国《公平信用报告法案》对信息采集的要求更严格。如何按照条例要求，让信息主体本人同意用没人能说得清的大数据对其进行征信，这不是个容易事。

坏账的“不可预测性”是大数据征信的第二个难题

征信的目的是预测借款人是否会守信还贷。那么人为什么会借钱不还？这里面有两个原因，一是有钱就是不还；二是想还就是没钱。第一种情况在美国很少。原因是信用报告和就业、住房相关，对中产阶级价值很高。有工作、有钱的人不会为几万美元债务毁掉自己的信用，这是赔本买卖。但是 2008年房贷危机后产生了一个比较特殊的现象叫做策略性欠债不还——借房贷的房主在房价下跌到比贷款额低很多的时候，再去买一栋房子，然后不付以前买房子欠的贷款，把以前的房子还给银行。这一策略可以“套利”几十万美元。银行只能把房子收回，损失几十万美元。虽然这些人的信用记录上会有一个污点，但是这对信用报告的影响有限，因为其他的债务照付不误。这种坏账历史上没出现过。造成这一现象的原因一部分是经济和房价波动，但更主要的原因是政府政策失误。大数据对这种坏账的预测（征信）能力非常有限。

至于没钱还债又可分成两个原因。一个原因是借款人花钱花得多了，入不敷出。美国的一些研究调查显示大概有三分之一的美国人是”月光族“ -- 每个月把挣的钱基本上花光。这部分人很多是低收入，一旦发生意外，比如车祸、生病，或者别的一些紧急用钱的情况，他们就只能把能借到的钱都用上。这些借款的利息都很高，利滚利，时间久了，还不了债，就成了坏账。有了坏账信用评分就比较低。这部分人有一个不雅的统称叫“次贷借款人” (subprime borrower)，在个人信用信息局的档案里占20%-25%。银行根据信用报告和信用评分的信息识别这样的客户，对他们非常谨慎，贷款卡的紧，贷款额比较低，利息也比较高。美国几乎所有大数据征信公司都是在做“ 次贷借款人” 的征信细分（包括颇受国内关注的Zestfinance），声称可以通过大数据找出其中信用好的借贷人，但到目前成效不大。

另一个原因，也是最主要、最普遍的原因是借款人收入出了问题。美国人失业后可以领取失业保险金。美国“劳工统计局”的数字显示在经济好的时候，每四个星期新增领取失业保险金的人口大约是28万人，其中15%的人失业时间会超过半年，称为长期失业。一年平均长期失业人口约为55万。这个人群中多数也属于“次贷借款人”。而在2009年经济危机的时候，每四个星期新增领取失业保险金的人是65万，长期失业的比例是45%，当年长期失业人口约为380万。也就是说，经济差的年份里长期失业率是经济好的时候的7.2倍，按人头计算是增加了325万人。增加的这部分长期失业人群大多数曾是“优良借款人” (super-prime or prime borrowers)。

美国信用卡的坏账率在2006年是3.5%，而在2010年是10.5%。这七个百分点的增加几乎全部是新增长期失业人口造成的。经济好的时候，要预测哪年会发生经济危机、哪些人会失去工作、失去工作中的哪些人会赖账，这是不可能的。如果坏账增加的主要原因是经济危机造成的失业等内在的不可测性，那么大数据的局限性也就很明显了。

以芝麻信用为例看我国大数据征信机构存在的问题

线上个人信息安全和隐私保护存在较大风险隐患

一是采集的个人信息不合规。《征信业管理条例》规定“禁止征信机构采集个人的宗教信仰、基因、血型和病史等个人信息；在未明确告知不良后果并取得书面同意外，不得采集个人的收入、存款、保险、有价证券、不动产等信息；采集个人信息应当经信息主体本人同意，未经本人同意不得采集”。而芝麻信用采集的数据来源于互联网的大数据，这些数据是否包含禁止采集或限制类信息不得而知，且采集的数据显然未经过本人授权。

二是个人信息保护存在风险。在个人信息保护方面，芝麻信用对外宣称，不管是机构还是他人，要查看信息主体的芝麻信用分，必须获得信息主体本人授权。但在实际操作中，任何人查询芝麻信用分只需用手机或电脑凭密码登录支付宝客户端点击查询，就可以获知自己或他人的信用分数和信用服务情况。此外，即使平台要求与芝麻信用开展合作的商家在每次根据用户芝麻分情况提供金融产品和信用服务之前都应第一时间推送给个人以进行授权，但在手机或电脑上简单地点击确认授权无法辨别该授权人是否为信息主体本人，或是否为信息主体本人自愿授权，个人信息和隐私保护存在较大风险。

数据采集维度不够完整，信用评分难以反映信息主体真实信用状况

一是数据来源以本行业内数据为主，数据采集维度不够完整。芝麻信用采集的信息数据虽然规模很大，但其所获取的数据集中于其所处的行业领域，“阿里体系”内数据仍是芝麻信用采集信息的主渠道，其他行业或领域的数据维度不够完整。例如芝麻信用对个人社交信息数据采集相对较少。此外，如果一个消费者从来不上淘宝、天猫等互联网购物平台，不使用支付宝等，芝麻信用将很难采集到该用户的信息数据，导致评分结果有失偏颇。

二是缺少金融机构的信贷数据作为支撑。目前芝麻信用尚未获得征信机构牌照，也未能接入央行征信系统，导致芝麻信用分的计算中缺少对个人银行信贷信息的衡量，这使得芝麻信用在个人信用评分结果的准确性上存疑。

个人信用信息主体异议处理和救济难度大

目前，芝麻信用通过支付宝向公测用户推送芝麻信用分，但并未告知用户对芝麻信用分存在异议时的救济手段。特别是目前支付宝用户的身份验证还存在较多问题的情况下，支付宝仅表示相关用户可以提供身份证、驾驶证、户口薄等身份证件对冒用账户进行停用，并不能提供有效的解决异议信息的方案。一旦信息主体对芝麻信用分结果产生异议，很难找到异议或投诉的渠道，造成信息主体维权难。例如在芝麻信用分的公测期间，就有部分体验用户反映自己与其他用户在信用历史、行为偏好、履约情况等五个评分维度的信息状况相近，但最后芝麻信用分值结果却相差很大，用户本人难以向芝麻信用提出异议申请或申请维权。

“刷信用”行为和互联网低门槛可能加剧信用违约风险

一是信用评分结果易产生“刷信用”的逆选择。芝麻信用的信用评分结果由五个维度共同决定，并声明不能通过某一两项行为来提高信用评分，避免了用户恶意作弊反向套取积分。但根据芝麻信用公测期间，体验用户“晒出”的芝麻分值对比分析，芝麻信用分高的用户往往都是阿里体系的“高频”用户，反映出芝麻信用分以阿里巴巴旗下淘宝、天猫等电商平台的消费额度以及蚂蚁金服旗下支付宝、余额宝服务如信用卡还款、转账、互联网理财等为重要评分标准的现实情况，这就给用户通过在阿里体系内人为地增加资金往来频率，“刷信用”以提高芝麻信用分带来可能，这种评分结果必然会增大信用违约风险。

二是互联网的低门槛或将增加信贷违约风险。由于互联网消费和服务的群体广泛，芝麻信用分的评分主体中包括无收入能力或稳定收入来源的人群，目前芝麻信用分已涉足个人消费金融领域，这类群体通过芝麻信用分获取个人金融服务也会使违约风险有所增加。

首页

资讯

课堂

产业

活动

专家

合作专区

数字经济

研究 | 大数据征信的相关政策及存在问题

标签：

热门标签换一批

热门研究

一篇文章看懂：大数据框架、大数据采集平台、...

报告 | 《2018中国健康医疗大数据行业报告》...

《大数据标准化白皮书（2016）》发布

《湖北省疫情防控数据综合分析报告》

互联网人群画像和你所不知道的真相（一）