设为首页 收藏本站

每日金融
>
金融资讯
>
大数据

誉存科技CEO陈玮:大数据企业及个人征信平台

每日金融
摘要:
11月19日,由每日金融和零壹财经西南运营中心联合主办的金融会•信贷风控技术创新沙龙举行,誉存科技CEO陈玮在沙龙上做了分享。


11月19日,由每日金融和零壹财经西南运营中心联合主办的金融会•信贷风控技术创新沙龙在鸿森财富举行。来自宜信致诚信用评估有限公司(以下简称“致诚信用”)、富登信贷、誉存科技、四达投资、惠农时贷等在内的近30家信贷机构负责人在沙龙上,就行业信贷技术创新方面的话题做了交流。


誉存科技CEO陈玮在沙龙上作了以“大数据企业及个人征信平台”为主题的分享,以下是每日金融记者整理和纪录的发言全文:


我们是一家大数据分析服务公司,擅长做工具,希望能够把互联网技术和机器学习的方法在行业里面解决各种各样的痛点。


我们也是一家创业公司,去年年底在杭州成立。我们是用互联网和大数据的方法做信息的搜集、整理、关联、分析和建模。虽然我们的公司比较年轻,但我们的团队在业界积累了先进的经验。


刚才听到一些嘉宾介绍,风险识别的困境就是究竟要花多少人力去核实或者各种渠道去采集。人力成本和数据收集的博弈过程,到底是用覆盖多少的数据量,在现在这个信息分散、数据孤岛存在的情况下如何来做风险识别。


现在我们有个很好的时机就是云计算、大数据的采集。我们能够用技术的手段来做一些以前做不到。


第一步就是用大数据的手段抓取海量的数据。比如说像司法系统,现在全国没有一套统一公开的司法系统说,可以过来一查便知这个人从立案到判决执行的过程。我们现在从500多个省、市级法院抓取各种各样的信息,比如法院公告这一块,每天都会有打字员说今天某某某因为什么事情开庭。这一天结束以后这个公告就撤下来了。现在没有任何一个系统在记录这些数据。我们也是从各个数据源把这些信息收集起来。所以我想说的是,其实在互联网上面有非常多这样碎片化的信息。以前没有人,或者没有这个技术能力能够把它收集整理并且保存下来。


第二步就是,这些信息收集起来,比如说一个公司存在大量的新闻,但我们收集起来、呈现出来也只是信息,没有成为数据。所以第二步我们使用一些机器学习的方法,对他们做文本分析,把真正的信息转化为数据。打个比方,比如新闻,现在每个公司都有非常多的新闻,无论从他的自媒体或是有分量的媒体报道。那我们现在用一些方法,第一步把新闻的重复性去掉,不要看半天都是重复的一条。第二步做一个实体的抓取,比如这个企业或个人在什么时间什么地点做了什么事情。其实这个还是有技术门槛的,比如说苹果6袋和苹果6是两个不同的概念。所以机器学习的方法超越了我们曾经用的关键词的搜索,而能够真正理解和分析这些语义,以及这些新闻他是正面的还是负面的,制作这些新闻的权重。所以我们能够更好地理解这些信息在互联网上的舆论倾向。


第三步是,我们把这些数据结构化以后,如何来做建模得出有意义的结果。这个我们是用一些比如刚才王总提到的,比如我们会搜集上千个维度的变量,但是像在个人和企业方面可能几十个的变量能够很好地描述这个企业的信用情况。现在我们用的一些技术和手段在风控领域,用传统的方法花费的时间比较长,像人民银行的征信报告覆盖量也不是特别大,我们现在需要做的就是全方位、多维度地描述这个企业和个人的系统评估。


这个月底我们就会拿到企业的征信牌照,个人的话我们也会做一些尝试。像刚才晨曦提到的社交数据我们也进行了相当数量的搜集,看一些社交数据与信用的关联性。所以在个人方面我们也会进行普惠金融方面的尝试。


现在个人方面我们主要是关注企业家的群体。因为我们在评估企业信用的时候很多是一个小微企业,这个时候企业家的信用很大程度上就代表了这个企业的信用。但是个人的信用比如芝麻信用是基于淘宝、支付宝的消费记录(来评估),不能很好地反应企业家的信用,所以我们现在涵盖了法人代表、实际控制人的信用情况。


我们现在数据源的来源比较丰富,除了网上公开的信息、偷税漏税、司法工商,也对接了权威的数据库比如教育部、工商总局、出行记录等等。我们也对接了一些合作伙伴比如消费数据、电信移动等运营商的数据。所以我们第一步就是做关联,在工商局的基础信息上看到企业的对外投资、法人的对外投资,对外任职把这个关联图画出来,这个很多征信公司都在做但关联图画出来我们觉得最多只是满足一个好奇心的问题,谁和谁有关系。我们进一步做了风险的量化,比如说关联企业和关联人他们会出现怎样的风险,这个风险大小究竟是什么。我们研究了一千多家跑路的平台,发现比如说一家P2P平台注册资本2000万,还有一个小的运输公司股东注册资本20万,当这个公司出现风险的时候,比如发生了交通意外,这个风险有多大以及在什么时候会传导回来?我们做了风险的量化和复杂网络的算法,做风险的传导,所以不仅关注被关注企业,也关注他的关联企业的风险以及风险的传导性。还有一些高管、实际控制人的信息,现在都有在搜集整理。第二部分就是司法失信、工商处罚、税务等等散落在互联网的各种权威网站上面,我们现在也有一个抓手在500多个数据源进行抓取。


另外我们一个尝试的方向是对上市公司的全息画像。大家都知道上市公司的信息是非常丰富的,那么这些还是信息,我们如何能够更好地理解它以及解决企业信贷过程中的实际问题。


我举个例子。大家都知道36氪,在医疗创业领域有一个动脉网,他就有一个问题,现在我有这么多创业者,在上市公司里面他们的投资倾向是什么,我们如何进行针对性的创业可以在两三年内被上市公司收购,纳入他的战略规划。我们看到上市公司他有很多的新闻,战略规划,比如准备发展移动医疗的战略规划对谁进行了增资。这样的新闻里面其实饱含了很多对大趋势把握的信息。我们把他对移动医疗的兴趣提取出来形成一个标签来描述这家上市公司。就可以知道那些上市公司对哪些方向感兴趣。那么我们就可以得到结论。


征信是一个被动查询的问题,来了一个企业,我们再去查询他的风险在哪里,信用情况怎么样。但如果我想转小微了,想知道这个行业这个区域的优质客户在哪里。我们希望下一步做到在征信的时候,收集他们的数据对他们打上各种各样的标签:他的征信、行业状况、知识产权、舆情等等,我们就可以回答一个主动的问题:我们想找什么样的的企业的时候,怎样去找到他。我们目前是以上市公司为抓手进行这样的课题研究的。


行业的话,我们目前只有40多个行业抓取行业信息。一个企业来了之后我们不是从他的经营范围(分析)——经营范围其实和他本身做的事情差别比较远。我们可以从他的招聘、申请专利上面来定出他的细分行业。细分行业里面,我们会在网上抓取大量的行业报告,对这个行业做一个整体的判断,同时结合期货和股票的走势对他做一个判断。当这个行业越做越细的时候,我们就不仅是从内部(他的股权、资产)来描述他的企业,我们还要从外部(税收、行业情况、政策走向)知道他的情况,风险防范能力,以及刚才提到的被上市公司收购的可能性。企业招聘这块我们可以抓取到企业招聘的职位。比如一个传统企业说它要转型了,要拿一笔钱去做什么事情。但是如果他在招聘上面并没有相关的人,也是我们可以考虑的一个风险点。


个人方面,我们主要侧重企业家所代表的企业信用。教育经历、家庭状况等都是可以关注的点,比如说运营商数据里面可以看到常出没地。我们知道他晚上常出没地以后就可以对接全国的房价数据库。我们目前差不多也爬了全国所有小区的房租和卖房信息,直接可以对房产进行估值。白天的常出没地也可以知道他可能的工作地点。他的消费记录、境外消费的笔数、消费的类别。如果有4s店的消费,我们还可以做一个小模型对他的车产进行估值。


另外就是社交大数据,比如大学生分期贷款的时候,我们服务的一家客户与趣分期合作的时候,趣分期就要求派一个人对宿舍里面进行实地的考察,那么他新客户的流失率就很高。因为要三到七天才能完成这个过程,很多就放弃了。但我们现在用一些教育部的数据首先对他进行身份验证,也有一些社交数据,经常出没的城市,发帖的频率,还有社交圈有没有学校的其他同学等等做一些辅助性的参考,就可以进行判断。


其他的比如失信黑名单,我们也爬取了500家P2P进行对比,当然以后可以借助其他平台共享。所以我们目前主要从六个方向服务金融行业。


第一个就是诚信开放平台。比如企业的基本信息,诉讼、招聘、工商等等都是免费的。第二就是企业征信报告。他更加深度一些,包括法人的对外投资、法人对外任职、法人信用状况。第三是个人信用评估,个人身份验证,以及其他维度的确认。精准定位服务使我们以后重点发展的对象,就是不满足于被动的查询而是回答主动的问题。大数据就是通过对历史行为进行学习来找一些行为特征,找到强关联的一些变量,然后预测未来我到底找什么样的人,或者观察到一些特征之后进行怎样的判断。另外一部分就是贷后异常行为监控。查询企业征信报告之后我们送一年的监控服务,如果他的股东发生变化、增资减资以及新闻的其他异常。任何可能的风险点我们都进行实时的推送。银行现在是直到出现风险再进行管理,我们希望通过大数据进行筛查预测出哪些可能会有问题。最后是定制化的风控模型。大家都知道,征信报告做得再好也只是辅助的作用,真正更有意义的数据是历史数据和线下的数据,我们希望结合内外数据做定制化的风控模型。每一个机构肯定都有定制化的风控模型的需求。我们现在在数据的清洗结构化、模型优化都会与合作伙伴进行优化。


(发言文字经过陈玮女士审核,部分内容做了删减。)


每日金融产品线
意见反馈
返回顶部