手机版 欢迎访问伴佳68(www.banjia68.com)网站
方亮,大数据和云计算专家,美国印第安纳大学计算机科学博士,十年硅谷企业软件和互联网工程架构及管理经验,曾在BEA、思科、Lending Club等公司工作,2015年回国担任凡普金科CTO至今。以“技术驱动金融”为使命,打造敏捷化服务化团队及大数据和金融平台产品,以不到两倍的人员增长支撑凡普十倍的业务增长,平台产品也赋能金融、电商等领域的60多家客户。
2018年11月16日,由CTOA首席技术官领袖联盟、ITShare主办,熠韵商务咨询有限公司承办,“科技赋能 规范融合”主题的2018FinTech领袖峰会上。凡普金科CTO 方亮,带来精彩的主题演讲“大数据如何驱动金融科技”。
非常感谢CTOA的邀请,今天我想介绍一下千万级到亿级金融科技企业在我们发展当中建立大数据平台,AI平台的经验和教训。凡普金科是一家互联网金融,我们之前叫普惠金融,旗下爱钱进是产品的品牌。作为凡普金科4千万注册用户,到今天发展了五年了,我在硅谷工作了将近10年,2015年三年前来到凡普金科,当时叫普惠金融,2014年2015年互金行业蒸蒸日上加入洪流当中。我作为CTO,包括工程体系,包括团队服务化,然后大数据不可分割的一部分,这里分享一下过程。今天分享的PPT是一个Billion价值的,可能低一点,郭老师是万亿级的问题,怎么建立区块链。今天分享10亿级的问题,如何用大数据来驱动金融科技。年初正好行业出现动荡之前,我正好到欧美,也去做了一些调研,跟一些主要的公司包括向谷歌分享,算是那个时候分享的结果。其实也是基于这样的一些理念或者方法论来建立大数据AI的平台,可能跟大家见到的不太一样,我想这也是今天下午大家坐在这里的价值。
大数据如何驱动金融科技?大家想到更多的是一个,无脑的人工智能、机器学习、HADOOP、MapReduce、数据分析、黑客增长、大数据中心、数据仓库。大家看得非常眼熟,这些都是手段,是建立大数据驱动金融科技的一些充分非必要条件。作为凡普建立过程中这些都是必不可少的元素,我们工程师,架构师,产品经理做了大量的工作。我今天想要说,大数据驱动金融科技需要两个元素,一个平台、一个治理。
大数据,建立了很多各种各样的大数据的平台,我个人的见解,整个技术整合,大家要明白,为什么现在大数据的局面?跟架构师讨论,有点像工厂车间,车间摊满了各种各样的工具,这个车床,那个冲床,那个焊接的。大家可以想象,比如说HADOOP,卡夫卡,各种DB,流失、实时等等,摊了一地的机器,结果是什么呢?虽然大家很努力也很辛苦,一方面业务量很大,每个机器出问题的几率很高的,数据工程师,架构师们,你们像老师傅一样,到处调一调,这个机器坏了,调调这个参数,那儿崩了调一调。为什么会这样?大家没有想到,其实原先不是这样的,在大数据时代之前,大家想想我们从Oracle或者大家很常用的MySQL的时候,把之前更散乱的,基于文件式的数据处理系统统一整合了,只不过跑了20、30年以后,到了互联网时代,忽然发现我Oracle也出力不动了,结果看到各种渠去IOE,把整个数据库处理的原则。大家说不要这些,要打破它,这样出现了所谓NoSQL,你不要做数据处理或者不要做事务吗?其实还是要的,把原来整的小机器,变成一地散乱的机器在一个车间里。各个公司大数据中心数据平台都面临这样的局面。
就向大家看三国一样,从技术角度上来说分久必合合久必分,整个趋势上,整个大数据平台趋势合久必分的,最近涌现出很多相当不错的,自主产权整合的大数据技术,自己建立平台的理念上,虽然也许作为我们一家金融科技公司,没有这样足够的实力做特别底层的,但是即使用商业,但是从技术的理论上,我需要做整体考虑的,适应性数据,数据湖和数据仓库,其实到英国也是,大家不太提数据仓库了,现在基本上数据湖。另外一方面经常缺少的,数据治理。基于数据驱动策略的业务,很多老板,总想要把这个大数据做好了,数据业务就起来了,自然很好的风控了,自然就有很好的营销了,其实不是这样的,这是双向的。
数据认知和洞察能力。这一点是整个公司上下都需要不断增强的,如果你没有这样的认知和洞察能力,虽然我这一句话也空,其实你会发现,刚才顾老师讲的,这就是一堆没用的数据,统一数据源不用强调了,各个公司不管多么大集团,腾讯这样的,也希望说把数据源统一了。数据质量监控是治理范畴。大数据平台建设经常忽略的设计策略:适应性设计。Adaptive design,我们之前做数据仓库,或者做传统的金融,哪怕互联网,还有广告行业,最常做的计划时期的数据仓库,数据量很大,数据维度不高。看互联网的Fintech,包括我们之前,最近央行征信有所松动,其实大家明白,2015年回到中国的时候,作为互金行业,我们不可能拿Fintech做征信报告的,根本不可能拿到。中国互金行业怎么做报告,授权爬取作为数据源,然后跟三方合作,都是合法合规的。大家完全可以想像,我们整个数据维度非常高的,而且变化非常快,授权抓取的数据维度,各位做数据的,也知道人家所谓爬虫,会改版,会反爬,其实会给整个数据源本身带来很大的变化,你可以想象,比如说在这个基础上,做一个数据仓库,这件事情是做不到的,其实我到凡普第一个大数据中心就是这么解散的,这是血泪教训。
我们说互联网金融是面对一个非常不确定的底层的数据的状况,而且他场景所使用的风控维度不断变化的,必须要适应性的设计的理念,积极面对快速数据维度的变化,还有举个例子,一个数据仓库和大数据产品的区别,比如大英百科全书和Wikpedia,大英百科全书肯定需要很多编辑就像康熙字典,编上好几十年,汗牛充栋,把这个事情办下来。Wikpedia依靠我们所有人一个知识库的形式,把所有知识管理起来。这是数据仓库和大数据管理的区别。还有一个区别ETL需要一个个写的脚本,而不是我有一个平台化产品你可以制伏,你要怎么转换,业务方案你最明白的。
经常发现产品策略缺失,所有数据都是一样的吗?当然不是,比如程序里面9010,8010,其实绝大部分的数据都是没用的,可能是极少用到,80%到90%没什么用处的,你需要了解整个数据的热点来设计你的数据平台。包括你覆盖的场景,否则大家会面对所有的数据,就像刚才讲的数据湖,像一片数据的垃圾场,你没有办法的,需要很大的垃圾处理能力的。
刚才强调了全局规划的重要性,需要一个全局的规划,否则大家都只是在工厂里工作的一群老师傅,不停地调调机器,大家知道机器学习在不停地调机器,平台设计,这需要一个抽象的过程。我不是办一件事,我做一个大数据平台,比如说在凡普金科,我要支持的不仅仅爱钱进,包括各种贷款端,消费金融,车贷都需要支撑,这是一个平台的概念,不只是做一件事情。
第一个遇到的问题这么多指标、因子、参数、库表、关系怎,怎么找到我要的数据,这是上亿价值的问题。我告诉大家,因为很大程度上我们缺元数据管理和语义层的管理,原来主要目的是写大家可能工作太久了,无意识的接触。以前的关系数据,Oracle、MySQL,也有语义层和关系层。但是区别在于,原来主要目的是写,意思在应用程序,但是对于大数据来说,其实你的目的主要是读,去分析,因为你原来的意思是散落在或者消失在原来Java工程师程序里。
提到一个问题数据的可发现性至关重要的,刚才也讲了热力图的问题,80%的数据一再重复的,80%在做分析中的数据使用更注重可发现性,你的模型分析师们,包括业务分析师们,各种分析师们,数据分析师们,最常见的问题是说,我需要一个指标,在哪里找到呢?是不是需要再开发一遍呢?大家一想会想到数据字典什么的,但其实我想问问,哪一家有特别稳定的数据字典在那里?其实没有,数据字典试图解决数据可发现的问题。另外数据溯源问题,数据学院管理,存储了数据来龙去脉,不光合规安全性,都有这样的需要,比如说数据从哪里来,到哪里去,这个很常见,特别做风控这方面。其实元数据管理和语义层解决这样的问题。
第二个问题,还有数据质量这么差,没有办法做数据分析。各种分析们经常抱怨,80%、90%时间放在差的数据质量上,数据质量和验证方面我们是缺失的,数据质量的维度,我不一一念了,但是我相信绝大多数都没有做。整个数据质量是所有人的责任,包括开发/测试、DBA、数据工程师、业务分析师、模型分析师、算法工程师、数据科学家。大家可能意识不到我只是使用者,使用者其实就是生产者。
第三个问题同步数据对不上,大家很痛的点。我们大数据平台建设当中忽略了数据获取的能力。Data ingest,Ingest还不止数据获取的意思,是数据的供应包括采购,获取的方式,不管授权抓取还是通过采购,采购的策略是各种维度,容量、种类、速度什么样的,我们需要相应的策略,大家比较忽视,说到什么就什么。其实没有意识到,我们不只是做同步数据,或者抓取数据,做的是整个数据准备和预处理,其中可能包括离线、倒入、实时处理。回想下,如果我们有元数据定义的话,这才能使得以上这些成为可能,否则大家还是一盘散沙,还在大车间里,那边是大车间东北角在做数据爬取的,西北角做分析的,东南角做实时处理的,局面都是这样。
第四个问题经常遇到问题,新模型上线了,实际和预计结果差别很大,这也很常见哪里搞错了。模型设计师怪开发,肯定开发错了,怎么解决这个问题大数据开发是工程管理,CTO这里也很多,DevOps工作缺失的。简单说是数据和模型优先的原则,我写模型结果开发搞错了,我能不能只写一次呢?你既然是代码,有没有考虑CI/CD呢?如何让整个分析师使用数据在内融入工程交付的流程里?一般考虑不到的。
另外从治理角度,谈到对数据认知。Data Literacy 和Data Insight,数据使用者其实也是产生者,需要理解、洞察数据能力,定义和合规,公司里基于数据的决策和闭环回顾方法论,比如像黑客增长,全流程风控等这些如果没有的话,你说我建立好平台自然就有这些能力。这是不可能的。基于整合数据湖通过适应性设计打造的被治理的大数据平台。这个架构大家可能不太常看见过,但是结合整个治理理念的,Data Sources、Semantics、ingest、Data,insights、分析查询AI,上面可视化包括BI,包括关系和各业务线的数据,整体是这样的。
记者:凡普金融科技一直都在致力于金融科技的发展,能否为我们简单介绍团队目前实现了哪些创新?核心竞争力是什么?
方亮:凡普金科相对来说比较年轻,到今年五年多的时间,很多现在所有互联网金融公司都面临的一个棘手的问题。互联网金融和传统金融不同之处在于,一方面金融机构是比较固化的,有信贷审批流程,包括对央行征信的使用。对互联网金融而言,首先没有被授权使用一些具有官方的数据,所以我们在整个使用数据的环境和条件上比传统金融机构要差很多,必须要合法合规地获取,所有的数据都要被拿来去做风控的服务,包括后来贷后的这些资产管理。所以面临的挑战,肯定是远远大于传统的金融机构,包括银行。建立起整个大数据平台就像我今天介绍的,本身就是一个核心竞争力。使得我们能够对复杂多变的多维的这些用户的数据,进行分析和实时处理,提升风控模型,应对整个市场。中国市场的变化和环境变化非常快,包括各种欺诈的情况比较多,通过新的模型上线,能够灵活应对这些变化,提高资产的质量。
记者:大数据方面您分析了这些优势,那么从技术层面上,和整个环境上,您觉得大数据还有哪些上升的空间?
方亮:大数据努力的方向还是蛮多的。其实正因为到了互联网时代,现在可以说是后互联网时代,就是拿互联网数据做深加工,为金融服务。到深度的用户数据挖掘这个阶段,其实才面临着这样的挑战。之前在互联网前面数据比较少,互联网一开始很粗糙,基本上也没有好好挖掘数据价值。在后互联网时代,这个价值就非常大。一般的公司其实不是那么的成熟,应对不了这种复杂多变的多维的数据环境。然后分析、实时处理也不能很快地处理多维的用户数据,而我们在这方面一直在努力着,比同行业做得稍微好一些。
记者:结合目前的互联网金融背景,大家都说目前互联网金融正在过一个寒冬,您是如何看待互联网金融这一应用前景的?在经历这样一个行业洗牌后,您认为爱钱进改善和努力的方向有哪些?
方亮:一方面从广义地说,互联网金融,现在所谓的寒冬,我理解的是其实是针对于P2P,或者说网贷细分的一个行业。作为互联网金融本身,互联网作为一个不管是获客还是数据的手段,可能以后也不会说互联网金融,银行也用互联网,互联网也会做金融相关的产品,所以这个市场是属于各行各业的,当然从P2P包括网贷的细分行业来说,其实我们爱钱进一直是渴望着监管的尽早落地。一方面,需要一个平台。另一方面,需要治理。作为P2P本身就像一个撮合借款端和理财端用户的一个平台,我们其实也需要相关行业的治理,纳入监管也能使这个行业得到法律相应的保护,从而能够得到更合规、价值更高的征信数据。这种效果对贷后、催收也有一定影响。比如说对老赖的一些约束,纳入征信体系,实际上是对行业很好的保护。一年总是有四季,当春天到来的时候,不健康的和害虫就冻死了,整个行业环境会更干净。过去很多打着P2P旗号,网贷名号的,确实是不合规,或者是有骗子嫌疑的公司。所以我们其实是非常积极地看待这个冬天的。也是希望在这个阶段能够打好内功,建造好大数据平台这样的内功,迎接春天的到来。
2019年1月10-11日,ITShare、CTOA首席技术官领袖联盟、FMCG快消品行业CIO联盟、地产创新实验室联合各大权威机构协会、媒体的助力,举办“数智创享未来”盛典。届时,嘉宾们将近距离接触互联网最顶尖科技成果,解密如何加速布局新技术,与优秀技术领袖一同带动企业转型升级,推动产业技术快速向前健康发展。
正所谓“江山代有才人出,各领风骚数百年。”自首届年度技术领袖评选活动开展以来,大批优秀技术领袖管理人才层出不穷。本次“第二届CTDC年度技术领袖评选活动”在ITShare、CTOA首席技术官领袖联盟、FMCG快消品行业CIO联盟、地产创新实验室联合各大权威机构协会、媒体的助力下正式启动征集。以“战略力、领导力、创新力、影响力、贡献力”五大维度为评估体系,面向CTO、CIO、技术高管负责人等高端技术领袖人群,覆盖互联网电商、零售电商、物流、金融、旅游、在线教育、游戏、智能家居、社交等各行各业,最终评选出优秀技术领袖。
banjia68.com 版权所有 | 备案号:鲁ICP备2021038504号-2