让人人都能使用 AI

image

本文是作者在2018年9月25日众智汇社群分享的记录。由@L 记录整理。

image

作者常雷博士,偶数科技创始人兼CEO。北京大学计算机系博士,曾任EMC高级研究员、EMC/Pivotal研发部总监,长期专注于AI和大数据领域。

Apache HAWQ数据库顶级项目创始人,中国大数据产业生态联盟专家,中国人工智能百人专家,2017年入选美国著名商业杂志《快公司》“中国商业最具创意人物100”榜单。

曾在国内外顶级数据管理期刊和会议(如SIGMOD等)发表数篇论文,拥有多项国际专利。

image

成为AI创业者

结合关系数据库和Hadoop

我是2008年从北京大学博士毕业的,专业方向是数据库。在博士期间主要做的是数据库、数据仓库、数据挖掘和机器学习的研究工作。

毕业之后我加入了EMC。当时EMC刚开始在中国建立研发中心,而大数据(Big Data)则刚刚开始兴起。我入职后主要做大数据和机器学习相关的工作。

到了2010年左右,Hadoop已经在中美非常流行了,许多企业开始尝试用Hadoop存储、处理大量数据。

Hadoop可扩展性强,但是性能非常差;传统的数据库关系数据库读写查询速度很快,但是可扩展性比较差。所以当时我就想:这两个东西是不是可以结合起来?

为了验证想法,就做了一个原型系统,结合了关系数据库和HDFS。这个系统发布了alpha版,并在沃尔玛进行了试用,反馈非常不错。

开源HAWQ,成为Apache顶级项目

之后我们对原型进行了产品化,起名为HAWQ。HAWQ源自英文的HAWK(鹰),把K改成了Q。

image

2013年,HAWQ1.0发布,并在全球推广。此后的2年里,很多世界500强公司都已经开始使用。

2015年底,我们把HAWQ开源给了Apache ——大家知道Apache 是世界上最著名的开源组织,很多大数据项目,比如Hadoop,Spark都是Apache孵化的。

开源在中国的发展相对滞后,开源项目还是比较少的。在数据库领域,HAWQ是中国团队贡献的第一个Apache顶级项目。

把HAWQ作为开源给Apache,初衷是为大数据生态做贡献,希望整个生态系统会有好的发展。

除了开源,HAWQ团队在学术领域同样有所贡献,我们的研究成果在SIGMOD发表——世界范围内,在数据库这个领域有三大顶级技术会议,第一个就是SIGMOD,第二是VLDB,第三是ICDE。

走上创业的征途

在取得了这些成绩之后,2016年底,HAWQ团队从原公司独立出来,创立了偶数科技,专注人工智能和数据技术。

image

偶数科技在2017年先后拿到了两轮融资。2018年的2月份,又加入了微软加速器。

申请微软加速器的过程经过层层选拔,和全球1000多家公司竞争,最终我们得以入选,最终同期总共只有15个公司入选。

坊间传言进入微软加速器也是比进哈佛的难度还高。我们得以入选,也体现了偶数科技在人工智能和数据平台这一块的技术和基础。

AI系统层级

一个完整的AI解决方案,包含下列4个层次:

1. AI硬件层

目前位于这一层的企业很多,包括做CPU、GPU、FPGA,以及专用机器学习的硬件,和传感器等等硬件设备的公司。

硬件是程序运行的基础,具体到AI领域,硬件对于算法、框架的性能提升有很大帮助。

2. 数据平台层

很多人把数据平台和人工智能完全都离开。但是我认为数据平台也是整个AI解决方案的一部分。

毕竟,任何人工智能的操作都是在数据的基础上进行的。人工智能的平台也是基于数据平台之上的。

数据平台又可以分为下列几个部分:

1) 数据仓库

数据仓库负责存储查询和处理结构化数据。

无论是结构化数据、半结构化数据,还是非结构化数据,要做分析的时候,基本95%以上的数据都要转化成结构化的。

因此,数据仓库是数据平台里最重要的一个部分。

2) 流处理

数据产生的速度越来越快,许多数据处理,甚至更进一步的分析都需要实时进行,因此对于流处理的需求日益提高。

3) 图数据管理

现阶段的知识图谱技术,是图数据管理的典型。

知识图谱在许多领域,例如金融反欺诈,犯罪嫌疑人侧写,运动轨迹分析等等,都有所应用。

而知识图谱的底层,则是图数据库。

4) 数据治理

想做一个好的一个项目,数据质量和源数据管理非常重要。

开发者需要把来自多个数据源里的数据整合起来,数据的质量有所保障,才能保证上面的人工智能算法准确率会比较高。

image

3. 基础AI技术层

AI领域最传统的基于规则判断的控制技术,已经被证明性能很不好,准确率也有很多的问题。

目前应用中,最基础AI技术是机器学习。近年来发展迅速的深度学习是机器学习的子领域。

4. 行业应用层

虽然各个行业都可以应用AI技术,不过目前AI应用较多的主要有:金融、安防、医疗、工业、家居,以及机器人、自动驾驶等行业。

尤其是AI+金融和AI+安防,这两个行业数据量大,数据结构、类型丰富,应用也比较刚性。

比如:反洗钱这个需求。如何根据一个账户的交易行为,判断它是一个洗钱账户?在交易上,特别是洗钱交易有很多这种固定的模式,所以我们可以认为它是一个模式识别问题。

在安防领域也有类似的需求,公安接到了十个案件,里面可能有两个案件是同一伙人做的。但是如何把这两个案件找出来,归并成同一个案件?这也是一个模式识别的问题。

AI在这些领域,有非常大的贡献。

AI公司类别

目前阶段,以AI技术立命的商业企业,可以分为下列几类:

1. AI硬件公司

(1)做CPU、GPU等AI硬件的公司。代表企业比如英特尔。

(2)提供云服务的公司,比如亚马逊,阿里云,华为云等。

(3)数据技术相关的公司,比如Hadoop、Spark,以及传统的数据仓库公司Oracle等。

2. 计算机视觉公司 & 语音公司

以人脸识别、语音识别等为主营业务的公司,例如旷世、科大讯飞等等。

3. 自然语言处理公司

自然语言处理的公司有好几大类,其中有一类专门做客服,比如三角兽,微软也做了很多相关工作。

image

4. 机器学习平台公司

上层的应用都是基于底层技术的,机器学习是目前的主流AI技术。机器学习平台公司开发机器学习平台,为其他公司提供各种自动化的算法、模型、神经网络等。

偶数科技可以归属到此类,我们开发一款名为LittleBoy的人工智能平台。

AI对传统对行业的渗入

AI是如何渗透进传统行业的呢?我们来看看例子:

信用评分、风险控制是金融领域的刚需也是核心业务内容之一,早期这些业务是用基于规则的方法实现的。

后来开始引入机器学习模型来构建打分卡。

从2015年开始,世界上各大金融公司都开始尝试引入深度学习。

美国三大征信局:Experian、Equifax,和Transunion。前两家在2017年选择和AI创业公司合作,为无信用记录人群进行贷款风险评估。

Transunion则在2018年新发布了基于神经网络的信用评分系统。

AI在金融领域在慢慢的渗透,用技术来做信用评分以及反欺诈已经成了当前的潮流。

Amazon(亚马逊)虽然是目前世界最大的云供应商,但同时它也是一家电商,它目前也在利用电子商务账户交易信息,来做小额信贷。

传统行业面临的AI挑战

在将AI应用到金融上这一点,国内相对还比较落后。像同盾等征信公司,基本上还是以基于规则的方式做信用评分。

大家当然是不甘落后的,都在探索怎么把人工智能用金融领域里。在探索的过程中,也遇到了很多挑战——

image

a) 传统行业的业务公司在试图应用AI技术的时候发现:

b) 对于AI创业企业而言,想让AI技术真的创造价值,必须熟悉业务领域的专业知识,比如做反洗钱,就要了解反洗钱是怎么回事情,在原有业务中是怎么运作的等等。

因此需要既掌握AI技术,又掌握业务知识的人才——这样的人才非常少,也非常贵。

传统行业企业在试图应用AI技术时非常痛苦,因为它们原有的业务人员和IT人员都无法完成这个任务。

让AI人人可用

计算机刚出现的时候,是大型机,只有大企业才有经济实力承担购买和使用的费用。

但是后来经过几十年的发展,出现了小型机、PC、Laptop,慢慢手机也可以当小电脑使用了。如今,每个人都能用上计算机了。

人工智能也是一样。AI现在处于对应于计算机大型机的时代,现阶段只有大公司才有实力雇佣高端专业人才来使用它。

虽然现在如此,我们却相信AI的未来一定也像今天的计算机一样,是普通人很简单的就能学会,老百姓人人都能用起来的。

比如:某公司HR经过半小时培训,开发了一款自动筛选简历的AI工具,自动判断海量应聘的简历是否符合公司要求——这样的情形是不是我们希望出现的?

image

要达到如此的易用,AI技术需要解决两个问题:易用和性能。

易用是指AI工具应该简单到让普通人很容易上手。

性能则是说,要让用户有好的体验,就需要尽量达到实时性。

如果做数据分析,你肯定不希望发送一个SQL语句后,等2个小时数据库程序才给你返回吧。

早年的互联网(八九十年代)网速非常慢。打开一个网页都要等好久,当时上网是一件非常痛苦的事情。

随着网速的提升,体验也逐渐不一样了。能够立刻得到答复,这一点是交互式应用的基础。

无论人工智能还是数据分析,要具备交互性,就要先解决性能问题。

所以说我们做的这个事情基本上都是想让普通老百姓,包括数据科学家能够的有很好的体验来做人工智能。

让机器学习全生命周期“拖拽可得”的AI平台

如果有一个平台,真的可以让普通老百姓都能够应用AI技术,那它应该是什么样子的呢?按我们的构想,它应该具备以下特点:

image

1. 底层基于云平台。

云计算虚拟化、统一管理、随处可见的特性,使得它已经广泛应用于各类企业的IT产品和服务。我们的AI平台既然追求简单易用,自然不应该让用户遭受安装系统和各种工具的烦恼,云计算是一个天然的好训责。

2. 底层之上,有内置的数据管理系统(数据库)作为支持。

所有的机器学习、深度学习都是基于数据的,而且可能需要的训练集相当庞大。为了让非专业用户可以轻易的传输、处理数据,应当有内置的数据管理系统,而不是要求用户自己再去搭建数据库。

3. 核心层是零门槛的机器学习建模平台。

因为目标用户是普通人/小白/初学者/零基础的用户,因此,不应该将大量的参数和公式暴露给他们,而是把机器学习模型封装成黑盒,只要有输入,黑盒就能给出一个输出。

举个例子:洗钱应用的输入是所有账户的交易数据。比如今天这个账户一共有500笔转账,每笔转账了1万块钱,这是输入数据。经过黑盒子反洗钱模型之后,输出结果:这个账户是洗钱账户(或者不是洗钱账户)的还是不洗钱的。有了输入->黑盒->输出,就构成了一个最基础的AI系统。

4. 多类兼容的I/O模块。

AI系统可能应用于各种领域,因此,需要接受各种不同格式、类型的输入,例如:语音信号(语音识别),传感器数据(工业应用),GPS数据(车联网)等等。这些数据平台都要能够处理。

输出方面,应该可以直接输出简单的结构化数据。也应该能够语音等类型的数据(支持交互式问答系统)。

5. 基于拖拽的"积木式"用户界面。

种种功能就像一块块小积木一样堆在那里,需要哪个,就拖过来用,不需要了,就拽走扔掉——可以随心所欲,任意组合。

这样的系统太理想了,真的能够出现在现实中吗?

向着“人人可用的AI”努力的“小男孩”

偶数科技的LittleBoy平台,就是一个正在行进在理想路上的小男孩。

LittleBoy很像是一个数据科学家。

数据科学家是怎么工作的呢?一般是这样的:

比如输入是一个关系数据库的大表,里面可能包含1000个column,这些column都可以是这份数据的特征。

模型的类型有很多,算法的类型有很多,模型参数的组合则更多——参数组合可能有几百万甚至上千万种。

对于数据科学家而言,要花费大量时间在这里,通过多次的迭代,达到优化的结果。

image

LittleBoy所作的,就是把数据科学家的这些工作自动化——

【1】特征提取

在使用传统的机器学习系统时,数据科学家要手动选择特征。如果本来有1000个原始特征,数据科学家要自己去尝试其中那些是有效特征,如何组合最能够优化结果。

而这1000个原始特征交给LittleBoy,它会自动做数据预处理包括填空值、正则化等等,然后自动选取有效特征。

【2】模型训练

选取完特征,LittleBoy还会自动进行模型训练——自动选择算法、模型类型,自动调参,迭代训练,根据测试集来做评估,最终得出模型。

【3】模型发布

此外,LittleBoy能够将训练好的模型自动发布。

训练好模型就是为了使用的,需要有专门的系统来读取模型,运行模型,让模型可以预测新的数据。

LittleBoy一旦训练好模型,用户只需要点一下发布按钮,这个模型就会自动生成一个服务。其他人或者程序就可以通过发送REST API来调用它。

【4】以OushuDB为基础的数据管理

我们公司的OushuDB也是解决方案中的重要一环。

它提供数据的统计分析和查询功能。而且与关系数据库和Hadoop系统都是无缝集成的。我们称为新一代数据仓库。

虽然与Hadoop无缝接合,但效率却相对Hadoop有指数级的提升——OushuDB基于SIMD(单指令流多数据流)指令开发了一个新的执行器。在TBCH的标准测试数据集上执行查询操作,比Spark快了几十倍——做到这一点这是非常困难的。

【5】基于云平台

LittleBoy既可以部署在企业私有云上,又有部署在公有云上的公共版本。

以上特点,使得LittleBoy真正达到了零门槛AI系统的水平。

我们去做过实验,找了很多文科背景的学生。他们接受了15分钟到半个小时的培训后,给他们信用卡交易数据,就能做一个简单的信用卡反欺诈模型了!

AI+金融案例分析——反洗钱AI解决方案

下面来分享一个偶数科技做过的真实案例:为某商业银行开发反洗钱AI解决方案。

image

这家银行拥有约1000万客户,之前用的反洗钱系统是基于规则的,每天输入当日所有的客户交易记录后,大概能报告出200个可能的洗钱账户。

但是再经过进一步的人工排查就会发现,这200个账户里,真正洗钱的账户可能只占1%。也就是说原有系统的准确率非常低。

这当然和规则系统的维护难度也有关,如果规则到了几百条,阅读规则的人就很难找出从头到尾的逻辑了,很可能维护人员自己都不知道规则到底规定了什么。

为了让这样一个低准确率的系统工作,银行要投入一个大概20人的团队,专门来对系统自动发现的账户进行二次判定。这还只是我们这家客户,如果是大型银行,那么这个人工团队有可能要三五百人。

我们利用LittleBoy给银行开发了一个反洗钱模型,这个模型平均每天只给报告约三个可疑的交易账户,准确率非常高,达到了90%以上。

在提供这个查准率极高的模型同时,我们还提供了一个查全率接近100%,而查准率也超过50%的模型。

客户可以参考两个模型的结果,兼顾查准和查全。这样,银行在保证业务的同时,需要投入的人力大大缩减了。

image

Q1:现在很多大公司在开发AI平台,偶数的优势是什么?

A1:首先,自动机器学习这一块大家都处于早期发展阶段,即使是一线互联网公司等大企业,在这方面并无绝对优势。

而且,我们做的是针对金融和公安领域的,基于高结构化数据的机器学习。我们所做的机器学习自始至终是结合着应用场景在做的。

而国外大公司比如Google和微软,虽然也做机器学习平台,确实在做通用平台,和具体的行业、业务没有绑定关系。

我们还有一个有点就是有自己的数据仓库——OushuDB,数据仓库是我们独立研发的,在功能和性能上都全面把控。尤其在性能上,可以做到极致。这是我们独特的优势。


Q2:在使用Hadoop的过程当中踩过哪些坑?

A2:踩过的Hadoop的坑挺多的。

Hadoop整个生态系统比较复杂。真的想用好所有的组件非常困难。还有,往往很多组件功能是重叠的,其中却没有一个真的把功能做透,性能做高。这是大家用的时候最痛苦的地方。

我的建议是:Hadoop是一个很好的系统,但可能需要精挑细选一些组件来用,最好不要所有的组件全上——这是我们看到的很多Hadoop客户最常犯的一个错误——那样的话运维成本包括学习成本都会非常高。


Q3:LittleBoy和TensorFlow比有什么样不同和优势?

A3:这两个是不同的东西。LittleBoy的定位是自动化机器学习系统,而TensorFlow的定位是深度学习框架。

LittleBoy极大地简化了用户建模的过程,可以傻瓜式操作,零编程完成建模。

TensorFlow只是提供一个机器学习框架,你要训练神经网络,还得自己写代码。


Q4:创业企业相关税收政策的变更,对偶数科技有影响吗?

A4:对我们基本没有影响,因为偶数科技一直是遵守政策做事情的。

当然,对整个创业市场会有一定的影响,因为现在创业市场并不是那么规范。但长期来说应该影响不大。

小编直通车:扫描下列二维码

image

“众智汇”愿景

尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的

往期线上分享实例

大数据在舆情服务领域的应用

大数据在环保中的应用

大数据在工业界的应用

独角兽CTO是怎么炼成的

破解性别歧视,助力职业发展

又见一片星空——从外企技术管理者到公益组织创始人

从实习生到CEO——复盘我的职场进阶之路

阿联酋IT行业现状

如何成为人工智能(AI)产品经理

美国大学数据科学(Data Science)教育实践

互联网创业的苦与痛

微信公众号,真的有必要运营吗?

成全自己的热爱与疯狂——从医生到创业者+动漫创作者,梦想使然

从五百强到初创公司:生存指南+创业百态

入行AI,从职场社交开始

程序员的前10年——职业发展建议

入行AI做数据是怎么一回事?

高薪岗位是怎么炼成的

我,女生,程序员

入行数据分析,十个月工资翻一倍

三个月,从化工实验员到数据分析师

初心与成长——从零开始创建公益组织

欢迎扫面下列二维码关注“悦思悦读”公众微信号

image


为您推荐了相关的技术文章:

  1. 漏洞检测的那些事儿 - 从理论到实战
  2. 去哪儿自动化测试框架Qunit中的零侵入切面技术应用及分布式运行平台 【携程技术中心】
  3. HTTP安全请求头 - ThreatHunter
  4. 分享老农经验-外贸网站源码站库的简单拿法
  5. 京东618:ReactNative框架在京东无线端的实践

原文链接: toutiao.io