Home » 国际竞赛 » Details

BAT计算机视觉布局盘点

Category: 国际竞赛, 国际课程, 计算机国际竞赛 Date: 2019年8月19日上午11:57

计算机视觉被业内称为是人工智能在中国落地最顺利的技术。和语音相比，计算机视觉是一条更有技术深度，更多应用场景的好赛道；从目前的落地进展来看，移动互联网/安防领跑，零售/物流跟进，医疗/无人驾驶的商业化有待成熟。

同时，计算机视觉也是中国AI市场的最大组成部分。根据中国信通院2018年2月发布的报告数据，2017年，中国人工智能市场中计算机视觉占比37%，以80亿元的行业收入排名第一。从AI领域融资规模来看，根据CBInsight的统计，2016年中国计算机视觉公司融资总额占AI总体24%，远超出美国的7%。

作为互联网巨头，BAT更是利用自家强大的数据优势和丰富的内部应用场景，早早渗透进计算机视觉领域之中。无论是开放人脸识别算法、试点安防、机场、景区、金融、教育等人脸识别应用、线下门店的刷脸支付等智慧商业的应用、智慧城市等……巨头们已经翻开新篇章。

百度：AI是主菜

1999年，身在美国硅谷的李彦宏感受到了中国互联网正在发生着翻天覆地的变化，毅然决然地回国成立了百度公司。后来，正如李彦宏所讲“互联网是一道开胃菜，主菜就是人工智能”。百度开始发力人工智能领域。

2014年5月，吴恩达宣布加入百度，负责百度深度学习研究院工作，其中包括李彦宏最重视的百度大脑计划。在他的带领下，百度成为了全球为数不多的深度覆盖人工智能各类应用公司之一，涵盖了语音、神经语言编程、计算机视觉、机器学习和知识图谱等多领域专业技术。并创建了两个新的业务部门：自动驾驶业务部门以及DuerOS会话式计算平台。

百度全面转向人工智能，2017年1月，前微软全球执行副总裁陆奇空降百度，担任了百度总裁兼首席运营官。陆奇上任后，推进了六项举措：

（1）裁撤百度移动医疗事业部；

（2）全资收购渡鸦科技；

（3）成立度秘事业部加码人机交互；

（4）合并自驾部门；

（5）加紧风投团队落地；

（6）投资蔚来汽车；

正如陆奇所说，百度正在为自己积累数年的人工智能寻找更多的场景落地，并且通过场景和产品找到商业模式。

百度人工智能布局生态是基于百度大脑，百度大脑是一整套的核心能力和核心算法，将语音识别、图像识别、视频识别、自然语言处理、大数据、用户画像等种种核心能力组装在一起，给同行业的创业者、创新者赋能。DuerOS是百度AI战略的重要布局，通过API、SDK为参与者赋能。

计算机视觉作为人工智能领域重要版块，2017年4月，百度全资收购美国科技公司xPerception。这是一家专注于机器视觉软硬件解决方案的科技公司，面向机器人、AR/VR、智能导盲等行业客户提供以立体惯性相机为核心的机器视觉软硬件产品。

该收购可能与百度试图加强视觉感知领域的软硬件能力有关，而这对百度在AR、自动驾驶等核心业务方面都将是重要协同补充。这是百度继全资收购渡鸦科技后，陆奇上任以来在AI领域的又一重要收购。

百度方面表示，十分看重该公司在机器视觉领域开创性的研究和国际一流的软硬件成果，此次收购后，xPerception核心团队都将加入百度研究院，继续致力于其核心技术惯性视觉定位与构图（Visual Inertial SLAM）的研发，加速包括AR、自动驾驶、机器人在内的百度人工智能业务矩阵的产业化。

时至2018年，百度在计算机视觉技术上已然有了新突破，正式宣布开放人体分析技术。至此，百度计算机视觉技术已全线开放，包括人脸识别、文字识别（OCR）、图像审核、图像识别&图像搜索5大类别、58项基础能力，且有近20万开发者在使用百度的计算机视觉能力。百度AI技术生态部技术经理谢永康介绍，百度计算机视觉技术的全线开放，就是为了帮助开发者和合作伙伴更好地享用AI，助其成功。

百度人体分析技术具备人体关键点识别、人体属性分析、人流量统计、人像分割、手势识别和驾驶行为分析6大基础能力，可满足多个场景的应用需求。这些能力可为安防监控提供人流监测和行为识别；在智慧零售场景，针对客群属性画像、顾客轨迹等做出相关分析；在体育、娱乐互动方面，通过人体识别可产生更多创新应用；甚至可以通过垂直场景能力对驾驶员行为和乘客进行监测分析，降低酒后驾车、超载、疲劳驾驶等多种危险驾驶行为，更好地保障司机与乘客安全。

为了满足特定场景需要，人体分析配合人脸识别可以产生化学反应，打造出更多可能性。比如，零售场景可以实现会员识别与非会员客流分析，在安防监控应用上也可以通过身份识别、行为识别等方式为人们筑起更高的“安全之墙”。

除此之外，备受关注的落地应用——百度自动驾驶，经过多年技术研发投入也取得了突破性进展：从2017年4月，随着Apollo的发布，百度的自动驾驶走上“正轨”；进入2018年，随着各地陆续放开自动驾驶路测资格，百度收获颇丰。3月拿下北京、福建(平潭县)首批路测牌照，4月又获得了重庆的牌照。2018年的百度AI开发者大会和百度世界大会，李彦宏亲自为Apollo站台，让外界看到了Apollo的发展速度。再到今年百度AI开发者大会上推出Apollo5.0版本，再次向公众证明了百度的技术实力。截至目前，百度已经开启了中国首条L4级自动驾驶乘用车前装产线的下线投产，并获得了总数超过100张自动驾驶测试牌照，其中最高技术等级、最高标准和测试场景最难的T4自动驾驶路测牌照的获得，更是意味着百度Apollo的自动驾驶车辆已经具备了在复杂城市道理进行自动驾驶的能力。

阿里巴巴：信仰技术

提及阿里巴巴，在中国互联网界巨头中，或被认为是技术实力最弱的一家公司。实则不然，正如马云所言，“我不懂技术，但我们尊重技术，我们信仰技术。”

早在2017年10月11日，阿里巴巴宣布成立全球研究院，从此踏上了科技的征途。

阿里巴巴达摩院（The Academy for Discovery, Adventure, Momentum and Outlook，Alibaba DAMO Academy）是一家致力于探索科技未知，以人类愿景为驱动力的研究院，是阿里在全球多点设立的科研机构，立足基础科学、颠覆性技术和应用技术的研究。其涵盖量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、人机自然交互、芯片技术、传感器技术、嵌入式系统等，涵盖机器智能、智联网、金融科技等多个产业领域。

不久之前，中国电商巨头阿里巴巴收购了以色列AR创企Infinity AR，其团队加入了阿里巴巴的以色列机器视觉计算实验室。

InfinityAR成立于2013年，总部位于特拉维夫大都市区的Ramat Gan，开发增强现实软件。Kushnir介绍，2016年，该公司从阿里巴巴和日本娱乐及IT公司Sun Corporation Ltd.筹集了1800万美元的投资。迄今为止，该公司已筹集了2500万美元。

Infinity AR 的愿景是建立一个全新的数字世界，让人们能自然地在物理环境中与增强现实 (AR) 内容互动。使用基本的廉价的简易立体摄像头，InfinityAR的技术可将任何设备转换为内容增强平台，允许用户使用自然的手部动作，直观地与物理环境中的增强内容互动。

阿里巴巴的以色列研发中心是阿里达摩院的一部分，目前在全世界还有7处这样的研发中心。以色列研发中心由Technion的Lhi Zelnik-Manor教授领导，注重发展计算机视觉、人工智能和机器学习。

目前，达摩院成立已快两年，在机器视觉领域，机器智能技术实验室在图像搜索、大规模图像识别、视频分析、线下视觉智能等领域都有所建树。其中，图像搜索领域，阿里AI的向量引擎比Facebook快6倍。

机器智能技术实验室在6月份刚刚结束的WebVision学术活动中，阿里AI以82.54%的识别准确率，击败了全世界150多支参赛队伍，获得冠军。机器智能技术实验室称，阿里AI目前可以识别超过100万种物理实体。

WebVison是目前图像识别领域最权威的学术活动之一，专注于物体识别，被誉为接棒ImageNet的大规模图像识别学术活动。7月，在CVPR2019举办的LPIRC（低功耗图像识别挑战赛）中，阿里AI获得在线图像分类任务第一名。在挑战赛使用的训练数据集上，阿里AI实现了67.4%的分类精度，比官方提供的基准线高3.5%。

腾讯：业务场景结合

在人工智能产业飞速发展的时代，腾讯也吹响了AI的号角。2016年，腾讯成立了AI Lab实验室，并发布AI即服务的智能云战略产品，腾讯将人工智能布局在计算机视觉、自然语言处理、语音识别的三大领域。腾讯在人工智能领域采取了自身研发与战略投资齐头并进的方式，延续以往的打法：做连接。比如腾讯小微，就是用来辅助现有的产品和业务。战略投资方面，主要是技术上的合作和医疗领域的布局。

在腾讯 AI Lab 官网上，列出了四个研究领域：计算机视觉，语音识别，自然语言处理和机器学习。这四方面的技术将支撑 AI Lab 朝上述研究方向行进。与百度和阿里不同，AI Lab 研究方向则注重与腾讯的业务场景相结合。比如腾讯在游戏方面有优势，而游戏在目前很多 AI 研究中都扮演着重要角色，因为游戏产生的大量模拟数据可以用来开发 AI 能力，而其中的算法还可以沉淀下来，放到实际中去。

早在 AI Lab 成立前，腾讯已有优图实验室、What Lab、微信北京研发中心、智能计算与搜索实验室四个人工智能相关的研发机构。AI Lab 成立后不久，又成立了西雅图 AI 实验室。

计算机视觉是人工智能最重要的分支之一，在人工智能的发展中占据关键地位。腾讯高级执行副总裁汤道生认为，如果我们在计算机视觉领域取得重要突破，或将推动人工智能迎来质变。

腾讯优图是腾讯人工智能技术的支柱之一，创立于2012年，专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地。团队成员将近百人，大都是来自于清华、北大、中科院、上海交大、浙大等顶级院校的博士、硕士。自成立起来，腾讯优图一直秉承“技术与场景深度融合”的发展理念，除了在QQ、QQ空间等腾讯自有的数十条产品线中落地，还成功为微众银行、福建公安厅、顺丰、中国联通、每日优鲜、华星光电、中国国南方电网等输出AI能力。目前，腾讯优图的技术已经广泛应用在医疗、零售、工业、文化等领域。

2018年，汤道生宣布将优图实验室升级为腾讯计算机视觉研发中心，持续加码计算机视觉技术的研发投入。未来，腾讯还会进一步联合全球产、学、研各方力量，持续推动计算机视觉技术的发展。同时，优图取得的技术成果也会通过腾讯云平台开放给上下游的合作伙伴。

腾讯副总裁梁柱等代表腾讯优图与美国科学促进会官方刊物《科学》（Science）系列期刊进行战略合作签约，双方将达成长期战略合作伙伴关系，共享在计算机视觉领域的资源和信息，通过产学研之间的无障碍合作，一起推动计算机视觉技术的发展。

值得一提的是，智慧交通同样也是腾讯AI的落地重点。腾讯“智慧出行”目前已经形成了“四横两纵一中台”的业务矩阵。“智慧出行”作为腾讯输出的整体解决方案，覆盖自主出行、共享出行、公共出行场景。四横指的是四个业务矩阵，包括腾讯车联、腾讯自动驾驶、腾讯位置服务，腾讯乘车码；两纵是指腾讯内容平台和安全保障系统。而腾讯AI和腾讯云作为中台，为业务矩阵提供底层保障。

计算机视觉研究的演变，从最初的图像处理、立体视觉与三维重建、物体检测和识别，到光度视觉、几何视觉和语义视觉，到现在的深度学习打遍天下。而各大场景应用也遍地开花，计算机视觉这条赛道上，国内独角兽企业间互相角力，BAT巨头也纷纷入局，未来，计算机视觉行业又是否会面临重新洗牌或推倒重来？2019年，拭目以待。