奥博财经,财务咨询创变者
广义人工智能指研究计算机模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等),以及从环境中获取感知并执行行动的智能体的描述和构建;相对狭义的人工智能包括人工智能产业(包含技术、算法、应用等多方面的价值体系)、人工智能技术(包括凡是使用机器帮助、代替甚至部分超越人类现实认知、识别、分析、决策等功能)。
第一次AI浪潮:20世纪50年代到70年代初,人们认为如果能赋予机器逻辑推理能力,机器就能具有智能,人工智能研究处于“推理期”。
第二次AI浪潮:当人们意识到人类之所以能够判断、决策,除了推理能力外,还需要知识。人工智能在20世纪70年代进入了“知识期”,大量专家系统在此时诞生。随着研究向前进展,专家发现人类知识无穷无尽,且有些知识本身难以总结后交给计算机,于是一些学者诞生了将知识学习能力赋予计算机本身的想法。发展到20世纪80年代,机器学习真正成为一个独立的学科领域、相关技术层出不穷,深度学习模型以及AlphaGo增强学习的雏形-感知器-均在这个阶段得以发明。随后由于早期的系统效果的不理想,美国、英国相继缩减经费支持,人工智能进入低谷。80 年代初期,人工智能逐渐成为产业,但又由于5代计算机的失败再一次进低谷。
第三次AI浪潮:2010年后,相继在语音识别、计算机视觉领域取得重大进展,围绕语音、图像等人工智能技术的创业大量涌现,从量变实现质变。
伴随政策支持的逐步深入,中国政府将有力推动新一代人工智能技术的产业化与集成应用,促进新一代人工智能产业发展,推动制造强国和网络强国建设,助力实体经济转型升级,构筑我国人工智能发展的先发优势。此外,相比美国和英国,中国对人工智能的支持力度虽更大,但较少关注人工智能的道德伦理问题、是否在开发对社会切实有益的人工智能以及应当最小化技术进步所带来的威胁问题。
投融资方面,2012年以来中国AI领域总融资额达4740亿元。2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。到2015年,国内迎来人工智能创业热潮,独角兽不断涌现,融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件,总融资额达4740亿元,人工智能成为最炙手可热的融资热点,百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。
2018年以来行业内“二八分化”现象愈发凸显。近年来AI领域投资也进入到中后期,留给初创企业的窗口已经很小,其中“AI四小龙”商汤科技、旷视科技、依图科技、云从科技2018年合计就拿到200多亿元融资,占到2018年中国AI领域融资总额的1/6。头部企业融资轮次已进行到D轮,且在短期内有上市计划,估值超过百亿。
近年来,AI行业“落地为王”。其原因在于单单AI本身并没有真正意义上的价值,AI真正的价值是为安防、医疗、金融等传统行业赋能。因此,AI行业的核心要义便是在实体经济中去寻找相应的落地场景,并使AI技术与传统行业的经营模式、业务流程发生实质性的融合与突变,最后使其在各方面有着突破性进展。随着语音语意识别、视觉识别等技术的不断成熟,AI技术在智能安防、智能机器人以及智能驾驶等领域进入规模化应用阶段。
市场规模方面,预计2019年中国AI行业的市场规模将达到760亿人民币。2020年中国人工智能行业将进入腾飞阶段,市场规模增速进一步提高。
产业发展方面,人工智能相关企业总数超过2000家,以应用层企业为主。
2018年,人工智能相关公司总数达2167家。人工智能企业可通过产业链来划分为基础层、技术层和应用层。基础层公司以研发AI芯片、计算机语言、算法架构为主;技术层公司以研发语音识别、自然语言处理、计算机视觉为主;应用层以研发AI在各种行业的落地以及AI技术的集成为主。根据中国新一代人工智能发展战略研究院调研数据,中国人工智能企业多集中在应用层,技术层和基础层企业占比相对较小;从技术类型分布来看,涉及机器学习、大数据、云计算和机器人技术的公司较多,整体分布相对均匀。
人工智能的产业链从上游至下游可分为基础层、技术层与应用层。
基础层由软件(算法模型)与关键硬件(AI芯片、传感器)两部分构成。传感器负责收集数据,AI芯片(GPU,FPGA,NPU等)负责运算,算法模型负责训练数据。
技术层主要由感知类技术和其他深度学习应用构成。感知技术主要用于让机器完成对外部世界的探测,即看懂、听懂、读懂世界,由计算机视觉、语音识别、语意识别一并构成,是人工智能产品或方案不可或缺的重要部分,唯有看懂、听懂、读懂,才能够作出分析判断,进而采取行动,让更复杂层面的智慧决策、自主行动成为可能。
应用层集成了一类或多类基础应用技术的、面向应用场景特定需求的产品或方案。人工智能作为一类技术,应用在多种多样的应用场景中;而在各类产品人工智能的比重或有区别,但其本质都是让机器更好地服务于我们的生产和生活。
国内巨头聚焦平台、底座、生态
百度AI全面赋能,加速推进产业智能化。2016年,百度将人工智能业务提升为公司发展战略目标。在“夯实移动基础,决胜AI时代”的战略指导下,百度AI生态不断完善,AI产品化、商业化持续加速。百度大脑是百度技术多年积累和业务实践的集大成,为百度所有业务提供AI能力和底层支撑,并赋能产业和开发者。得益于AI驱动,百度移动形成了“一超多强”的产品矩阵,并构建起以“百家号”和 “小程序”为核心的移动生态。作为AI生态的重要组成,百度已拥有Apollo自动驾驶开放平台和小度助手(DuerOS)对话式人工智能操作系统两大开放生态。目前,百度已获得超过50张智能网联汽车道路测试牌照,在国内遥遥领先。小度助手继续在中国保持领先地位,2019年第一季度小度智能音箱出货量位居国内市场第一,全球第三。同时百度智能云基于ABC(AI、Big Data、Cloud Computing)三位一体发展战略,也取得了突破性进展。
阿里聚焦产业AI,定位技术底座。阿里提出AI for Industries,将自身AI技术能力整合到阿里云旗下ET当中,同时结合对各个产业的理解,将ET从单点的技能升级为具备全局智能的ET大脑,在工业、金融、零售、交通等各领域都积累了大量落地案例;另一方面,阿里系投资了众多AI领域明星企业,包括商汤科技、旷视科技、依图科技、寒武纪等。基于电商业务积累的商业化场景和云计算底层基础设施,阿里拥有算力资源、对应用数据的价值挖掘能力及聚合生态优势,阿里云将承担技术底座的角色,以被生态伙伴集成的方式打造细分行业解决方案,借助ET大脑提供的智能化能力,更好地服务客户。
腾讯着眼于消费级AI多维应用场景与产业级AI技术使能。腾讯以“联接”为主题,将AI能力投射到消费级互联网和产业互联网。在消费端,游戏AI通过数据挖掘算法和机器学习算法了解玩家在游戏里的行为特征,进一步优化游戏体验,内容AI为QQ音乐等用户推送千人千面的音乐推荐;在产业端,通过腾讯云、腾讯优图、腾讯觅影等主体,发力AI医疗、AI安防、AI教育、智慧政务、智能零售、智慧校园等场景。总体而言,长于“联接”,基于科技创新,在互联网与产业互联网的发展与融合过程中,腾讯将提供多维智慧应用,同时也作为智慧基础设施方,开放技术中台,协同多方合作伙伴,共建创新生态。
国外巨头对核心基础能力投入巨大。
谷歌、FB、微软等关注基础能力,基于自身基因发展应用。海外科技巨头对AI高度重视,谷歌更是提出AI First战略。梳理海外科技巨头AI发展脉络,可以看出其更关注在算力和底层AI引擎上打造竞争壁垒和对外开放能力,谷歌和Facebook相继推出AI芯片TPU和Kings Canyon等,同时多次开源并升级机器学习框架、推出深度学习网络和AI工具。在应用层面,科技巨头更多是利用AI赋能自身业务,如谷歌向安卓推出谷歌助手,Facebook利用AI实现用户画像以进行精准营销,微软利用AI强化office产品和Azure云服务等。
自然语言处理
自然语言处理是指研究人与计算机以自然语言的方式直接进行有效沟通的过程,其涵盖了语音识别、词法句法分析、语义识别等多个领域,是人工智能行业最重要的技术之一。
自然语言处理的一般过程如下:
很显然,要完成自然语言处理,第一步要解决的就是语音识别技术。
语音识别的发展分为规则阶段、统计阶段、深度学习阶段。
20世纪50年代到70年代,在语音识别领域由一定的规则框架主导,龙头企业IBM的语音识别率也仅仅只有70%左右,发展进度极为缓慢;直到20世纪70年代统计语言学的出现才使得语音识别重获新生,采用统计的方法IBM将语音识别率逐步提高到90%左右,不仅如此,语音识别的规模也从先前的几百词提高到上万词的规模,使得语音识别初步有了走向实际应用的可能性;直到21实际初,深度学习的出现到20世纪末,统计与规则角力,并逐步解决语音识别、词性分析、句法分析问题;21世纪初,由于计算能力增强语音技术有了重大突破,2006年至今,深度学习继续在语音识别领域完善。
目前语音识别的龙头企业,其近场语音识别的准确率可达到98%,但在远场、强噪音、多人等等不确定性因素的干扰下,其语音识别的准确率就难以保障了。
但自然语言处理中难度最大、目前进展较少的是语音理解部分。
语音理解可分为三部分,词法分析、句法分析、语义理解。
词法分析包括分词、词性标注、命名实体识别和词义消歧。分词和词性标注好理解。命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。每一个命名实体都是由一个或多个词语构成的。词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。
句法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系,这一步是自然语言处理中关键的一步。目前研究界存在两种主流的句法分析方法:短语结构句法体系,依存结构句法体系。其中依存关系句法体系现在已经成为研究句法分析的热点。依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比如句子成分之间可以构成施事,受事,时间等关系。这种语义关系可以很方便的应用鱼语义分析和信息抽取等方面。依存关系还可以更高效的实现解码算法。句法分析得到的句法结构可以帮助上层的语义分析,以及一些应用,例如机器翻译、问答、文本挖掘、信息检索等。
语义理解的最终目的是理解句子表达的真实语义。但是用什么形式来表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。
语音识别技术与语音理解技术合在一起,称为自然语言理解技术。自然语言理解技术的真正难点在于自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。
一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。
因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。
歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。
一段话经过语音识别、语音理解,计算机便能够理解我们的自然语言,从而进一步的根据语义作出回应,再通过自然语言生成技术的方式进行表达,这一完整过程就是自然语言处理。
自然语言处理典型应用场景
自然语言处理的应用场景中最为典型的便是机器翻译。机器翻译指由计算机程序将一种自然语言翻译成另一种自然语言,目前已有支持上百种语言间互译的互联网翻译工具在线提供服务。跨语言的实时沟通一旦实现,通天塔的故事也将改写,鉴于世界上诸多高质量的信息以英文形式呈现,中英互译对于国人打开眼界、与国际接轨的意义不言而喻。1970年起,机器翻译曾先后基于规则、实例等方法实现,1991年,基于统计的机器翻译方法使得翻译性能取得巨大提升,2014年借助于深度神经网络技术的逐步渗透,机器翻译可以打破传统统计机器翻译基于短语或者句法的局部解码限制,相对全面的处理整个句子的信息,再次大幅提升了翻译结果的可用性。BLEU是一种用于评测机器翻译的文本质量的算法,也是最受欢迎的指标之一,一般人工翻译的BLEU值在50-70之间(BLEU不考虑同义词或语义相近的表达方式,可能会导致合理翻译被否定),目前相对领先的机器翻译系统多在30-40之间。同所有自然语言处理技术一样,机器翻译仍然受语义理解所限,也不具备优秀的人工译者所有的丰富人生阅历和创造性想象力,距离“信、达、雅”仍有诸多挑战。
计算机视觉是指用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身的运动。概括的说,视觉系统主要解决的是物体识别、物体形状和方位确认以及物体运动判断这三个问题。而计算机视觉的研究,则是专注于让机器代替人眼,解决这些问题。从技术流程上看,计算机视觉识别通常需要三个过程:目标检测、目标识别、行为识别。
目标检测。在过去的几十年中,传感器与图像处理器的愈发先进,再通过光学上更加完善的镜头,以及纳米级制造的半导体像素,现代摄像机在精确度、灵敏度等各个方面已经远远超越人眼。
但核心问题是,虽然我们的摄像机在很多方面均比人眼先进,但从另一个角度看,现代摄像机精度、灵敏度的提升实际上并不能为其带来质变。它们智能记录某事某刻的光影图像,但即便是最优秀的摄像头传感器也无法去“识别”外界确定的某一样物体。因此,目标识别技术至关重要。
目标识别。 现在主流的目标识别方法为“自下而上”,即去模拟大脑中的过程:计算机可以在多张图中,对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体、角度和运动。就像人类的大脑一样,通过给计算机观看各种图形,计算机会使用大量的计算和统计,试着把“看到的”形状与之前训练中识别的相匹配。
科学家正在研究的,是让智能手机和其他的设备能够理解、并迅速识别出处在摄像头视场里的物体。
如上图,街景中的物体都被打上了用于描述物体的文本标签,而完成这一过程的处理器要比传统手机处理器快上120倍。
随着近几年并行计算领域的进步,相关的屏障逐渐被移除。目前出现了关于模仿类似大脑机能研究和应用的爆发性增长。模式识别的过程正在获得数量级的加速,我们每天都在取得更多的进步。
行为识别。但仅仅只是能够“看到”并“识别”依旧是远远不够的。就像一个篮球往我们飞来,我们会下意识的把它接住,这短短的过程中,我们先是人眼观察到物体朝我们飞来,识别出该物体是篮球,再作出“接住”这一决策并抬起手。而行为识别,便是让计算机能够作出决策的至关重要的一步。
计算机视觉应用场景
计算机视觉领域最热门的应用场景莫过于人脸识别。人脸识别可看做语义感知任务中针对人脸影像的分类问题,也是当下视觉领域热门应用的重要技术支撑,各个环节都因深度学习算法的推进实现了更优的计算结果。例如,泛金融领域的远程身份认证、手机领域的刷脸解锁一般属于人脸验证,此项技术已相对成熟;安防影像分析一般为人脸识别,刑侦破案对亿级甚至十亿级比对有刚性需求,目前技术仍有很大进步空间。未来,更多新功能、新场景的解锁依赖于最先进的算法团队和相关业务领域开拓者的共同努力。