@ 2017.07.18 , 09:56
47

算法之国:中国人工智能的兴起

算法之国:中国人工智能的兴起
credit: 译者画的

中国的大数据可能带领人类走向真正的人工智能。

今年年初,两片知秋之叶引起了全球对人工智能(AI)发展的关注。其一,前微软全球执行副总裁陆奇一月份表示,因自行车事故受伤离职休养后,他不会再回到世界上最大的软件公司,而是走马上任中国领先的搜索引擎某度的首席运营官。其二,一月晚些的时候,美国人工智能协会(AAAI)决定推迟举办年度会议,只因原计划位于一月的会议日期与中国农历新年相冲突。

最近的迹象显示,在一些AI领域上中国可能紧跟美国,甚至可能弯道超车。而这些AI领域被认为对未来发展至关重要,包括从语音助手到自动驾驶汽车。“百度是代表中国参与AI角逐的重要的选手”陆奇先生说,“我们有机会领导AI的未来。”

支持中国AI崛起的证据还有很多。白宫在2016年10月的一份报告中指出,在AI的分支“深度学习”上,中国发表的文章已经超过美国。据咨询公司普华永道预测,在2030年前,与AI相关的产业增长将将全球GDP增加16亿美元。据估计,近一半的收益将会累积在中国。在与AI有关的专利申请数量上,尽管美国在绝对数量上仍然领先,但中国研究人员提交的专利申请数量近几年增加了近200%(见下图)。

想要搞明白为什么中国玩AI玩得这么溜,需要考虑到AI领域所需的投入。计算能力和资本是最基本的两个条件,而中国在这两个条件上投入非常多。中国企业从某里巴巴和某企鹅等巨头到兴业数金公司和UCloud等初创公司都在迅速建立属于自己的数据中心。据咨询公司Gartner介绍,云计算市场近年来已经增长了30%以上,并将持续增长下去。而根据智库乌镇研究所(Wuzhen Institute)的统计,2012-2016年,中国的AI公司收到了26亿美元的资金。虽然这远低于美国同行收到的179亿美元,但金额总体增长很快。

然而,真正使中国成为AI应有之地的还有另外两个资源。一个是研究人才。微软的AI工作主管沈向洋(Harry Shum)说,除了强大的数学技能以外,中国还有在语言和翻译领域上的历史优势。负责领导某里巴巴150位数据科学家的闵万里说,寻找一流的AI专家在中国比在美国更难。但他预测,未来几年将会有所改变,因为大多数大学都推出了AI专业。据某种形式的估计,中国拥有世界五分之二以上训练有素的AI人才。

中国的第二个优势是数据,数据是AI最重要的组成成分。在过去,软件和数字产品大多数遵守代码中的规则,荣耀归于那些拥有最优秀程序员的国家。随着深度学习算法的出现,这些规则越来越多地基于从数据库中提取建立的模型。更多的可用数据,就意味着可以学习更多的算法和产出更智能的AI产品。

中国国家的规模和多样性为这一过程提供了强大的燃料。只要与日常生活相关的数据,全国近14亿人产生的数据几乎等量与其他所有国家数据之和。即使在处理罕见疾病的情况下,也有足够的样本来教授算法如何识别它。因为汉字打字比西方人的操作更为麻烦,人们往往比西方人更频繁地使用语音识别服务,所以互联网企业拥有有更多的语音片段来改善语音产品。

数据土豪

真正使中国能一骑绝尘甩开其他国家的关键点是其互联网用户数量:约7.3亿。几乎所有用户都手机在线,智能手机比台式电脑产生的数据更有价值,主要是因为它们包含各种传感器并随时携带在用户身边。例如,在大型沿海城市,用现金进行小额支付全部消失,人们使用手机上的某付宝和某信钱包这些服务来解决支付问题

中国用户似乎并不是非常关心隐私,这使得收集数据变得更容易。例如,这个席卷中国各大城市的共享单车服务不仅提供便宜的交通工具,而且是一种所谓的“数据狂欢”。当用户租用自行车时,有些公司会使用安装在自行车上的GPS设备来追踪租赁者的轨迹。(译者注:因为GPS定位非常耗电,所以共享单车只会定位停车点,据我所知摩拜是通过App开启手机GPS进行轨迹绘制的。)

年轻的中国人似乎特别热衷于AI为基础的服务,并且将他们自己数据交给这些服务区使用。微软发布的一个积极向上的聊天机器人小冰现在拥有1亿多中国用户。大多数用户在晚上11点到凌晨3点之间与小冰聊天,内容常常是他们白天遇到的问题。而小冰正在从用户互动中学习,变得越来越聪明。现在的小冰不再只是提供鸡汤和笑话,而是创作了第一首以“阳光失了玻璃窗”为题材写的诗集,这引起了中国文坛的激烈辩论,人工智能拼合文字写的诗能否被称为真正意义上的“诗歌”。

中国AI领域另一个重要支持力量就是政府。该领域在该国目前的五年计划中占有重要地位。同时技术公司正在与政府机构紧密合作:例如,百度被要求管理国家深度学习实验室。因此政府不太可能对AI公司进行过分严格的监管。该国有40多项含有细则的法律规定了如何在法律上保护个人资料,但这些法律很少得到执行。

企业家们正在充分利用中国的人才和数据优势发展自身。许多AI公司只在一两年前起步,但是与西方同行相比,这些公司的进展更为迅速。李开复解释说“中国AI创业公司经常迭代更新得更快。”他曾在2000年左右在谷歌子中国公司担任总裁,现在在风险投资公司创新工场当老板。

因此,中国已经拥有一群初生的AI牛犊,这些初创公司的总价值超过10亿美元。某条新闻是一家位于北京的新闻推荐引擎,利用使用读者兴趣和位置等信息进行机器学习来推荐的文章;它还使用人工智能过滤虚假信息(在中国主要是可疑的保健广告)。另一个AI创业公司某飞开发了一个语音助手可以将普通话翻译成各种外语,其中包括英语和德语,即便用户录入的是方言或录音混入了背景杂音都可顺利完成翻译。而旷视科技的脸部识别软件Face++几乎可以即时匹配不同人脸。

“天网”恢恢

在旷视科技总部,来访者被均视为识别对象。大厅内的摄像机取代了ID识别:公司员工不需要拿出工卡只需直接走过大厅就能识别身份。类似的设备位于办公室的各个地方,其反馈资料即使显示在屏幕墙上。当一张脸在屏幕墙上出现的时候,它立即被一个白色矩形包围,在旁显示有关该人的一些信息。而在该屏幕的右上角,用大写字母拼写“SKYNET”,这是终结者系列电影中旨在消灭人类的AI系统“天网”的名称。该公司已经与某付宝和迪迪(一家旅行公司)合作核查新用户的身份(将新用户的面孔与政府身份资料图片进行对比)。

鉴于类似旷视的初创公司的成功,中国的科技巨头也开始大力投资AI。中国互联网公司三巨头(统称BAT):某度、某里巴巴和某企鹅,正在开展许多相互重叠的服务,包括语音识别和脸部识别。不过居于他们现在的优势,他们同时也想在某一具体的AI领域拔得头筹。

某企鹅现在在三巨头中吊车尾,它的AI实验室才建立没几个月。但是,某企鹅必将在AI领域发挥重要作用:它比其他两巨头的数据多得多。其旗下某信app拥有近十亿个账户,也是数千个其他服务的平台,这些服务包括从电子支付和提供新闻,到城市地图和法律援助。某企鹅同时也是全球游戏界的大佬,其旗下LOL和部落冲突,在世界各地拥有超过1亿玩家。

某里巴巴早已是电子商务中的翘楚,而同时其投资数十亿美元来成为云计算领域的第一。在6月份在上海举行的一次会议上,其展示了一个名为“ET City Brain”(ET城市大脑)的AI服务,它使用视频识别来实时优化城市交通。它使用路边摄像机的镜头预测汽车的行为,并可以即时调整交通灯。在其公司总部所在地杭州,其称该系统使道路车辆通行速度平均提升了11%。某里巴巴还计划强化所谓的“ET医学大脑”,它将提供基于AI的服务用于开发新药和诊断医学影像。它已经与十几家医院合作以获取开发所需的数据。

但是某度的命运的红线与AI缠得更紧密,部分原因在于AI技术可能是赶上其它两巨头的重要机会。其将大部分资源投入到自主驾驶中:它想在2018年前将无人驾驶汽车推向市场,并在2020年之前为全自主汽车提供技术。7月5日,该公司在北京的AI开发者大会上宣布推出首款自驾车系统阿波罗(Apollo)。

阿波罗的惊人之处不仅仅在于汽车能安全地在路上行驶,同时它是一项对外界开放的项目。Google的子公司Waymo和电动汽车公司特斯拉等竞争对手均小心翼翼地保护他们的自动驾驶软件和数据不被盗用。某度的计划中不仅要开源其程序,而且要与其它人共享数据。这个想法的关键点在于,使用了某度AI技术的汽车制造商们也必须要共享其获得的数据,从而为自动驾驶汽车创建一个开放平台,用陆奇的话说是“自动驾驶汽车中的Android系统”。

在北京学当老司机

中国企业在出口AI产品方面的成功还有待观察:现在只有少数几家公司将产品出口国外。在理论上他们应该会获得一个称心的出口合同:在中国混乱的街道上训练而成的自动驾驶汽车在欧洲越来越文明的交通中应该完全没有问题(相比之下,在德国训练的自动驾驶车辆获得的算法进步可能远远还不如北京的一个交叉路口来的深远)。但西方的消费者使用这些自动驾驶汽车可能会犹豫,因为它们是在松懈的交通安全环境和对交通事故更容忍的大环境下训练而成的。据说北京市政府正在千方百计使其能成为自动驾驶汽车的试验城市。

AI领域还有另外一个风险。数据集是目前AI最有价值的投入,但其重要性可能会逐渐减小。AI公司已经开始使用模拟数据,包括来自电脑游戏的数据。而新开发的算法可能通过较少的样本集获得同样的智能效果。驭势CEO吴甘沙警告说,"最大的危机在于我们自满于数据方面的优势,而在算法创新上止步不前。"不过,现在中国看起来只是跃跃欲试的样子,而在未来争夺AI皇冠的赛跑中,中国与美国的差距将越来越小。

本文译自 the economist,由译者 幕后煮屎者 基于创作共用协议(BY-NC)发布。

译者按:
(幕后煮屎者)明年打算转职当码农,现在学了HTML、CSS、JS,暂时可以写个简单完整的网页,下半年学NodeJS,计划从最简单入行,因为没有其他编程语言基础,有人建议我入行后找机会跳人工智能领域,所以在学习一些机器学习相关的慕课什么的。不知道各位前辈对这条路有什么好建议没?例如有什么坑?


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(0):
4.2
赞一个 (22)

TOTAL COMMENTS: 47+1

  1. 3511131

    差距原来这么大

    [37] XX [0] 回复 [0]
  2. 3511152

    图二的横鸡好别致!

    [26] XX [0] 回复 [0]
  3. flugels
    @1 month ago
    3511153

    好多翻译得很拗口

  4. 双黄蛋
    @1 month ago
    3511158

    干前端多累人啊!

  5. gongfeng
    @1 month ago
    3511161

    欧美对隐私的关注也是有一个过程的。从二战到越战后的各种思潮,加上很多欧美人在当年并不关注隐私导致的各种社会问题,才让欧美人到今天如此关注个人隐私。中国早晚也会面对这个过程。

    [49] XX [1] 回复 [2]
  6. aid666
    @1 month ago
    3511162

    下半年学NodeJS,计划从最简单入行, 有人建议我入行后找机会跳人工智能领域

    我说, 这是谁给的建议? 这好比让高中生先从炒期货入手, 入行后找机会去投行一样. NodeJS是一个巨大的坑, 大到很多坑里的人以为这是一平原. Express很好, React很好, Angular也很好, 但是这都不是编程初学者能搞定的, 国内搞定bootstrap可以吃很久了.

    从Python开始看吧
    从Groovy开始看吧

    人工智能不是那么好搞的, 调调参数不算的. 一个问题来了, 选择哪个方法最合适, 这都是用长期的学习和实践堆出来的.

    小编把自己的github地址丢出来让大家围观一下?

    [26] XX [8] 回复 [5]
  7. Cavities
    @1 month ago
    3511166

    业界俗称炼丹= = 想想就知道 deep learning 是一个什么样的东西了

    [21] XX [0] 回复 [0]
  8. wall-e
    @1 month ago
    3511167

    这篇在reddit machine learning版上被讨论的不亦乐乎,但其实有点中国威胁论的思维。中国最大的优势是数据来源多,原因文章里面也讲了,虽然有些领域可以用计算模型生成虚拟数据(强化学习用得多),但大多数没法建模的领域还是得老老实实收集数据。算法方面,虽然近年有不少重要算法是中国人或是华人贡献的,比如ResNet,但所在的研究机构往往是微软,谷歌,OpenAI,国外大学。国内发出来真正有影响力的文章还是很少很少,很多改进一点点声称取得目前最好成绩的文章,显得急功近利了,这点在中国的整个科研领域都有体现。不过中国的科研环境不太好也是发展阶段决定的,以后应该会越来越好

    [56] XX [6] 回复 [0]
  9. 空一格
    @1 month ago
    3511169

    反乌托邦。。。

  10. 一剑倾江湖
    @1 month ago
    3511171

    我就看看你们这些高收入人群

    [10] XX [1] 回复 [0]
  11. 3511174

    做AI 的话,Python是必备的。

  12. 3511186

    import tensorflow as tf
    import numpy as np

    # Create 100 phony x, y data points in NumPy, y = x * 0.1 + 0.3
    x_data = np.random.rand(100).astype(np.float32)
    y_data = x_data * 0.1 + 0.3

    # Try to find values for W and b that compute y_data = W * x_data + b
    # (We know that W should be 0.1 and b 0.3, but TensorFlow will
    # figure that out for us.)
    W = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
    b = tf.Variable(tf.zeros([1]))
    y = W * x_data + b

    # Minimize the mean squared errors.
    loss = tf.reduce_mean(tf.square(y – y_data))
    optimizer = tf.train.GradientDescentOptimizer(0.5)
    train = optimizer.minimize(loss)

    # Before starting, initialize the variables. We will ‘run’ this first.
    init = tf.global_variables_initializer()

    # Launch the graph.
    sess = tf.Session()
    sess.run(init)

    # Fit the line.
    for step in range(201):
    sess.run(train)
    if step % 20 == 0:
    print(step, sess.run(W), sess.run(b))

    # Learns best fit is W: [0.1], b: [0.3]

    在我国,只要执行过这个python就被当作是人工智能从业者,所以……其实现状并不像你们以为的这么好……

    [53] XX [7] 回复 [3]
  13. 这费是法
    @1 month ago
    3511191

    这个领域是赢家通吃,比如resNet横扫所有。如果你觉得这么转行能够干得过各种奥数金牌从小一流学校的麻省和斯坦福大神们,这个不是Ai,是有点没有Hi。干什么也要认真的,这样的转型计划本身就有问题。真想搞,认真想了也不会去学什么html,css。自己的资源都没有分配好。

    [17] XX [0] 回复 [0]
  14. 3511199

    人工智能?又是二进制人工智能么?我一个搞人工智能的朋友说,有生之年看到也算奇迹了,顺便吐槽一下专利,国内很多公司拿着开源的东西或者模仿别人的东西去申请专利,虽然不一定是人工智能方面,但是真实自己的专利又有几个

    [11] XX [3] 回复 [0]
  15. 声声催忆当初
    @1 month ago
    3511200

    啊,吓的瑟瑟发抖的我,蜷缩在角落里,看楼上的各位大神聊天。

    [18] XX [1] 回复 [0]
  16. 金子
    @1 month ago
    3511201

    没错,是赢者通吃的游戏。但是现在还没分出胜负,大家都有可以进去逐鹿。说不定咱就是那AI领域的刘邦或者项羽什么的。

  17. isadorcj
    @1 month ago
    3511205

    里面全是槽点, 不知道从何吐起。。。

    百度那个不就是大数据么,什么时候这又成了AI了。。。换个牌子就拿出来说自己是AI公司。。。

  18. Cavities
    @1 month ago
    3511214

    再说一点就是,说什么人工智能,远远没有达到这样的境界,毕竟还是自己组织特征,自己发现规律,自己调参,自己设计评价函数 ,现在智能说是machine learning 让机器去演算和模仿已经发现的特征规律,如果哪一天能预测到黑天鹅,那才是真正的人工智能的诞生

  19. 3511215

    零基础学Python可以么。。目的在于抓数据收集资料之类的

  20. 杭白菊
    @1 month ago
    3511220

    机器学习还是要求数学基础的
    网上有很多入门的免费资源
    比如斯坦福的ng
    台湾的李宏毅
    deep learning book

  21. RegisK
    @1 month ago
    3511222

    人工智能如果说偏向原理理论方面的研究,感觉还是需要科班出身才行,毕竟涉及的知识面要广且深,否则很难做出什么成绩来。非科班出身的还是建议先从应用领域入手吧,物联网智能家居等等之类的,虽然挂着“智能”的名头,但其实和人工智能关联不大。

  22. 芦中人
    @1 month ago
    3511233

    现在中国好多的优势其实恰恰来源于人口众多这个特点。也是挺讽刺的。

  23. sieling
    @1 month ago
    3511234

    让我想起Adobe illustrator学习的痛苦日子

  24. 直立行走猪
    @1 month ago
    3511247

    我觉得ai在软件方面不会有什么突破性进展,但在规模化的硬件设备加持下也足够发挥了。
    现阶段人工智能的发展就是拼规模和数据量,将来也是如此。

  25. 邻家猥琐屬蜀
    @1 month ago
    3511264

    肯做事的话,来我们这实习?

  26. 珠海赌场
    @1 month ago
    3511270

    我们还是老实开赌场吧

  27. 尼姆乱咆
    @1 month ago
    3511275

    小鸡儿能长能短。

  28. 3511281

    老 Node.js-er 表示
    想法是好的~

    但如果你想快速进入 AI 领域,首先要的是理论功底,否则看书都看不懂的;
    语言,都在用 Python,不是因为别的,Python 实现原型比较快速……
    JS对于初学者来说太不友好了,这是我2012年的时候对我一个想通过 JS 来入门编程的朋友说的,他现在还没会编程(我想决定性因素就在于我说了这句话,然后这货不学编程了吧……)

  29. consatan
    @1 month ago
    3511284

    现在一般说机器学习吧,离真正的AI还远着呢

  30. tonyzhao
    @1 month ago
    3511293

    @芦中人: 我觉得很正常啊,别的不说,杰出科研人才的智商水平一般高于普通人,越大的人口意味着教育资源能保证的情况下,人才密度越高。你出国读书才发现,国内的教育真心便宜啊。也许质量不是最好的,确实最能满足整个国家需要的

  31. 上次什么名字
    @1 month ago
    3511303

    我觉得 煮屎 还是先学基本的 找工作先吧,人工智能的也可能过几年就失去热度 归于平淡了,而且现在的人工智能还是炒冷饭 算法基本都是几十年前的,要等算法真的有突破 才有可能看到真的智能

  32. 3511318

    然后用牛逼的算法砌墙?

  33. sarcophile
    @1 month ago
    3511322

    译者是煎蛋活跃用户啊,给点个人看法。IT行业如果说像房地产,真的是有人搬砖,有人做钢筋,有人设计图纸,当然也有人收钱。看楼主这学习路线,好像光练力气了。。。建议找几个业内人士熟悉一下,最好是有实际的岗位,说你学好了就可以来做(不能去入职,至少说学了这些就够这个岗位资格了),免得走弯路

  34. 3511333

    三年前端,一年node表示,国内大部分所说的人工智能都是应用层面。甚至有人把图像识别和声音识别也当人工智能,哇,电脑能分辨我是谁。

  35. 3511341

    机器学习水很深的,数学和CS的基础得很牢固才可以,还需要经验、耐心和智商,一般做的好的都是科班出身。既然都学了JS和HTML,不如入Ethereum的坑去做Dapps,区块链潜力巨大。

  36. 3511438

    上一波商务智能刚走,又来一波人工智能,一波又一波好不热闹

  37. 3511461

    学写程序的话,先学计算机原理。而你去学 HTML, JS 是学不到计算机原理的。

  38. 3511462

    看到楼上有人说用 JS 入门编程。你不懂编程的话,一上来就学 JS,你的程序人生就毁了。

  39. zhaohk
    @1 month ago
    3511471

    某度不是专业做假广告的么,怎么研究起AI来了

  40. 朗勃伦
    @1 month ago
    3511573

    “下半年学NodeJS,计划从最简单入行, 有人建议我入行后找机会跳人工智能领域”

    人工智能首先是建立在数学理论和计算机原理基础上的。
    首先需要打好基础,从计算机原理部分学起,过于友好,显式,不严格限制类型的语言不建议入门。世界所有编程语言500多种,常用200多种,学是学不完的,要建立通用的计算机理论概念。这一步只是先做个码农。
    二是思想,计算机科学的核心是算法,结构和思想,这是和数学交界模糊的地方,也是各种专利诞生的地方,需要对数据原创性的理解。是用数学理论模型模拟抽象自然问题的重要步骤。学到这一步是编程者。
    三是数学理论,这是最难的部分,线性代数到矩阵卷积,到更高阶的数论,分析数学,物理数学等,是对高度抽象的问题进行数学分析的步骤,也是解决许多问题的原点。这一步是计算机科学工作者。

    如果以治学研究的态度学习人工智能,必须要一路走到计算机科学到数学的层次,人工智能是这个层次的一个细分领域。
    如果只是想商用化学习并靠这个吃饭,那要看自己想定位哪份工作了,前台,码农,架构工程师,还是CTO。这些都只是工作,能达到的高度有限,大多数时间都放在处理鸡毛蒜皮的杂事上了,开些扯皮的会,并且要应付对AI一无所知的客户,案例需要的科学技术等级往往很低。是挖不到什么有含金量的思想的。

  41. FUxxER
    @1 month ago
    3511788

    做梦

    中国人的智力不足以完成相关的数学研究,over。

    [1] XX [14] 回复 [2]
  42. 碧海
    @4 weeks ago
    3511958

    马云:大数据表明,中国各省,浙江女性的杯罩最小……
    AI:知道了,以后给中国男性多推荐俄罗斯女性
    马云:……

  43. 但愿早下班
    @4 weeks ago
    3511981

    Duda的模式分类
    Bishop的PRML
    这两本书适合入门

  44. ihuihui
    @4 weeks ago
    3512049

    是不是在中国,程序后台偷偷搜集数据信息的也多。

  45. COLT6月1号见
    @4 weeks ago
    3512121

    “中国用户似乎并不是非常关心隐私,这使得收集数据变得更容易。”
    是的

  46. bychaer
    @4 weeks ago
    3512314

    AI: 啊啊啊,做人好累啊

  47. 啦啦啦
    @4 weeks ago
    3512959

    人工智能范围太大,现在只有机器学习还挺有希望,可以把支持向量机,神经网络什么的那几个常见算法都了解一遍都用一用,最后,推荐用Python,MATLAB其实也还不错,千万别用js

发表评论


24H最赞