@ 2017.07.18 , 13:50
30

数据驱动编程和机器学习的常见误解以及如何优雅的跳这个坑

# 这费是法 投稿:看到前面这篇算法之国:中国人工智能的兴起,写了这篇原创

数据驱动编程和机器学习的常见误解以及如何优雅的跳这个坑
Receptive fields of single neurones in the cat's striate cortex
D. H. Hubel and T. N. Wiesel(59年的论文,应该是公共领域了)

我们离真正的通用人工智能还非常非常远,但是进步的非常非常快。现在两个极端,谈AI色变,要被skynet干掉了;AI是噱头,没用,过两年就消停了。都不好,都源自不了解。所以原创一个简单的介绍内容。以及说一说如果真的想跳这个坑,怎么优雅而高效的跳进去。

现在所有的所谓AI都应该被称为机器学习或者数据驱动编程。真正这个领域里面的人极少会说自己是搞AI的,最多最多带上学习两个字,机器学习,或者模式识别这样的。最热门的图像识别领域其实是一个非常细分的专业领域,但是其中卷积神经网络的思想在一定的范围内可以被视为通用的机器学习技术。以猫图为例,我们不再是通过结构化的代码去实现分辨图中是否有猫,而是实现一个机器学习的范式,用数据来驱动代码对猫图进行判断。

这些工作需要大量的经过标注的数据集比如imageNet,通常的样子是这张图里有猫,这张图里没有猫,然后去训练对应的学习结构。当然这样的思想可以用在别的领域。但是需要注意的是,这里的关键在于完全信息。简单的判断就是,如果你是个人,给你这个数据,你能不能判断出来标记。给你看有猫的图,你能说,这里有猫。给你看没有猫的图,你能说,这里没有猫。给你看“学 小组”,你能知道很可能是“学习小组”。另一个领域是非完全信息的领域,那就会面临其他的很多问题,最近打扑克的那个也是很厉害的。

前面说的都是监督学习,你需要提供有标记的数据集。那么未来的方向一定是非监督学习。我们直接给图,不再提供图里面“有什么”这样的标记。目前来看,最厉害的微软研究院的resNet可以在图像识别方面做到超越人类的识别正确率,但是需要注意的是,这只是图像识别这样一个非常细分的领域。这有巨大的价值,简单的例子,把猫换成CT片,标记换成有恶性病变还是么有恶性病变,你就不用在拿着CT片子去找医生看做诊断,训练好的卷积神经网络能够以比任何医生还要高的准确率来作出诊断。

这个领域和神经生物学,认知理论,语义处理等领域有非常多的交叉;而且实践起来相对的简单,能够迅速的转化为经济收益,所以大量的极其聪明的人加入其中。竞争极其激烈,以谷歌为例,最聪明的人,用着跑在自己开发的TPU(张量处理器)集群上TensorFlow构建的百多层深的卷积网络。任何严肃的想要加入这场竞争的人大概都需要想想在这些环境下自己客观的定位是什么。

接下来讲讲怎么优雅的跳这个大坑。首先这个领域太热,所以一定要专业,不要去吃二手粮,要直奔大牛。这个领域非常开放,大部分的论文和代码都是开放的,耐心去看吧,看个半年,从开始到最前沿的东西也就看下来了。

按重要性排序的前提条件:
1、能科学的访问某著名网络公司。
2、英文听读没有问题,可以听专业课的程度。
3、线性代数很重要。
4、Git和Github要会用,至少知道怎么commit和怎么回滚。
5、C++至少明白1分(要记住大神也就明白8分)。
6、Python要用好。
7、Linux要会用。
8、StackOverflow要善用。
9、朝死了搜索,找领域大牛的论文囫囵完了顺着参考文献撸。

入门很重要:
1、Coursera上面吴恩达的课程可以作为非常好的入门
2、接下来是多伦多大学Hinton大神的神经网络课程可以作为下一道菜
3、斯坦福李飞飞的CS231n课程是非常好的图像识别的课程

上面套路下来基本就在坑里面了,接下来你需要接着往下挖。这里需要问一个问题,为什么要接着往下挖?

数据!数据!数据!如果你的工作中接触到大量的数据,而且原有的处理方式可以有优化空间,那你就使劲挖吧,将会带来实实在在的收益。但是如果你纯粹的想搭AI这班车,开头已经说过了,这班车不存在。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(0):
4.9
赞一个 (28)

TOTAL COMMENTS: 30+1

  1. 3511342

    人工智能干掉人类很简单

    [2] XX [33] 回复 [0]
  2. 功夫猫
    @3 months ago
    3511345

    看了下重要性排序,基本不用去研究这东西了

  3. 可爱的程序员
    @3 months ago
    3511359

    达成文章中的目标…也就能算计算机入门吧…

    [13] XX [1] 回复 [0]
  4. 3511366

    确认了几次,确实是煎蛋

    [33] XX [0] 回复 [0]
  5. 3511372

    我想问下大神,疑犯追踪里面的机器,算是什么程度的AI啊?

  6. 开眼了
    @3 months ago
    3511389

    @流连: 确实一股b乎的酸臭气扑面而来

    [5] XX [38] 回复 [3]
  7. 杭白菊
    @3 months ago
    3511395

    线性代数和高数难道不应该排第一?

  8. gongfeng
    @3 months ago
    3511398

    给我看学小组我马上看成学小姐。
    说个可有可无的,机器学习里特征值相当重要,尤其是图像识别领域更重要。但是这个知识点在很多国内参考书上一笔带过甚至根本没讲,所以挑书的时候我以这个地方讲得够不够“机器”很看重。

    [15] XX [0] 回复 [0]
  9. 开眼了
    @3 months ago
    3511399

    @杭白菊: 如果不是从流型和空间变换的角度去理解的话,确实应用中用到的也就是非常基础的链式求导、矩阵运算和概率知识。有了狗,什么都可以学啦。卡马克说有网络的情况下任何人都可以把编程水平提高到他自己期望的程度。

  10. 这费是法
    @3 months ago
    3511406

    @野马: 没有看过这个片子诶,不好意思。不过我想起来一个有趣的事情,腐国的警察用异常检测的算法把重点关注名单上的手机号在偏僻地方的活动和在最通常注册基站的活动对比。恐怖分子为了确保安全喜欢用老式功能机离开老巢进行联系,然后就这样把目标筛出来了。

  11. 幕后煮屎者
    @3 months ago
    3511408

    非常感谢给入坑指了条路。

  12. 这费是法
    @3 months ago
  13. 3511455

    目前还是“死脑筋”阶段,会有效率提升,会抢一部分饭碗,但仍称不上智能。

  14. 3511457

    组合数学和马尔可夫的一套东西最好也掌握

    前者至少能告诉你疆界在哪, 后者在绝望的时候还能扔骰子赌一条活路

  15. 你也来了
    @3 months ago
    3511459

    现在文章不能分享到朋友圈了啊

  16. 3511477

    果然煎蛋是码农聚集地

  17. 3511493

    Cavity? Is that you?

  18. Cavities
    @3 months ago
    3511510

    没想到煎蛋同行这么多

  19. 3511523

    我说点实在的, 在国内有那个英文水平不如找个教书的工作, 收入不会比程序员差, 晚上5点能下班. 听读水平连高中生都教不好的, 别趟这些浑水, 先好好打基础.

  20. 黑丝的小猪
    @3 months ago
    3511547

    @NEO: 和同事聊天,了解到现在有一种办法对抗神经网络,就是用神经网络训练B网络直到能够欺骗A网络,这办法是人想出来的,所以你说机器厉害还是人厉害

  21. 3511557

    我放弃了转码农的想法。感谢。

  22. 3511580

    国外对于这方面的资源是非常多的,很多都是免费的公开课,有几个对数学的要求比较低,基本国内大一大二就够了,有兴趣可以去搜搜,我个人推荐一个www.fast.ai,deep learning并没有大家想的那么难。当然需要你认认真真花时间在这上面

  23. 3511601

    所以,8月1号CSDN就没啦?

  24. 3511690

    楼主没说的一点,就是搞几块好显卡,自己大量做实验积累经验,相当多的细节或者负面结果论文里是没有的,别人给的代码里也只是工作的不错的一套方法和超参数。到底整个模型空间里哪些地方可以一试哪些地方是死胡同还是得自己多摸索

  25. 上次什么名字
    @3 months ago
    3511691

    @cc: 别被吓到了 上面这些都是编程里面有些偏的 现在主流还是客服端 服务器 网站 app等等,当然十几年后什么是主流 不好说

  26. 死胖子
    @3 months ago
    3511730

    好啦好啦,我们现在是不是也需要一篇“如何从数据炼丹师的行列中爬出来”的文章呢?

  27. 3511898

    哥们是不是在湾区混啊?

  28. 3511936

    哟,总算有点像样的理科文章

  29. 3512042

    @野马: 那是超越上帝的人工智能了,可以同时理解几千万人的语音,文字,视频并且做出非常高准确率的,针对个人行动的推理预测,就算是人也做不到

  30. 煎了个蛋
    @3 months ago
    3512218

    渣一本准研究生 学了几个月陷入矛盾中…
    想拼凑各种方法解决某个特定问题, 工作量太多而且创新点不够. 想搞点高大上的数学方法解决问题看得一脸懵逼. 各种公式看懂都难别说创新了.
    回想起当初读研的目的, 都说职业技能不要横向发展要纵向发展. 然而忽略了纵向发展是这么难啊混蛋.

发表评论


24H最赞