数据挖掘、机器学习、深度学习,脸盲症入坑指南

in 机器学习 Views: 12,059 s with 6 comments

感觉从我上大学以来,这几个东西。虽然动不动就被人挂在嘴边,但真要到要让别人给你解释清楚的时候,大多数人,真的总是云里雾里的样子,傻傻分不清楚。

于是忍不住了,特整理如下。

一些基础概念

数据分析(Data Analysis)

数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。对于狭义的数据分析,简单来说,就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

数据挖掘(Data Mining):——从数据中挖出有用的信息

数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。你用excel分析数据,发现了一些有用的信息,然后这些信息可以指导你的business,恭喜你,你已经会初步的数据挖掘了。

以上两种的区别在于——

"数据分析"的重点是观察数据,"数据挖掘"的重点是从数据中发现"知识规则"

除此之外,广义的数据分析,除了包含狭义的数据分析、数据挖掘、数据统计(Data Statistics)之外,还包括了数据可视化(Data Visualization)等等。
比如说下面这张图(图片为我最近学习过程中用R生成的图片)。同样是世界地图,左边只是单纯的对照IP地址把点对应着点了上去,你可以看到美国和欧洲已经被木马覆盖了,但很难判断哪个国家的感染量最高。右边则是对每个国家ZeroAccess木马感染量的分级统计图,因此从右图你就可以轻易看出左图中不能看出的一个关系——美国已经将ZeroAccess木马的感染范围控制在自己的国境内了。

机器学习(machine learning):——一种工具

“机器学习”是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。

目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,

机器学习的基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。

深度学习(Deep Learning):——机器学习一类比较火的算法,本质上还是原来的神经网络

机器学习里面现在比较火的一个topic(大坑),本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。

大数据(Big Data):

是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

重要的大BOSS来了!

说了这么多零零碎碎的,从我目前的认识来看,机器学习就是一种工具(好你不要和我纠缠他其实有非常非常多的算法和实现方式,总而言之,他还是我们用来处理信息的工具。)注意,我这里说的是信息,而不是数据。而数据挖掘就是一个动作or过程。不管你用什么方法来做这件事情,如何如何优化,他就是一个动作or过程。

基于目前这个信息爆炸的时代,我们有了大数据这个说法,而深度学习,就是机器学习在大数据领域一个进一步的前进。(当然深度学习不只是可以用于大数据领域,而是因为,大数据的一些特点,比如数据量庞大、特征工程难做等等,所以在硬件性能大幅上升之后,相对于其他一些传统算法,深度学习本身的特性导致其面对大数据更有优势。)

而所有这些,其实还有个人工智能的名词被我们忽略了。

人工智能(AI):

人工智能是对让计算机展现出智慧的方法的研究。计算机在获得正确方向后可以高效工作,在这里,正确的方向意味着最有可能实现目标的方向,用术语来说就是最大化效果预期。人工智能需要处理的任务包括学习、推理、规划、感知、语言识别和机器人控制等。——摘自《人工智能:一种现代方法》

这是目前常常被列举出来的人工智能的应用领域

第一种版本

第二种版本

从中我们可以看出,无论是数据挖掘,还是机器学习、深度学习,或是知识图谱,他们都是人工智能的一类。(当然需要注意到的是,人工智能本身就是一个非常泛化的概念。)

而分发下来,就是他们应用到的越来越细的领域。

好啦,暂时就先说到这么多~

希望能帮你们在混乱中理清一点头绪,么么哒。

参考资料:

【1】数据挖掘、机器学习、深度学习这些概念有区别吗?——知乎

【2】机器学习与数据挖掘——周志华

【3】大数据最核心的价值是什么?——知乎

【4】伯克利教授Stuart Russell:人工智能基础概念与34个误区

「一键投喂 软糖/蛋糕/布丁/牛奶/冰阔乐!」

薇拉航线

(๑>ڡ<)☆谢谢老板~

使用微信扫描二维码完成支付

Comments are closed.
  1. 回复
  2. uestc19级学弟慕名而来,感谢学姐分享!很实在的一篇梳理!

    回复
  3. sanpang

    学姐是uestc的嘛

    回复
    1. @sanpang

      是哦~可能真的认识呢~

      回复
  4. 不错?~

    回复
  5. 膜膜dalao

    回复