Deeplearning Algorithms tutorial

谷歌的人工智能位于全球前列,在图像识别、语音识别、无人驾驶等技术上都已经落地。而百度实质意义上扛起了国内的人工智能的大旗,覆盖无人驾驶、智能助手、图像识别等许多层面。苹果业已开始全面拥抱机器学习,新产品进军家庭智能音箱并打造工作站级别Mac。另外,腾讯的深度学习平台Mariana已支持了微信语音识别的语音输入法、语音开放平台、长按语音消息转文本等产品,在微信图像识别中开始应用。全球前十大科技公司全部发力人工智能理论研究和应用的实现,虽然入门艰难,但是一旦入门,高手也就在你的不远处! AI的开发离不开算法那我们就接下来开始学习算法吧!

朴素贝叶斯(Naive Bayes)

机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。 朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

对于某些类型的概率模型,在监督式学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法;换而言之,在不用到贝叶斯概率或者任何贝叶斯模型的情况下,朴素贝叶斯模型也能奏效。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够获取相当好的效果。2004年,一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器获取看上去不可思议的分类效果的若干理论上的原因。尽管如此,2006年有一篇文章详细比较了各种分类方法,发现更新的方法(如决策树和随机森林)的性能超过了贝叶斯分类器。

朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据就可以估计出必要的参数(变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而不需要确定整个协方差矩阵。

朴素贝叶斯的应用过程:

  • 收集数据:可以使用任何方法。
  • 准备数据:需要数值型或者布尔型数据。
  • 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
  • 训练算法:计算不同的独立特征的条件概率。
  • 测试算法:计算错误率。
  • 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

应用案例

  1. import org.apache.spark.mllib.classification.{NaiveBayes, NaiveBayesModel}
  2. import org.apache.spark.mllib.linalg.Vectors
  3. import org.apache.spark.mllib.regression.LabeledPoint
  4. //读取并处理数据
  5. val data = sc.textFile("data/mllib/sample_naive_bayes_data.txt")
  6. val parsedData = data.map { line =>
  7. val parts = line.split(',')
  8. LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
  9. }
  10. // 切分数据为训练数据和测试数据
  11. val splits = parsedData.randomSplit(Array(0.6, 0.4), seed = 11L)
  12. val training = splits(0)
  13. val test = splits(1)
  14. //训练模型
  15. val model = NaiveBayes.train(training, lambda = 1.0, modelType = "multinomial")
  16. //测试数据
  17. val predictionAndLabel = test.map(p => (model.predict(p.features), p.label))
  18. val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / test.count()

优缺点

优点:学习和预测的效率高,且易于实现;在数据较少的情况下仍然有效,可以处理多分类问题。

缺点:分类效果不一定很高,特征独立性假设会是朴素贝叶斯变得简单,但是会牺牲一定的分类准确率。