Deeplearning Algorithms tutorial
谷歌的人工智能位于全球前列,在图像识别、语音识别、无人驾驶等技术上都已经落地。而百度实质意义上扛起了国内的人工智能的大旗,覆盖无人驾驶、智能助手、图像识别等许多层面。苹果业已开始全面拥抱机器学习,新产品进军家庭智能音箱并打造工作站级别Mac。另外,腾讯的深度学习平台Mariana已支持了微信语音识别的语音输入法、语音开放平台、长按语音消息转文本等产品,在微信图像识别中开始应用。全球前十大科技公司全部发力人工智能理论研究和应用的实现,虽然入门艰难,但是一旦入门,高手也就在你的不远处! AI的开发离不开算法那我们就接下来开始学习算法吧!
卡方自动交互检测算法 CHAID(Chi-squared Automatic Interaction Detection)
卡方自动交互检测法(chi-squared automatic interaction detector, CHAID)最早由Kass于1980年提出,是一个用来发现变量之间关系的工具,是一种基于调整后的显着性检验(邦费罗尼检验)决策树技术。
其核心思想是:根据给定的反应变量和解释变量对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制。
在实践中,CHAID经常使用在直销的背景下,选择消费者群体,并预测他们的反应,一些变量如何影响其他变量,而其他早期应用是在医学和精神病学的研究领域。
CHAID分析构建了一个预测模型,或树,以帮助确定给定因变量,变量如何最好地合来解释结果。CHAID分析,名义,有序和连续数据可以使用,在连续预测类别被分成大致相等的若干观测。CHAID对每个分类预测创建了交叉表,直到达到最好的结果,无法继续分类为止。在CHAID技术中,我们可以直观地看到在树的分割变量和相关因子之间的关系。决策树或分类树的展开,始于确定作为根节点的目标变量或因变量。 CHAID分析将目标变量分割成两个或两个以上的类被称为根节点,或者父节点,然后使用统计算法将节点分为子节点。不同于回归分析,CHAID技术并不要求数据是正态分布.
CHAID的优势是它的结果是非常直观的易于理解的。由于默认情况下CHAID采用多路分割,需要相当大的样本量,来有效地开展工作,而小样本组受访者可以迅速分为太小了的组,而无法可靠的分析。
CHAID决策树的构成包括:
- 根节点:根节点包含因变量或目标变量。例如,CHAID使用于,银行根据年龄,收入,信用卡等,来预测信用卡风险。在这个例子中,信用卡风险是目标变量,其余变量是预测变量。
- 父节点:该算法将目标变量分割成两个或多个分类。这些分类被称为父节点或者初始节点。在银行的例子中,父节点是高,中,低三个分类。
- 子节点:CHAID分析树中独立变量分类低于父节点的分类被称为子节点。
- 终端节点:CHAID分析树最后一个分类被称为终端节点。 CHAID分析树中,主要的影响变量排在前面,次要的排在后面。因此,它被称为终端节点。
CHAID的优点
- 可产生多分枝的决策树
- 目标变量可以定距或定类
- 从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程
- 建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分