特征向量

什么是特征向量

向量是具有一定大小和方向的量,可以简单理解为一串数字的集合,就像一行多列的矩阵,比如:[2,0,1,9,0,6,3,0]。每一行代表一个数据项,每一列代表一个该数据项的各个属性。

特征向量是包含事物重要特征的向量。大家比较熟知的一个特征向量是RGB (红-绿-蓝)色彩。每种颜色都可以通过对红(R)、绿(G)、蓝(B)三种颜色的比例来得到。这样一个特征向量可以描述为:颜色 = [红,绿,蓝]。

为什么要用特征向量

随着现代计算机和机器学习技术的飞速发展,越来越多的多媒体数据被存储、分析和运用在安防侦察、医疗、教育和在线信息服务等领域。多媒体数据通常有多维度的特征。例如,一张人脸图片是无法使用单维度的字母数字或字符串来描述的。

而特征向量则可以通过多维度数值高效准确地描述多媒体内容。例如,一张人脸图片需要成百上千维度的特征向量来精准描述。

特征向量在机器学习和模式识别的多个领域都拥有重要地位。机器学习算法通常需要用数值来表示描述对象以便于进行统计分析。

应用领域

特征向量,因其能通过数值的方式高效准确地描述对象,目前被广泛运用于机器学习的各种领域。

  • 图像识别

    向量特征可以是梯度幅值、颜色、灰度强度、边缘、区域等。由于图像的数值化表示更容易定义和分析,特征向量在图像识别领域有着广泛的应用。

  • 语音识别

    向量特征可以是音长、噪音等级、信噪比等。

  • 垃圾邮件过滤

    向量特征可以是IP地址、文字结构、某个词出现的频率、特定邮件标题等。