Deeplearning Algorithms tutorial

谷歌的人工智能位于全球前列,在图像识别、语音识别、无人驾驶等技术上都已经落地。而百度实质意义上扛起了国内的人工智能的大旗,覆盖无人驾驶、智能助手、图像识别等许多层面。苹果业已开始全面拥抱机器学习,新产品进军家庭智能音箱并打造工作站级别Mac。另外,腾讯的深度学习平台Mariana已支持了微信语音识别的语音输入法、语音开放平台、长按语音消息转文本等产品,在微信图像识别中开始应用。全球前十大科技公司全部发力人工智能理论研究和应用的实现,虽然入门艰难,但是一旦入门,高手也就在你的不远处! AI的开发离不开算法那我们就接下来开始学习算法吧!

等度量映射(IsometricMapping,Isomap)

等度量映射(Isomap)是最经典的非线性映射降维方法之一,它在MDS的基础上引入了“测地距离”的概念,直接解决了MDS使用欧氏距离无法应对非线性流形的问题。 测地距离(Geometric Distance)是高维流形中两点之间的最短距离,高维流形中,空间是不规则的,所以最短距离不一定是直线距离(欧氏距离)。就像蚂蚁从立方体的一面爬到另一面,不能直接横穿立方体一样。

等度量映射(IsometricMapping,Isomap) - 图1

图中左边的两个点的最近距离是蓝色实线的距离,而不应该是虚线的距离。

通常情况下真实的测地距离是非常难以求出的,但是等度量映射基于流形局部近似于欧式空间的定义提出了一种近似的求解方式。

我们通常的做法是:

  1. 求得原样本的KNN图,并依据定义保留其欧式距离。
  2. 所有非KNN的点间的距离规定为无穷大。
  3. 用dijkstra或floyd求出任意两点的最短路便可近似表示两点间的测地距离。
  4. 然后等度量映射(Isomap)将得到的测地距离矩阵输入MDS完成降维。

最后等度量映射(Isomap)将得到的测地距离矩阵输入MDS完成降维。

最后的结果是这样的。

等度量映射(IsometricMapping,Isomap) - 图2

应用示例:

  1. from IsomapCuda import *
  2. from DataUtils import *
  3. import getopt,sys
  4. GPU_MEM_SIZE = 512
  5. def Isomap(dataSet,outfile,srcDims,trgDims,k,eps=1000000000., CIsomap=False):
  6. """
  7. Classical isomap
  8. """
  9. #first do KNN
  10. knnRefs,knnDists,knnm = KNN(dataSet,k,eps,srcDims)
  11. mdists = []
  12. if CIsomap:
  13. mdists = C_Isomap(knnDists,knnm,k)
  14. #then do APSP
  15. pathMatrix = APSP(knnRefs,knnDists,knnm,eps)
  16. del knnRefs
  17. del knnDists
  18. del knnm
  19. #then normalize the matrix
  20. normMatrix = NormMatrix(pathMatrix,mdists)
  21. del pathMatrix
  22. del mdists
  23. #then get eigenvalues
  24. #embedding = EigenEmbedding(normMatrix,trgDims)
  25. embedding = QEig(normMatrix,trgDims)
  26. del normMatrix
  27. return embedding
  28. def NMIsomap(dataSet,outfile,srcDims,trgDims,k,eps=1000000000., saveSteps = False):
  29. """
  30. Non-Metric Isomap
  31. """
  32. #first do KNN
  33. knnRefs,knnDists = loadSplitTable(KNN(dataSet,k,eps,srcDims))
  34. #then do APSP
  35. pathMatrix = APSP(knnRefs,knnDists,eps)
  36. del knnRefs
  37. del knnDists
  38. #XXX:hacky way of saving this info
  39. if saveSteps:
  40. saveTable(pathMatrix,outfile[:-4]+'_distances.csv')
  41. #then get the rank matrix
  42. origDims = len(pathMatrix)
  43. rankMatrix = RankMatrix(pathMatrix)
  44. del pathMatrix
  45. #then get the NMDS embedding
  46. embedding = NMDS(rankMatrix, loadMatrix(dataSet)[:,:trgDims], origDims, trgDims)
  47. return embedding
  48. if __name__ == '__main__':
  49. arg_values = ['nonmetric=','outdims=','indims=','if=','of=','k=','eps=','help','h']
  50. optlist, args = getopt.getopt(sys.argv[1:], 'x', arg_values)
  51. trgDims = 3
  52. srcDims = 10000000000
  53. k =6
  54. eps = 1000000000.
  55. infile='swissroll.csv'
  56. outfile='embedding.csv'
  57. nonmetric=False
  58. for o in optlist:
  59. if o[0].strip('-') == 'outdims':
  60. trgDims = int(o[1])
  61. for o in optlist:
  62. if o[0].strip('-') == 'indims':
  63. srcDims = int(o[1])
  64. for o in optlist:
  65. if o[0].strip('-') == 'if':
  66. infile = o[1]
  67. for o in optlist:
  68. if o[0].strip('-') == 'of':
  69. outfile = o[1]
  70. for o in optlist:
  71. if o[0].strip('-') == 'k':
  72. k = int(o[1])
  73. for o in optlist:
  74. if o[0].strip('-') == 'nonmetric':
  75. if o[1].strip(' \r\n\t') == 'True' or o[1].strip(' \r\n\t') == 'true':
  76. nonmetric = True
  77. for o in optlist:
  78. if o[0].strip('-') == 'help' or o[1].strip('-') == 'h':
  79. print "The following commands are available:"
  80. print "\t--if=inputfile\tDefaults to swissroll.csv"
  81. print "\t--of=outputfile\tDefaults to embedding.csv"
  82. print "\t--k=k_nearest_neighbours\tDefaults to 12"
  83. print "\t--outdims=embedding_dimensions\tDefaults to 3"
  84. print "\t--indims=input_dimensions\tDefaults to all in the input file"
  85. print "\t--nonmetric\tEnables non-metric MDS embeddings"
  86. result = None
  87. if not nonmetric:
  88. result = Isomap(infile,outfile,srcDims,trgDims,k,eps,False)
  89. else:
  90. result = NMIsomap(infile,outfile,srcDims,trgDims,k,eps,False)
  91. saveTable(result,outfile)