一、Jupyter 笔记本

原文:Jupyter Notebooks

译者:飞龙

协议:CC BY-NC-SA 4.0

这是 Jupyter 笔记本的快速介绍。

Jupyter 笔记本是一种将可执行代码,代码输出和文本组合到一个连接文件中的方法。

项目 Jupyter 的官方文档在这里,他们也有一些示例笔记本在这里

菜单选项和快捷方式

要快速浏览 Jupyter 用户界面,请单击“帮助”菜单,然后单击“用户界面浏览”。

还有大量有用的键盘快捷键。单击“帮助”菜单,然后单击“键盘快捷键”来查看列表。

单元格

笔记本的主要组织结构是“单元格”。

单元格,可以是 markdown(文本),就像这一个或代码单元格(我们会看到他们)。

Markdown 单元格

Markdown 单元格用于传达有关我们笔记本的信息。

它们执行基本的文本格式化,包括斜体,粗体,标题,链接和图像。

双击本节中的任何单元格以查看纯文本的外观。运行单元格,然后查看格式化的 Markdown 文本的外观。

  1. # 这是标题
  2. ## 这是较小的标题
  3. ### 这是更小的标题

我们可以将我的文本斜体化,像*这样*_这样_

我们可以像**这样**或像__这样__加粗我的文本。

这是一个无序的项目列表:

  1. * 这是一个项目
  2. * 这是一个项目
  3. * 这是一个项目

这是一个有序的项目列表:

  1. 1. 这是我的第一个项目
  2. 2. 这是我的第二个项目
  3. 3. 这是我的第三个项目

我们可以使用缩进来获得嵌套列表:

  1. * 这是一个项目
  2. * 这是一个项目
  3. * 这是一个项目
  4. * 这是一个项目
  5. * 这是一个项目

我们还可以组合有序和无序列表:

  1. 1. 这是我的第一个项目
  2. 2. 这是我的第二个项目
  3. * 这是一个项目
  4. * 这是一个项目
  5. 3. 这是我的第三个项目

我们可以这样链接到这个[有用的 markdown 速查表](https://www.markdownguide.org/cheat-sheet/)

如果我们不对链接使用 markdown 语法,它只会将链接本身显示为链接文本:https://www.markdownguide.org/cheat-sheet/

LaTeX 格式文本

  1. $$ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)} $$

代码单元格

  1. # 代码单元格中可以输入注释。
  2. a = 1
  3. b = 2
  4. # 单元格也可以有输出,打印输出到单元格下方。
  5. print(a + b)
  6. # 3
  7. my_string = 'hello world'
  8. print(my_string)
  9. # hello world
  10. # TAB 补全,print(my_string.upper())
  11. my_string.upper()
  12. # 'HELLO WORLD'
  13. my_list = ['a','b','c']
  14. print(my_list)
  15. # ['a', 'b', 'c']

访问文档

Jupyter 有很多有用的快捷方式。在函数或类之后添加一个 ‘?’ 获取带有文档的窗口,或者两个 ‘??’ 来拉出源代码。

  1. # 为示例导入 NumPy
  2. import numpy as np
  3. # 检查 NumPy 数组的文档
  4. np.array?
  5. # 检查 numpy append 函数的完整源代码
  6. np.append??
  7. # 获取你创建的变量的信息
  8. my_string?

自动补全

Jupyter还具有 tab 补全功能,可以自动不全你输入的内容,和/或用于探索可用的代码。

  1. # 移动光标到点号之后,按 Tab 键
  2. # 将出现一个下拉菜单,显示所有可能的补全
  3. np.
  4. # 自动填充不一定在点号处。移至 'ra' 的末尾并按 Tab 键查看补全选项。
  5. ra
  6. # 如果只有一个选项,tab 补全将自动补全你输入的内容。
  7. ran

内核和命名空间

你不需要按顺序运行单元格!这对于灵活地测试和开发代码很有用。

单元格左侧方括号中的数字表示哪个单元格已运行以及按什么顺序运行。

但是,它也很容易丢失已经声明/导入的内容,导致运行单元格时的意外行为。

内核是将笔记本连接到计算机后台来执行代码的东西。

清除并重新启动内核非常有用。你可以从顶部的“内核”下拉菜单执行此操作,也可以选择清除所有输出。

魔术命令

“魔术命令”是 IPython / Jupyter 中一种特殊的(命令行)语法,用于运行特殊功能。它们可以在某行和/或整个单元上运行。

iPython 文档提供了魔术命令的更多信息。

魔术命令旨在简洁地解决标准数据分析中的各种常见问题。魔术命令有两种形式:行魔术,由单个%前缀表示并在单行输入上操作,以及单元魔术,由双%%前缀表示,并在多行输入上操作。

  1. # 访问快速参考清单
  2. %quickref
  3. # 你可以查看可用的魔术命令列表
  4. %lsmagic
  5. '''
  6. Available line magics:
  7. %alias %alias_magic %autocall %automagic %autosave %bookmark %cat %cd %clear %colors %config %connect_info %cp %debug %dhist %dirs %doctest_mode %ed %edit %env %gui %hist %history %killbgscripts %ldir %less %lf %lk %ll %load %load_ext %loadpy %logoff %logon %logstart %logstate %logstop %ls %lsmagic %lx %macro %magic %man %matplotlib %mkdir %more %mv %notebook %page %pastebin %pdb %pdef %pdoc %pfile %pinfo %pinfo2 %popd %pprint %precision %profile %prun %psearch %psource %pushd %pwd %pycat %pylab %qtconsole %quickref %recall %rehashx %reload_ext %rep %rerun %reset %reset_selective %rm %rmdir %run %save %sc %set_env %store %sx %system %tb %time %timeit %unalias %unload_ext %who %who_ls %whos %xdel %xmode
  8. Available cell magics:
  9. %%! %%HTML %%SVG %%bash %%capture %%debug %%file %%html %%javascript %%js %%latex %%markdown %%perl %%prun %%pypy %%python %%python2 %%python3 %%ruby %%script %%sh %%svg %%sx %%system %%time %%timeit %%writefile
  10. Automagic is ON, % prefix IS NOT needed for line magics.
  11. '''
  12. # 查看当前工作目录
  13. %pwd
  14. # '/Users/shannonellis/Desktop/Teaching/COGS108/Tutorials'
  15. # 所有变量
  16. %who
  17. # a b my_list my_string np
  18. # 所有变量;更多信息
  19. %whos
  20. '''
  21. Variable Type Data/Info
  22. -------------------------------
  23. a int 1
  24. b int 2
  25. my_list list n=3
  26. my_string str hello world
  27. np module <module 'numpy' from '/an<...>kages/numpy/__init__.py'>
  28. '''
  29. # 历史
  30. %hist
  31. '''
  32. ### Markdown 单元
  33. # 历史
  34. %hist
  35. # 指定你正在编写 HTML
  36. %%HTML
  37. <p>This is a paragraph</p>
  38. %%bash
  39. # 等价地,(对于 bash)使用 %% bash cell 魔术,将单元格作为 bash 运行(命令行)
  40. pwd
  41. # 在代码单元格中,可以键入注释
  42. a = 1
  43. b = 2
  44. # 单元格也可以有输出,打印输出到单元格下方。
  45. print(a + b)
  46. my_string = 'hello world'
  47. print(my_string)
  48. # Tab 补全,print(my_string.upper())
  49. my_string.upper()
  50. my_list = ['a','b','c']
  51. print(my_list)
  52. # 为示例导入 NumPy
  53. import numpy as np
  54. # 检查 NumPy 数组的文档
  55. np.array?
  56. # 检查 NumPy append 函数的完全源代码
  57. np.append??
  58. # 获取你创建的变量的信息
  59. my_string?
  60. # 移动光标到点号之后,按 Tab 键
  61. # 将出现一个下拉菜单,显示所有可能的补全
  62. np.
  63. # 在代码单元格中,可以键入注释
  64. a = 1
  65. b = 2
  66. # 单元格也可以有输出,打印输出到单元格下方。
  67. print(a + b)
  68. my_string = 'hello world'
  69. print(my_string)
  70. # tab 补全,print(my_string.upper())
  71. my_string.upper()
  72. my_list = ['a','b','c']
  73. print(my_list)
  74. # 为示例导入 NumPy
  75. import numpy as np
  76. # 检查 NumPy 数组的文档
  77. np.array?
  78. # 检查 NumPy append 函数的完全源代码
  79. np.append??
  80. # 获取你创建的变量的信息
  81. my_string?
  82. # 移动光标到点号之后,按 Tab 键
  83. # 将出现一个下拉菜单,显示所有可能的补全
  84. np.
  85. # 访问快速参考清单
  86. %quickref
  87. # 你可以检查可用魔术命令的列表
  88. %lsmagic
  89. # 查看当前工作目录
  90. %pwd
  91. # 所有变量
  92. %who
  93. # 所有变量;更多信息
  94. %whos
  95. # 历史
  96. %hist
  97. # 例如,我们可以计算创建大型列表所需的时间
  98. %timeit list(range(100000))
  99. %%timeit
  100. # 例如,我们可以为整个单元格计时
  101. a = list(range(100000))
  102. b = [n + 1 for n in a]
  103. # 你可以通过在行的开头添加 '!' 来运行终端命令
  104. !pwd
  105. # 注意,在这种情况下,'!pwd' 等同于魔术 '%pwd'。
  106. # '!' 语法更通用,允许你通过命令行运行任何你想要的东西
  107. %%bash
  108. # 等价地,(对于 bash)使用 %% bash cell 魔术,将单元格作为 bash 运行(命令行)
  109. pwd
  110. # 列出目录中的文件
  111. !ls
  112. # 修改当前目录
  113. !cd .
  114. # 历史
  115. %hist
  116. '''

行魔术

行魔术使用单个 ‘%’,并应用于单行。

  1. # 例如,我们可以计算创建大型列表所需的时间
  2. %timeit list(range(100000))
  3. # 1.6 ms ± 26.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

单元魔术

单元魔术使用双“%%”,并应用至整个单元。

  1. %%timeit
  2. # 例如,我们可以为整个单元格计时
  3. a = list(range(100000))
  4. b = [n + 1 for n in a]
  5. # 6.59 ms ± 97.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

运行终端命令

笔记本的另一个好处是能够运行终端命令。

  1. # 你可以通过在行的开头添加 '!' 来运行终端命令
  2. !pwd
  3. # 注意,在这种情况下,'!pwd' 等同于魔术 '%pwd'。
  4. # '!' 语法更通用,允许你通过命令行运行任何你想要的东西
  5. # /Users/shannonellis/Desktop/Teaching/COGS108/Tutorials
  1. %%bash
  2. # 等价地,(对于 bash)使用 %% bash cell 魔术将单元格作为 bash 运行(命令行)
  3. pwd
  4. # /Users/shannonellis/Desktop/Teaching/COGS108/Tutorials
  1. # 列出目录中的文件
  2. !ls
  3. '''
  4. 00-Introduction.ipynb 13-OrdinaryLeastSquares.ipynb
  5. 01-JupyterNotebooks.ipynb 14-LinearModels.ipynb
  6. 02-DataAnalysis.ipynb 15-Clustering.ipynb
  7. 03-Python.ipynb 16-DimensionalityReduction.ipynb
  8. 04-DataSciencePython.ipynb 17-Classification.ipynb
  9. 05-DataGathering.ipynb 18-NaturalLanguageProcessing.ipynb
  10. 06-DataWrangling.ipynb A1-PythonPackages.ipynb
  11. 07-DataCleaning.ipynb A2-Git.ipynb
  12. 08-DataPrivacy&Anonymization.ipynb LICENSE
  13. 09-DataVisualization.ipynb README.md
  14. 10-Distributions.ipynb [34mfiles[m[m
  15. 11-TestingDistributions.ipynb [34mimg[m[m
  16. '''
  17. # 修改当前目录
  18. !cd .

有关更多有用信息,请查看 Jupyter 笔记本提示与技巧,以及有关笔记本如何工作的更多信息。