1.1 什么是数据科学?
数据科学不仅仅是机器学习和统计学,而且也不全是关于预测。 它甚至不是一门完全包含 STEM(科学,技术,工程,和数学)所有领域的学科 (Meng, 2019)。 但有一件事我们可以非常自信地断言,那就是数据科学始终与 数据 有关。 我们写这本书有两重目标:
- 专注讨论数据科学的主干: 数据。
- 使用 Julia 编程语言来处理数据。
我们将在 Section 2 章节讨论为什么 Julia 对于数据科学来说是一门相当高效的语言。 现在将注意力继续转向数据。
1.1.1 数字素养
根据 维基百科,数字素养的正式定义是 阅读、理解、创建和使用数据进行信息交流的能力。 我们也喜欢这个非正式的理解,即作为一个具有数字素养的人,你不会对大量数据感到不知所措,相反地可以使用它来做出正确的决策。 因此,数字素养可以被视为一种具有高度竞争力的技能。 本书将讨论 数字素养的两个方面:
- 使用
DataFrames.jl
操作数据 (Section 4)。 你将在本章学到如何:- 读取 CSV 和 Excel 数据到 Julia 。
- 使用 Julia 处理数据,即学习如何回答数据问题。
- 使用
filter
和subset
筛选数据。 - 处理缺失数据。
- 连接多个数据源。
- 分组和汇总数据。
- 从 Julia 导出数据到 CSV 和 Excel 文件。
- 使用
Makie.jl
可视化数据 (Section 5)。 你将在本章学到如何:- 使用不同的
Makie.jl
后端绘制数据图。 - 将可视化数据图保存为多种格式,例如 PNG 或 PDF。
- 使用不同的绘图函数实现多样化的数据可视化。
- 结合属性自定义可视化图。
- 使用和创建新的绘图主题。
- 向图中增加 \(\LaTeX\) 元素。
- 改变颜色和颜色图。
- 创建复杂的图布局。
- 使用不同的
CC BY-NC-SA 4.0 Jose Storopoli, Rik Huijzer, Lazaro Alonso, 刘贵欣 (中文翻译), 田俊 (中文审校)
当前内容版权归 JuliaDataScience 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 JuliaDataScience .