前排知识

本文所有的实验都建立在Python环境上,所以一定要配置好环境。

做实验所需的工具:

  • Pycharm
  • Jupyter Notebook
  • Anaconda

Python数据分析环境的搭配包括Python的安装以及多个第三方库的安装。

先安装Python,再分别安装需要的第三方库。如果想省事,也可以直接安装Anaconda的方式简化安装。Anaconda包含了本章使用的所有的第三方库。使用Pycharm来运行Juypter并加载Anaconda所搭配的科学计算环境。

安装python

本章默认读者已经具备Python基础,就不再赘述Python的安装。如果真的是小白,可以去查阅相关资料。

注意:在安装python时,一定要同时安装pip,否则下边的安装都无法进行。

安装数据分析库

  1. 安装第三方数据库
1
2
3
4
5
6
7
pip3 install numpy
pip3 install scipy
pip3 install matplotlib
pip3 install sklearn
pip3 install xlrd
pip3 install openpyxl
pip3 install seaborn
  1. 检查安装

安装后,可以在python环境中使用导入检查是否安装成功(这里使用pycharm很方便)

1
2
3
4
import numpy as np
import matplotlib as plt
import pandas as pd
import sklearn.datasets import ds

如果需要的类库没有安装,则会提示模块不存在,如果没有错误提示。则说明安装成功。

Jupyter Notebook的使用

Jupyter Notebook是IPython Notebook的继承者,是一个交互式笔记本,支持运行40多种编程语言。它本质上是一个支持实施 代码、数学方程、可视化和Markdown的Web应用程序。对于数据分析,Jupyter Notebook最大的优点是可以重现整个分析过程,并将说明文字、代码、图标、公式和结论都整合在一个文档中。用户可以通过电子邮件、Dropbox、Github和Jupyter Notebook Viewer将分析结果分享给其他人。

Jupyter Notebook是一个非常强大的工具,常用于交互式地开发和展示数据科学项目。它将代码和它的输出集成到一个文档中,并且结合了可视的叙述性文本、数学方程和其他丰富的媒体。它直观的工作流促进了迭代和快速开发,使得Jupyter Notebook在当代数据科学分析和越来越多的科学研究中越来越受欢迎。最重要的是,作为开源项目,它是完全免费的。

  1. 安装Jupyter Notebook

    • 使用如下命令安装Jupyter Notebook
    1
    pip3 install jupyter
  2. 启动Jupyter Notebook

    • 注意:Jupyter Notebook在启动后只允许访问启动目录中包含的文件(包括子目录中包含的文件),并且在Jupyter Notebook中创建的文件也保存在启动目录中,在启动Jupyter Notebook之前需要修改当前目录。

    启动Jupyter Notebook之前先做准备工作。

      1. 创建目录(文件夹)。例如,在D盘下创建notebook文件夹
      2. 改变系统的当前目录,把当前目录更改为创建的目录(文件夹)。

    准备工作完成后,开始启动Jupyter Notebook。在Windows系统下的命令行或者在Linux系统下的终端输入命令Jupyter notebook后按【Enter】键即可启动Jupyter Notebook。启动后会自动打开系统默认的浏览器,自动展示Jupyter Notebook的界面。正所谓无图无真相,接下来让我们看一下在Windows系统下,如何操作。

    第一步,按【Win】+【R】启动运行,输入cmd打开命令行:

​ 第二步,切换到新创建的文件夹,输入Jupyter notebook,开始工作。

现在,可以看到新创建的文件夹下已经有文件存在了。因为我创建了之后改了个名,默认情况下文件名是Untitled。

启动后可以看到浏览器地址栏显示http://localhost:8888/tree。其中,localhost不是一个网站,而是表示本地机器中服务的内容。Jupyter Notebook是Web应用程序,它启动了一个本地的Python服务器,将这些应用程序(Jupyter)提供给Web浏览器,使其从根本上独立于平台,并具有Web上共享的优势。

  1. 新建一个Notebook

    • 打开Jupyter Notebook以后会在系统默认的浏览器中出现Jupyter Notebook的界面(Home)。单击右上方的New下拉按钮,出现下拉列表,选择Python3选项,进入Python脚本编辑界面。

    • 下拉列表中是创建的Notebook类型,其中,TextFile为纯文本型,Folder为文件夹,Python3表示Python运行脚本,灰色字体表示不可用项目。
  2. Jupyter Notebook界面

    • Jupyter Notebook文档由一系列单元(cell)构成,单元有两种形式。

        1. 代码单元。代码单元是编写代码的地方,其左边有“In[]:”符号,编写代码后,单击界面上方工具栏中的“运行”按钮,执行程序,其结果会在对应代码单元的下方显示。
        2. Markdown单元。Markdown单元对文本进行编辑,采用Markdown语法规范,可以设置文本格式、插入链接、图片甚至数学公式。Markdown也可以运行,运行后显示格式化的文本(原文本被替代)。

  3. Jupyter Notebook的两种模式

      1. 编辑模式。用于编辑文本和代码,对于Markdown单元,选中单元并按【Enter】键(或者双击)进入编辑模式;对于代码单元,选中单元后直接进入编辑模式。编辑模式的单元左侧显示绿色竖线。
      2. 命令模式。用于执行键盘输入的快捷命令,在编辑模式下通过按【Enter】键进入命令模式。命令模式的单元左侧显示蓝色竖线。
  4. 检查点

    • 当创建一个新的Notebook时,Jupyter Notebook都会创建一个检查点文件和一个Notebook文件;它将位于保存位置的隐藏子目录中,称作.ipynb_checkpoints,也是一个.ipynb文件。默认情况下,Jupyter将每隔120s自动保存Notebook,而不会改变Notebook文件。当“保存和检查点”时,Notebook和检查点文件都将被更新。因此,检查点能够在发生意外事件时恢复未保存的工作,通过菜单File->Revert to CheckPoints恢复到检查点。
  5. Markdown

    • Markdown是一种轻量级、易于学习的、可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。Jupyter Notebook的Markdown单元作为基础的Markdown的功能更加强大