Python数据科学手册PDF高清完整版免费下载|百度云盘

python学习网 2020-08-15 15:55:02

百度云盘:Python数据科学手册PDF高清完整版免费下载
提取码:cbbj



内容简介  
本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。
本书适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。




作者简介  
Jake VanderPlas,Python科学栈深度用户和开发者,尤其擅长Python科学计算和数据可视化,是altair等可视化程序库的创建人,并为Scikit-Learn、IPython等Python程序库做了大量贡献。现任美国华盛顿大学eScience学院物理科学研究院院长。

目录 译者序 xiii
前言 xv
第1 章 IPython:超越Python 1
1.1 shell还是Notebook 1
1.1.1 启动IPython shell 2
1.1.2 启动Jupyter Notebook 2
1.2 IPython的帮助和文档 3
1.2.1 用符号? 获取文档 3
1.2.2 通过符号?? 获取源代码 4
1.2.3 用Tab补全的方式探索模块 5
1.3 IPython shell中的快捷键 7
1.3.1 导航快捷键 7
1.3.2 文本输入快捷键 7
1.3.3 命令历史快捷键 8
1.3.4 其他快捷键 9
1.4 IPython魔法命令 9
1.4.1 粘贴代码块:%paste和%cpaste 9
1.4.2 执行外部代码:%run 10
1.4.3 计算代码运行时间:%timeit 11
1.4.4 魔法函数的帮助:?、%magic 和%lsmagic 11
1.5 输入和输出历史 12
1.5.1 IPython的输入和输出对象 12
1.5.2 下划线快捷键和以前的输出 13
1.5.3 禁止输出 13
1.5.4 相关的魔法命令 13
1.6 IPython和shell命令 14
1.6.1 shell快速入门 14
1.6.2 IPython中的shell命令 15
1.6.3 在shell中传入或传出值 15
1.7 与shell相关的魔法命令 16
1.8 错误和调试 17
1.8.1 控制异常:%xmode 17
1.8.2 调试:当阅读轨迹追溯不足以解决问题时 19
1.9 代码的分析和计时 21
1.9.1 代码段计时:%timeit和%time 22
1.9.2 分析整个脚本:%prun 23
1.9.3 用%lprun进行逐行分析 24
1.9.4 用%memit和%mprun进行内存分析 25
1.10 IPython参考资料 26
1.10.1 网络资源 26
1.10.2 相关图书 27
第2 章 NumPy入门 28
2.1 理解Python中的数据类型 29
2.1.1 Python整型不仅仅是一个整型 30
2.1.2 Python列表不仅仅是一个列表 31
2.1.3 Python中的固定类型数组 32
2.1.4 从Python列表创建数组 32
2.1.5 从头创建数组 33
2.1.6 NumPy标准数据类型 34
2.2 NumPy数组基础 35
2.2.1 NumPy数组的属性 36
2.2.2 数组索引:获取单个元素 37
2.2.3 数组切片:获取子数组 38
2.2.4 数组的变形 41
2.2.5 数组拼接和分裂 42
2.3 NumPy数组的计算:通用函数 44
2.3.1 缓慢的循环 44
2.3.2 通用函数介绍 45
2.3.3 探索NumPy的通用函数 46
2.3.4 高级的通用函数特性 49
2.3.5 通用函数:更多的信息 51
2.4 聚合:最小值、最大值和其他值 51
2.4.1 数组值求和 51
2.4.2 最小值和最大值 52
2.4.3 示例:美国总统的身高是多少 54
2.5 数组的计算:广播 55
2.5.1 广播的介绍 55
2.5.2 广播的规则 57
2.5.3 广播的实际应用 60
2.6 比较、掩码和布尔逻辑 61
2.6.1 示例:统计下雨天数 61
2.6.2 和通用函数类似的比较操作 62
2.6.3 操作布尔数组 64
2.6.4 将布尔数组作为掩码 66
2.7 花哨的索引 69
2.7.1 探索花哨的索引 69
2.7.2 组合索引 70
2.7.3 示例:选择随机点 71
2.7.4 用花哨的索引修改值 72
2.7.5 示例:数据区间划分 73
2.8 数组的排序 75
2.8.1 NumPy中的快速排序:np.sort和np.argsort 76
2.8.2 部分排序:分隔 77
2.8.3 示例:K个最近邻 78
2.9 结构化数据:NumPy的结构化数组 81
2.9.1 生成结构化数组 83
2.9.2 更高级的复合类型 84
2.9.3 记录数组:结构化数组的扭转 84
2.9.4 关于Pandas 85
第3 章 Pandas数据处理 86
3.1 安装并使用Pandas 86
3.2 Pandas对象简介 87
3.2.1 Pandas的Series对象 87
3.2.2 Pandas的DataFrame对象 90
3.2.3 Pandas的Index对象 93
3.3 数据取值与选择 95
3.3.1 Series数据选择方法 95
3.3.2 DataFrame数据选择方法 98
3.4 Pandas数值运算方法 102
3.4.1 通用函数:保留索引 102
3.4.2 通用函数:索引对齐 103
3.4.3 通用函数:DataFrame与Series的运算 105
3.5 处理缺失值 106
3.5.1 选择处理缺失值的方法 106
3.5.2 Pandas的缺失值 107
3.5.3 处理缺失值 110
3.6 层级索引 113
3.6.1 多级索引Series 113
3.6.2 多级索引的创建方法 116
3.6.3 多级索引的取值与切片 119
3.6.4 多级索引行列转换 121
3.6.5 多级索引的数据累计方法 124
3.7 合并数据集:Concat与Append操作 125
3.7.1 知识回顾:NumPy数组的合并 126
3.7.2 通过pd.concat实现简易合并 126
3.8 合并数据集:合并与连接 129
3.8.1 关系代数 129
3.8.2 数据连接的类型 130
3.8.3 设置数据合并的键 132
3.8.4 设置数据连接的集合操作规则 134
3.8.5 重复列名:suffixes参数 135
3.8.6 案例:美国各州的统计数据 136
3.9 累计与分组 140
3.9.1 行星数据 140
3.9.2 Pandas的简单累计功能 141
3.9.3 GroupBy:分割、应用和组合 142
3.10 数据透视表 150
3.10.1 演示数据透视表 150
3.10.2 手工制作数据透视表 151
3.10.3 数据透视表语法 151
3.10.4 案例:美国人的生日 153
3.11 向量化字符串操作 157
3.11.1 Pandas字符串操作简介 157
3.11.2 Pandas字符串方法列表 159
3.11.3 案例:食谱数据库 163
3.12 处理时间序列 166
3.12.1 Python的日期与时间工具 166
3.12.2 Pandas时间序列:用时间作索引 169
3.12.3 Pandas时间序列数据结构 170
3.12.4 时间频率与偏移量 172
3.12.5 重新取样、迁移和窗口 173
3.12.6 更多学习资料 178
3.12.7 案例:美国西雅图自行车统计数据的可视化 179
3.13 高性能Pandas:eval()与query() 184
3.13.1 query()与eval()的设计动机:复合代数式 184
3.13.2 用pandas.eval()实现高性能运算 185
3.13.3 用DataFrame.eval()实现列间运算 187
3.13.4 DataFrame.query()方法 188
3.13.5 性能决定使用时机 189
3.14 参考资料 189
阅读(2375) 评论(0)