Python数据处理

【美】Jacqueline Kazil , Katharine Jarmu (作者) 张亮 , 吕家明 (译者)
全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法,轻松实现高效数据处理
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。

本书适合数据处理工作相关人员。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

2018最受欢迎电子书 榜单出炉

技术类top20!/ 非技术类top20!

电子书
¥49.99
格式
mobi   pdf

纸质书
¥84.15 ¥99.00

出版信息

本书特色

用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

* 快速了解Python基本语法、数据类型和语言概念
* 概述数据的获取与存储方式
* 清洗数据并格式化,以消除数据集中的重复值与错误
* 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
* 使用Scrapy写网络爬虫
* 利用新的Python库和技术对数据集进行探索与分析
* 使用Python解决方案将整个数据处理过程自动化

“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”

——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人

“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”

——Tyrone Grandison博士,Proficiency Labs Intl. CEO

目录

版权声明 阅读
O'Reilly Media, Inc.介绍 阅读
本书赞誉 阅读
前言 阅读
第 1 章 Python 简介 阅读
第 2 章 Python 基础 阅读
第 3 章 供机器读取的数据
第 4 章 处理 Excel 文件
第 5 章 处理 PDF 文件,以及用 Python 解决问题
第 6 章 数据获取与存储
第 7 章 数据清洗:研究、匹配与格式化
第 8 章 数据清洗:标准化和脚本化
第 9 章 数据探索和分析
第 10 章 展示数据
第 11 章 网页抓取:获取并存储网络数据
第 12 章 高级网页抓取:屏幕抓取器与爬虫
第 13 章 应用编程接口
第 14 章 自动化和规模化
第 15 章 结论
附录 A 编程语言对比
附录 B 初学者的 Python 学习资源
附录 C 学习命令行
附录 D 高级 Python 设置
附录 E Python 陷阱
附录 F IPython 指南
附录 G 使用亚马逊网络服务
关于作者
关于封面

作者介绍

Jacqueline Kazil,数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

Katharine Jarmul,资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。

【译者简介】

张亮(hysic),毕业于北京大学物理学院,爱好机器学习和数据分析的核安全工程师。

吕家明,2016年毕业于哈尔滨工业大学,现就职于腾讯,从事搜索、Query分析等相关工作,熟悉大规模数据下的数据挖掘和机器学习实践。

相关文章

  • alberthao 4推荐

    《Python数据处理》读书笔记

    1 背景 《Python数据处理》这本书买了有一段时间了,一直没开始读。最近想入手《Linux就是这个范儿》和《单核工作法》。于是我就下了个命令给自己:本书读完一遍后才可以下新单。于是有了这一篇。 有时候,你需要的只是给自己下个命令。让它开始! 2 本书框架 读书我一般会…...

  • 什么年代了,这本原出版于2016年2月的书居然还在用python2,不打算买了。
    xxbiglee  发表于 2017-06-30 10:15:56
    • 然而书中解释了为什么使用py2而不用py3. 另外不要嫌弃py2,py2又没有被淘汰,用的人多的是。

      shishengjia  发表于 2017-06-30 17:51:10
    • @shishengjia 呵呵,2020都不支持python2了,你还让别人用,我也不买了,谢谢。

      forrestdouble  发表于 2017-11-08 13:29:05
    • @shishengjia 用得多,但是迁移是迟早的,pandas等库已经明确表示很快就不支持py2了,py3是大趋势。另外祝新年快乐

      繁繁  发表于 2018-02-15 23:50:50
  • Python数据处理怎么能缺少pandas。。。
    然而本书并没有涉及pandas的内容!
    凡星  发表于 2017-07-05 10:36:29
  • Py2还是有用的,例如ABAQUS,SPSS等常用专业软件中脚本支持都是Py2
    卜问之  发表于 2017-07-03 10:34:09
  • 电子版什么时候半价呢?
    李开拓  发表于 2017-07-27 14:55:58
  • github上的数据无法获取,能打包相关的数据文件随书下载吗
    鹏德宝  发表于 2017-10-03 10:52:24
  • 该书什么时候能出版?
    简杨君  发表于 2016-08-30 12:48:30
  • 请问有电子版吗?
    走出荒野  发表于 2017-06-26 11:02:11
    • m.lom599有电子版权,稍后会有电子版的。

      岳新欣  发表于 2017-06-26 15:44:29
  • 期待电子版~~。很喜欢m.lom599的电子版,再也不是黑白的了
    魏昌霖  发表于 2017-06-29 08:25:38
  • 样书没有刮刮卡。。翻书写代码真不方便。。20块有没有不用的刮刮卡卖我啊~~~
    Jenson  发表于 2017-07-31 19:07:19
  • 请问电子版是mobi和pdf吗?
    longyong  发表于 2017-08-02 10:41:06
  • 没有pandas内容,还是py2,Jupyter都不支持py2了。只能作为思路借鉴了。
    fevath  发表于 2017-08-02 20:52:30
    • 大概如果用上pandas就没什么意思了, 基本就是在写逻辑代码了,这本应该教的是学习如何处理数据,而不是教你用pandas进行数据分析吧

      yjhmelody  发表于 2017-09-14 02:49:40
  • 电子书的PDF文件下载总是失败,是不是文件损坏了?
    爱看书  发表于 2017-09-27 16:20:17
  • 看到是Python2就算了
    咆哮的蚂蚁  发表于 2018-03-16 16:00:40