数据分析作品目录

复合目录

序言一

1数据分析介绍:分解数据1

实验:测试你的理论37

3优化:寻找最大值75

4数据图形:图形让你更聪明111

5假设检验:假设并非如此139

6贝叶斯统计:穿越第一关169

7主观概率:数字信念191

8启发式方法:基于人性的分析225

9直方图:数字251的形状

10回归:预测279

11误差:合理误差315。

12相关数据库:能关联吗?359

13整理数据:有序385

附录A结尾:遗漏文字的十个小技巧417

附录b安装r:启动r!427

附录C安装Excel分析工具:工具库431

细分目录和每章介绍

前言

大脑对数据分析的态度。一方面,你在努力学习一些知识,另一方面,你在

我们的大脑正忙于抛弃。你的大脑在想,“最好把职位留给更重要的事情,

喜欢哪些野生动物要远离,喜欢裸体滑雪也是个不错的主意。"

在这种情况下,如何引诱你的大脑意识到懂得数据分析才是你的活下去的地方?

生命之根?

谁适合看这本书?二

我们知道你在想什么,III。

元认知v

征服大脑VII

自我报告八

第十技术咨询小组

谢谢XI

1.分解数据分析简介

Acme化妆品公司需要您的帮助2

首席执行官希望数据分析师帮助他提高销售额。

数据分析就是仔细推敲证据。

确定问题5

客户将帮助您识别问题6。

Acme公司的CEO给了你一些反馈。

将问题和数据分解成更小的块9

现在来看看我们学了什么10。

评估模块13

分析从你介入的那一刻开始。

提建议15

报告已写16。

CEO赞赏你的工作17

一条新闻18

CEO深信不疑的观点让你误入歧途20

你对外界的假设和你深信不疑的观点就是你的心智模型。

统计模型取决于心智模型22

心智模型应该包括你不了解的因素。

首席执行官承认他不知道一些事情。

Acme给你发了一长串原始数据28。

深入挖掘数据31

泛美批发公司证实了你的印象。

回顾你的工作35

你的分析让客户做出了明智的决定。

实验

检验你的理论。

你能向别人透露你坚定的信念吗?一个实证测试正在进行中?做好实验,然后

没有办法像一个很好的实验一样解决问题,揭示事情的真实运作。

规律性。一个好的实验往往能让你摆脱对观察数据的无限依赖,帮你理清原因。

水果接触;可靠的实证数据会让你的分析判断更有说服力。

咖啡行业的寒冬已经到来!38

星巴克的董事会将在三个月后召开会议。

星巴克问卷41

一定要用比较法42。

对比是破译观测数据的法宝。

价值感是销售收入下降的原因吗?四十四

典型顾客的想法46

观察分析法充满了混杂因素47

店铺位置可能对分析结果有什么影响?48

分割数据块和管理混杂因素50

情况比预想的还要糟糕!53

你需要做一个实验来指出哪种策略是最有效的。

星巴克的首席执行官不耐烦了。

星巴克已经降价56%

一个月后...57

基于对照组58

避免发射123 61

让我们再做一次实验。

一个月后...63

实验仍然会被混杂的因素破坏

仔细选择组以避免混淆因素65

随机选择相似的组67

随机采访68

准备好了,开始实验71

结果在这里

星巴克找到了一个符合经验的销售策略。

3.找到最大的优化

有些东西,每个人都希望越多越好。为此,我们上下求索。如果我可以用数字来表示,

学生不断追求的东西——利润、金钱、效率、速度等。-是实现更高目标的机会。

就在拐角处。有一个数据分析工具可以帮助我们调整决策变量,找到解决方案。

方案和优化点使我们能够最大限度地实现目标。本章将使用这样一个工具,

并通过强大的电子表格软件包Solver来实现这个工具。

这是洗澡玩具游戏时间76。

您可以控制的变量受到约束的限制。

决策变量是你可以控制的因素。

你有一个优化问题。

借助目标函数寻找目标81

你的目标函数82

列出带有其它约束的产品组合83

在同一图形中绘制多个约束84

合理的选择都出现在可行域。

新的约束改变了可行区域87。

使用电子表格实现优化90

规划求解一次性解决优化问题94

利润跌到了最低点

你的模型只描述了你指定的情况。

根据分析目标修正假设99。

当心负相关变量103

新方案是即时的。108

你的假设是基于千变万化的实际情况109

4.图形数据

图形让你更聪明。

数据表远不是你所需要的。你的数据复杂晦涩,各种变量让你目不暇接,你可以应付积累。

堆积如山的电子表格不仅无聊,而且浪费时间。相反,不仅仅是使用

电子表格不同。一个生动清晰的图像,用很少的纸就能帮你去掉“一片叶子”

我看不见泰山,因为我看不见。

新军需要优化网站112

成绩出来了,信息设计师出局113。

之前信息设计师提交的三张信息图114。

这些数字暗示了什么数据?115

反映数据!116

这是之前设计师提供的意见,117。

数据太多永远不是你的问题118。

让数据变漂亮也不是你想解决的问题。119.

数据图形的根本在于120的正确比较。

你的图形已经比那些在地狱边缘的123更有用了

用散点图124探究原因

最好的图形是多元图形125。

同时显示多个图形,反映更多变量126。

图形很棒,但是网站老板还是不满意130。

优秀的平面设计之所以有助于思考131

实验设计师发声132。

实验设计者有自己的假设:135。

顾客欣赏你的工作136

订单从四面八方滚滚而来!137

5.假设不是假设检验

物是人非,真假难辨。人们需要用复杂多变的数据来预测未来,但这是不可避免的。

剪不断理还乱。正因为如此,分析师不会简单地听表面的解释,也不会

会想当然地认为这些解释是正确的:通过对数据分析的仔细推理,分析师可以

以不同寻常的详细程度评估大量备选答案,然后将手头的所有信息整合到各个模块中。

在中间。接下来要学习的证伪法是一种实用有效的非直观法。

给我一张皮...140.

我们什么时候开始生产新的手机外壳?141

PodPhone不希望别人看穿自己的下一步棋142

我们知道的所有信息143

电皮的分析和数据吻合吗?144

E-skin获得机密战略备忘录145。

变量可以正相关,也可以负相关146。

现实世界中,各种原因都是网络化的,但非线性关系是149。

假设有几个PodPhone备选方案150。

利用手头数据进行假设检验151

假设检验的核心是证伪152。

用诊断学160求最小负假设

我们无法逐一排除所有假设,但我们可以确定哪个假设最强。

您刚收到一条图片消息...164.

即将推出!167

6.贝叶斯统计

通过第一关

数据收集从未停止。有必要确保每个分析过程都充分利用收集的和

与问题相关的数据。虽然你学会了证伪方法,但是处理异构数据源不是问题。

遇到正概率问题怎么办?这是一个非常方便的分析工具,叫做

贝叶斯法则,这个法则可以帮助你利用基本的概率和波动数据,做到观察入微。

医生带来烦人的消息170

让我们逐项阅读正确性分析。

蜥蜴流感有多普遍?174

你算出了175的误报。

这些术语都是指条件概率176。

你需要计算177。

1%的人患有蜥蜴流感178。

你得蜥蜴流感的几率还是很低的181。

用简单整数182思考复概率

收集新数据后,使用贝叶斯规则处理基本概率182。

贝叶斯规则可以重复使用183。

第二次测试结果:负184。

新测试正确性的统计值变化了185。

新的信息会改变你的基本概率186。

放心多了!189

7.信仰的数字化

主观概率

虚拟数据可以。真的。然而,这些数字必须描述你的精神状态。

了解你的信仰。主观概率是将严谨性融入直觉的一种简单方式,具体来说

做法马上出台。随着讲座的进行,你将学习如何使用标准差来评估数据。

之前学过的一个更强大的分析工具——分布,也会再次出现在舞台上。

北水投资公司需要你去192上班。

分析师互称193。

主观概率反映专家信念198

主观概率可能表明根本不存在真正的分歧。

分析师回答的主观概率是201。

首席执行官不明白你在做什么。

首席执行官很欣赏你的工作。

标准偏差测量分析点和平均值之间的偏差208。

这个消息让你措手不及213

贝叶斯法则是修正主观概率的好方法217

首席执行官确切地知道如何处理这些新信息。

俄罗斯投资者欢欣鼓舞!224

8.探索法

按人性分析。

现实世界中不断变化的情况使得分析师很难预测事情。总有一些数据超出我们的能力范围,即

优化方法通常困难且耗时。好在生活中的大部分实用思维。

活动不是以最理性的方式进行的,而是通过使用不完整和不确定的信息和经验。

处理一下,速战速决。很神奇的是这些经验真的能起作用,所以也进行着。

数据分析的重要和必要的工具。

邋遢派向市议会提交了一份报告。

草率的收集真的清理了小镇。

马虎套测了一下自己的工作效果。

他们的任务是减少散落的垃圾量。

测量垃圾230的数量是不可行的

难题,简单回答231

数据州城市的零散垃圾结构复杂。

无法建立和应用分散垃圾的统一计量模型233。

启发式方法是从直觉到优化的桥梁。

使用快速保存树239

有没有更简单的方法来评价不整洁收藏的成就?240

固定模式是有启发性的244。

分析后,准备提交246

看来你的分析打动了市议会的成员。

9.数字的形状直方图

直方图能显示什么?数据的图形表示方法有无数种,直方图就是其中一种。

一个杰出的人。直方图有点类似直方图,可以快速有效的汇总数据。接收

接下来,您将使用这个小而实用的图表来测量数据的分布、差异和集中趋势。

无论数据集有多大,你都可以通过绘制直方图来“看出”数据中的玄机。

在这一章中,让我们用一个新颖、免费、万能的软件工具来绘制直方图。

员工年度考核快到了。

要钱有很多种形式。

这是历年的加薪记录。

直方图反映了每组数据262的出现频率。

直方图不同部分之间的间隙是数据点263之间的间隙。

安装并运行R 264

将数据载入r程序265

r创建了美观的直方图266。

用数据子集绘制直方图271。

薪资谈判有回报。

谈判加薪对你来说意味着什么?277

10.回归

预测

什么都知道,什么都不知道。回归分析有无穷的魔力,只要运用得当,可以帮你预测。

一些结果值。如果与控制实验一起使用,回归分析也可以预测未来。商人热情地

使用回归分析来帮助您建立模型和预测客户行为。这一章会让你明白,明智。

正确使用回归分析确实能带来很大的好处。

你打算怎么花这笔钱?280

为了获得大幅加薪而进行分析。

等一下...工资计算器!284

这个算法的奥妙在于预测加薪幅度286。

用散点图比较两个变量292

直线可以为顾客指示目标294。

使用平均图,预测每个区间中的数值297。

回归线预测的是人的实际工资涨幅。

回归线对于具有线性相关特征的数据很有用。

你需要一个方程式来做出准确的预测。

让R创建回归对象306。

回归方程与散点图密切相关。

工资计算器的算法是回归方程310。

你的工资计算器没有按计划工作...313

11.合理误差误差

世界是复杂的。预测不准确并不奇怪。然而,如果你做一个预测,

通过指出误差范围,你和你的客户不仅可以知道平均预测值,还可以知道误差。

差异导致的典型偏差,指出误差可以使预测和信念更全面。通过本章进行教学

工具,你也将知道如何控制误差和如何使误差最小化,从而改进预测。

可靠性

顾客大为恼火316

你的涨薪预测算法做了什么?317

客户构成318

要求加薪25%的家伙不在模型321的范围内

如何对待希望预测数据范围之外情况的客户322

那个因为使用外推法而被解雇的家伙平静下来了。

你只解决了问题的一部分。

扭曲的加薪结果数据是什么样子的?329

机会误差=实际结果和模型预测结果之间的偏差330

错误对您和您的客户都有好处。

机会错误面试335

定量地说明误差336

残差分布337由均方根误差定量表示。

r模型知道存在均方根误差338。

R的线性模型汇总显示均方根误差为340。

分段的基本目的是管理错误346。

优秀的回归分析兼具解释和预测功能。

与原始模型相比,分区模型可以更好地处理错误352。

你的顾客正在回头。

12.你能理解吗?关系数据库

如何组织多变的多变量数据?电子表格只有二维数据:行和。

专栏。如果你的数据包括很多方面,表格格式很快就会过时。在本章中,

你会看到电子表格很难管理多元数据,你也会看到关系数据库管理系统。

它使得多元数据的存储和检索变得极其简单。

数据州新闻想分析一下360的销量。

这是他们保存的运营跟踪数据361。

你需要知道数据表之间的相关性。

数据库是一系列彼此具有特定关系的数据365。

找出一条贯穿各种关系的路线,以便进行必要的比较。

创建穿过该路径的电子表格366。

通过汇总371将文章数量与销售量关联起来。

看来你的散点图真的不错。

复制和粘贴所有这些数据是一件痛苦的事。

管理与关系数据库的关系376

Data State News使用您的图表构建了一个RDBMS 377。

数据状态新闻使用SQL提取数据379

RDBMS数据可以无止境的比较382。

你上封面了。

13.有序分类数据

乱七八糟的数据毫无用处。许多数据收集者需要花很多时间整理数据。不

整齐的数据无法分割,公式无法应用,甚至无法读取,被人们视为。

消失是常事,不是吗?其实你可以做得更好。只要眼前清晰浮现。

给出想要的数据外观,然后使用一些文本处理工具,就可以使其完整。

管理数据,化腐朽为神奇。

刚从一家倒闭的竞争对手那里拿到一份客户名单。

我衣橱里的数据分析框架387

Head First猎头公司想为自己的销售团队拿到这份名单。

清理混乱数据的根本在于准备392。

一旦组织了数据,就可以对其进行修复393。

使用#作为分隔符394。

Excel通过分隔符将数据分成多个列395。

将“”字符399替换为替换字符。

所有的“姓”都整理好了。

用替身代替名字模式太麻烦了

使用嵌套文本公式处理复杂模式403

r可以用正则表达式处理复杂的数据模式404。

用子指令406整理“名字”

现在你可以把货物交给顾客了。

也许还没有完成...408

对数据进行排序,使409出现在重复的数字集中。

这些数据可能来自关系数据库412。

删除重复名称413

你创造了一个漂亮整洁独特的记录414。

Head First猎头公司是一网打尽各类人才!415

再见...416

附录a结束

丢失文本的十个提示。

你收获了很多。但是,数据分析的技术是不断变化的,无穷无尽的。由于这本书的篇幅

但是,还有一些密切相关的知识没有介绍。我们将在本附录中浏览十大知识点。

一:统计知识大全418

第二:Excel技能419

第三:耶鲁大学教授爱德华·塔夫特(Edward Tufte)的图形原理420。

第四:透视表421

第五:R社区422

第六:非线性和多元回归423

第七:原假设——替代假设检验424

第八:随机性424

九:谷歌文档425

第十:你的专业技能426

开始r!附录b安装r

强大的数据分析功能依赖于复杂的内部机制。幸运的是,安装只需要几分钟。

而本附录将介绍如何不费吹灰之力安装R。

附录c安装Excel分析工具

工具库

默认情况下,Excel的一些最佳功能不会安装。为了实现第3章和第1段的优化

第九章直方图需要激活规划求解和分析工具库,默认安装Excel。

这两个扩展是安装的,但是除非用户主动操作,否则不会被激活。