统计学基础知识梳理,看这一篇就够了_异常值 二项分布-程序员宅基地

技术标签: 数据仓库  统计学  

数据分析入门要具备什么样的能力?其中有一项必备的——统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通过统计学我们可以用更富有信息驱动力和针对性的方式对数据进行操作。

在数据分析工作中,利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。

今天小编就给大家分享一篇统计学基础知识梳理,希望对大家有帮助。

简单而言,描述性统计分析是用几个关键的数字来描述数据集的整体情况<集中性和离散型(波动性大小)>。

描述数据集常用4个指标:平均值 四分位数 标准差 标准分,利用这些指标可以进行数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

通常我们拿到一份数据集,首先对获取的数据进行清洗,整理成我们业务所需要的新数据,然后再对新数据进行描述性统计分析,常用的是 Excel 中自带的分析分析工具(描述性统计分析),Excel加载后即可使用。

1、均值

均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。

2、中位数

数据按照从小到大的顺序排列时,最中间的数据即为中位数。

当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此对极值缺乏敏感性。

3、众数

数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。
 

4、极差

极差=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。
 

5、四分位数

数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。四分位数可以很容易地识别异常值。(一般通过箱线图表示数据更直观)

在上下边缘之外的数据一般认为是异常值。

6、标准差

标准差(Standard Deviation),也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。

标准差越大,波动越大,平均数相同的,标准差未必相同。

标准差可以反映平均数不能反映出的东西(比如稳定度等)。

Excel中有STDEV、STDEVP;STDEVA,STDEVPA四个函数,分别表示样本标准差、总体标准差;包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差

在计算方法上的差异是:

样本标准差=(样本方差/(数据个数-1))^2

总体标准差=(总体方差/(数据个数))^2。

函数的excel分解:

(1)stdev()函数可以分解为(假设样本数据为A1:E10这样一个矩阵):

stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))

(2)stdevp()函数可以分解为(假设总体数据为A1:E10这样一个矩阵):

stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))

同样的道理stdeva()与stdevpa()也有同样的分解方法。

7、标准分

标准分又叫标准差的标准化值,每个数据距离平均值多少个标准差。

标准分布又称正态分布。

切比雪夫定理2.0正态分布中,至少有68%的数据,位于平均数1个标准差范围内。正态分布中,至少有95%的数据,位于平均数2个标准差范围内。正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内。

统计概率思维

概率思维:

1、如果要求的是若干事件中“至少”有一个发生的概率,则马上联想到概率加法公式;当事件组相互独立时,用对立事件的概率公式;

2、若某事件是伴随着一个完备事件组的发生而发生,则马上联想到该事件的发生概率是用全概公式计算;若一个完备事件组的发生而发生,则马上联想到该事件的发生概率是用全概公式计算;

3、凡求解各概率分布已知的若干个独立随机变量组成的系统满足某种关系的概率(或已知概率求随机变量个数)的问题,马上联想到用中心极限定理处理。

贝叶斯定律模型:

对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

二项分布:

二项分布是一种离散型的概率分布。二项代表特有两种可能的结果,把一种称为成功,另一种称为失败,每次试验成功和失败的概率是先沟通的,每次试验互相独立。例如:抛硬币。

泊松分布:

主要踊跃轨迹某事件在特定时间或空间中发生的次数,比图一天内中奖的个数,一个月内某机器损坏的次数等。

描述性统计分析是属于统计学中比较小的一个理论知识,但是在日常的数据分析中,能够快速地让我们对一份数据进行了解,并能够通过科学的图表展示,发现数据规律,进行未知数据的预测。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Penglaixiaoke/article/details/124452445

智能推荐

Java文件转换-txt转html_java读取txt文件并转换为html表格-程序员宅基地

文章浏览阅读811次。Java文件转换-txt转html。_java读取txt文件并转换为html表格

Linux C 异常处理:非局部goto jmp_buf/setjmp()/longjmp()_linux jmp_buf-程序员宅基地

文章浏览阅读992次。一、代码 #include jmp_buf、setjmp()、longjmp()#include #include //#include //jmp_buf、setjmp()、longjmp()//jmp_buf j;void raise_exception(void){ printf("before longjmp()_linux jmp_buf

HTML5/jQuery动画应用 3D视觉效果_jquery 多图3d展示效果-程序员宅基地

文章浏览阅读909次。登录 | 注册收藏成功确定收藏失败,请重新收藏确定*标题标题不能为空网址标签位置个人主页 - 我的知识同时保存至:选择知识图谱 选择知识图谱新建?_jquery 多图3d展示效果

 c++迭代器与  find() ,find_if()函数  _迭代去 find-程序员宅基地

文章浏览阅读820次。迭代器与 find() ,find_if()函数class CPenson { //定义一个类 public: CPenson(void) { } ~CPenson(void) { } bool CPenson::operator==(const CPenson &r) //用于find { return(age = r.age); }public: int age; //年龄};typedef struct finder_t { /..._迭代去 find

神通数据库连接问题_神通服务器-程序员宅基地

文章浏览阅读1.2w次,点赞6次,收藏11次。神通数据库:若新建了数据库,需要在dos界面下运行命令services.msc;手动启动新的数据库服务器。若新建的数据库连接设置 ,新建数据库连接时设定用户名密码有如下规则:用户名 sysdba密码szoscar55_神通服务器

分库分表之sharding-jdbc_分库分表shardingjdbc-程序员宅基地

文章浏览阅读1k次。分库分表之sharding-jdbc背景:随着mysql越来越成熟以及去IOE的大势下,mysql被互联网公司运用的炉火纯青的同时,也被带进金融行业。但金融行业有其特殊属性,对数据的要求非常高,而相对轻巧mysql数据库往往需要辅助工具来解决某些严苛的使用场景。而因为mysql的轻巧等因素,导致其单机比较容易出现性能瓶颈,而成熟的oralce单机性能强悍。但是对比成熟且昂贵的oracle来说,开源免费的特性配合成熟的生态使得越来越被企业选用,但相应的运维能力要求也水涨船高。以金融业的某银行为例,_分库分表shardingjdbc

随便推点

mac安装Mongodb_cd applications/mongodb/bin-程序员宅基地

文章浏览阅读539次。Mac下安装MongoDB第一种、用浏览器或者第三方工具下载当前版本的下载地址: http://downloads.mongodb.org/osx/mongodb-osx-x86_64-2.4.6.tgz或者第二种、打开终端,使用以下命令行下载:curl http://downloads.mongodb.org/osx/mongodb-osx-x86_64-2.4.6.tg_cd applications/mongodb/bin

IDEA 超全优化设置,效率杠杠的!-程序员宅基地

文章浏览阅读296次。程序员的成长之路互联网/程序员/技术/资料共享关注阅读本文大概需要 5分钟。作者:请叫我小思来源:https://blog.csdn.net/zeal9s/article/detail..._idea 程序员 优化

Shell 爬虫_shell脚本爬虫-程序员宅基地

文章浏览阅读3.6k次,点赞3次,收藏18次。Shell 爬虫curl wget awk sed seq grep jq iconv sort wcPython 爬虫_shell脚本爬虫

__attribute__ 总结___attribute__((warn_unused_result))-程序员宅基地

文章浏览阅读407次。&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; attribute是GNU C特色之一,在iOS用的比较广泛.系统中有许多地方使用到. attribute可以设置函数属性(Function Attribute )、变量属性(Variable Attrib___attribute__((warn_unused_result))

python的plotnine_python数据可视化系列---plotnine(1)-程序员宅基地

文章浏览阅读463次。最近在学习python数据可视化,因为之前有R语言的ggplot2基础,并且一直受益于其语法的简单,但做出来的图十分漂亮的优点。因此,自然搜到了plotnine包。该包非常新,从其官网的版权申明年份也可看出---2019。plotnie与R语言的ggplot2都是基于Wilkinson在《Grammar of Graphics》一书中所提出的图形语法的具体实现。概括来讲,这套图形语法把绘图过程分为..._python中plotnine

Windows程序设计 编写一个简单的弹窗exe_windows实现循环弹窗-程序员宅基地

文章浏览阅读3.3k次。代码:#include <windows.h>int WINAPI WinMain (HINSTANCE hInstance, HINSTANCE hPrevInstance, PSTR szCmdLine, int iCmdShow){MessageBox (NULL, TEXT ("哇塞,第一个用C写的Win32 APP!"), TEXT ("尝试"), MB_YESNO|MB_DEFBUTTON2 | MB_ICONQUESTION)_windows实现循环弹窗

推荐文章

热门文章

相关标签