期刊信息
曾用名:现代图书情报技术;计算机与图书馆
主办:中国科学院文献情报中心
主管:中国科学院
ISSN:2096-3467
CN:10-1478/G2
语言:中文
周期:月刊
影响因子:0.912234
数据库收录:
北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2017版);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);中文社会科学引文索引-来源(2017-2018);中文社会科学引文索引-来源(2019-2020);国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;中国科技核心期刊;期刊分类:图书情报与数字图书馆
期刊热词:
研究论文
数据分析入门之:三类数据统计分析策略(上)
【作者】网站采编
【关键词】
【摘要】基于前段时间,很多小伙伴留言想学习一些数据分析的基础知识,小编一合计,必须给咱们爱学习的同学们安排,所以本周开始,我们会不定时的给大家分析数据分析的一些入门知识,
基于前段时间,很多小伙伴留言想学习一些数据分析的基础知识,小编一合计,必须给咱们爱学习的同学们安排,所以本周开始,我们会不定时的给大家分析数据分析的一些入门知识,希望大家都了解数据分析,能爱上数据分析。
今天,我们主要给大家分享的是数据统计分析策略的相关知识,喜欢的小伙伴可以收藏学习一下哦~
一般情况下,数据统计分析策略主要分为3类,包括:描述性统计分析、探索性统计分析和推断性统计分析。这三类策略是通过由浅入深的方式,让我们循序渐进的掌握统计分析策略。
1、描述性统计分析
1)释义
根据百度词条的解释:描述性统计是指,借助各种数据所表示的统计量,如均数、百分比等,进行单因素分析。它侧重于对数据的描述,比如:描述你看的一张图片。以内容的平均水平、可行范围、数据波动情况等,使数据分析人员更好的了解数据,掌握数据的全貌。
描述性统计分析在数据分析过程中,是基础环节,但是也非常重要。因为它虽然操作简单,但却是进行下一步数据分析的前提。
2)案例1
下面给大家举个生活中的例子,来解释下这个分析方法。
老板日常跟员工对话的场景。
老板:小丽,帮我查一下今年9月份网站的流量数据。
小丽:……(可能会想:老板你究竟想看什么数据?页面访问量(PV)还是用户访问量(UV)?你都没说明白,我怎么操作?)
但问题是,小丽不可能不给老板数据,所以,最好的办法就是两个数据都给,这样,小丽就能减少被老板批评的概率了。
那么,接下来小丽需要做的,就是通过描述性统计分析,将网站的PV和UV展现在表格中,像下图一样,并为这组数据附上简单的情况分析:
上图就是我们常用的基本统计指标,包括每天的PV和UV。
接下,我们就要写上一些关键性的解读指标了。拿PV举例,我们就应该补充:比如,
日均PV为:41072.87次;
月内最多的一次访问量为:49,847次
月内最少的一次访问量为:30,471次;
月内有1/4天数的PV:在36791.5次以下;
标准差为:5,685.52;
……
需要注意的是,表格中的下四分位数,即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点。最终,我们要提给老板数据表,应该还包括:
综上述,该案例就是一个典型的描述性统计分析。我们要做的,就是针对数据的统计结果做简单的描述,表达出数据的统计特征。
3)案例2
此外,如果我们想更加直观的呈现数据效果,还可以通过图形的方式,来描述数据的内部规律。
举个电商公司的例子:我们需要统计某电商平台,近一个月在各支付渠道的付款比例;或者我们需要分析用户年交易额的分布特征。那么我们应该怎么做呢?
我们先来说说支付渠道比例。通过数据统计并整合渠道,并计算各渠道占总付款渠道的比例,就可以形成如下图形:
接下来我们说说全年的用户交易额的分布特征。假设用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户极少,那么,我们就可以根据相应的数据比例,绘制出如下的曲线:
通过两条曲线的对比,我们可以发现它们的吻合度并不是很高,故可以进一步断定,该数据的分布并非正态分布。
由此可以得出结论:在日常的学习或工作中,数据分析人员需要掌握描述性统计分析的内容,包括:数据的频数分析、集中趋势分析(如:均值、中位数、众数等)、离散程度分析(如:标准差、极差、变异系数等)、分布特征(如:偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等)。 文章来源:《数据分析与知识发现》 网址: http://www.sjfxyzsfx.cn/zonghexinwen/2021/0303/680.html