期刊信息
曾用名:现代图书情报技术;计算机与图书馆
主办:中国科学院文献情报中心
主管:中国科学院
ISSN:2096-3467
CN:10-1478/G2
语言:中文
周期:月刊
影响因子:0.912234
数据库收录:
北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2017版);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);中文社会科学引文索引-来源(2017-2018);中文社会科学引文索引-来源(2019-2020);国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;中国科技核心期刊;期刊分类:图书情报与数字图书馆
期刊热词:
研究论文
大数据分析Python库xlwings提升Excel工作效率教程
【作者】网站采编
【关键词】
【摘要】Excel在当今的企业中非常非常普遍。在AAA教育,我们通常建议出于很多原因使用代码,并且我们的许多数据科学课程旨在教授数据分析和数据科学的有效编码。但是,无论您偏爱使用大
Excel在当今的企业中非常非常普遍。在AAA教育,我们通常建议出于很多原因使用代码,并且我们的许多数据科学课程旨在教授数据分析和数据科学的有效编码。但是,无论您偏爱使用大数据分析Python的程度如何,最终,有时都需要使用Excel来展示您的发现或共享数据。
但这并不意味着仍然无法享受大数据分析Python的某些效率!实际上,使用名为的库xlwings,您可以使用大数据分析Python加快在Excel中的工作。
在本xlwings教程中,我们将逐步介绍如何在Excel中使用大数据分析Python来执行和使用一些常见操作,例如根据特定条件删除行,使用Excel函数和公式,自动填充,创建工作表,图表等。在这篇文章中,您应该熟悉大数据分析Python的基本概念(对象,方法,属性,函数)和大数据分析Python的语法,并且具有Excel和VBA的中级知识。
我们将使用一个数据集,其中包含有关称为EuroMillions的欧洲彩票开奖的信息。这组数据是从下载该链接,它包含了所有的欧洲百万彩票绘制一张,并包括,9月20日期。该链接上的可用数据应使用最新信息进行更新,直到您阅读此帖子时为止,但是如果不可用,请使用CSV文件,其中包含截至9月20日该链接的数据。
在撰写本文时,抽奖包括来自50个号码池(编号1到50)中的五个号码和lucky stars来自12个号码池的两个号码。为了赢得大奖,参与者必须正确选择所有抽奖号码和幸运星。有史以来最大的大奖是1.9亿欧元。(不过请注意,我们的数据集表示的是英镑而不是欧元的赢利)。
在本教程中,我们将使用大数据分析Python和xlwings与Excel清理数据集,然后生成一些图表以可视化哪些数字最常赢得欧洲百万奖金。
第一列是开奖号码,各列N1-L2是开奖号码和幸运星(按绘制顺序),该Jackpot列是欧元的累积奖金,该Wins列告诉我们有多少投注下了大奖。
遇见 xlwings
xlwings是一个大数据分析Python库,可在Excel实例中使用大数据分析Python的某些数据分析功能,包括对numpy数组以及pandasSeries和DataFrames的支持。与其他任何大数据分析Python库一样,它可以使用pip或通用方法安装conda,但是如果需要其他详细信息,可以在xlwings此处访问文档。
请注意,您需要在用于执行本xlwings教程的计算机上安装Microsoft Excel版本。
xlwings 对象
在xlwings有四个主要对象类型其是,在降低分层顺序:App(代表一个Excel实例), Book,Sheet和Range。除了这些,我们还将处理Chart和Shape对象。您可以在官方文档中找到有关这些对象和其他对象的有用信息,但是我们将一次查看每个对象。
让我们开始创建一个Book实例并命名它wb(工作簿)。
当您运行该代码时,它应该看起来像这样。
请注意,当代码单元在Jupyter Notebook中运行时,Excel将自动启动。
通过实例化一个Book对象,将App自动创建属于我们的书本对象的对象。这是我们可以检查所有打开的Excel实例的方法。
注意:我们不会在本教程的每个步骤中都包含gif图像,因为我们不希望该页面为互联网连接速度慢或连接受限的人带来麻烦。但是,随后的代码运行步骤应类似于上面的代码:在Juypter中运行单元格时,Excel电子表格会根据我们运行的任何代码进行更新。
该对象xw.apps是可迭代的。要检查此迭代器中哪些工作簿属于唯一实例,我们可以books像这样调用其上的方法。
不出所料,唯一的实例是工作簿wb。我们在下面检查这个事实。
同样,我们可以检查哪些表属于该工作簿:
我们还可以通过工作表名称来引用工作表:
我们可以将数据从某些大数据分析Python对象(例如列表和元组)移到Excel中。让我们将数据框中的数据移动到表EuroMillions中。为此,我们将利用range创建一个范围对象,该对象将来自DataFrame的数据存储在Excel中的一系列单元格中,在这种情况下,从单元格A1开始:
外观如下:
如我们所见,的索引列df也已移至Excel。让我们清除此工作表的内容,然后复制不带索引的数据。
能够告诉我们表格的结束位置将很有用。更具体地说,我们需要最后一行包含数据的行。为此,我们可以使用对象的end方法和row属性Range。
文章来源:《数据分析与知识发现》 网址: http://www.sjfxyzsfx.cn/zonghexinwen/2020/1031/466.html
上一篇:大数据可视分析背后的商业逻辑
下一篇:让大数据助阵七人普