Python 只是众多现有的编码语言之一,如今用于构建网站和软件或分析数据。作为一种通用语言,它可以用于各种类型的编程,而不仅仅是 Web 开发。这可能包括后端开发、构建软件和编写脚本。由于它适用于一系列 Web 开发任务,因此对于任何需要多功能性的人来说,它都是一个有吸引力的选择。它也是一种开源语言,因此任何人都可以免费访问和使用它。
如何提高你的 Python 技能
在这篇博客文章中,我们将向您展示 马耳他电报号码数据 如何使用 Python 构建数据可视化来呈现故事并从数据集中得出结论,为此,我们将使用数据讲述泰坦尼克号的故事并回答“什么样的人可能幸存?”这个 问题。
似乎有些群体比其他群体更有可能存活 下来,所以我们将研究给定数据集中是否存在任何模式来帮助回答这个问题。在今天的研讨会上,我们将使用两个库,Matplotlib 和 Seaborn,并在最后与您分享一些其他有用的材料。
什么是数据集?
首先要说的是:数据集只是一组数据,通常以表 福山太郎 首席执行官/联合创始人 格形式显示。我们今天要使用的数据集是有关泰坦尼克号乘客和统计数据的集合:
我们的数据集表中的每一行代表泰坦尼克号的一名乘客。表格的每一列代表与乘客相关的一个特征。我们的数据集中总共有 15 列,但我们今天的研讨会不会用到所有列
需要注意的重要功能
。信息()
此函数为我们提供了数据集中所有数据的 巴哈马商业指南 简明概述。这在进行探索性分析时非常有用,因为它向我们显示了任何缺少数据的行。使用 info 函数,我们可以在数据集中看到,例如,我们只有大约 714 名乘客的年龄数据。
。描述()
此函数提供有关用于计算数据集数值的百分位数、平均值和标准差等一些统计数据的信息。
分析数据
我们先来分析一下乘客的等级。泰坦尼克号上有三类乘客,看看每类乘客的数量或许能让我们了解哪类乘客更有可能幸存。
我们将数据框称为“泰坦尼克号”,并在方括号中添加“pclass”列以显示乘客等级列。
可视化数据
接下来,我们要绘制一些图表,并使用Matplotlib可视化乘客等级数据。我们在命令行中输入的语法将决定图形中绘制的值、数据点的格式和颜色。
即使输入了正确的语法,我们也可以看出散点图并不是显示数据的正确图形类型。受乘客列 (3) 中的值限制,散点图仅限于几行。
现在我们知道散点图不能满足我们的需求,让我们尝试不同的方法。为了计算每个舱位的乘客人数,也许条形图会给我们更好的可视化效果。
确实如此!现在我们可以看到每个舱位的乘客数量,我们可以开始得出一些见解:我们可以看到大多数乘客来自 3 舱,2 舱的乘客数量最少。但是,等等,对于查看我们图表的人来说,这可能还不够清楚。我们可以通过在命令行中编辑变量来解决这个问题,以增加尺寸,为图表添加标题甚至边框。