120年奥运会数据分析和可视化_athlete_data.csv可以分析那这数据之间的关系-程序员宅基地

整理作业用的

# coding=utf-8

#第一步，导出相关函数库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math
import scipy.stats as st
import statsmodels.api as sm
import seaborn as sns
from pylab import mpl
from matplotlib.font_manager import FontProperties

#中文显示
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定SimHei字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

第一步：导入函数库+中文显示

#第二步，加载数据
def loaddata():
    datapath=r'C:\Users\安航正\Desktop\athlete_events.csv'
    #路径datapath，编码方式gbk（用utf-8可能出现中文编码问题），允许空格
    athletedata=pd.read_csv(datapath,encoding='gbk', skipinitialspace=True)
    sex = {
    'F':'女性','M':'男性'}
    athletedata['Sex'] = athletedata.Sex.map(sex)
    #因为原数据中的性别用“F”和“M”表示，不好看，用sex表示对应关系，将athletedata中的Sex中的W和M替换为中文，替换关系为sex，为方便理解特此用sex和Sex区别
    return athletedata

第二步骤：将csv文件导入到python中并用athletedata表示（并将性别替换为中文）

def datadescirbe():
    #读取数据（可以取一样的名字athletedata）
    athletedata=loaddata()
    #打印数据的列的名字
    print(athletedata.columns)
    #打印各列数据个数/是否有空缺值/字段类型
    print(athletedata.info())
    #打印前五行数据
    print(athletedata.head())

    #数据描述各个变量
    #这一列中一共有多少个数据，这些数据中出现了多少类，出现最多的类别是什么，出现了多少次
    print(athletedata['Sex'].describe())
    print(athletedata['Age'].describe())
    print(athletedata['Height'].describe())
    print(athletedata['Weight'].describe())
    print(athletedata['Team'].describe())
    print(athletedata['Sport'].describe())
    
    #分析具体某一项数据
    #譬如身高
    height=athletedata['Height']
    median=height.median()
    print("中位数为%f"%median)
    mean=height.mean()
    print("均值为%f"%mean)
    #标准差
    std=height.std()
    print("标准差为%f"%std)
    #偏度
    skew=height.skew()
    print("偏差为%f"%skew)
    #峰度
    kurt=height.kurt()
    print("峰度为%f"%kurt)
	#其实可以一段代码如下显示出来
    agglomeration=height.agg(['mean','median','sum','std','skew','kurt'])
    print(agglomeration)

第三步：简单的预览一下数据，进行数据分析

Index([‘ID’, ‘Name’, ‘Sex’, ‘Age’, ‘Height’, ‘Weight’, ‘Team’, ‘NOC’, ‘Games’,
‘Year’, ‘Season’, ‘City’, ‘Sport’, ‘Event’, ‘Medal’],
dtype=‘object’)

打印列的名字columns输出结果

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
ID 271116 non-null int64
Name 271116 non-null object
Sex 271116 non-null object
Age 261642 non-null float64
Height 210945 non-null float64
Weight 208241 non-null float64
Team 271116 non-null object
NOC 271116 non-null object
Games 271116 non-null object
Year 271116 non-null int64
Season 271116 non-null object
City 271116 non-null object
Sport 271116 non-null object
Event 271116 non-null object
Medal 39783 non-null object
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB
None

athletedata.info()打印各列数据个数/是否有空缺值/字段类型

ID Name Sex Age Height Weight Team
0 1 A Dijiang 男性 24.0 180.0 80.0 China
1 2 A Lamusi 男性 23.0 170.0 60.0 China
2 3 Gunnar Nielsen Aaby 男性 24.0 NaN NaN Denmark
3 4 Edgar Lindenau Aabye 男性 34.0 NaN NaN Denmark/Sweden
4 5 Christine Jacoba Aaftink 女性 21.0 185.0 82.0 Netherlands
NOC Games Year Season City Sport
0 CHN 1992 Summer 1992 Summer Barcelona Basketball
1 CHN 2012 Summer 2012 Summer London Judo
2 DEN 1920 Summer 1920 Summer Antwerpen Football
3 DEN 1900 Summer 1900 Summer Paris Tug-Of-War
4 NED 1988 Winter 1988 Winter Calgary Speed Skating
Event Medal
0 Basketball Men’s Basketball NaN
1 Judo Men’s Extra-Lightweight NaN
2 Football Men’s Football NaN
3 Tug-Of-War Men’s Tug-Of-War Gold
4 Speed Skating Women’s 500 metres NaN

athletedata.head()打印前五行数据

count 271116
unique 2
top 男性
freq 196594
Name: Sex, dtype: object
count 261642.000000
mean 25.556898
std 6.393561
min 10.000000
25% 21.000000
50% 24.000000
75% 28.000000
max 97.000000
Name: Age, dtype: float64
count 210945.000000
mean 175.338970
std 10.518462
min 127.000000
25% 168.000000
50% 175.000000
75% 183.000000
max 226.000000
Name: Height, dtype: float64
count 208241.000000
mean 70.702393
std 14.348020
min 25.000000
25% 60.000000
50% 70.000000
75% 79.000000
max 214.000000
Name: Weight, dtype: float64
count 271116
unique 1184
top United States
freq 17847
Name: Team, dtype: object
count 271116
unique 66
top Athletics
freq 38624
Name: Sport, dtype: object

.describe()函数对object类型和float类型的数据的描述

中位数为175.000000
均值为175.338970
标准差为10.518462
偏差为0.018477
峰度为0.177728
/#或者是
mean 1.753390e+02
median 1.750000e+02
sum 3.698688e+07
std 1.051846e+01
skew 1.847730e-02
kurt 1.777280e-01
Name: Height, dtype: float64

中位数均值标准差偏差峰度的输出

def dataplot():
    plot=loaddata()

    #获得金牌的人员中年龄的分布//条形图
    #将获得金牌筛选出来
    goldMedals=plot[(plot.Medal=='Gold')]
    #print(goldMedals.head()) //调试用
    #定义画布和布局
    ##将年龄中空缺值去掉
    ageGoldMedals=goldMedals[(goldMedals['Age']).notnull()]
    plt.figure(figsize=(30,10))  #画布大小
    plt.tight_layout()  #紧凑型布局
    sns.countplot(ageGoldMedals['Age'])  #绘制分布图
    plt.title('获得金牌人员的年龄分布')   #显示出来

    #获得金牌的身高和体重的分布//散点图
    #将身高和体重的空缺值去掉
    HWGoldMedals=goldMedals[(goldMedals['Height']).notnull()&(goldMedals['Weight'].notnull())]
    #print(HWGoldMedals.head())//调试用
    #绘制散点图
    plt.figure(figsize=(30,10)) #画布大小
    sns.scatterplot(x="Height",y="Weight",data=HWGoldMedals)
    plt.title('金牌获得者的身高体重分布')
    plt.show()

    #金牌运动员不同性别的平均年龄变化//折线图
    ##筛选出得过金牌的对应性别，并且求出每一年的对应性别的年龄平均值，平均值分配在average_age列中去
    Wgold = goldMedals[(goldMedals['Sex'] == '女性')]
    NWgold=Wgold.groupby(by = ['Year']).Age.agg('mean').reset_index(name = "average_age")
    Mgold = goldMedals[(goldMedals['Sex'] == '男性')]
    NMgold=Mgold.groupby(by = ['Year']).Age.agg('mean').reset_index(name = "average_age")
    #print(NWgold)//调试
    #print(NMgold)

    #两部分数据生成两个表//有格子好看一点QWQ
    NWgold.plot(x='Year',y='average_age')
    plt.grid(True)
    NMgold.plot(x='Year',y='average_age')
    plt.grid(True)
    plt.title('金牌运动员不同性别的平均年龄变化')
    plt.show()

    #两部分数据生成一个表进行对比
    sns.lineplot(x = 'Year', y = 'average_age', data = NMgold)
    sns.lineplot(x = 'Year', y = 'average_age', data = NWgold)
    plt.title('金牌运动员不同性别的平均年龄变化')
    plt.show()




    #参与者不同性别的年龄箱线图&提琴图
    #将年份和性别中的空缺值去除
    year_sex=plot[(plot['Sex']).notnull()&(plot['Year'].notnull())]
    #箱线图
    sns.boxplot(x = 'Sex', y = 'Age', data = year_sex)
    plt.title('运动员不同性别的年龄箱线图')
    plt.show()
    #提琴图
    sns.violinplot(x = 'Sex', y = 'Age', data = year_sex)
    plt.title('运动员不同性别的年龄提琴图')
    plt.show()

    #男女运动员的身高和体重分布//散点图
    #将性别和身高和体重的空缺值去除
    sex_hw=plot[(plot['Sex']).notnull()&(plot['Height']).notnull()&(plot['Weight']).notnull()]
    #print(sex_hw)//调试
    #x轴对应身高，y轴对应体重，不同性别用点的颜色来区分
    sns.scatterplot(x='Height', y='Weight', data=sex_hw, hue='Sex')
    plt.show()

    #绘制男运动员的身高体重分布//点状图
    #用上一个图表中已经去除空缺值的数据选择男性单一性别
    M_hw=sex_hw[(sex_hw['Sex']=='男性')]
    plt.figure(figsize=(40,10))
    #x轴身高，y轴体重
    sns.pointplot('Height','Weight',data=M_hw)
    plt.title('男运动员的身高体重变化')
    plt.show()

第三步：数据可视化
以下是生成的数据可视化
在这里插入图片描述

在这里插入图片描述

    
if __name__ == '__main__':
    datadescirbe()
    dataplot()

第四步：写个main函数，将数据分析函数和数据可视化函数引入

此外
还写了个身高的qq图，但是感觉不太得劲的样子，而且没什么实际作用
没啥用

本文链接：https://blog.csdn.net/weixin_46383210/article/details/115402201

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland