Pandas 合并(merge)_pandas中merge相同列按第一个为准-程序员宅基地

技术标签: pandas  pandas merge  pandas合并  

Pandas 合并(merge),对于合并操作,熟悉SQL的同学可以将其理解为JOIN操作,它使用一个或多个键把多行数据结合在一起。

原文参考 https://coolcou.com/pandas/pandas-data-process/pandas-merger-merge.html

跟关系数据库打交道的同学通常使用SQL的JOIN查询,用几个表共用的引用值(键)从不同的表获取数据。以这些键为基础,我们能够获取列表形式的新数据,这些数据是对几个表中的数据进行组合得到的。Pandas库中这类操作叫做合并,执行合并操作的函数为merge()

阅读本章内容前,可以先学习Pandas基础教程Pandas数据读写

使用merge()函数进行合并

如下所示,首先定义两个DataFrame对象,然后对两个DataFrame对象应用merge()函数进行合并操作。

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'price':['12.33', '11.44', '33.21', '12.23', '33.62']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'color':['white', 'red', 'red', 'black']})
print(frame1)
print('------------')
print(frame2)
print('-----------')
print(pd.merge(frame1, frame2))

输出结果如下:
在这里插入图片描述
如上所示,返回的DataFrame对象由原来两个DataFrame对象中ID相同的行组成,出了id这一列,新DataFrame包含了属于两个DataFrame的其他列。

on 选项指定基准列

在上面例子中,没有为merge()指定基于哪一列进行合并,实际应用中,常常需要指定基于哪一列进行合并。具体做法是增加on选项,把列的名称作为用于合并的键赋值给它。如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
print(frame1)
print('------------')
print(frame2)
print('-----------')
print(pd.merge(frame1, frame2))

输出结果如下:
在这里插入图片描述

如上所示,由于我们定义的两个DataFrame对象,一个对象的列名称在另一个对象中也存在,所以对它们执行合并操作将得到一个空DataFrame对象。

因此我们需要明确定义pandas合并操作需要遵循的标准,我们用on选项指定合并操作所依据的基准列,合并标准不同,合并结果也会不同,如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
print(pd.merge(frame1, frame2,on='id'))
print("------------")
print(pd.merge(frame1, frame2,on='brand'))

输出结果如下:
在这里插入图片描述

问题如影随形,假如两个DataFrame基准列的名称不一致,又该如何进行合并呢?为此,我们可以使用left_onright_on选项指定第一个和第二个DataFrame的基准列,如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand', 'sid']
print(frame1)
print('------------')
print(frame2)
print('------------')
print(pd.merge(frame1,frame2,left_on='id',right_on='sid'))

输出结果如下:
在这里插入图片描述

左连接,右连接,外连接

如上所示,merge()函数默认执行的是内连接操作,上述结果执行的是交叉操作,其他还支持左连接右连接外连接外连接把所有的键整合在一起,其效果相当于左连接右连接的效果之和,连接类型用how选项指定。如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand', 'id']
print(frame1)
print('------------')
print(frame2)
print('------------')
print(pd.merge(frame1,frame2,on='id'))

执行结果如下:
在这里插入图片描述
分别执行外连接左连接右连接,如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand', 'id']
print(pd.merge(frame1,frame2,how='outer'))
print('------------')
print(pd.merge(frame1,frame2,how='left'))
print('------------')
print(pd.merge(frame1,frame2,how='right'))

输出结果如下:

  brand  color       id
0   OMG  white     ball
1   ABC    red   pencil
2   ABC    red      pen
3   POD  black      mug
4   POD  green  ashtray
5   OMG    NaN   pencil
6   POD    NaN   pencil
7   ABC    NaN     ball
8   POD    NaN      pen
------------
  brand  color       id
0   OMG  white     ball
1   ABC    red   pencil
2   ABC    red      pen
3   POD  black      mug
4   POD  green  ashtray
------------
  brand color      id
0   OMG   NaN  pencil
1   POD   NaN  pencil
2   ABC   NaN    ball
3   POD   NaN     pen

要合并多个键,则把多个键赋值为on选项,如下示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand', 'id']
print(pd.merge(frame1,frame2,on=['id','brand'],how='outer'))

输出结果如下:
在这里插入图片描述

根据索引进行合并

有的时候,合并操作不是用DataFrame的列,而是用索引作为键。把left_indexright_index选项的值置为True,就可将其作为合并DataFrame的基准。如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand', 'id']
print(pd.merge(frame1,frame2,right_index=True,left_index=True))

输出结果如下:
在这里插入图片描述

DataFrame对象的join()函数更适合于根据索引进行合并,我们可以用它合并多个索引相同列不同的DataFrame对象。如上所示,因为frame1的列名称和frame2的列名称有重合,直接调用frame1.join(frame2)会给出错误信息,这里要重命名frame2的列。如下所示:

import pandas as pd

frame1 = pd.DataFrame({
    'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'],
                       'color':['white', 'red', 'red', 'black','green'],
                       'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']})
frame2 = pd.DataFrame({
    'id':['pencil', 'pencil', 'ball', 'pen'],
                       'brand':['OMG', 'POD', 'ABC', 'POD']})
frame2.columns = ['brand2', 'id2']
print(frame1.join(frame2))

输出结果如下:
在这里插入图片描述

如上所示,合并操作是以索引而不是列为基准,合并后得到的DataFrame对象包含了只存在于frame1的索引4,整合了frame2,索引为4的各元素使用NaN填充。

相关文章参考
Pandas 旋转数据
Pandas 删除数据
Pandas 拼接(concat)
Pandas GroupBy 用法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xia1984920/article/details/102864527

智能推荐

开源项目,毕业设计_本科毕业设计拿别人的开源代码修改-程序员宅基地

文章浏览阅读1.5w次,点赞35次,收藏385次。自己在网上找的开源项目,比较好分享给大家热门开源项目(包含小四轴、智能手环、光立方、智能车、防丢器等项目)号外!号外!(搞四轴,有这套就足够了!)科研级别的小四轴STM32F4芯片支持WIFI且android手机控制自适应控制就是牛掰!该飞机面向有科研和强烈学习意向的小伙伴们使用,如果只是想玩的话你肯定不会喜欢这套四轴的,主要设计思想是提供一个高性能的控制和姿态算法验证平台,因此..._本科毕业设计拿别人的开源代码修改

Java快速开发框架_若依——Ruoyi添加自己的业务模块_ruoyi java17-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏26次。QQ 1274510382Wechat JNZ_aming商业联盟 QQ群538250800技术搞事 QQ群599020441解决方案 QQ群152889761加入我们 QQ群649347320共享学习 QQ群674240731纪年科技aming网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。叮叮叮:产品已上线 —>关注 官方-微信公众号——济南纪年信息科技有限公司民生项目:商城加盟/娱乐交友/创业商圈/外包兼职开发-项目发布/安全项目:态势感.._ruoyi java17

CISCO 交换机配置 Web浏览器的方式-程序员宅基地

文章浏览阅读9k次,点赞2次,收藏3次。 当利用Console口为交换机设置好IP地址信息并启用HTTP服务后,即可通过支持JAVA的Web浏览器访问交换机,并可通过Web通过浏览器修 改交换机的各种参数并对交换机进行管理。事实上,通过Web界面,可以对交换机的许多重要参数进行修改和设置,并可实时查看交换机的运行状态。不过在利用 Web浏览器访问交换机之前,应当确认已经做好以下准备工作:·在用于管理的计算机中安装T..._思科交换机2960s有web配置吗

ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:22122, response status 2 != 0-程序员宅基地

文章浏览阅读2.5w次,点赞2次,收藏6次。报错信息: [2018-09-09 20:33:12] ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:22122, response status 2 != 0 [2018-09-09 20:33:12] ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:..._error - file: tracker_proto.c, line: 48, server: 172.17.0.1:22122, response

使用matplotlib显示图片(《深度学习入门:基于Python的理论与实现》实践笔记)_matplotlib展示图片-程序员宅基地

文章浏览阅读3.9k次。使用matplotlib显示图片(《深度学习入门:基于Python的理论与实现》实践笔记)一、安装matplotlib库二、导入matplotlib.pyplot库和matplotlib.image库里的imread函数三、实例:显示图片一、安装matplotlib库在命令行使用下面的命令即可:pip install matplotlib二、导入matplotlib.pyplot库和matplotlib.image库里的imread函数在程序开头使用:import matplotlib.pyp_matplotlib展示图片

Subversion实践案例——客户现场模式的分布式开发_开发去客户现场的案例-程序员宅基地

文章浏览阅读1.2k次。基本信息 用户单位:某应用软件研发企业 用户规模:100人以上 组织过程水平:中等 CMMI评审等级:无 Subversion使用时间:1年 客户需求 由于公司每次向新客户提交软件的时候都需要派出一个小规模的团队到客户现场进行一段时间的软件定制和维护。此外,老客户系统的重大升级和功能扩展也需要一个小团队在客户现场进行一段时间的开发。因此,异地开发的配置管理就是一_开发去客户现场的案例

随便推点

(基于matlab自写代码)语音信号的短时分析,计算平均能量,短时过零数_matlab求语音信号短时过零率的函数-程序员宅基地

文章浏览阅读3.2k次。一定时宽的语音信号,其能量的大小随时间有明显的变化。清音段能量比浊音段小得多。短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上。可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,故对一短时语音段计算其短时平均能量及短时平均过零数,就可以区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。这在语音识别中有重要意义。自己编写的matlab代码,对一段语音,取帧长为240个点,计算其平均能_matlab求语音信号短时过零率的函数

Ubuntu服务器创建新用户及解决新用户登录Access denied问题

默认情况下,在Ubuntu上,sudo组的成员被授予sudo访问权限。如果您希望新创建的用户具有管理权限,需要将将用户添加到sudo组。命令将向你询问一系列的问题。密码是必需的,其他字段都是可选的。最后,输入Y确认信息是否正确。执行完上述步骤后需要重启ssh服务,否则新创建的用户连接服务器时会出现。

项目组织战略管理及组织结构_项目组织的具体形态的是战略管理层-程序员宅基地

文章浏览阅读1.7k次。组织战略是组织实施各级项目管理,包括项目组合管理、项目集管理和项目管理的基础。只有从组织战略的高度来思考,思考各个层次项目管理在组织中的位置,才能够理解各级项目管理在组织战略实施中的作用。同时战略管理也为项目管理提供了具体的目标和依据,各级项目管理都需要与组织的战略保持一致。..._项目组织的具体形态的是战略管理层

图像质量评价及色彩处理_图像颜色质量评价-程序员宅基地

文章浏览阅读1k次。目录基本统计量色彩空间变换亮度变换函数白平衡图像过曝的评价指标多视影像因曝光条件不一而导致色彩差异,人眼可以快速区分影像质量,如何利用图像信息辅助算法判断影像优劣。基本统计量灰度均值方差梯度均值方差梯度幅值直方图图像熵p·log(p)色彩空间变换RGB转单通道灰度图像 mean = 225.7 stddev = 47.5mean = 158.5 stddev = 33.2转灰度梯度域gradMean = -0.0008297 / -0.000157461gr_图像颜色质量评价

MATLAB运用规则,利用辛普森规则进行数值积分-程序员宅基地

文章浏览阅读1.4k次。Simpson's rule for numerical integrationZ = SIMPS(Y) computes an approximation of the integral of Y via the Simpson's method (with unit spacing). To compute the integral for spacing different from one..._matlab利用幸普生计算积分

【AI之路】使用huggingface_hub优雅解决huggingface大模型下载问题-程序员宅基地

文章浏览阅读1.2w次,点赞28次,收藏61次。Hugging face 资源很不错,可是国内下载速度很慢,动则GB的大模型,下载很容易超时,经常下载不成功。很是影响玩AI的信心。经过多次测试,终于搞定了下载,即使超时也可以继续下载。真正实现下载无忧!究竟如何实现?且看本文分解。_huggingface_hub