【python】pandas库中的merge方法连接两个表后输出为空

nixing123 2016-09-23 08:05:15

import pandas as pd



#读取数据，更换列表名

data = pd.read_table( 'u.data' )

datafeilds = ['user id', 'item id', 'rating', 'timestamp']

data.columns = datafeilds



#将文件中需要的数据分别存入两个列表

user_id = []

gender = []

userfile = open('u.user')

contents = userfile.readlines()

userfile.close()

for i in range(0,len(contents)):

    line = contents[i].split('|')

    user_id.append( line[0] )

    gender.append( line[2] )

    

#存入数据，为dataframe类型

dictuser = {'user id':user_id, 'gender':gender}

user = pd.DataFrame(dictuser)



rating = pd.merge( data, user, on = 'user id')

print rating

data和user的类型都是dataframe，用user id做为主键连接两张表，data和user中都有数据，
输出如下：
Empty DataFrame
Columns: [user id, item id, rating, timestamp, gender]
Index: []

怎么会是空的呢？

...全文

3594 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

cehui120 2019-09-04

打赏
举报

请问问题出在哪里既然都是string类型？

nixing123 2016-10-11

打赏
举报

十分感谢！按照你的思路解决了问题。不过，你给出的这一段

df = pd.DataFrame(data,columns=datafeilds)

运行到这就出错了我在variable explorer看了data的值，显示只有1列，所以我自己用代码清理了一下。

data = np.loadtxt('u.data',delimiter = " ", dtype=str)
datafeilds = ['user id', 'item id', 'rating', 'timestamp']

sline = []

for line in data:
    sline.append( line.split('\t') )
    
array = np.array(sline)
df = pd.DataFrame(array,columns=datafeilds)

最后，还是想请教一下，为何会出现题目中的问题呢？两个数据都是<class 'pandas.core.frame.DataFrame'> user id也都是<type 'str'> 到底哪里不一样呢？再次感谢！

sprawling 2016-10-11

打赏
举报

因为看不到你的表格数据，我估计可能是你user id 中的数据没有相同的，这样就会导致merge以后为空表。

nixing123 2016-10-10

打赏
举报

引用 1 楼 uiuiy1 的回复:

因为两个表的user id没有一样的，注意它们的类型

print data.columns[0], user.columns[1]
print type(data.columns[0]), type(user.columns[1])

输出为 user id user id <type 'str'> <type 'str'> 都是string啊在variable explorer查看rating，有如下错误 TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

sprawling 2016-10-10

打赏
举报

#!/usr/bin/python

# -*- coding:utf-8 -*-



import pandas as pd

import numpy as np

 

#读取数据，更换列表名

data = np.loadtxt('u.data',delimiter = " ", dtype=str)

#data = pd.read_table( 'u.data' )

datafeilds = ['user id', 'item id', 'rating', 'timestamp']

#data.columns = datafeilds

df = pd.DataFrame(data,columns=datafeilds)

 

#将文件中需要的数据分别存入两个列表

user_id = []

gender = []

userfile = open('u.user')

contents = userfile.readlines()

userfile.close()

for i in range(0,len(contents)):

    line = contents[i].split('|')

    user_id.append( line[0] )

    gender.append( line[2] )

     

#存入数据，为dataframe类型

dictuser = {'user id':user_id, 'gender':gender}

user = pd.DataFrame(dictuser)

 

rating = pd.merge( df, user, on = 'user id')

print rating

u.data

u.user

11|m|f

22|f|f

33|m|f

44|m|f

55|f|f

66|f|f

m不器 2016-10-10

打赏
举报

楼主问题解决了吗同求答案

屎克螂 2016-09-27

打赏
举报

因为两个表的user id没有一样的，注意它们的类型

merge()函数是Pandas库中用于合并DataFrame或Series的主要函数之一。它类似于SQL中的JOIN操作，可以根据一个或多个键将两个DataFrame进行合并。merge()函数提供了灵活的参数来控制合并过程，可以根据需要进行不同...

摘要数据分析与建模的时候大部分时间在数据准备上，包括对数据的加载、清理、转换以及重塑。pandas提供了一组高级的、灵活的、高效的核心函数，能够...2.创建两个DataFrame 3.pd.merge()方法设置连接字段。 ...

Python Pandas 合并联接——Merge 文章目录Python Pandas 合并联接——Merge1. Pandas 安装2. Pandas 的数据操作使用pandas前需要先引入pandas，若无特别说明，pd作为Pandas别名的通用写法2.1 作用2.2 参数说明2.3 ...

摘要数据分析与建模的时候大部分时间在数据准备上，包括对数据的加载、清理、转换以及重塑。pandas提供了一组高级的、灵活的、高效的核心函数，能够轻松的将数据规整化。...创建两个DataFrame3.pd.merge()方法设...

merge函数可以实现类似于mysql里join的功能，多数教程里都是合并两个表因为我技术比较糟糕想了歪操作，于是需要合并多个表，第一遍愚蠢地写了 s=merge(a,b) s=merge(s,c) 这样的风骚操作研究了一下实现了精简 // ...

脚本语言

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章