基于Python的电影推荐系统
创始人
2024-01-20 04:15:57
0

电影推荐系统
目录
电影推荐系统 1

  1. 数据描述 1
  2. 变量说明 1
  3. 程序介绍 2

本次课程作业在 small-movielens 数据集的基础上,对用户、电影、评分数据进行了处理,然后根据 Pearson 相关系数计算出用户与其他用户之间的相似度,根据相似度进行推荐和预测评分,最后再根据数据集中的测试数据,计算该推荐系统的MAE等。

  1. 数据描述
    数据集来源于 MovieLens|GroupLens 网站。完整的数据集是由 943 个用户对 1682 个项目的 100000 个评分组成。每位用户至少对 20 部电影进行了评分。用户和项从 1 开始连续编号。数据是随机排列的。这是一个以选项卡分隔的:用户id|项id|分级|时间戳 列表。从 1970年1月1日 UTC 开始,时间戳是unix时间戳。在这些数据集的基础上,small-movielens 还包括 u1-u5,ua,ub 等七组测试集 (.base)/训练集 (.test) 数据。其中,u1-u5 是以 8:2 的比例随机生成互斥的训练集和测试集;ua、ub 是按照 9:1 的比例随机生成的互斥的训练集和测试集,不同的是,这两组数据的测试集中每个用户是对正好 10 部不同电影进行了评分。数据集如下图所示。
    在这里插入图片描述

  2. 变量说明
    users :保存所有用户,不重复 list 类型 存储结构:[user1, user2,…]
    userWatchedMovie :保存所有用户看过的所有电影,字典嵌套字典类型 存储结构:{user1:{movie1:rating1, movie2:rating2, …}, user2:{…},…}
    movieUser :保存用户与用户之间共同看过的电影,字典嵌套字典嵌套 list 存储结构:{user1:{user2:[movie1,…],user3:[…],…},user2:{user3:[…],…},…}
    userSimilarity :保存用户与用户之间的相似度(皮尔逊相似度) 存储结构:{user1:{user2:sim, user3:sim,…}, user2:{user3:sim, …}, …}
    allUserTopNSim :保存每个用户都取前 n=10 个最相似的用户,以及相似度 存储结构:{user1:{user01:sim,user02:sim,…},user2:{user01:sim,…},…}
    recommendedMovies :从最相似的用户中推荐,每个相似用户推荐两部,同时计算出预测值并保存在这个变量里 存储结构:{user1:{user01:{movie01:predictionRating,…},user02:[…],…},user2:{user01:[…],…},…}
    usersTest :测试集文件中的所有用户 存储结构:同 users
    userWatchedMovieTest :测试集文件中所有用户看过的所有电影 存储结构:同 userWatchedMovie
    movieAlsoInTest :保存推荐的电影正好也在用户测试数据中看过的那一些电影,以便后面进行 MAE 计算 存储结构:{user1:[movie1,movie2,…],…}
    averageRating :保存每个用户对被推荐的电影的预测平均分 存储结构:{user1:{movie01:[count,sumPreRating,averageRating],…},…}
    eachUserMAE :保存对每个用户而言计算出的 MAE 存储结构:{user1:MAE,user2:MAE,…}

# -*- coding:utf-8 -*-
from math import sqrt
import osTOPN = 10  # 设置每个用户相似度最高的前TOPN个用户
AMOUNT = 5  # 设置前TOPN个相似用户中每个用户给当前用户推荐的电影数量# 读取训练集数据文件
filePath = './data/u1.base'
users = []  # 保存所有用户,不重复list类型
userWatchedMovie = {}  # 保存所有用户看过的所有电影,字典嵌套字典类型
movieUser = {}  # 保存用户与用户之间共同看过的电影,字典嵌套字典嵌套list
with open(filePath, 'r') as trainFile:# 计算所有的用户以及用户看过的电影和评分,保存到相关字典变量中for line in trainFile:# type(line)是string类型,其中分离出来的userId等也都是string类型# strip()方法是去除指定首尾字符(userId, movieId, rating, timestamp) = line.strip('\n').split('\t')if userId not in users:users.append(userId)userWatchedMovie.setdefault(userId, {})userWatchedMovie[userId][movieId] = float(rating)# 计算用户与用户共同看过的电影
for x in range(len(users)-1):movieUser.setdefault(users[x], {})for y in range(x+1, len(users)):movieUser[users[x]].setdefault(users[y], [])for m in userWatchedMovie[users[x]].keys():if m in userWatchedMovie[users[y]].keys():movieUser[users[x]][users[y]].append(m)# 计算用户与用户之间的相似度,皮尔逊相似度
userSimilarity = {}
for a in movieUser.keys():userSimilarity.setdefault(a, {})for b in movieUser[a].keys():userSimilarity[a].setdefault(b, 0)if len(movieUser[a][b]) == 0:userSimilarity[a][b] = 0  # 如果两个人没有看过同一部电影,则相似度为0continueelse:# 下面开始进行相似度的计算,皮尔森相关系数avgUserA = 0  # A用户打分的平均值avgUserB = 0  # B用户打分的平均值numerator = 0  # Pearson的分子部分denominatorA = 0  # Pearson的分母A部分denominatorB = 0  # Pearson的分母B部分count = len(movieUser[a][b])  # 保存两个用户共同看过的电影的数量# 这里用到了一个召回率的因素,因为在前述的实验过程中,发现最相似的用户# 相似度达到了 1.0 ,感觉有点不正常,比如说用户1和用户9,共同只看过两部电影,但是相似度却等于 1.0# 这个是不太正确的,所以加入了召回率的考量# 加入之后,发现用户1和用户9的相似度从1.0下降到0.19,感觉是比较合理的factor = 0if count > 20:  # 20是自己指定的factor = 1.0else:if count < 0:factor = 0else:factor = (-0.0025 * count * count) + (0.1 * count)for movie in movieUser[a][b]:  # 对于两个用户都看过的每一部电影,进行计算avgUserA += float(userWatchedMovie[a][movie])avgUserB += float(userWatchedMovie[b][movie])avgUserA = float(avgUserA / count)avgUserB = float(avgUserB / count)# print(avgUserA)# print(avgUserB)for m in movieUser[a][b]:# print(userWatchedMovie[a][m])tempA = float(userWatchedMovie[a][m]) - avgUserAtempB = float(userWatchedMovie[b][m]) - avgUserB# print(tempA)numerator += tempA * tempBdenominatorA += pow(tempA, 2) * 1.0denominatorB += pow(tempB, 2) * 1.0# print(numerate)if denominatorA != 0 and denominatorB != 0:userSimilarity[a][b] = factor * (numerator / (sqrt(denominatorA * denominatorB)))else:userSimilarity[a][b] = 0# 每个用户都取前n个最相似的用户,以便后续进行推荐
# singleUserTopNSim = {}
allUserTopNSim = {}for currentUserId in users:  # 计算当前用户的最相似的前n个用户singleUserSim = {}  # 存放单个用户对所有用户的相似度allUserTopNSim.setdefault(currentUserId, {})  # 存放所有用户的TopN相似的用户for compareUserId in users:if currentUserId == compareUserId:breakelse:singleUserSim[compareUserId] = userSimilarity[compareUserId][currentUserId]if int(currentUserId) != len(users):singleUserSim.update(userSimilarity[currentUserId])# print(currentUserId, end=' ')# print(singleUserSim)# python中的字典是无序的,但是有时候会根据value值来取得字典中前n个值,# 此处思想是将字典转化成list,经过排序,取得前n个值,再将list转化回字典# 进行排序,取前N个相似的用户,此时singleSortedSim是一个list类型:[(key,value),(key,value),(key,value),...]singleSortedSim = sorted(singleUserSim.items(), key=lambda item: item[1], reverse=True)singleTopN = singleSortedSim[:TOPN]  # 取出前N个最相似的值for single in singleTopN:allUserTopNSim[currentUserId][single[0]] = single[1]  # 保存当前用户计算出的TopN个相似用户以及相似度# 从最相似的用户中推荐,每个相似用户推荐number部,那么每个用户就能得到推荐的number*10部电影
recommendedMovies = {}
for oneUser in allUserTopNSim.keys():recommendedMovies.setdefault(oneUser, {})for simUser in allUserTopNSim[oneUser].keys():oneMovieList = []simUserMovieList = []number = 0recommendedMovies[oneUser].setdefault(simUser, {})for movie in userWatchedMovie[simUser].keys():if number >= AMOUNT:  # 每个人推荐数量为number部的电影数breakif movie not in userWatchedMovie[oneUser].keys():  # and (movie not in recommendedMovies[oneUser]):# 计算预测权值if int(oneUser) < int(simUser):# oneMovieList.append(list(movieUser[oneUser][simUser]))# simUserMovieList.append(list(movieUser[oneUser][simUser]))length = len(movieUser[oneUser][simUser])#simUserMovieList.append(movie)#tupleOne = tuple(oneMovieList)#tupleSim = tuple(simUserMovieList)sumOne = 0.0sumSim = 0.0for i in movieUser[oneUser][simUser]:sumOne += userWatchedMovie[oneUser].get(i)sumSim += userWatchedMovie[simUser].get(i)sumSim += userWatchedMovie[simUser].get(movie)avgOneUser = sumOne / lengthavgSimUser = sumSim / (length + 1)predictionRating = avgOneUser + (userWatchedMovie[simUser][movie] - avgSimUser)recommendedMovies[oneUser][simUser][movie] = predictionRating  #这是一个需要计算的值number += 1else:# oneMovieList.append(movieUser[simUser][oneUser])# simUserMovieList.append(movieUser[simUser][oneUser])length = len(movieUser[simUser][oneUser])# simUserMovieList.append(movie)sumOne = 0sumSim = 0for i in movieUser[simUser][oneUser]:sumOne += userWatchedMovie[oneUser].get(i)sumSim += userWatchedMovie[simUser].get(i)sumSim += userWatchedMovie[simUser].get(movie)avgOneUser = sumOne / lengthavgSimUser = sumSim / (length + 1)predictionRating = avgOneUser + (userWatchedMovie[simUser][movie] - avgSimUser)recommendedMovies[oneUser][simUser][movie] = predictionRating  #这是一个需要计算的值number += 1else:continue
'''
# 读取测试集数据文件
filePathTest = './data/u1.test'
usersTest = []  # 保存所有用户,不重复list类型
userWatchedMovieTest = {}  # 保存所有用户看过的所有电影,字典嵌套字典类型
with open(filePathTest, 'r') as testFile:# 计算所有的用户以及用户看过的电影和评分,保存到相关字典变量中for lineTest in testFile:(userIdTest, movieIdTest, ratingTest, timestampTest) = lineTest.strip('\n').split('\t')if userIdTest not in usersTest:usersTest.append(userIdTest)userWatchedMovieTest.setdefault(userIdTest, {})userWatchedMovieTest[userIdTest][movieIdTest] = ratingTest
'''
'''
# 要找到在测训练集中用户没有看过,但是在测试集中用户看过并且被推荐过的电影,这样后面好计算MAE(平均绝对误差)
movieRecommendedAlsoInTest = {}
for user in usersTest:movieRecommendedAlsoInTest.setdefault(user, [])for m in recommendedMovies[user]:if m in userWatchedMovieTest[user].keys():movieRecommendedAlsoInTest[user].append(m)
''''''
writeFilePath = './data/movieuser.txt'
if os.path.exists(writeFilePath):os.remove(writeFilePath)
writeFile = open(writeFilePath, 'w')
for m in movieUser.keys():for n in movieUser[m].keys():writeFile.writelines([m, '\t', n, '\t', str(movieUser[m][n])])writeFile.write('\n')
writeFile.close()
'''writeFilePath = './data/userWatchedMovie.txt'
if os.path.exists(writeFilePath):os.remove(writeFilePath)
writeFile = open(writeFilePath, 'w')
for m in userWatchedMovie.keys():for n in userWatchedMovie[m].keys():writeFile.writelines([m, '\t', n, '\t', str(userWatchedMovie[m][n])])writeFile.write('\n')
writeFile.close()writeFilePath = './data/allUserTop10Sim.txt'
if os.path.exists(writeFilePath):os.remove(writeFilePath)
writeFile = open(writeFilePath, 'w')
for m in allUserTopNSim.keys():for n in allUserTopNSim[m].keys():writeFile.writelines([m, '\t', n, '\t', str(allUserTopNSim[m][n])])writeFile.write('\n')
writeFile.close()writeFilePath = './data/recoMovieWithRating.txt'
if os.path.exists(writeFilePath):os.remove(writeFilePath)
writeFile = open(writeFilePath, 'w')
for m in recommendedMovies.keys():for n in recommendedMovies[m].keys():writeFile.writelines([m, '\t', n, '\t', str(recommendedMovies[m][n])])writeFile.write('\n')
writeFile.close()writeFilePath = './data/userSimilarity.txt'
if os.path.exists(writeFilePath):os.remove(writeFilePath)
writeFile = open(writeFilePath, 'w')
for m in userSimilarity.keys():for n in userSimilarity[m].keys():writeFile.writelines([m, '\t', n, '\t', str(userSimilarity[m][n])])writeFile.write('\n')
writeFile.close()

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...