本书基于可疑用户度量的思想,从基于内存和基于模型的推荐技术两方面展开研究,致力于设计一系列鲁棒性高、精度损失少的协同过滤推荐算法。
伊华伟,女,1978年8月生,辽宁朝阳人;2017年1月毕业于燕山大学计算机应用技术专业,获工学博士学位;辽宁工业大学电子与信息工程学院副教授、硕士生导师。主要系统、可信计算及信息等方面的科学研究,先后在《软件学报》《电子与信息学报》《Journal of Intelligent Information Systems》等国内外高期刊发表相关学术论文20余篇;主持完成辽宁省自然科学项目、辽宁省教育厅科学研究项目2项,参与国家自然科学项目、辽宁省自然科学项目4项;获得各类授权专利20余件。
第1章绪论
1.1研究背景和意义
1.2技术研究现状
1.2.1基于内存的算法研究现状
1.2.2基于模型的算法研究现状
1.2.3目前存在的问题
1.3主要研究内容
1.4本书组织结构
第2章 基于k-距离和项目类别信息的方法
2.1 引 言
2.2相关理论
2.2.1基于用户的协同算法
2.2.2基于k邻的离群点检测
2.3 基于用户的协同系统脆弱性分析
2.4基于k-距离的用户可疑度计算
2.5融合用户可疑度和项目类别信息的缺失值填充
2.6 算法
2.7本章小结
第3章 基于可疑用户度量和多维信任的方法
3.1引言
3.2相关向量机
3.3基于相关向量机的可疑用户度量
3.4可靠多维信任模型
3.4.1信任属性的挖掘
3.4.2可靠多维信任模型的构建
3.5算法
3.6本章小结
第4章基于模糊核聚类和支持向量机的方法
4.1引言
4.2相关理论
4.2.1基本矩阵分解技术
4.2.2模糊核聚类
4.2.3支持向量机
4.3基于矩阵分解的协同系统脆弱性分析
4.4基于模糊核聚类的攻击概貌检测
4.5基于支持向量机的攻击概貌识别
4.6算法
4.7本章小结
第5章基于可疑用户识别和Tukey M-估计量的方法
5.1引言
5.2融合可疑用户识别的可邻模型
5.2.1可疑用户识别
5.2.2 可邻模望
5.3 基于Tukey M-估计量的鲁棒矩阵分知模H
5.4算法
5.5参数值的确定
5.6本章小结
第6章 实验与评价
6.1实验数据集
6.2评价指标
6.3实验设置
6.4基于k-距离和项目类别信息的算法性能评价
6.4.1精度的对比及分析
6.4.2 算法鲁棒性的对比及分析
6.5 基于可疑用户度量和多维信任的算法性能评价
6.5.1精度的对比及分析
6.5.2算法鲁棒性的对比及分析
6.6 基于模糊核聚类和支持向量机的算法性能评价
6.6.1精度的对比及分析
6.6.2算法鲁棒性的对比及分析
6.7基于可疑用户识别和Tukey M-估计量的算法性能评价
6.7.1精度的对比及分析
6.7.2算法鲁棒性的对比及分析
6.8 本章小结
结论
参考文献
第pan>章绪论
1.pan style="font-family:宋体">研究背景和意义
随着互联网技术突飞的发展,人们喜欢在互联网上通过电子商务网站来购买各种各样的商品。然而,随着网上交易用户的日益增多和商品信息量的极大丰富,出现了严重的信息超载(Information Overload)现象[1-3]。所以,人们在享受电子商务带来便利的同时,也面临着一个严峻的挑战——如何在信息的海洋中、快捷地找到自己真正所需的商品信息。因系统(Recommender Systems)[4-7]应运而生,它与电子商务系行结合,能够有效地解决信息超载问题。与传统的搜索引擎不系统能根据用户的个人资料、商品购买记录以及对商品的评价等历史信息来分析用户的个人兴趣、爱好,快速找出并主动为其可能感兴趣的商品信息,从而在实现个的同时提高用户检索信息的效率。
1997年,Resnick和Varian[8]:“”目前,电子商务网站是个系统的一个主要应用领域,比如Amazon、豆瓣网、eBay和网等都不同程度地使用了多种形技术[9],主要有基于内[10-3]、协同[14]、基于知[15-16]和[17-18]等。其中协同(CollaborativeFiltering Recommendation)技术是早出现、理论为成熟和应用为广泛的技术之一[19-20]。本书内容即基于协同展开系列相关研究工作之成算法决定了系统的性能好坏,系统的核心部分[21-2]。协同算法分为基于内算法(Memory-based RecommendationAlgorithm)和基于模算法(Model-based Recommendation Algorithm)两大类,其中基于内算法又可分为基于用算法(User-basedRecommendation Algorithm)[23-24]和基于项目的] 行 đ __m-based Recom.mendaion Algorithm)[25-26]。协同 算法 首先计算系 统中 用户(项目)间的相似度,然后依据相似度找出与目标用户(项目)相似的邻居集合,
后根邻用户对目标项目的评分(目标用户邻项目的评分)为目标用户。虽然基于内算法易于实精度高,但相似度计算和寻邻的过程中需要遍历整个评分矩阵,所以算法运行效率会随着评分效据的增多而降低,实时性不高。基于模算法首先运用统计或机器学习等方法对用户-项目评分数行训练得到一个模型,此过程通常离线完成;然后利用该模型在线为目标用户。相比基于内算法来说,基于模算法实时性较高。常见的基于模算法有贝叶斯模型[27]聚类模型[28-29]、回归模型[30]、基于Markov链的模型[31]、潜在语义分析模型[32-34]和目前应用广泛的基于矩阵分解的潜在因子模型[35]等。协同算法基于用户对项目的评分数据来完成对目标用,
因此,收集到的评分数据越多,越能彰显用户的喜好,越能得到高质结果,这就系统必须具有较强的开放性,以充分调动用户参与评分的积极性[36]。然而,一些恶意用户从个人利益角度出发,系统的开放性,人为地将大量虚假用户评分注入到系统中,企图影响用户的购买行为。由此可见,虽然系统可用的评分数据增加了,但是数据质量却严重降低,使系结果受到很大影响。这种将虚假用户概貌注系统中干扰系统的过程,使系结果产生偏差的行为被称为托攻击(ShillingAttacks),也叫概貌注入攻击(Profile Infection Attacks)攻击(Recom-mendation Attacks)[37-38][39]:随机攻击(Random Attack)、均值攻击(Average Attack)、流行攻击(BandwagonAttack)和AoP攻击(Average over Popular Items Attack)等。 根据攻击的目的一步将托攻击分为推攻击(Push Attack)和核攻击(Nuke Attack)两类,分别用来提高和降低目标项目被的频率。
……