1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 基于用户历史行为的学者推荐 .pdf

论文研究 基于用户历史行为的学者推荐 .pdf

上传者: 2020-07-29 07:36:55上传 PDF文件 328.12KB 热度 36次
基于用户历史行为的学者推荐,董星亮,王嫄,随着计算机技术的发展,个性化推荐已经成为服务方主动提供服务的一种方式。在科技论文网站中,研究学者在检索论文的同时,往往还山国武花论文在丝个性化学者推荐模型推荐模型的构建在模型中推荐的对象——即用户,用字母来衣示。推荐的内容—一即学者,用字母来表示。在统计语言模型中,就可以使用来表示二者之间的关系,即在给定用户的前提下,出现学者的概率。概率值越高表示用户与学者之间越相关。再利用贝叶斯概率公式,将其进行变换,结果如公式所示。由于对确定的一名用户来说,其的值是确定不变的,进而将公式转变为公式在公式中,有两个不同的部分。其中可以定义为学者的重要程度;而可以定义成用户与学者的相似度。下面将具体介绍每一项的求解方法。学者重要程度在公式中,表示学者在网站中的重要程度。在计算前,需要定义一个新的函数用来表小学者在网站中的综合评分。计算方式如公式,使用学者在网站中发表的所有论文的论文下载量比率与浏览量比率的积的和,来表征学者的综合评分。的下载量的浏览量的论文所有论文的下载量所有论文的浏览量由于科技论文可能处于刚刚发表的状态,所以此时论文下载量或者浏览量处于的状态。因此需要采用一种平滑技术来处理——即在论文的下载量或者浏览量为的时候,我们使用来代替的出现。最后将做归一化处理,便可以得到如公式∈所有学者用户与学者相似度本文使用中科院的分词技术对用户配置文件和学者配置文件进行分词处理用所得到的分词结果作为所有文档集合的词典,也就是用户的特征空间。最后使用每个词的权值来向量化学者配置文件与用户配置文件,形成用户特征冋量和学者特征向量。其中每一维表示一个词在忄置文件中所对应的值随着论文数量的不断增加,分词数量也不断增多,用户的特征维虔空间也就越来越大,模型计算的复杂度也会随之越来越高。这样,在分词结果中便会出现些对于用户而言是亳无意义的词。因此,需要对用户的特征空间进行降维,选取那些可以很好地表征用户特征的词汇,来表示用户的特征空间。本文使用公式来评价文本中词的质量。词的质量越高表示该词越可以表征用户的特山国武花论文在丝所有所有文本其中()表示个词的质量,词在文档中出现的次数,友示所有文档的词数这样通过选取前个质量较高的词来代替所有的词,就完成了用户特征空间的降维。于是,使用前个词来表示用户的特征空间,就可以得到用户的特征向量…c和学者的特征向量最后,就可以使用用户的特征向量和学者的特征向量的夹角的余弦值来表小用户与学者之间的相似度,即如公式所小实验设计数据集与评价指标木次实验所使用的数据集是来自于中国科技论文在线的真实数据。在众多用户中,选取了名不同硏究领域的用户,并针对每·名用户再选取名学者来对其进行推荐。通过对选取的用户和学者进行分析,若二者具有相近的研究领域,标签为,否则标签为。这样就形成了“用户学者标签”格式的数据。本文所提出的学者推荐模型,输出是一个排序后的学者列表。排在顶部位置的学者表示与用户之间有较高的相似度。由于评价指标可以很好评价排序结果中顶部序列的准确性。因此,在本文的实验中,使用来评价学者推荐模型的性能。给定一个排序后的文档序列,在第位的值的计算公式如公式所示。可知第位的值越高,表示前位的准桷性越髙,进而说明推荐的结果越好。其中:是第个文档级别,是归化参数,它使得最优的排序的的值始终为;如果结果序列中文档的个数要少于,则返回计算公式返回的值。在计算时,把相关的数据对映射为、不相关的映射为,即为数据的标签。实验设计与实验结果为了本文所提出的学者推荐模型的有效性,进行了两组实验。一组是模型的有效性实验;组是在模型中用户特征维数的选取对模型效果影响的实验。在第·组实验中,使用向量空间模型作为对比实验。使用本文中的方法构建用户特征空间,选取的特征空间的维数为实验结果如图所示。其中红色的部分表示向量空间模型的结果,蓝色的部分表示本文所提出的学者推荐模型。在前位的上,使用本文所提出的学者推荐模型较向量空间模型相比,有了明显的提升,取得的较好的实验结果。在后几位的结果中,本文的所提出的学者推荐模型与向量空间模型比较接近ε这说明了使用本文所提出的学者推荐模型,不仅可以针对用户有效地提供学者推荐服务,还进一步地提升了推荐结果中顶部序列的准确性。山国武技论文在丝080.70.60.50.4}.30.20.1■向量空间嫫型500词■学者推荐模型500词图模型对比实验结果为了研究用户的特征空间的选取是否影响模型的效果,本文进行了第二组实验。在第二组实验中,分别选取了词的质量较高的前个词和个词作为用户的特征维数。实验结果如图。其中红色的部分表示使用个词的实验结果,蓝色部分表小个词的实验结果。0.3070.60.504].30.20.10MIDES DOEGUUOGRIO GH OEG IOG AIGEG DO UUOGGAIIGA■学者推荐模型150词■学者推荐模型50词图特征维数实验结果在第位的上,选取个词作为用户的特征维数较个词相比有了较大的提高。在第位到第位的,选取个词的实验结果与词的结果比较接近而在后续的值上,选取词的结果要优于词的结果。这一现象说明∫,选取不同的用户特祉空间有着不同的实验结果。当用户的特征空间维数较少时,所选取的词不能很好的衣征所有用户的特征。这样就使得原本具有相似“特征”的一些用户和学者,因为这个相似的“特征”没有被选入特征空间,而导致二者被模型判定为不相关,进而降低了模型的准确率然而,当用户的特征空间维数较多时,所选取的词便具有了普遍性,即在许多文本中都山国武花论文在丝岀现了的词。这些词不具有特性,而具有普遍性。这样就使得原本不相关的些用广和学者,因为都包含了这类具有普遍性的词,而被模型判定为相关,导致模型的准确率降低。结论本文将用户个人历史信息融入推荐模型中,将用户个性化的信息作为用户推荐的依据木文根据收集到的用户历史信息,借鉴以往的推荐模型,提出并实现了一种新的基」用户历史行为的学者推荐模型。并通过中国科技论文在线的貞实数据集上的实验表明,使用本文提山的学者推荐模型可以快速地向用户推荐与用户研究领域密切相关的研究学者参考文献
下载地址
用户评论