当前位置:蚂蚁文档网 > 述职报告 > 基于稀疏矩阵面向论文索引排名的启发式算法

基于稀疏矩阵面向论文索引排名的启发式算法

时间:2022-03-20 10:33:30 浏览次数:

zoޛ)j馑ڲ#i!H总结全文,并给出了本课题将来的研究内容和方向。

1理论基础与研究背景

网页排名算法的改进包括:基于主题敏感的研究[9-10]、基于主题漂移的研究[11]、基于自适应方法的研究[12]、基于网页缩放更新规则的研究[13-14]、基于无超链接情况下的研究[15]等。本文所关注的排名算法均是假定以网页之间的链接关系为基础的,经典的算法有PageRank算法[2]、HITS算法[5]以及SALSA(Stochastic Approach for LinkStructure Analysis)算法[16]等。这些算法都是基于网络链接的结构关系,而与网页内的文本内容无关[17]。

1.3SALSA链接分析算法

SALSA算法的初衷希望能够结合PageRank算法和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”[10]。PageRank算法与HITS算法均利用了特征向量作为收敛性依据,在文献[19]中详细叙述了它们的不同点。实际应用中,用户大多数情况下是向前浏览网页,但是也会回退浏览网页。基于上述直觉知识,Lempel和Moran提出了SALSA算法[16],具体计算迭代细节在文献[10,16]中有明确说明。

本文研究的问题是论文排名。由于论文间的引用关系与网页间的链接关系相似,所以利用网页排名算法的技术手段,来解决所关注的问题。注意:由于论文发表存在先后关系,因此,论文引用关系形成的图是拓扑图,这点与网页链接关系图不同,这就导致了排名值传递有极大的方向性。

2基于稀疏矩阵与Hash索引技术的排名算法

本章将利用Hash索引技术减少稀疏矩阵对内存的消耗,同时引入一种启发式的策略来定义图密集程度均衡值。最后,详细描述面向论文索引排名的启发式算法的实现。

2.1链接关系的稀疏矩阵表示

计算机算法永远是在时间与空间中权衡与妥协。第1章介绍了邻接矩阵表示链接结构的方法。但在实际中,一篇论文的引用论文数量是有限的,搜索得到的论文集所生成的邻接矩阵极大且稀疏。如果不利用Hash索引技术,在2GB的内存主机中,本文介绍的排名算法是处理不了表1后7行实验数据的。本节介绍的Hash索引技术表示稀疏矩阵的方法,就是用来缓解内存空间有限性所带来的问题。

本文实验所用到的表示论文之间引用关系的数据格式如图2所示。加载进HashMap的数据结构形式如图3所示,不记录论文之间没有引用的0项。在搜索HashMap数据结构的内容时,可以用迭代器来进行搜索。所以在每次更新某一篇论文的排名值时,只需要计算引用(映射)到这篇论文的那些论文的HashMap结构的内容就可以了。

注意,1.1节引入缩放因子所改进的缩放网页排名算法(PageRankScale)不能利用HashMap思想,因为它将所有Nij=0的项都变为很小的值,以防止排名泄漏的情况。

2.2启发式策略

论文引用关系形成的图为有向图,在有向图中,设计启发式策略的主要定义如下。

定义1图的密集程度定义为D(density): D=L/N。其中:L为论文间的引用链接数,N为总的论文节点数。D越大,则图越密集;反之越稀疏。

定义2图中有出度的节点的占比定义为ODR(Out Degree Ratio): ODR=ODN/N。其中:ODN(Out Degree Node)为有出度的论文节点数,N为总的论文节点数。

定义3图密集程度均衡值IEV(Intensive Equilibrium Value): IEV=D×ODR。其中:D为图的密集程度,ODR为图中有出度的节点占比。在论文引用关系图中,有些节点只有出度或只有入度,是图当中较为“劣质”的节点,没有紧密地连接到图中其他的节点。没有出度的节点会可能造成排名泄露的情况,排名算法的迭代次数将会有所变化。基于以上原因,定义IEV,在计算IEV时,考虑到有出度节点的占比,可以较全面地把握图的整体属性,并保证IEV作为一个表示图性质的比值,单位为1。本文通过实验分析不同算法的迭代次数与所定义的IEV之间的关系。

2.3排名算法描述

算法1是论文排名算法的入口,可以在四种排名算法中选择,得出相应算法的迭代次数以及对应算法每篇论文重新排名的次序以及排名值。在SALSA排名算法中,本文只进行一次前向与后退更新,所以迭代次数始终为2。算法2是PageRank算法排名过程。注意并不排序所有的论文,只是排序所关注的被引频次降序排序方式的检索得到的前1000篇论文。算法3是HITS算法实现一次更新的伪代码,主要进行每篇论文中枢排名值(authority)和权威排名值(hub)的一次更新,在执行HITS算法达到收敛后,综述类文章的中枢排名值将会排名较高,因为综述类文章相当于枢纽会被较多论文引用。排名算法判断迭代收敛的依据是所有每篇论文的排名值一次更新前后相差均少于10E-6,即精度为10E-6,如HITSOnceUpdate()方法。注意:在HITS算法中以每篇论文的权威排名值收敛作为迭代结束标志。本节只介绍算法中比较有代表性的方法。另外本文介绍的SALSA没有极限值的概念,即不存在算法迭代次数的讨论,SALSA算法的实现要注意mapData集的双向索引,具体实现方法请参照文献[20]中的内容。

算法1PapersRank()。

3实验及其结果分析

这一节将分析实验结果。实验代码可从文献[20]中获得。

3.1迭代次数与IEV的关系

Dataset1~Dataset3是为了描述本文实验所构造的人工数据集。SogouT_Link为搜狗实验室提供的数据集,Link_First和Link_Second为SogouT_Link进行的前后部分随机拆分形成的数据集,Link_OddOver为进行奇偶行拆分形成的数据集,这4个数据集增加了数据随机性。recommended_system为在SCI数据库输入“recommended system”后获得的论文引用关系数据集;同理获得“data_mining”。表中最后三列为选择相应的算法,“A1”代表PageRank,“A2”代表HITS,“A3”代表PageRankScale。

在图4中,横坐标为图密集程度均衡值IEV,纵坐标为排名算法的迭代次数。

从图4可看出,在小数据集上(Dataset1~Dataset3)呈现的规律是:随着图密集程度均衡值的增加,3种排名算法的迭代次数都相对增加。在大数据集上PageRank与HITS也基本呈现这样的规律。另外,在引用链接数与节点数较多的图中,PageRank与HITS的迭代次数都会很小,即在大规模数据的论文的排名中,迭代次数并不高。因为排名算法的迭代次数与有向图的结构有关,所以如果其他有向图与本文分析的链接图同构,则有相同的迭代次数等性质。

3.2基于SCI数据库的数据集

以图2介绍的论文引用形式作为实验数据的格式,采用唯一表示一篇文献的方法是:用该论文的题目,去掉非英文字母以外的所有字符,并且统一转换为小写的形式。利用正则表达式来写网络爬虫可以非常容易得到想要的网页信息[21],获得的文件格式为:

论文名 论文被引论文信息的一条链接URL 被引用频次

本实验先暂定第1层搜索的论文数为1000;进入某篇论文的被引论文集后,相当于第2层,每篇论文爬取的被引用论文数为50。第1层的1000篇论文中有些被引频次不足50,所以本应得到的连接数为1000×50=50000个链接,实验只得到了46763个链接。

3.3参考文献排名的实验结果与分析

图5~6是应用了PageRank排名算法,对“recommended system”集文献按照原排序方式(被引频次降序)的前1000文章重新排名的结果。图5、图7、图8的横坐标为某篇论文在原排序方式(被引频次降序)中的排名次序(OriginalRank),纵坐标为运行不同排名方法(分别为PageRank、HITS、SALSA)后论文的排名值(RankValue)。以图5为例分析,这1000篇论文的排名值整体呈缓慢的下降趋势,这说明在原排序方式中排名靠后的论文,PageRank排名值也较低。同时,这1000篇论文的排名值都在0.001附近,说明论文引用关系图中的排名值基本集中在这1000篇论文中,流动到其他42770篇论文的排名值较少,这是因为在论文引用链接关系图中,这1000篇论文多以入度节点的形式存在,而不一定有出度,所以排名值会慢慢流向这1000篇论文。在论文引用链接关系图中,很多论文处于图中的相同的地位,即出度结构与入度结构相同,所以这些论文的排名值是相同的。图6的横坐标仍为排名次序,纵坐标为不同排名方式重新排名次序(Rank),即在原排序方式中排名第一的论文,运用了PageRank方式的论文排名算法后,在这1000论文中排名第300名。图5中,在PageRank方式中排名值最高的论文名转化处理后的形式是“theinternationalassociationforthestudyofl ungcancerinternationalstagingprojectonlungcancer”,排名值为0.00684258624628742。由图6观察得到论文重新排名的趋势与原排序方式拟合,呈上升趋势,这与图5同样证明了这个理论。但图6中PageRank方式走势高低差距较大,说明了PageRank方式的论文排名结果与原排名结果还是有一定差距的。注意:在HITS方式(见图7)排名算法分析中,一篇论文有权威排名值也有中枢排名值,本文均以这篇论文的权威(authority)排名值(RankValue)进行重排名,这是因为论文的权威排名值才真实反映其在关键领域具体技术方便的价值,所以图7纵坐标为权威排名值。

在这三种论文排名算法的比较中,就论文排名值的比较而言,HITS方式(图7)论文之间的排名值差距较大,PageRank方式(图5)次之,SALSA(图8)最小,SALSA方式排名值平稳过渡,与原被引频次降序排列比较拟合。就论文重排名次序比较而言,PageRank方式论文的排名次序与原排序方式拟合程度较差,HITS方式较好,SALSA方式最好。由于SALSA方式的论文排名算法,不更新到极限值,运行时间也较短,所以SALSA方式的论文排名算法比较适合文后参考文献的排名。

4结语

本文基于经典的网页排名算法,研究了SCI数据库论文检索的有效方式,主要考虑到检索到的论文之间的相关性。介绍了利用Hash索引技术减少排名算法对内存的消耗,并研究了排名算法的迭代次数与IEV的关系。在实验部分,分析不同的论文索引排名的启发式算法对实验数据的排名结果的影响,并给出评价。最后关于如何唯一标识一个作者及确定这个作者写过某篇文章需要更多的研究。

参考文献:

[1]PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: bringing order to the Web[EB/OL]. [20141010]. http://ilpubs.stanford.edu/422/1/1999-66.pdf.

[2]LANGVILLE A N, MEYER C D. Googles PageRank and beyond: the science of search engine rankings[M]. Princeton: Princeton University Press, 2011:1-4.

[3]QIU Z, FU T, WANG X. Develop its own search engine[M]. 2nd ed. Beijing: Peoples Posts and Telecommunications Press, 2010:4-6.(邱哲,符滔滔,王学松.开发自己的搜索引擎[M].2版.北京:人民邮电出版社,2010: 4-6.)

[4]BRIN S, PAGE L. The anatomy of a largescale hypertextual Web search engine[J]. Computer Networks and ISDN Systems,1998, 30(1): 107-117.

[5]KLEINBERG J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM, 1999, 46(5): 604-632.

[6]MIHALCEA R, TARAU P, FIGA E. PageRank on semantic networks, with application to word sense disambiguation[C]// COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics. New York: ACM Press, 2004: 1126.

[7]ESULI A, SEBASTIANI F. Pageranking WordNet synsets: an application to opinion mining[EB/OL]. [20141010]. http:///detail/waxdhgj/8428995. (万晓松.网页排名算法及其应用[EB/OL].[20150206]. http://download.csdn.net/detail/waxdhgj/8428995.)

[21]LUO G. Technical combat secret search engine: Lucene & Java essentials [M]. Beijing: Publishing House of Electronics Industry, 2011:33-58.(罗刚.揭秘搜索引擎的技术实战:Lucene&Java精华版[M].北京:电子工业出版社,2011:33-58.)

推荐访问:启发式 稀疏 矩阵 算法 索引

猜你喜欢