多源社交网络实体对齐及信息关联若干关键技术研究及应用

朱俊星

国防科学技术大学

下载全文

在线阅读

引用

摘要：

随着在线社交网络在全世界的迅速普及，真实世界中特定的对象可能同时在多个不同的社交网络中具有多个与之对应的实体，比如，同一个用户可能同时在新浪微博、Twitter等多个社交平台拥有与之对应的用户实体等。判断社交网络中的两个实体是否指向真实世界同一对象的过程叫做实体对齐。基于社交网络间的实体对齐关系，多源网络中的信息可以相互关联融合，从而使得人们能够从更多的维度和视角对社交网络用户进行更准确的分析和研究，这对于商业领域中的跨网络实体推荐和信息安全领域中的网络犯罪分子追踪等应用有重要意义，各种应用在技术上是非常相似的。本文在对国内外相关研究成果广泛调研与分析的基础上，围绕实体对齐及其信息的关联融合，重点研究了多源社交网络的用户实体对齐技术，以及基于实体对齐关系的多源网络间的信息关联融合技术和相关应用，取得的主要成果有：　　1)提出了基于用户命名模式的多视角的多源社交网络中文用户实体对齐技术。针对多源社交网络中复杂多样的中文用户命名模式，如汉字或拼音、简体或繁体、多音字或谐音字、插入数字或特殊字符等，首先将需要匹配的一对用户名，分为两个用户名都包含汉字、都不包含汉字或一个包含汉字一个不包含汉字三类。对不同类型的“匹配对”，通过汉字到拼音、繁体到简体等转换，或去除某些特殊字符等不同的预处理技术，使其生成具有多个变种形式的用户名“匹配对”。然后，综合运用基于编辑距离的相似度、cosine相似度、Jarcard系数等多种相似度算法计算“匹配对”的相似度，从而建立其相应的用户名匹配模型。更进一步，因为一个用户实体可能包含登录ID、昵称、曾用名等多个用户名，对每种用户名分别利用用户名匹配模型计算出用户实体之间的用户名相似度，并为不同的用户名匹配赋予相应的经验权重，最后通过构造适当的分类器建立一个多视角的中文用户实体对齐模型MCUA。实验表明，MCUA对实际采集的新浪微博和Twitter数据进行处理，其中文用户实体对齐效果明显优于OM-LR和基于文本分布的用户名匹配等知名方法。　　2)提出了用于社交网络间用户实体对齐的带约束的主动学习方法。这里，“带约束”是指同一网络中不存在多个代表同一用户的用户实体；实际上即使存在这样的用户实体，也已通过网内的实体对齐技术将之提前聚合成了同一实体。主动学习通过度量网络间用户实体对齐关系样本的信息熵(代表其信息量)，然后选出信息熵最大的样本鉴别其正负标签并添加到训练集中，从而在给定的成本下获取最有效的正负训练样本集合，以用于判断不同网络任意两个未知的用户实体是否属于同一用户。在带约束的主动学习过程中，根据约束条件，对于两个网络间给定的无标签的用户实体对齐关系样本集，当鉴别出其中某一样本标签为正(即，被此关系连接的两个实体代表着同一用户。反之，则为负)时，能够自动推断出其中其他所有与此样本相连的样本的标签都为负，并添加到训练样本集中。并且对于预测为正样本的信息熵，在计算时还可以融入所有相关负样本的信息熵。使用实际采集到的Twitter和Foursquare网络中的用户实体对齐数据作为实验样本，结果表明，相比于随机查询等传统的训练样本获取方法，本方法可以在给定的成本下获取最有效的正负实体对齐训练样本集合。相关成果发表于SCI期刊SENSORS和数据挖掘领域顶级会议WSDM2017上。　　3)提出了用于多源异构网络协同推荐的信息关联融合技术。它的基本思想是在具有实体对齐关系的两个不同网络事物实体间相互传输对方所需的事物实体相似度信息和潜在语义特征信息，以此实现两个网络信息的关联融合。相似度信息的关联融合相对比较简单，对于现实世界任意两个事物，只需通过将两个网络中由较多的用户评分数计算出的二者实体间相似度作为二者相似度，以此将两个网络各自的事物实体相似度信息关联融合到所对应的现实世界事物相似度中。事物实体潜在语义特征信息的关联融合比较复杂，需要对单个网络中高维度的用户评分信息，基于矩阵分解的方法进行降维，以得到能够反映事物实体主体特征并易于在网络间进行传输的潜在语义特征信息。然后通过约束两个网络中代表相同事物的实体的潜在语义特征信息间差异尽可能小的方式实现此类信息的融合，并使用了一种领域适配矩阵来应对可能会遇到的两个网络官方语言不同等领域差异问题。本文将此信息关联融合方法应用于多源网络协同推荐问题，建立了跨网络矩阵分解模型CCMF，有效应对在使用单网络信息进行事物实体推荐时容易出现的用户评分信息的稀疏性问题。使用豆瓣电影和IMDB网络中用户和电影实体数据作为实验数据，结果表明，通过合理融合多源网络信息，CCMF在处理推荐系统信息稀疏性问题上的效果要明显优于LMF、CST、SimMF-I(i)等著名推荐方法。相关成果发表于数据挖掘领域顶级会议CIKM2017上。　　4)提出了用于多源异构网络冷启动推荐的信息关联融合技术。针对特定目标网络在对新引入的事物实体进行推荐时，因这些事物实体尚未获得任何用户评分信息而产生的冷启动推荐问题，首先通过网络间的事物实体对齐关系，将从另一网络中充分的用户评分信息中基于矩阵分解降维得到的相关事物实体潜在语义特征信息单向的传输到该网络中。然后，通过约束两个网络中代表相同事物的实体的潜在语义特征信息间差异尽可能小的方式，将传输的信息关联融合到目标网络信息中，并使用领域适配矩阵来应对信息关联融合过程中可能会遇到的两个网络的领域差异问题。最后将此信息关联融合过程应用于对目标网络事物实体的冷启动推荐中，并充分利用由基于元路径的相似度计算方法从目标网络丰富的异构关系信息中计算出的事物实体间的相似度，根据相似的事物实体具有相似的事物实体潜在语义特征这一思想，建立冷启动推荐模型CHRS。使用豆瓣电影和IMDB网络中用户和电影实体数据作为实验数据，实验结果表明，CHRS在处理冷启动和半冷启动推荐问题上，性能要优于那些在实验中用于对比的Amp-MF、CST、SimMF-I(i)等经典或新兴的方法。相关成果发表于SCI期刊IEEEACCESS上。

关键词：多源社交网络;实体对齐;主动学习;推荐系统;矩阵分解

授予单位：国防科学技术大学

授予学位：博士

学科专业：计算机科学与技术

导师姓名：吴泉源

学位年度：2018

语种：中文

分类号：TP391.1

在线出版日期：2020-04-22（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

多源社交网络实体对齐及信息关联若干关键技术研究及应用