(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210956668.8
(22)申请日 2022.08.10
(71)申请人 西南科技大 学
地址 621000 四川省绵阳市涪城区青龙 大
道中段59号
(72)发明人 邢玲 黄元浩 张琦 吴红海
马强
(74)专利代理 机构 成都行之智 信知识产权代理
有限公司 5125 6
专利代理师 温利平
(51)Int.Cl.
G06Q 50/00(2012.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 16/901(2019.01)
(54)发明名称
基于图对比学习的社交网络用户对齐方法
(57)摘要
本发明公开了一种基于图对比学习的社交
网络用户对齐方法, 对待对齐的两个社交网络分
别进行用户特征向量提取, 并确定若干对齐用户
对作为锚用户; 分别对各个社交网络进行两次数
据增广, 得到两个增广视图, 通过多头图注意力
网络对社交网络、 两个增广视图分别进行语义融
合, 然后对源社交网络的两个增广视图, 目标社
交网络的两个增广视图分别进行对比学习, 更新
用户特征向量, 再根据锚用户对源 社交网络和目
标社交网络进行对比学习, 得到各个用户的最终
用户特征向量; 对于源社交网络中的各个用户,
计算其最终用户特征向量与 目标社交网络中各
个用户的最终用户特征向量的相似度, 实现用户
对齐。 本发明可以解决语义差距问题, 提高用户
对齐的准确率。
权利要求书4页 说明书10页 附图4页
CN 115271986 A
2022.11.01
CN 115271986 A
1.一种基于图对比学习的社交网络用户对齐方法, 其特 征在于, 包括以下步骤:
S1: 记待对齐的源社交网络为GS=(US,ES,AS), 目标社交网络为GT=(UT,ET,AT), 其中Ui
表示社交网络Gi的用户集合, Ei表示社交网络Gi的用户之间的边集合, Ai表示社交网络Gi的
用户数据集合, i∈{S,T}, 用户数据包括用户名、 预设时间段内用户的发布内容和用户签到
数据; 然后分别从源社 交网络和目标社交网络的用户数据中提取出各个用户的用户特征向
量
Ni表示社交网络Gi中用户数量, 从而得到特征提取后的源社交网络
和目标社交网络
Vi表示社交网络Gi的用户特征向量集
合;
预先在源社交网络和目标社交网络中确定K个对齐用户对
作为锚用户, k=1,
2,…,K;
S2: 对社交网络
进行两次数据增广, 得到 两个增广视图
和
S3: 为源社交网络和目标社交网络分别设置一个多头图注意力网络作为图编码器
encoderi, 采用图编码器encoderi分别对社交网络
增广视图
和
中的用户特征向
量进行语义融合, 得到语义融合后的用户特征向量, 从而构建语义融合后的社交网络
增
广视图
和
S4: 对于同一社交网络的增广视图
和
将两个增广视图中的同一用户作为正样
本, 其他用户作为负样本, 以提高相同用户的互信息为目标, 采用对比学习优化图编码器
encoderi, 采用优化后的图编码器encoderi对社交网络
进行编码, 得到其中各个用户的
用户特征向量
将社交网络
中的用户特 征向量更新 为
得到社交网络
设置图编码器encoder*, 将源社交网络
和目标社交网络
作为两个视图, 将步骤S 1
中的K个对 齐用户对
作为锚用户, 采用对比学习优化图编码器enc oder*, 对源社交 网
络
和目标社交网络
中各个用户的用户特征 向量进行迭代更新, 得到各个用户的最终
用户特征向量;
S5: 对于源社交网络中的各个用户, 计算其最终用户特征向量与目标社交网络中各个
用户的最 终用户特征向量的相似度, 筛选出互为最大相似度且相似度大于预设阈值的用户
对, 作为对齐用户对。
2.根据权利要求1所述的社交网络用户对齐方法, 其特征在于, 所述步骤S1中用户特征
向量采用如下 方法提取:
S1.1: 对于每个用户
根据其发布内容提取得到λ个用户偏好的主题, 构成用户
偏好
其中λ 的值 根据实际需要确定;
S1.2: 根据每 个用户
的签到数据提取 得到用户的常驻 地区
S1.3: 将每个用户
的用户名
用户偏好
和用户常驻地区
作为用户属
性, 从而构建得到用户属性数据, 使用word2vec方法对用户属性数据中每个用户属性提取权 利 要 求 书 1/4 页
2
CN 115271986 A
2对应的词向量, 将三个用户属性的词向量进行加权融合后得到用户属性嵌入向量
S1.4: 使用BERT模型从每个用户
的发布内容中提取特征向量, 作为用户发布内容嵌
入向量
S1.5: 根据社交网络Gi得到用户之间的社交关系视图, 对于每个用户
将签到数据中
的签到时间和位置作为用户的相 邻节点构成该用户的用户活动视图, 用元图将所有用户的
用户活动视图和社交关系视图关联得到异构网络, 对该异构网络进行图嵌入, 得到各个节
点的嵌入向量, 将用户
的节点对应的嵌入向量作为用户时空嵌入向量
S1.6: 对于每个用户
将其用户属性嵌入向量
用户发布内容嵌入向量
用户时
空嵌入向量
进行拼接, 得到用户特 征向量
3.根据权利要求1所述的社交网络用户对齐方法, 其特征在于, 所述步骤S2中社交网络
的数据增广的具体方法如下:
S2.1: 对于每个用户
记其在社交网络Gi中的社交关系视图所对应的社交关系矩阵为
然后从社交网络Gi中按“用户‑偏好
‑用户”提取用户关系, 得到 由具有共同
偏好
的用户构成的用户偏好视图, 记对应的用户偏好矩阵为
基于社交关系
矩阵
和用户偏好矩阵
得到用户
的偏好共享矩阵
从而得到用
户
的偏好共享视图, 偏好共享矩阵
的计算公式如下:
其中, 上标T表示转置,⊙表示对应元 素相乘;
计算用户
的语义中心度
其中,
分别表示根据 社交关系视图、 偏好共享视图计算得到的用户
的度中心性;
S2.2: 对社交网络
进行两次拓扑级别增广, 得到两个拓扑级别增广视图, 拓扑级别增
广的具体方法如下:
对社交网络 Gi的边集合Ei中的各条边e∈Ei, 记边e所对应的用户为
和
首先计算两
个用户的语义中心度的平均值作为 边e的语义中心度we:
采用如下公式对边的语义中心度we进行归一 化得到归一 化值α(e):权 利 要 求 书 2/4 页
3
CN 115271986 A
3
专利 基于图对比学习的社交网络用户对齐方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:14上传分享