(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210070574.0
(22)申请日 2022.01.21
(71)申请人 武汉东湖大 数据交易中心 股份有限
公司
地址 430000 湖北省武汉市东湖新 技术开
发区高新大道999号龙山创新园一期
F3栋2101室
(72)发明人 杜登伟 杜登斌 杜乐 杜小军
(74)专利代理 机构 武汉红观 专利代理事务所
(普通合伙) 42247
专利代理师 徐春燕
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06F 16/335(2019.01)
(54)发明名称
一种产业招商线索发现方法、 系统、 设备及
存储介质
(57)摘要
本发明提出了一种 产业招商线索发现方法、
系统、 设备及存储介质, 采集园区和企业数据, 并
建立园区和企业文本数据集; 利用TFC技术提取
预处理后的源 数据对应的基本特征信息, 建立基
本特征信息集合; 根据招商的意愿和实际需要,
将园区和企业基本特征信息划分成不同维度的
需求和意愿, 打上对应标签, 形成园区和企业意
愿分词标签集合; 根据意愿标签分词集合, 提取
出对应的意愿语义信息; 计算园区与企业各意愿
语义信息的余弦相似度, 将与某企业意愿语义信
息相似度高的园区意愿语义信息对应的源数据
作为有效招商线索主题。 本发明实现了将企业意
愿与园区招商信息精准匹配, 为企业筛选排查出
吻合度高的招商线索主题, 实现招商线索的精准
发现。
权利要求书4页 说明书8页 附图1页
CN 114492367 A
2022.05.13
CN 114492367 A
1.一种产业招商线索发现方法, 其特征在于, 所述一种产业招商线索发现方法包括以
下步骤:
S1, 采集园区和企业多来源、 多维度数据, 将获取的源数据根据来源分别建立园区文本
数据集和企业文本数据集, 并存 入数据库; 继续执 行步骤S2;
S2, 对所述源数据进行预处理, 并利用TFC技术提取对应的基本特征信息, 分别建立基
本特征信息集 合; 继续执 行步骤S3;
S3, 根据招商的意愿和实际需要, 将园区和企业基本特征信息划分成不同维度的需求
和意愿, 分别打上对应的标签, 形成园区和企业 意愿分词标签集 合; 继续执 行步骤S4;
S4, 根据企业和园区意愿标签分词集合, 提取出对应的意愿语义信息; 继续执行步骤
S5;
S5, 利用余弦相似度算法, 匹配计算园区各意愿语义信 息与企业各意愿语义信息, 将与
某企业意愿语义信息相似度高于预设第二阈值的园区意愿语义信息对应的源数据作为有
效招商线索主题。
2.如权利要求1所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S1具体包
括:
通过对包括园区网站、 政府机构等官方网站的园区、 工商企业数据、 园区、 企业内部CRM
系统的不同公开数据源进 行数据采集和清洗, 获取到园区和企业的数据, 其中, 园区的数据
包括: 园区的发展定位、 总体目标、 重点 发展产业情况、 产业用地出让情况、 产业项目落地情
况、 新增重点企业情况、 产业链情况、 园区政策、 园区空间建设布局、 重点项目建设内容、 园
区企业经营情况、 园区企业科技创新、 园区基础设施工程专项、 组织架构和运营、 投资时序
及实施数据; 企业的数据包括: 企业扩展信息、 技术创新信息、 企业工商信息、 企业投融资信
息、 企业人才招聘、 企业财务信息数据;
根据信息来源将数据分为园区文本数据集和企业文本数据集。
3.如权利要求1所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S2具体包
括:
对所述多来源、 多维度数据进行包括中文分词、 去 除停用词以及非法格式字符的预处
理, 并使用TFC技 术, 计算词P在两个文本数据集中的权 重, 分解成可落 地的数据维度:
WdP为词P在对应源数据d中的权重, tfdP为词P在对应源数据d中出现的频次, N为对应文
本数据集中源数据d的总数, nP为对应文本数据集中包含词P的源数据数量, k为源数据d中
词P的个数;
词P在园区文本数据集和企业文本数据集中的权重分别为最终词WdP1和WdP2, 则其在所
述数据库中的权 重为(WdP1+WdP2)/2;
将每个源数据中的分词按照在数据库中的权重由高到低 排序, 取排名为预设名次的分
词为该数据源的对应的基本特征信息, 从而得到园区文本数据集和企业文本数据集对应的
基本特征信息集 合。权 利 要 求 书 1/4 页
2
CN 114492367 A
24.如权利要求1所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S3具体包
括:
根据园区基本特征信 息以及企业基本特征信 息, 分别为园区和企业打上对应的意愿标
签, 并对意愿标签进行分词处 理, 形成园区意愿标签分词集 合和企业 意愿标签分词集 合;
园区意愿标签主要包括: 产业聚集意愿、 引进高技术人才意愿、 引进高科技技术意愿、
引进高科技企业意愿、 引进创新金融机构意愿; 企业意愿标签主要包括: 企业扩张意愿、 企
业多元战略意愿、 企业物流仓储意愿、 企业空间发展意愿、 企业科技创新意愿、 企业人才战
略意愿、 企业合理避税意愿、 企业产城融合意愿以及规模发展、 品牌传播、 网络效应意愿、 产
业基础意愿、 资源禀赋意愿、 区位优势意愿。
5.如权利要求1所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S4具体包
括:
S4‑1, 将意愿标签分词转换为向量, 采用Sin gle‑pass聚类算法对所述园区意愿标签分
词集合和企业意愿标签分词集合分别进行第一层聚类, 得到对应的文本相似度高于预设第
一阈值的多个子话题; 继续执 行步骤S4 ‑2;
S4‑2, 利用自底向上的层次聚类算法分别进行子话题的合并, 得到园区意愿标签分词
集合和企业意愿标签分词集合对应的最 终话题, 所述最 终话题即为园区意愿 语义信息和企
业意愿语义信息 。
6.如权利要求5所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S4 ‑1具体包
括:
S4‑1‑1, 接收一个意愿标签分词向量di, 判断是否为第一个意愿标签分词向量, 若是则
执行步骤S4 ‑1‑2; 若不是则执 行步骤S4 ‑1‑3;
S4‑1‑2, 创建一个子话题, 将意愿标签分词向量di归入此子话题, 继续执 行步骤S4 ‑1‑3;
S4‑1‑3, 根据Simi,j=λ*Simvsm(di,dj)+(1‑λ )*SimLDA(di,dj), 计算di与每一个子话题向
量dj分别之间的相似度值Simi,j, 其中, Simvsm(di,dj)为空间向量模型VSM计算的di和dj之间
的相似度, S imLDA(di,dj)为LDA模型计算的di和dj之间的相似度, λ∈(0,1)为线性参数, 表示
两种模型的线性加权值; 继续执 行步骤S4 ‑1‑4;
S4‑1‑4, 选取di最大的相似度值, 若大于或等于预设第一阈值S, 则将其归入此子话题
中, 并更新该子话题; 若小于预设第一阈值S, 则创建新的子话题, 并将其分配到该新的子话
题中; 继续执 行步骤S4 ‑1‑5;
S4‑1‑5, 重复步骤S4 ‑1‑1至步骤S4 ‑1‑4, 直至分别处理完园区意愿标签分词集合和企
业意愿标签分词集合内所有的意愿标签分词向量, 得到园区子话题集合TA={t1,t2,…tm}
和企业子话题集 合TB={t1,t2,…tn}。
7.如权利要求6所述的一种产业招商线索发现方法, 其特征在于, 所述步骤S4 ‑2具体包
括:
S4‑2‑1, 对于园区子话题集合和企业子话题集合, 分别计算同一子话题集合中任意两
个子话题向量ti,tj之间的相似度 值Simi,j=λ*Simvsm(ti,tj)+(1‑λ )*SimLDA(ti,tj), 并建立
子话题相似度矩阵,
园区子话题相似度矩阵:权 利 要 求 书 2/4 页
3
CN 114492367 A
3
专利 一种产业招商线索发现方法、系统、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:48上传分享