专利 一种产业招商线索发现方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210070574.0 (22)申请日 2022.01.21 (71)申请人武汉东湖大数据交易中心股份有限公司地址 430000 湖北省武汉市东湖新技术开发区高新大道999号龙山创新园一期 F3栋2101室 (72)发明人杜登伟　杜登斌　杜乐　杜小军　 (74)专利代理机构武汉红观专利代理事务所 (普通合伙) 42247 专利代理师徐春燕 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 16/335(2019.01) (54)发明名称一种产业招商线索发现方法、系统、设备及存储介质 (57)摘要本发明提出了一种产业招商线索发现方法、系统、设备及存储介质，采集园区和企业数据，并建立园区和企业文本数据集；利用TFC技术提取预处理后的源数据对应的基本特征信息，建立基本特征信息集合；根据招商的意愿和实际需要，将园区和企业基本特征信息划分成不同维度的需求和意愿，打上对应标签，形成园区和企业意愿分词标签集合；根据意愿标签分词集合，提取出对应的意愿语义信息；计算园区与企业各意愿语义信息的余弦相似度，将与某企业意愿语义信息相似度高的园区意愿语义信息对应的源数据作为有效招商线索主题。本发明实现了将企业意愿与园区招商信息精准匹配，为企业筛选排查出吻合度高的招商线索主题，实现招商线索的精准发现。权利要求书4页说明书8页附图1页 CN 114492367 A 2022.05.13 CN 114492367 A 1.一种产业招商线索发现方法，其特征在于，所述一种产业招商线索发现方法包括以下步骤： S1，采集园区和企业多来源、多维度数据，将获取的源数据根据来源分别建立园区文本数据集和企业文本数据集，并存入数据库；继续执行步骤S2； S2，对所述源数据进行预处理，并利用TFC技术提取对应的基本特征信息，分别建立基本特征信息集合；继续执行步骤S3； S3，根据招商的意愿和实际需要，将园区和企业基本特征信息划分成不同维度的需求和意愿，分别打上对应的标签，形成园区和企业意愿分词标签集合；继续执行步骤S4； S4，根据企业和园区意愿标签分词集合，提取出对应的意愿语义信息；继续执行步骤 S5； S5，利用余弦相似度算法，匹配计算园区各意愿语义信息与企业各意愿语义信息，将与某企业意愿语义信息相似度高于预设第二阈值的园区意愿语义信息对应的源数据作为有效招商线索主题。 2.如权利要求1所述的一种产业招商线索发现方法，其特征在于，所述步骤S1具体包括：通过对包括园区网站、政府机构等官方网站的园区、工商企业数据、园区、企业内部CRM 系统的不同公开数据源进行数据采集和清洗，获取到园区和企业的数据，其中，园区的数据包括：园区的发展定位、总体目标、重点发展产业情况、产业用地出让情况、产业项目落地情况、新增重点企业情况、产业链情况、园区政策、园区空间建设布局、重点项目建设内容、园区企业经营情况、园区企业科技创新、园区基础设施工程专项、组织架构和运营、投资时序及实施数据；企业的数据包括：企业扩展信息、技术创新信息、企业工商信息、企业投融资信息、企业人才招聘、企业财务信息数据；根据信息来源将数据分为园区文本数据集和企业文本数据集。 3.如权利要求1所述的一种产业招商线索发现方法，其特征在于，所述步骤S2具体包括：对所述多来源、多维度数据进行包括中文分词、去除停用词以及非法格式字符的预处理，并使用TFC技术，计算词P在两个文本数据集中的权重，分解成可落地的数据维度： WdP为词P在对应源数据d中的权重， tfdP为词P在对应源数据d中出现的频次， N为对应文本数据集中源数据d的总数， nP为对应文本数据集中包含词P的源数据数量， k为源数据d中词P的个数；词P在园区文本数据集和企业文本数据集中的权重分别为最终词WdP1和WdP2，则其在所述数据库中的权重为(WdP1+WdP2)/2；将每个源数据中的分词按照在数据库中的权重由高到低排序，取排名为预设名次的分词为该数据源的对应的基本特征信息，从而得到园区文本数据集和企业文本数据集对应的基本特征信息集合。权　利　要　求　书 1/4 页 2 CN 114492367 A 24.如权利要求1所述的一种产业招商线索发现方法，其特征在于，所述步骤S3具体包括：根据园区基本特征信息以及企业基本特征信息，分别为园区和企业打上对应的意愿标签，并对意愿标签进行分词处理，形成园区意愿标签分词集合和企业意愿标签分词集合；园区意愿标签主要包括：产业聚集意愿、引进高技术人才意愿、引进高科技技术意愿、引进高科技企业意愿、引进创新金融机构意愿；企业意愿标签主要包括：企业扩张意愿、企业多元战略意愿、企业物流仓储意愿、企业空间发展意愿、企业科技创新意愿、企业人才战略意愿、企业合理避税意愿、企业产城融合意愿以及规模发展、品牌传播、网络效应意愿、产业基础意愿、资源禀赋意愿、区位优势意愿。 5.如权利要求1所述的一种产业招商线索发现方法，其特征在于，所述步骤S4具体包括： S4‑1，将意愿标签分词转换为向量，采用Sin gle‑pass聚类算法对所述园区意愿标签分词集合和企业意愿标签分词集合分别进行第一层聚类，得到对应的文本相似度高于预设第一阈值的多个子话题；继续执行步骤S4 ‑2； S4‑2，利用自底向上的层次聚类算法分别进行子话题的合并，得到园区意愿标签分词集合和企业意愿标签分词集合对应的最终话题，所述最终话题即为园区意愿语义信息和企业意愿语义信息。 6.如权利要求5所述的一种产业招商线索发现方法，其特征在于，所述步骤S4 ‑1具体包括： S4‑1‑1，接收一个意愿标签分词向量di，判断是否为第一个意愿标签分词向量，若是则执行步骤S4 ‑1‑2；若不是则执行步骤S4 ‑1‑3； S4‑1‑2，创建一个子话题，将意愿标签分词向量di归入此子话题，继续执行步骤S4 ‑1‑3； S4‑1‑3，根据Simi,j＝λ*Simvsm(di,dj)+(1‑λ )*SimLDA(di,dj)，计算di与每一个子话题向量dj分别之间的相似度值Simi,j，其中， Simvsm(di,dj)为空间向量模型VSM计算的di和dj之间的相似度， S imLDA(di,dj)为LDA模型计算的di和dj之间的相似度， λ∈(0,1)为线性参数，表示两种模型的线性加权值；继续执行步骤S4 ‑1‑4； S4‑1‑4，选取di最大的相似度值，若大于或等于预设第一阈值S，则将其归入此子话题中，并更新该子话题；若小于预设第一阈值S，则创建新的子话题，并将其分配到该新的子话题中；继续执行步骤S4 ‑1‑5； S4‑1‑5，重复步骤S4 ‑1‑1至步骤S4 ‑1‑4，直至分别处理完园区意愿标签分词集合和企业意愿标签分词集合内所有的意愿标签分词向量，得到园区子话题集合TA＝{t1,t2,…tm} 和企业子话题集合TB＝{t1,t2,…tn}。 7.如权利要求6所述的一种产业招商线索发现方法，其特征在于，所述步骤S4 ‑2具体包括： S4‑2‑1，对于园区子话题集合和企业子话题集合，分别计算同一子话题集合中任意两个子话题向量ti,tj之间的相似度值Simi,j＝λ*Simvsm(ti,tj)+(1‑λ )*SimLDA(ti,tj)，并建立子话题相似度矩阵，园区子话题相似度矩阵：权　利　要　求　书 2/4 页 3 CN 114492367 A 3

专利 一种产业招商线索发现方法、系统、设备及存储介质

专利一种产业招商线索发现方法、系统、设备及存储介质