公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210046499.4 (22)申请日 2022.01.17 (71)申请人 南京工程学院 地址 211167 江苏省南京市江宁区科技园 弘景大道1号 (72)发明人 钱夔 孙瑞彬 潘昱辰 徐浩 韩国辉 陈晓琳 (74)专利代理 机构 南京钟山专利代理有限公司 32252 代理人 徐燕 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/9535(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)H04L 9/40(2022.01) H04L 61/5007(2022.01) H04L 67/566(2022.01) (54)发明名称 面向用户角色的网络特定信息智能获取系 统及交互方法 (57)摘要 本发明公开了面向用户角色的网络特定信 息智能获取系统及交互方法, 包括任务理解模 块、 网络代理模块, 数据采集模块、 数据汇聚增强 模块以及数据存储模块。 任务理解模块以人机交 互界面的方式获取用户目标网页以及用户关心 的信息要素, 生成任务需求表达式, 数据采集模 块在网络代理模块的支撑下, 进行目标网页的分 布式增量数据爬取, 数据汇聚增强模块根据任务 理解模块生成的信息需求表达式进行自适应匹 配与汇聚, 最终数据存储模块实现用户特定信息 的分类多样化存储。 本发明通过人机交互理解的 方式, 实现面向用户角色的网络特定信息快速、 精准获取, 减少了海量信息处理时间, 提高汇聚 时效性, 满足用户的自主化、 个性 化需求。 权利要求书2页 说明书6页 附图2页 CN 114398535 A 2022.04.26 CN 114398535 A 1.面向用户角色的网络特定信息智能获取系统, 其特征在于, 包括: 任务理解模块、 数 据采集模块、 网络代理模块、 数据汇聚增强模块; 所述任务理解模块, 用于获取用户给定的目标网页和信息获取需求后, 生成需求表达 式; 所述数据采集模块分别与任务理解模块、 网络代理模块相连接, 用于在网络代理模块 提供的代理访问IP地址的支撑下, 对任务理解模块中的目标网页进行分布式增量数据爬 取, 完成数据采集; 所述网络代理模块, 用于给 数据采集模块 提供代理访问IP地址的支撑; 所述数据汇聚增强模块分别与任务理解模块、 数据采集模块、 数据存储模块相连接, 用 于对数据采集模块所收集的数据进行分析扩展, 并将扩展后的数据与任务理解模块中生成 的需求表达式进行自适应匹配、 汇聚和排序并存 储到数据存 储模块中。 2.根据权利要求1所述的面向用户角色的网络特定信 息智能获取系统, 其特征在于, 所 述任务理解模块, 用于获取用户需要检索的目标网页以及信息获取需求, 并判断用户发出 的信息获取请求是否明确; 若已明确给出信息获取需求, 即给出需要检索的数据表头字段 名称, 则直接根据待检索的数据表头字段名称生成对应的需求表达式; 若未明确给出信息 获取需求, 即未提供需要检索的数据 表头字段名称、 只提供泛化的需求关键词描述, 则根据 关键词进行语义识别, 推理扩展关键词, 并根据关键词生成对应的需求表达式。 3.根据权利要求1所述的面向用户角色的网络特定信 息智能获取系统, 其特征在于, 所 述数据采集模块包括爬取控制器、 数据封装器、 智能响应 器、 任务缓冲器; 爬取控制器, 用于在网络代理模块的支持下对目标网页进行访 问, 并进行源码解析提 取下载网页内容; 数据封装器, 用于将爬取控制器下载到的网页内容的数据进行安全封装, 以确保数据 的完全性和完整性; 智能响应器, 用于对封装好的数据进行进一步调整解析, 即对数据中的XML路径语言、 层叠样式表、 正则表达式进行解析以并调整网页数据乱码以避免数据出现乱码; 任务缓冲器, 用于对调整解析完成后的数据进行暂存, 等聚集一定量级后批量输入到 Pipeline组件中完成数据入库。 4.根据权利要求3所述的面向用户角色的网络特定信息智能获取系统, 其特 征在于, 所述网络代理模块, 用于提供不同的代理访问IP地址资源池, 并划分为1级代理和2级 代理, 1级代理中的代理访问IP地址是特定的代理访问IP地址, 其专用于目标网页在访问时 容易受限的情况, 2级代理中的代理访问IP地址是常规的代理访问IP地址, 其用于目标网页 处于开放状态, 即访问不受限的情况; 所述网络代理模块, 还用于判断当前所访问的目标网页是否受限; 若受限, 则采用1级 代理中的代理访问IP地址; 若不受限, 则采用2级代理中的代理访问IP地址; 所述网络代理模块, 还用于在使用1级代理中的代理访 问IP地址进行访 问目标网页的 过程中, 若目标网页启动自身保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代 理访问请求的任务 转移给1级代理中其它的代理访问IP地址; 所述网络代理模块, 还用于在使用2级代理中的代理访 问IP地址进行访 问目标网页的 过程中, 若目标网页启动自身保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代权 利 要 求 书 1/2 页 2 CN 114398535 A 2理访问请求的任务 转移给2级代理中其它的代理访问IP地址 。 5.根据权利要求3所述的面向用户角色的网络特定信息智能获取系统, 其特 征在于, 所述数据汇聚增强模块, 用于通过对库中采集的数据进行多语种翻译、 语句实体识别、 语义关联分析的多种方式结合找到与需求表达式所表达内容的相关联的数据, 并进行自适 应匹配、 汇聚和排序。 6.基于如权利要求1 ‑5中任一所述系统的网络特定信息智能获取交互方法, 其特征在 于, 包括 S1: 获取用户需要检索的目标网页以及信息获取需求, 并判断用户发出的信息获取请 求是否明确; 若已明确给出信息获取需求, 即给出需要检索的数据表头字段名称, 则直接根据待检 索的数据表头 字段名称生成对应的需求表达式; 若未明确给出信息获取需求, 即未提供需要检索的数据表头字段名称、 只提供泛化的 需求关键词描述, 则根据关键词进行语义识别, 推理扩展关键词, 并根据关键词生成对应的 需求表达式; S2: 通过网络多代理调度控制对用户需要检索的目标网页进行访问, 并进行源码解析 提取下载网页内容; 将下载的数据内容进行安全封装处 理, 封装完成后对下 载的数据内容进行调整解析; 调整解析完成后进行暂存, 等聚集一定量级后批量输入到Pipeline组件中完成数据入 库; S3: 通过对库中采集的数据进行多语种翻译、 语句实体识别、 语义关联分析的多种方式 结合找到与需求表达式所表达内容的相关联的数据, 并进行自适应匹配、 汇聚和排序; S4: 将匹配、 汇聚和排序后的内容进行存 储。 7.根据权利要求6所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 步骤S2中, 采用的网络多代理调度控制的具体内容 为: 判断当前所访问的目标网页是否受限; 若受限, 则采用1级代理中的代理访问IP地址; 若不受限, 则采用2级代理中的代理访问IP地址 。 8.根据权利要求7所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 使用1级代理中的代理访问IP地址进行访问目标网页的过程中, 若目标网页启动自身 保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代理访问请求的任务转移给1级 代理中其它的代理访问IP地址; 使用2级代理中的代理访问IP地址进行访问目标网页的过程中, 若目标网页启动自身 保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代理访问请求的任务转移给2级 代理中其它的代理访问IP地址 。 9.根据权利要求6所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 步骤S2中封装完成后对 下载的内容进行调整解析, 所述调整解析的具体内容包括对 XML 路径语言、 层叠样式表、 正则表达式进行解析以并调整防止网页数据乱码。权 利 要 求 书 2/2 页 3 CN 114398535 A 3
专利 面向用户角色的网络特定信息智能获取系统及交互方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:53
上传分享
举报
下载
原文档
(413.2 KB)
分享
友情链接
GB-T 33697-2017 公路交通气象监测设施技术要求.pdf
DB63-T 2086-2022 水利水电工程堆石混凝土坝施工质量检验与评定规范 青海省.pdf
DB52-T 702-2011 杉木二元立木材积表 贵州省.pdf
GB 12676-2014 商用车辆和挂车制动系统技术要求及试验方法.pdf
GB-T 38561-2020 信息安全技术 网络安全管理支撑系统技术要求.pdf
GB-T 41339.4-2023 海洋生态修复技术指南 第4部分:海草床生态修复.pdf
GB-T 39505-2020 家用电理发剪及修发器性能测试方法.pdf
绿盟 守初心 创新质——网络安全2024.pdf
SY-T 7651-2021 储气库井运行管理规范.pdf
GB-T 34004-2017 家用和小型餐饮厨房用燃气报警器及传感器.pdf
山东省民用建筑节能条例.pdf
GB-T 13545-2014 烧结空心砖和空心砌块.pdf
GB-T 18806-2002 电阻应变式压力传感器总规范.pdf
DB13-T 5087-2019 超低能耗交通附属建 筑节能应用设计导则 河北省.pdf
GB-Z 18727-2002 企业应用产品数据管理(PDM)实施规范.pdf
南方财经 个人信息保护法企业合规启示报告(上篇).pdf
GB-T 26507-2019 石油天然气钻采设备 地面油气混输泵.pdf
GB-T 42467.5-2023 中医临床名词术语 第5部分:骨伤科学.pdf
GB-T 22264.7-2022 安装式数字显示电测量仪表 第7部分:多功能仪表的特殊要求.pdf
DB3309-T 93-2022 地理标志产品 嵊泗贻贝 舟山市.pdf
交流群
-->
1
/
11
评价文档
赞助2元 点击下载(413.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。