基于知识图谱的公路工程领域GIS,应用研究现状

发布时间:2023-10-11 10:25:11   来源:心得体会    点击:   
字号:

田学泽

(长沙理工大学 交通运输工程学院,长沙 410114)

公路工程是一项复杂的系统工程,其前期规划至全生命周期中拥有大量的地形数据,并需要经常地进行参数设计与计算.传统方法采用计算器进行,不仅繁琐而且工作量大,同时也无法克服地形图表示方法的抽象性、概括性及人员视角局限性等难点.地理信息系统(Geographic Information System,GIS)作为一种将采集、存储、管理、分析、显示及应用地理信息等功能集成于一体的计算机系统,凭借其在分析与处理海量地理信息数据上的极大优势,在公路工程领域获得广泛应用[1].

目前,国内外专家及学者在将GIS 应用于公路工程领域方面已进行了大量研究.Tan 等[2]将遥感与GIS 用于线状滑坡地质灾害风险评估,获得了更准确的评价结果;
Al-Aamri 等[3]将GIS 用于绘制道路交通事故热点地区的地图;
Bazlamit 等[4]采用GIS 进行路面养护管理系统的开发;
张弛等[5]将GIS 技术与智能进化算法相结合用于多年冻土区公路路线的智能选择,为多年冻土区公路路线的选择提供了新方法;
程方圆等[6]采用GIS 与建筑信息模型(Building Information Modeling,BIM)技术相结合的数据集成方法进行公路隧道的数字化管理研究;
林报嘉等[7]将XGBoost 机器学习模型与GIS 相结合进行公路崩塌灾害易发性研究.由此可见,关于GIS 在公路工程领域应用的研究主题呈现出多元化,并存在不断演化出新研究分支的态势.因此,有必要对该领域的阶段性成果进行系统梳理,以促进该领域学术的进一步探析.但目前仅有少量学者,如虞颜等[8]对GIS 在公路工程中的应用进行归纳性评述,而尚无以定量与定性相结合方法对公路工程领域GIS 应用进行可视化分析的研究.

鉴于此,本研究对近10 年来CNKI 数据库中公路工程领域GIS 研究的相关文献进行计量统计、聚类树状图分析、因子分析与多维尺度分析,并结合社会网络中的可视化知识图谱与网络中心性分析,直观且系统地呈现出公路工程领域GIS研究的现状结构及热点,以期为公路工程领域GIS 的应用研究提供理论指导,及时发现被忽略且可能成为主流热点的研究主题.

1.1 数据来源与处理

为保证搜集到的数据具有全面性与可靠性,研究选取文献收录与检索量最大、数据最权威的中国知网(CNKI)数据库为数据来源库.首先,利用高级检索将检索条件设置为:主题=“公路工程并含GIS”,时间跨度为2010—2020 年(数据采集时间为2021 年1 月3 日),文献来源类别=全部期刊,共检索出795 篇相关文献.经剔除征稿通知、论文摘编、人物专访、专题导读及文献评述等关联性不大的文献后,共获得553 篇有效文献.然后,对有效文献数据进行清洗:1)采用data 数据园软件剔除无效关键词,如“应用”“影响因素”“应用研究”及“新技术”等无实际研究意义的关键词;
2)利用GIGO 软件合并含义相同、相近或相似,但表达方式不同的关键词,如将“GIS”“地理信息系统”“GIS 系统”与“交通地理信息系统”合并为“GIS”.

1.2 研究方法及工具

科学知识图谱是一种以知识域(knowledge domain)为对象,采用文献计量软件,对文献中的关键词、机构及作者等信息进行挖掘,进而呈现出科学知识结构关系与演化历程的图像.其既能将知识以图片的形式进行可视化,又可以揭示知识单元或知识群之间复杂的交叉、互动、演化及结构关系[9].目前,该方法已在各学科研究热点与研究内容演化路径的量化分析中得到广泛应用[10−13].

本研究采用COOC 1.8 软件、SPSS 26.0 软件与UCINET 相结合来分析经处理后的文献数据,绘制科学知识图谱及实现可视化分析.其中,COOC 可以快速实现文献中关键词的提取并将其转换为共现矩阵与相异矩阵;
SPSS 主要用于依据共现矩阵与相关矩阵进行聚类分析、因子分析及多维尺度分析,将高频关键词进行研究主题的划分;
而UCINET 是一款由社会网络研究者开发,经加州大学林顿·弗里曼等网络研究者编写的功能强大的社会网络分析工具[14],主要用于关键词共现网络图谱的绘制与进行关键词中心性分析.

2.1 矩阵构造

研究热点是针对某一领域研究人员在一定时期内广泛关注的主题,而最能反映研究热点的是文献中的关键词[15−17].本研究采用COOC 软件对上述553 篇有效文献的关键词进行提取,提取关键词的词频皆为5 次及以上,共获得34 个高频关键词,分别为GIS(361)、公路工程(80)、高速公路(66)、边坡地质灾害易发性评价(27)、路线设计(27)、路面管理系统(25)、BIM 技术(23)、数据库(19).以上关键词基本表征了公路工程领域近10 年来GIS 应用研究的热点话题,但仅对高频关键词的数量统计难以揭示它们之间的核心关系,还需进行高频关键词共现、相关矩阵分析与多元统计分析,以将热点研究进行聚类和主题划分.

2.1.1 共现矩阵

运用COOC 软件中关键词转共现矩阵功能得到一个34 × 34 的高频关键词共现矩阵,见表1.矩阵中关键词两两相交的数值表示两者共同在文献中出现的频次,代表两者的疏密程度.矩阵对角线上的数值表示各关键词在文献中出现的总频次.由于共现频次易受各关键词频次的影响,进而影响后续的多元统计分析与社会网络分析.因此,须对高频关键词共现矩阵进行包容化处理,将其转换为高频关键词相关矩阵,以更好地反映关键词之间的亲疏程度[18].

表1 公路工程领域GIS 研究高频关键词共现矩阵(部分)Table 1 Co-occurrence matrix of high-frequency keywords for GIS research in highway engineering field (part)

2.1.2 相关矩阵

运用Ochiai 系数进行共现矩阵包容化处理,公式为

式中:Ci j为 关键词i和j的共现次数;
Ci和Cj分别为关键词i和j的总频次,即对角线上的数值.处理后相关矩阵见表2.矩阵中数值表示关键词的相关度:数值越接近1,表明相关度越高;
越接近0,表明相关度越低;
数值为0 时,表明两关键词不相关.

2.2 多元统计分析

2.2.1 聚类分析

聚类分析的目的是使同类事物的同质性更高,异类事物的差异性更大.通过对关键词进行聚类分析,可以将距离较近的关键词聚集成同一类团,进而清晰地展示相关领域的研究热点.将表2导入SPSS 26.0 软件,通过系统聚类中的分层聚类可绘制出高频关键词的聚类分析图谱,如图1 所示.由图1 可知,公路工程领域GIS 应用研究的热点可分为3 个类别:第1 类由14、27、30、16、13、34、7、22、26 和23 组成;
第2 类由24、25、15、32、11、17、21 和33 组成;
第3 类由5、9、12、4、19、18、1、3、6、8、28、10、31、2、20 和29 组成.其中,第1 类和第3 类下分化出几个小聚类,形成几个具有较大交融性的研究分支;
第2 类包含的关键词较少,主要有空间分析、最佳路径、公路交通网络与交通网通达性评价等高频关键词,与公路工程领域GIS 应用的实际情况相符.

图1 公路工程领域GIS 研究高频关键词树状聚类图Fig.1 High-frequency keyword tree clustering diagram of GIS research in highway engineering field

表2 公路工程领域GIS 研究高频关键词相关矩阵(部分)Table 2 Correlation matrix of high-frequency keyword for GIS research in highway engineering field (part)

虽然聚类分析可将公路工程领域GIS 应用研究的热点词快速分类,但无法体现聚类后各类别的重要程度.因此,仍需进行因子分析与多维尺度分析,以显示出各类别的重要程度及相对位置.

2.2.2 因子分析

因子分析可利用提取的主要因子,并依据因子成分得分值对相关性较高的原始指标进行归类,为下一步多维尺度分析提供参考[19].首先,将表2 中高频关键词相关矩阵导入SPSS 26.0 软件进行信度检验,Cronbach′s Alpha 值为0.758 >0.7,表明数据信度检验合格,可用于因子分析.其次,采用主成分分析法进行因子分析,共提取15 个特征值大于1 的公因子,见表3.15 个公因子类别分别为:(1)移动GIS、道路养护、系统开发;
(2)边坡地质灾害易发性评价、危险性评价、滑坡监测;
(3)交通可达性、公路交通网络;
(4)数据库、路面管理系统、GIS;
(5)路面养护管理、可视化、BIM 技术;
(6)高速公路监控系统、高速公路;
(7)道路选线、线路设计;
(8)空间分析、最佳路径;
(9)信息管理系统、机电系统;
(10)RS 技术、交通网通达性评价、公路工程;
(11)暴雨灾害风险评估、ArcGIS;
(12)3S 技术、公路信息化系统;
(13)三维GIS;
(14)GPS、WebGIS;
(15)空间分布特征.采用因子分析形成的类别较多,且各类别间的相关关系不明确.因此,本研究采用多维尺度分析法绘制多维尺度图谱对其进行更深地剖析.

表3 总方差解释Table 3 Explanation of total variance

2.2.3 多维尺度分析

多维尺度分析(Multidimensional Scaling)是一种可将高维度空间的研究对象转换至低维空间中进行定位、分析与归纳,且保持原有研究对象数据关系不变的数据分析方法[20].在多维尺度分析图谱中,关键词的频次越高,离图谱的中心位置越近;
反之,则越偏离图谱中心.考虑到相关矩阵中数值0 较多会影响多维尺度分析结果的准确性,采用相异矩阵进行分析所得到的图谱更符合实际.因此,在进行多维尺度分析前,需先将相关矩阵转换为相异矩阵.相异矩阵可用1 −Ochiai 系数获得,见表4.将高频关键词相异矩阵导入SPSS 26.0软件中,在度量功能选项卡中选择多维尺度分析,绘制高频关键词二维尺度图谱如图2 所示.该图谱在进行多维尺度分析过程中,Stress=0.125,RSQ=0.932,表明数据拟合情况可靠.

图2 二维尺度图谱Fig.2 Two-dimensional scale map

表4 公路工程领域GIS 研究高频关键词相异矩阵(部分)Table 4 Dissimilarity matrix of high-frequency keyword for GIS research in highway engineering field (part)

由图可知,高频关键词依据间距可划分为3 大主题区域.主题区域1 主要包括道路选线、路线设计、最佳路径选择、空间特征分布、空间分析等高频关键词,主要探讨GIS 的系统设计及多样化研发,利用移动GIS、三维GIS 与WebGIS 等软件对地理信息进行处理,以实现道路路线设计与最佳路径选择、空间特征分析,可将主题区域1 描述为GIS 的多样化研发与应用;
主题区域2 主要包括公路交通网络、交通网通达性评价、滑坡监测、危险性评价与边坡地质灾害易发性评价等高频关键词,主要探讨公路交通网和地质灾害方面的研究,可将主题区域2 描述为公路交通网与地质灾害评价;
主题区域3 主要包括公路信息化系统、路面养护管理系统、高速公路监控系统、信息管理系统与数据库等高频关键词,主要探讨实现公路管理信息化以及与BIM 技术、3S 技术等相结合实现公路管理可视化方面的研究,可将主题区域3 描述为公路管理信息化与可视化.

通过对最近10 年CNKI 数据库收录的有关公路工程领域GIS 应用研究的文献进行聚类分析、因子分析与多维尺度分析,掌握了我国公路工程领域GIS 应用研究的总体现状.为进一步对我国公路工程领域GIS 应用研究的现状及发展趋势进行深度了解,本研究采用社会网络分析的可视化与3 种网络中心度对关键词间的联结关系与关键词在网络中的位置进行分析.

3.1 关键词共现网络图谱

为直观显示高频关键词的联结关系,将高频关键词共现矩阵(见表1)导入UCINET 软件,利用Netdraw 组件绘制高频关键词的共现网络知识图谱,如图3 所示.在共现网络图谱中,节点表示关键词,节点大小表示该关键词出现的总频次,节点间连线的粗细表示关键词间共现的频次[21].由图3可知,公路工程领域GIS 应用研究共词网络图谱连线较多,不存在孤立节点,且高频关键词间的联结较为紧密,高频关键词间的交融与共存性较大.对共现网络图谱进行密度分析后发现,该网络的密度值为0.221,网络密度值d=2l/[n(n−1)].式中:n为网络图谱中节点的数目;
l为网络图谱中各节点之间连线的数目,除了可表示网络图谱中各个节点间的亲疏关系之外,还可表明网络图谱的松紧及研究方向的集中与发散.本研究中网络图谱密度值d为0.221,表明该网络较松散且研究方向趋于多样化.

3.2 关键词中心度分析

中心度是量化分析社会网络中节点权利与地位的方法.若某个节点的中心度越高,则其在网络中所处的位置越重要,与其他节点的联系也越紧密,一般采用点度中心度、中间中心度与接近中心度等3 种中心度值进行综合考量[22].对高频关键词共现网络知识图谱进行3 种中心度的度量,见表5.由表可知,在3 种中心度度量值中排名靠前的高频关键词基本一致且重复率较高,表明这些高频关键词处于社会网络中的核心关键位置,是当前公路工程领域GIS 应用研究的热点.

对图3 和表5 分析可得:GIS、高速公路、公路工程、道路选线、可视化、滑坡监测、边坡地质灾害易发性等关键词处于网络图谱的中心位置,且3 种中心度值均靠前,表明这些关键词与其他关键词间的联系较为紧密,代表该领域的学术热点;
而BIM 技术、公路信息化系统、系统开发、高速公路监控系统、公路交通网络、交通可达性与空间分析等关键词处于共现网络图谱外围边缘位置,且3 种中心度值靠后,虽然这些高频关键词与其他关键词关联度不强,但在推动公路工程领域实现信息化与数据化管理方面起着重要作用.

图3 高频关键词共现网络知识图谱Fig.3 High-frequency keyword co-occurrence network knowledge graph

表5 高频关键词共现图谱中心度(部分)Table 5 Co-occurrence map centrality of high-frequency keywords(part)

1)本研究对公路工程领域GIS 应用研究的高频关键词进行词频统计,提出无实际研究内容的名词,得出边坡地质灾害易发性评价、路线设计、路面管理系统、数据库及滑坡监测等为该领域研究的热点.采用聚类分析、因子分析与多维尺度分析将高频关键词进行研究主题归类,形成GIS 多样化研发及应用、公路交通网与地质灾害评价、公路管理信息化与可视化等3 大主题类别.

2)运用社会网络分析绘制高频关键词共现网络图谱并进行中心度分析,结果显示:网络图谱密度值为0.221,该网络较为松散且研究方向较为发散;
代表主流研究热点的关键词间联系较为紧密,皆位于网络图谱中心位置且中心度值均靠前.

3)通过对关键词共现图谱及中心度的分析发现:BIM 技术、公路信息化系统、系统开发与高速公路监控系统等关键词位于图谱边缘且中心度靠后,但这些关键词所代表的研究方向在促进公路工程领域实现信息化与数据化方面起着重要作用,可作为新的研究热点.

4)本研究采用知识图谱的方法对国内公路工程领域GIS 应用研究的热点进行量化分析,由于提取的关键词来源于CNKI 数据库近10 年的相关文献,且采用高频关键词进行分析,可能会对研究结果的准确性产生干扰,后续将探析更科学的研究方法.

猜你喜欢图谱尺度矩阵基于图对比注意力网络的知识图谱补全北京航空航天大学学报(2022年8期)2022-08-31论社会进步的评价尺度马克思主义哲学研究(2020年1期)2020-11-26图表新城乡(2018年6期)2018-07-09多项式理论在矩阵求逆中的应用读与写·教育教学版(2017年10期)2017-11-10宇宙的尺度太空探索(2016年5期)2016-07-12主动对接你思维的知识图谱领导科学论坛(2016年9期)2016-06-05矩阵南都周刊(2015年4期)2015-09-10矩阵南都周刊(2015年3期)2015-09-10矩阵南都周刊(2015年1期)2015-09-109时代英语·高三(2014年5期)2014-08-26