基于文本挖掘技术的山东省科技创新政策演化研究

2021-12-14 06:40:48孙梦
魅力中国 2021年52期
关键词:词频分词云图

孙梦

(济南大学商学院,山东 济南 250000)

一、引言

我国的科技创新政策从上世纪八十年代来一直备受关注,尤其是近年来中国经济处于飞速发展的阶段,作为经济转型动力的“创新”就更受重视了,科技创新政策是中国经济变革中十分重要的一部分,对于近些年来对科技创新政策转变的研究也不断增多,这其中包含了多种的研究方式,早些年只能通过人工统计分析研究科技创新政策的演变路径,如刘凤朝将统计分析的方法引进创新政策研究领域,对1980 年到2005 年间289 项科技创新政策进行统计分析我国科技创新政策的演变路径[1]。伴随着科技创新政策数量的快速膨胀,从大量的科技创新政策文本中得出科技创新政策的演化路径就不再能够通过传统的人工统计分析进行实现,好在文本挖掘技术的不断成熟以及文本挖掘技术在政策研究中的成熟利用,使得对于政策的研究更为方便,文本挖掘的方法能够快速处理大量的文本信息,且能够更大概率避免人为主观思想的影响。

二、基本概念与研究综述

政策文本指的是由国家或地区的各级机关以文件形式颁布的法律法规、规章制度等文件。文件是一种载体,在一定程度上能够反映政策颁布的意图,并且对于追溯文件的发展提供了事实依据。所以对于大量科技创新政策演化路径的分析有利于追溯科技领域的发展路径,本文拟从大量的政策文本中梳理政策文本的演化路径,进而对做出演化预测具有十分重要的意义。

国内外学者对于文本政策的量化分析也有着各种各样的维度,既有对政策发布机关等外部要素的研究,同时也有大量对政策内容本身的研究。在对外部要素研究方面,黄萃等基于1978-2013 年中国中央部门联合行文的科技政策文本,绘制出不同阶段政府各部门合作网络图,并基于责任与利益两个维度,对府际合作关系分类进行了讨论[2]。当然更多的文献着重于对政策内容的研究,如刘云等分析研究了中国不同阶段创新国际化政策的主题变迁,并结合新形势新需求,提供了若干启示[3]。郄海拓、张志娟通过政策文本的高频词来概括创新政策聚焦于“创新”“科技”和“技术”等,并利用小团体分析法梳理了政策内容的深层逻辑,为创新指明方向、提供支持[4]。

三、研究思路

本研究拟选取山东省2011-2020 十年间发布的科技创新政策文本为研究对象。本文拟采用的选取数据样本的方法是:首先需要通过相关数据库获取有关科技创新的政策文件,然后再通过对有关科技创新政策的相关研究,对获取政策进行筛选,获得最终本文研究的样本文本。利用Python 语言的jieba 包对政策文本按照不同年份的数据进行分词处理,接下来建立行业词库,并保存作为相应的词库。

对政策文本进行分词,并将分词结果统计成词频,由高到低呈现。词频的高低能提现词语在文中的重要程度,通过筛选得到部分词频统计结果,并且可以根据行业的高频词汇生成词云图,更加直观地展现十年间政策文本中行业词汇的变化,从而能够分析政策文本的演化方向。

四、实证研究

(一)筛选获取政策文本

本研究选择的政策文本的来源为北大法宝法律数据库。在北大法宝法律数据库中分别搜索科技、创新政策,将数据下载构成样本数据。通过搜索2011-2020年10 年内与创新相关的山东省法律规章等文件,最终通过人工筛查得到了山东省2011-2020 年共108 篇文献。

表1 山东省创新政策的数量统计

(二)文本处理

1.文本分词处理

由于筛选好的科技创新政策文本都是非结构化的数据,需要对政策文本进行预处理。对于政策文本的处理,首先就是要进行分词处理,分词的准确与否很大程度上决定了政策文本演化分析研究的科学与否。随着计算机技术的成熟与发展,有多种分词的工具可供使用,由于在计算机领域和数据分析领域的应用有所不同。所以在政策分析时十分常用的分词工具就是Python第三方中文分词库jieba分词,jieba 分词支持三种分词模式:精确模式、全模式和搜索引擎模式,本研究采用的就是jieba 分词的精确模式。

2.停用词处理

停用词指的是在文本中对文本主题内容没有太大影响的词语。这些词语在政策文本中出现的频率可能很高、但又对于结论无实际意义,去掉停用词可以减少数据维度,提高文本处理的效率和准确度,所以下一步就是去掉停用词的影响。

本研究使用python 语言将108 篇政策文本非结构化数据结构化,进行jieba文本分词,在导入停用词后去掉了文本中的停用词,使政策文本数据的复杂度降低,从而使文本挖掘的效率提升,预处理后的政策文本分词有一定的效果,去掉冗余数据后为后续的分析做好了准备。

(三)生成词云图、分析演化方向

对行业词的词频进行统计,由高到低呈现。词频的高低能提现词语在文中的重要程度。从分词结果中可以得到,2011-2020 年行业词在当年所发布的政策文本中出现频次数前三位如表2 所示。

表2 山东省创新政策的行业词频次排名统计

为了让高频词的展现更加直观清晰,从山东省每年的科技创新政策文本中选取高频词和频数的行业词汇进行汇总,在汇总后剔除频率较低的行业词汇,使用python语言中的wordcloud包制作词云图,进行对比分析,在词云图中,字体越大,代表这个词的词频越高,出现的次数越多。2011-2020 年间高频行业词直观展示词云图如图1。

通过词云图,我们可以直观看到十年间的变化。首先,2011 年政策文件中多次提到发展特色产业,这相对于后来的政策文件中提到的内容来说是比较特别的,到了2014 年“特色产业”仍是较高频的词汇,2015 年后来的文件可能较少出现“特色产业”,但开始出现高频的“新兴产业”“科技”等字眼。这些文件中对于特色产业、新兴产业等要求也体现了不断变化中的政策需求,即希望在科技信息化的时代潮流中,把握机会发展特色产业以及新兴产业,从而保持经济的增长。第二,从词云图可以看到“农业”、“工业”、“制造业”等词几乎在每一年的政策文件中都是被高频提到的,后来还多次出现“现代农业”的字眼,说明了对于农业的重视,也说明了在农业的发展过程中要利用信息化、智慧农业等促进山东省农业的现代化发展。第三,“服务业”的发展也是山东省产业发展的重点,在2011 年至2018 年的政策文件中都是以高或者较高频率的词汇出现的,所以说明政府和机构也希望通过指定合理有效的产业政策来促进服务业的发展。第四,从2018 年至2020 年,出现了“互联网”这样的高频词,这对于前些年来说是较大的改变,说明了政府在这几年内对于互联网产业的扶持与发展。另外“互联网”、“IT”等词几乎代表了信息化的发展,现今各个行业的发展都离不开科技的发展与进步,哪个行业的信息化发展的越好,说明是更为科学有效的发展。

五、主要研究结论与政策建议

通过分析研究,我们可以看到山东省政策文件多为鼓励山东省现有老牌产业和特色产业的发展,对于农业、工业、制造业等行业仍是山东经济发展的重头戏,也是多次提倡和鼓舞发展的。但发展也要跟紧时代的步伐,加快建设现代农业、新兴产业的发展,才能不断进步,我始终认为信息化的发展对于各行各业来说都是必不可少的,行业的信息化越成熟,越方便其发展,所以在此后的政策文件中对于行业方向的要求更应该侧重新兴产业的发展以及各行各业的信息化发展。

本文对于行业发展的推断来源于文本挖掘和数据分析的结果,但整体来说行业词的出现频率并不很高,数据量不够大时就无法做出更科学合理的结论,只针对现有的分词结果所得出的结论稍显片面,日后也将寻求新的方法解决此问题。

猜你喜欢
词频分词云图
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
成都云图控股股份有限公司
中国农资(2019年44期)2019-12-03 03:10:46
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
黄强先生作品《雨后松云图》
名家名作(2017年3期)2017-09-15 11:13:37
值得重视的分词的特殊用法
基于TV-L1分解的红外云图超分辨率算法
词频,一部隐秘的历史
云图青石板
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
图书馆论坛(2014年8期)2014-03-11 18:47:59