杜长虹
摘 要:在传统文献分析方法的基础上,引入文献题录信息挖掘方法,运用词频分析、共词分析与知识图谱的可视化分析,清晰展现“网络用语”“流行语”“热词”“新词语”等分类术语的离散化特征与区别,总结出这些术语的定义与概念。并以这些特征和定义为依据,结合相关机构公布的具体语料来进行分类与命名分析,希望能为理论研究与语言资源监测提供参考和建议。
关键词:网络用语;流行语;新词语;词频分析;知识图谱
近些年来,以国家语言资源监测与研究中心为代表的官方机构以及《咬文嚼字》杂志等为代表的社会组织和新闻媒体,开始对每一年的新词语、流行语和网络用语等进行盘点,并冠以“流行语”“网络流行语”“新词语”“网络用语”“热词”等称呼,从不同的角度展现出每一年国民的语言生活状况,间接反映了社会、经济、文化、政治等方面的实际情形。值得注意的是,在对这些语言进行盘点时,不同的组织机构所使用的术语并不相同,也没有统一明晰的语料选取标准,因此,就造成了语言盘点所呈现出的内容与分类术语不相一致的状况。同时,媒体在传播这些语言盘点内容时也常常混淆相关术语,在一定程度上影响了它们对语言生活状况反映的准确性与有效性,也对涉及这些语言形式的语言理论研究造成了一定的困扰。有鉴于此,本研究旨在借助对相关研究的中文文献题录信息进行词频分析和知识图谱绘制,界定“网络用语”“流行语”“新词语”“热词”等相关术语的概念,明晰这些术语之间的关系,厘清不合理的分类标准。这样既可以为进行这些语言盘点的相关机构与新闻媒体提供较为清晰的术语名称与语料选择标准,也可以为国家语言政策的制定与语言规范的推广提供一定的参考,以此帮助相关机构和大众更好地处理、接受这些新出现的语言形式。
一、研究方法与相关工具
(一)研究对象及语料来源
以中国知网为主要的文献统计分析来源网站,从中提取涉及研究主题的相关中文文献题录信息,在此基础上,进行词频分析和知识图谱绘制。
涉及相关分类术语概念的语料,将选取2009年至2019年这十年间,国家语言资源监测与研究中心公布的年度十大新词语、十大流行语、十大网络用语等,以及《语言文字周报》发布的年度十大网络流行语、《咬文嚼字》发布的年度十大流行语等。
(二)研究工具与操作流程
本研究采用的是文献题录信息挖掘方法,包括词频分析、共词分析、知识图谱等。操作流程如下:
1.在中国知网上分别以“新词语”“网络语言”“流行语”“热词”等为主题进行搜索,将单次搜索的中文文献题录信息以EndNote格式导出。
2.使用文献题录信息统计分析工具SATI4.0[1],对导出的文件进行初步处理,包括文献去重、词干提取、应用分词、智能清洗,手动设置需要合并的关键词字段。
3.对上述信息处理完之后,可得到高频关键词列表、频次矩阵、高频关键词共现相似矩阵等。使用社会网络分析软件UCINET和NETDRAW,绘制高频关键词共现网络知识图谱。
二、基于可视化分析的“网络用语”等术语辨析
(一)网络语言和网络用语
如果从索绪尔所提出的“语言”与“言语”这一角度出发,那么,用“网络用语”来代替“网络语言”这一术语名称似乎更为合适,因为我们的研究对象是具体的言语。以往的大部分研究都将网络语言和网络用语视为同一个概念,同时,也有学者认为对这两个概念进行区分确有必要。实际上,“网络语言”这一术语主要是从途径、载体的角度来命名的,学界也并不把网络语言视为一门有着独立结构和系统的语言。使用网络语言的群体是有其基础母语的,网络语言与基础语言在语法、语音、词汇等方面的差异仅仅是语言变异的结果。林纲认为,网络用语是一种以现代汉语为基础的社会方言[2]。那么,同其他社会方言一样,使用“网络语言”这一名称也是合理的,并等同于“网络用语”。
从网络语言的研究文献可以看出,对这一术语的界定大致有两种。一种是二分法。劲松、麒珂最早提出了这种分类方法,他们认为,狭义的网络语言是指网民的语言,广义的网络语言则是指网络时代出现的与网络和电子技术有关的“另类语言”[3]。另一种是“三分法”,其中最具代表性的是周洪波,他认为,网络语言有三类:一是和网络相关的专业术语;二是和网络相关的特别用语;三是网民在网络上常用的词语[4](序)。在网络语言的研究中,涉及具体的网络语言内容研究往往都将其界定在狭义或第三类网络语言的范围内。
同时,关于网络语言的语言形式也有一定的争论。一种观点是把表情符号、图形也归入网络语言的范畴,史灿方、孙曼均指出,网络语言夹杂大量专用图形符号[5](P244)。我们认为,语言虽然是一种符号,具备形式和意义两个部分,但它和一般的符号是有所区别的。首先,语言是声音和意义的结合,具有音和义这对能指与所指。其次,语言具有层级性,可以分成不同的层次,是一个复杂系统。最后,语言具有生成机制,能够以简驭繁,生成新的形式和意义。无论是表情符号还是图形符号都和语言有一定的差别,因此,不应将它们归于网络语言中,它们有着自己的符号系统。下文讨论的新词语、流行语、热词等术语概念,也把表情符號、图形排除在外,并且认为它们都具有[ 语言性]这一特征。
我们以“网络语言”和“网络用语”为主题,在中国知网进行搜索,并导出相关的中文文献题录信息,输入到SATI4.0软件进行处理;同时,将“网络语言”与“网络用语”这两个字段合并为“网络语言”一个字段。去除重复后,共得到4546条文献题录信息。频次排序前20位的高频关键词如表1所示,根据共现矩阵绘制的知识图谱如图1所示:
从表1和图1可以看出,在“网络语言”这一主题的研究内容中,高频关键词有“影响”“网络流行语”“规范”“特点”“网络”“大学生”等。在知识图谱网络中,“网络流行语”“变异”“网络”“特点”“规范”等结点,处于较为中心的位置,并与“网络语言”联系紧密,由此可知,学界在研究网络语言时,对这些问题关注较多。就此而言,文献题录信息的分析结果,符合前人对网络语言特点的概括,即“网络语言”具有[ 网络性]、[ 变异性]特征。从中还可以发现,“网络语言”与“网络流行语”这两个术语概念具有密切关系。
(二)流行语
《现代汉语词典》对“流行语”的解释是:“某一时期社会上广泛流行的语汇。”[6](P838)又将“语汇”解释为:“一种语言的或一个人所用的词和固定词组的总和。”[6](P1601)据此可以归纳出流行语的主要特征:首先要有时间范围,其次要在一定的群体中或者全社会广泛流行,最后是拥有一定的语言形式。在语言形式上,有些学者认为,流行语不仅局限于词和短语,而且应把更大的句法成分也考虑在内。杨文全指出,流行语还包括句子或特定的句子模式[7]。我们认为,语言使用具有经济性原则,在现实中传播的流行语,在语言形式上并不会有“过量”的语言单位。流行语这一术语概念中的“语”字应当放在整个语言范畴上来界定。这样一来,流行语便具有以下特征:[ 时效性]、[ 相对高频性]、[ 语言性]。
我们以“流行语”为主题,在中国知网进行搜索,去重后共得到5467条中文文献题录信息。频次排序前20位的高频关键词如表2所示,根据共现矩阵绘制的知识图谱如图2所示:
从表2可以看出,在“流行语”这一主题的研究中,“网络流行语”“网络语言”“模因论”“大学生”“校园流行语”等关键词的出现频次较高,这说明“网络”这一传播途径与“校园学生”这一受众群体是流行语研究所关注的焦点。胡明扬、张莹指出,青少年是流行语的主要受众群体[8]。2019年8月,中国互联网络信息中心发布的第44次《中国互联网络发展状况统计报告》显示,在中国网民群体中,10—29岁的网民群体占总数的41.5%,其中,学生群体占比最多,达到26%[9]。这同样说明,网络是“流行语”的主要传播途径,而以学生为代表的青少年则是主要的接受群体。
通过图2可以进一步发现,“流行语”这一结点与“网络流行语”“网络”“网络语言”等关键词结点关系紧密。可以说,互联网不仅是新闻媒体传播的重要阵地和人们交际交流的重要平台,同时也成为流行语的主要使用平台。因此,除了前面提到的三个特征之外,流行语还具有[ 网络性]、[ 变异性]的特征。
(三)热词
在国家语言资源监测与研究中心、《咬文嚼字》与《语言文字周报》的年度评选中,都未使用“热词”这一概念;而在新闻媒体的传播以及中国知网的研究文献中,该术语的出现频率较高。崔蓬克認为,热词标识了当下人们关注的社会热点事件[10]。因此,热词应该和一定的社会热点事件有所联系,具有全民关注度。至于“热词”的语言形式,李明洁认为,流行语的高频使用必须包含语言优先原则的驱动,而热词的使用则往往是受表达优先原则的驱动[11]。也就是说,流行语的使用注重语言层面,创新性与多样性成为流行语产生的动力;热词则仅仅是社会热点事件在语言上的指称与反映,词语形式便足以使用。
我们以“热词”为主题,在中国知网进行搜索,去重后共得到2612条中文文献题录信息。频次排序前20位的高频关键词如表3所示、排序前20位的高频文献来源如表4所示,根据共现矩阵绘制的知识图谱如图3所示:
从上述表图可以看出,在“热词”这一主题的研究中,高频关键词有“网络热词”“中华人民共和国”“政府工作报告”“企业”“企业管理”“经济”“一带一路”等;高频文献来源大多是语言学之外的各领域期刊。结合知识图谱可以进一步发现,“热词”主要是与社会时政关系密切;而与“网络流行语”“网民”“流行语”等较为紧密的,则是“网络热词”这一关键词。
因此,“热词”与社会时事热点紧密相关,是为反映这些热点事件而使用的词语,它与“流行语”有一定的区别。至于“网络热词”这一术语,应主要是从网络平台传播角度出发而形成的,它的使用频率较高,或许“网络流行语”更符合上述特征,并能与“热词”区分开来。由此而知,“热词”这一术语具备以下特征:[ 热点性]、[ 词汇性]、[ 全民性]。
(四)新词语
词汇是语言的“建筑材料”,也是语言中最为活跃的因素。当新的事物或新的概念产生时,新的词语也随之被创造出来,因此,对“新词语”这一术语进行界定时,首先必须着眼于“新”这一特征上。刘晓梅认为,新词语的“新”主要有三种表现:1.新的形式和意义的词汇;2.只具有新义、用法的词汇;3.只具有新形式的词汇[12](P5)。其中,第一类是语言对社会发展变化中产生的新事物的反映;第二、三类往往是出于语言本身的使用目的而产生的。这三种情况很好地概括了新词语的重要特征,即具有[ 创新型]和[ 词汇性]。
需要指出的是,新词语有时易与流行语发生混淆,这是因为一部分流行语也是新产生的词语,二者应当是有交集的。也就是说,有些新词语具有演变为流行语的潜质,不过,只有一小部分新词语能够成为流行语。同时,由于流行语具有[ 时效性]特征,因此,成为流行语的新词语也仅是在一定时间内同时符合这两个术语的特征。
我们以“新词语”为主题,在中国知网进行搜索,并将“新词语”“新词新语”“新词”三个字段合并为“新词语”一个字段,将“词汇”“汉语词汇”两个字段合并为“词汇”一个字段,去重后共得到3831条中文文献题录信息。频次排序前20位的高频关键词如表5所示、根据共现矩阵绘制的知识图谱如图4所示:
从表5可以看出,在“新词语”这一主题的研究中,高频关键词有“词汇”“对外汉语教学”“特点”“现代汉语”“规范”等。结合知识图谱可以进一步发现,
“新词语”这一术语既与本体研究联系紧密,这主要体现在“现代汉语”“外来词”“词汇”“语义”等关键词结点上;同时,它还与“流行语”“网络语言”等联系紧密,即在“网络语言”与“流行语”这两个术语所包含的集合中,也符合“新词语”所具有的
[ 创新性]特征。由此可知,新词语与网络语言、流行语之间是存在一定交集的。
通过上文的论述与分析,可以发现,这些术语的命名是出于不同的角度与目的而形成的;还可以发现,这些术语之间有时也会存在一定的交集。我们将这几个术语的特征以列表的形式归纳出来,具体如表6所示:
表格说明:“ ”表示具备该特征,“±”表示可以具备也可以不具备该特征。
在上文统计、分析的基础上,我们尝试着对这些术语予以界定:
1.网络语言(网络用语):以某种语言为基础语言,主要是在网络平台产生、使用和传播的语言变体。其首要特征是[ 网络性]与[ 变异性]。
2.流行语:在某一时期及某一群体内流行(高频使用)的语言形式,当下主要以网络为传播途径和使用平台。其首要特征是[ 时效性]与[ 相对高频性]。
3.热词:在某一时期内,反映全民关注的社会时事热点,并被高频使用的词语。其首要特征是[ 热点性]与[ 相对高频性]。
4.新词语:具有新的形式或意义或用法的词语。其首要特征是[ 创新性]。
三、术语间的交集调查与语料选取的匹配
(一)年度语言语料的共现情况
本研究选取了2009至2019年十年间,国家语言资源监测与研究中心、《咬文嚼字》、《语言文字周报》所公布的年度语言内容,共计400条语料。其中,国家语言资源监测与研究中心发布的是“十大网络用语”“十大流行语”“十大新词语”,《咬文嚼字》发布的是“十大流行语”,《语言文字周报》发布的是“十大网络流行语”(仅在2019年发布)。
首先,通过梳理与统计,共得到共现语料(同一语料被归类在两个及以上类别中)48条。在国家语言资源监测与研究中心所发布的“网络用语”中,有26条语料都被《咬文嚼字》归类在“流行语”中,如“土豪”“锦鲤”“不忘初心”“硬核”“996”等。由于这些语言形式基本上都是产生于网络平台并且在网络上传播与使用的,因此,国家语言资源监测与研究中心的分类注重其[ 网络性]特征,而《咬文嚼字》则注重其[ 时效性]与[ 相对高频性]特征。
其次,在国家语言资源监测与研究中心所发布的“网络用语”中,有7条语料也被该机构归类在“流行语”这一类别中,如“(人类)命运共同体”“杠精”等。同时,在《语言文字周报》所发布的“网络流行语”中,有3条语料同国家语言资源监测与研究中心所发布的“流行语”“网络用语”或《咬文嚼字》所发布的“流行语”出现了共现情况。由此可知,“网络流行语”这一分类亦考虑到[ 网络性][ 时效性][ 相对高频性]这三个特征。
再次,在国家语言资源监测与研究中心所发布的“新词语”语料中,总计有18条与该机构所发布的“网络用语”“流行语”或《咬文嚼字》所发布的“流行语”出现了共现情况。这在一定程度上说明,“网络用语”和“流行语”中的不少语言内容具备了“新词语”的[ 创新性]这一特征。
(二)分类与匹配问题
可以说,共现情况展示了同一语料在不同的评选机构中不同的归类处理,反映的是各个机构的语料选取标准与侧重点的不同。同时,根据上文所归纳出的术语特征,在这些语料中,还出现了分类术语名称和语料不相匹配的问题。
其中,最突出的不匹配情况,就是“热词”和“流行语”之间的混淆使用。在2009至2019年十年间,《咬文嚼字》评选出的一些“十大流行语”,如“命运共同体”“中国梦”“供给侧”“新常态”“区块链”“中国梦”等;国家语言资源监测与研究中心发布的“媒体十大流行语”,如“学习强国”“十九大”“雄安新区”“钓鱼岛”“一带一路”等,都是与当时的社会时事热点紧密相连的,是这些热点事件在语言上的反映,就此而言,它們更加符合“热词”的[ 热点性]这一首要特征。
在2011至2019年发布的“十大新词语”中,除了上文提到有18条“新词语”语料与其他分类出现了共现情况之外,还有一些语料,如“5G元年”“雄安新区”“自贸试验区”等,也符合“热词”的[ 热点性]、[ 相对高频性]这两个特征。同时,网络平台与网络媒体在这些新词语的产生和传播过程中也起着十分重要的作用。换言之,“新词语”的语料选取仍有进一步的探讨空间。
总之,建立在对现实世界认知基础上的人类语言,是一个“连续统”,其实现方式是使用离散化的指称。这些指称之间并非各自独立,而是相互关联并处于不断的运动变化之中。就“网络用语”“流行语”“热词”
“新词语”这些术语概念而言,首先是各自具备与其他相关术语概念不同的特征,其次才是具有与其他相关术语概念可能相同的特征。在对这些不断产生的语言内容进行监测与提取时,既要依靠像自然语言处理这类现代化技术,运用科学的方法进行追踪与筛选;也要在理论上建构规范的、明确的术语概念体系,对它们进行命名与分类。只有这样,才能让这些语言内容更好地反映人们的语言生活实际状况,预判社会的发展变化趋势,并且更好地服务于语言政策与规划、辞书编纂、语言教学等。
参考文献:
[1]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1).
[2]林纲.略论网络用语中的语词接触现象[J].徐州师范大学学报(哲学社会科学版),2005,(5).
[3]劲松,麒珂.网络语言是什么语言[J].语文建设, 2000,(11).
[4]周洪波.中国网络语言词典·序[A].于根元.中国网络语言词典[Z].北京:中国经济出版社,2001.
[5]史灿方,孙曼均.语言规范与语言应用探索[M].南京:南京大学出版社,2008.
[6]中国社会科学院语言研究所词典编辑室.现代汉语词典(第7版)[Z].北京:商务印书馆,2016.
[7]杨文全.流行语的界说与初步描写[J].新疆大学学报(社会科学版),2002,(2).
[8]胡明扬,张莹.70—80年代北京青少年流行语[J].语文建设,1990,(1).
[9]中国互联网络信息中心.第44次中国互联网络发展现状统计报告[R].2019.
[10]崔蓬克.當代汉语流行语概念的再界定[J].当代修辞学,2012,(2).
[11]李明洁.年度词语排行榜述评与流行语的概念辨析[J].当代修辞学,2014,(1).
[12]刘晓梅.当代汉语新词语研究[D].厦门:厦门大学博士学位论文,2003.
On the Discrimination of Network Language, Buzzwords and Neologism and Other Terms
——Visual Analysis Based on Word Frequency Analysis and Knowledge Graph
Du Changhong
(College of Literature, Yunnan Normal University, Kunming 650500, China)
Abstract:On the basis of the traditional method of literature analysis, introduces the literature bibliography information mining method, by using word frequency analysis, the co-word analysis and visual analysis of knowledge graph, clearly shows the Network Language, Buzzwords, Hot Word and Neologism classification of discretization characteristic and differences, summarizes the definition of these terms and concepts. Based on the characteristics and definitions of these terms, combined with the specific corpus published by relevant institutions, classification and naming analysis are carried out, hoping to provide some references and suggestions for theoretical research and language resource monitoring.
Key words:Network Language;Buzzwords;Neologism;word frequency analysis;knowledge graph
标签: 知识图谱 流行语
赏 赞
上一篇:扬州人文地名用字与城市文化形象
下一篇:对外汉语属性词基本特征研究