网络论坛讨论的分析指标与分析维度探索——基于美剧、日剧、韩剧论坛在线讨论的数据挖掘Measuring Discussion on Chinese Internet Forum:Based on the Data Mining of American,Japanese and Korean TV Drama Forums
何威,曹书乐
摘要(Abstract):
本文旨在从方法论上探讨,基于数据挖掘的网络论坛讨论可以采用哪些分析指标和分析维度,并对论坛活跃讨论者提出分型方案。作者认为,分析网络论坛讨论时,我们通常从分析讨论总量(帖子、对话、发帖人数量)出发。但除此之外,还可使用"热情度""参与度""创造力""互动性"等指标,以及从以下多个维度展开分析:特定主题的讨论总体情况分析;不同论坛和讨论区的讨论特征分析;不同论坛和讨论区的讨论者分析;活跃讨论者的七种不同类型等。以上分析和方案基于作者的一项外国电视剧论坛讨论研究,该研究抓取了中国最重要的以美剧、日剧、韩剧为主题的48个网络社区在2010年的92天之内的183万个讨论帖子及其元数据作为原始数据,实践了基于上述指标和分析维度的研究。
关键词(KeyWords): 美剧;日剧;韩剧;网络论坛;活跃讨论者;社会化媒体;在线讨论
基金项目(Foundation):
作者(Author): 何威,曹书乐
DOI: 10.16602/j.gmj.20150008
参考文献(References):
- 吴玫(2010):网络论坛政治讨论研究方法探讨,《全球传媒评论》,61-79页,北京:清华大学出版社。
- 1简要解释论坛选取情况如下:第一种,包括“人人影视论坛”、“伊甸园国外连续剧交流站”和“美剧天堂—謦灵风软美剧论坛”,它们是当时国内最著名、注册人数最多的欧美电视剧主题论坛,且分别拥有“YYeTs”“伊甸园”和“謦灵风软”三个最知名的字幕组,还包括“韩剧社区”“YYcaF”这两个国内最知名的韩剧论坛,以及“TVBT麻辣论坛”这一知名日剧论坛。在这六个论坛的众多版面中,本研究选择了帖子数、对话数最多的三类讨论区:综合性讨论区、类型电视剧讨论区、热门电视剧专区。第二种,“豆瓣网”和“时光网”,分别是国内最大的文化主题点评与社交网站和目前国内最大的电影专题门户网站。研究进而选取了豆瓣网的“小组”中以电视剧讨论为主题的、成员最多的两个——“美剧fans”“日剧FANS站”,及时光网的三个“群组”——“美剧美剧”“日剧进行时”“寒流暖流”。第三种,“天涯社区”和“百度贴吧”,分别是中国第一大网络论坛,和拥有数千万注册用户的新型论坛。研究选取了“天涯社区”中的热门讨论区“影视评论”,以及“百度贴吧”中15个“贴吧”,其中包含3个综合主题贴吧(美剧吧、日剧吧、韩剧吧)和2010年上半年时较为热门的12个美剧主题贴吧。需要说明的是,由于政府监管和各网站自身运营等原因,相比本研究数据采集的时段(2010年8月至10月),部分网站的域名和讨论区结构后来陆续发生了变化,包括更换域名、变更讨论区URL、关闭网站等。这并不影响本研究的各项分析结论,本研究的视角和方法也具有可推广性。
- 2 包括网站、讨论区、百度贴吧、豆瓣小组等多种形式。
- 3 所谓“与电视剧直接相关”,指的是帖子中直接提及各类电视剧、剧集及人物名称、电视剧相关内容,本研究由电脑程序按照数百个关键词对全部帖子的数据进行了自动过滤,得到了“与电视剧直接相关”的网络讨论数据。下文中提及的“关于美剧(日剧/韩剧)的网络讨论”,均不局限于以美剧(日剧/韩剧)为主题的网络社区,也不包含那些与美剧(日剧/韩剧)主题无关的“水帖”,而是来自所有网络社区的讨论版面、经程序过滤后判定为直接相关的帖子。
- 4 这也和本研究对数据来源网站的选择有很大关系。
- 5 这四个指标的概念及定义,在CIC(www.ciccorporate.com,即本研究合作对象上海佳艾公司)提出的相关指标概念及定义的基础上有所修改。
- 6 关于这四项指标的统计和计算方法说明如下:在本研究所采用的程序中,帖子数、对话数这两项基本指标的统计包括了匿名帖和匿名对话;发帖人这项指标的统计不包括匿名发帖人。而由程序计算出的参与度、热情度、创造力和互动性这四项指标,都已自动剔除了匿名帖子、匿名发帖人及匿名对话(匿名对话指该对话的首贴和回帖人都是匿名的),因此,与根据帖子数、对话数、发帖人的数值进行人工计算所得的结果略有偏差。本研究采纳的是由程序自动计算的结果。
- 7 如前所述,实际上系统的自动计算要剔除匿名帖子、对话和发帖人,并考虑到发帖人重叠的情况,因此与直接用“发帖人数”和“新对话数”两个指标的数据进行的人工计算相比,结果会略有偏差。
- 8 这四项指标的计算是以2010年3月至5月这三个月内发表在这些网站和讨论区的全部帖子数据为基础的。在实际分析中,去除了那些月帖数不足100的讨论区,以消除样本量过小而对有关指标代表性造成的损害。
- 9 “发帖人”指的是用ID登录后发帖的人,不包括匿名发帖或以IP发帖的情况。
- 10 该对话见“天涯社区”的“影视评论”版:http://www.tianya.cn/publicforum/content/filmtv/1/274108.shtml。
- “发起对话”的数量和“回复对话”的数量之和,等于或小于“参与对话”的数量。这是因为本研究采用的程序统计每月“发起对话”和“回复对话”时只考虑在当月新发起的对话,而那些在本月之前发起的对话,不被计入这两项数据,却会被统计在“参与对话”之中。
- 例如这则关于张东健的对话:http://www.krdrama.com/bbs/thread-357140-1-1.html。
- 参看对话:http://tieba.baidu.com/f?kz=774697434。