逆向工程解读网络封锁:微博何时为何被删(williamhill官网 )
【williamhill官网
记者蔚蓝编译报导】尼曼新闻实验室(Nieman Journalism Lab)5月30日(周三)刊出一篇文章,报导美国麻省理工一名学生在试图用逆向工程的方法来解读中国数以千计的微博网页从互联网消失的规律。原文标题为:逆向工程解读中国互联网封锁:何时、为何微博被删?(Reverse engineering Chinese censorship: When and why are controversial tweets deleted?)以下是该篇文章的译文:
审查中国的互联网一定是件费力的工作,就好比用大拇指来堵消防水带中的水流一样。新浪微博拥有三亿注册用户,日发帖量超过一亿。
当然整个中国互联网可能不像一些人想像的那样遭受审查。为什么有些微博被删了,其它微博可以“幸存”?哪些话题会被认为是“和谐社会”的最大威胁?
章智竹(Chi-ChuTschang)希望揭开这个黑盒子。章智竹是麻省理工大学斯隆商学院的MBA学生,曾任美国商业周刊驻中国记者。这学期就读伊桑·朱克曼(Ethan Zuckerman)的“互动媒体时代的新闻”课程。在做期末论文的时候,他收集了中国数千被删微博的数据来寻求答案。
他在论文中写道,“我们知道中国国内的部落格、搜索引擎和微博在审查特定的话题,但是我们不知道审查的界线在哪里。部分原因是因为审查的界线在不断的变化。”
他引用了香港大学记者与媒体研究中心的研究结果。Cedric Sam和King-wa Fu将新浪微博上最热门的内容进行实时智能化处理,并将2月1日以来超过12000个被删微博纳入其巨大的数据系统。章智竹将这些被删的微博信息按时间顺序制成柱状图,而后又将政治敏感事件叠加进去来提供关联信息。
删贴最多的一天出现在3月8日:那天谣传薄熙来即将下台。删贴第二多的一天是3月15日,薄熙来被解职。
更有趣的一个数据点出现在3月18日,有关于一辆黑色法拉利的致命车祸。几乎所有关于车祸的信息都从互联网上消失,甚至连“法拉利”这个词也被过滤了,这不禁使人联想到底什么人被牵涉其中。章智竹发现那天新浪微博删贴数量居中。
还有一天4月22日缺少数据。当天,人权活动家陈光诚逃出山东。为何会缺少数据呢?4月23日的一则出错信息显示因“加载问题”而临时无法收集数据。——这一出错的时机不得不说令人感到失望。很可能那天中国微博信息流量突然太大,因此造成服务器瘫痪;当然也说不定是什么其他原因造成的。
章智竹将原始数据罗列,码成了一幅辞藻云,显示出哪些词条是微博删除最多的。
辞藻云看上去不错,但却不能提供太多的关联信息。章说,他想更加细致的检查词条列表,过滤掉诸如“如题”和“哈哈”这类的词。他也想研究3500个被审查最多的微博用户的关系。
章提出了一个假设:新浪微博删贴数量与媒体就敏感事件报导的热度高度相关。他的这一假设与卡内基梅隆大学的一项类似的研究所得出的结论基本一致。该研究评估了5600万条微博,其中16%被删除。研究者发现一些关键词更容易被微博删除,比如“真理部”(Ministry of Truth)、法轮功、艾未未、花花公子等等。他们写道,“通过揭示网络审查方式对现行事件和不同地理区域的变化,该研究能够根据动态的变化积极监控到中国社交媒体的审查状态。”
最后,章还评估了一条微博需要多长时间被删除。他写道,“最快的,在刚刚发表4分钟的微博就被删除;最长的,管理者会花长达4个月的时间到处查找最终完全删除。对于在5月20日发表的并在当天被删除的微博,他的软件要经过平均11小时接收到删除信息。”
他还说,他怀疑一些微博是在几个月之后被删除的,因为那些微博中的内容是突然重现于中国媒体的话题。
他甚至也试过在新浪微博上发布一些比如有关陈光诚、薄熙来和台独之类的敏感信息,想看看会发生什么。结果不到14小时,他收到了来自新浪微博系统管理员的一封信,说他关于“陈光诚”的两个帖子“不合适”,已被审查。尽管当时他仍然可以看到自己微博账户上的那两条关于“陈光诚”的帖子,但其他人已经看不到了。奇怪的是,他的有关“薄熙来”和“台独”的帖子却没被审查。
不过有言在先,章不能100%确定被删的微博不是被博主自己所删,而是由“网络审查员”删。但是新浪微博的应用程序接口(API)对于被删的微博可以给出很有帮助的区分信息。出错信息对于不存在的微博只会有两种显示:“该微博不存在”或“权限禁止”。因此,我们可以像章智竹或是香港大学的研究员们一样推断,“权限禁止”等同于“已被审查”。
此外,什么时间在微博上最好发布政治敏感信息呢?研究数据表明是星期五晚上11点钟之后。
文章还写道,“有趣的是,每周六新浪微博删除信息的数量都很少,我不是很确定为什么是这样,也许网络审查员周末也要休息吧。”