1 成为新媒体运营领域的“增长黑客”
1.1 一般意义上的“增长黑客”
“增长黑客(Growth Hacker)”,这个近几年来风靡中国互联网界的新兴概念,滥觞于美国硅谷互联网创业圈,国内则是由范冰首先引进,他的著作《增长黑客:创业公司的用户与收入增长秘籍》使这个概念深入人心。
结合国内外关于“增长黑客”的表述:“增长黑客”是以数据驱动营销、以市场指导产品,通过技术手段贯彻增长目标的一群人。这就需要他们既了解技术,写得了代码;又能了解人性,能捕捉用户的心理感受和真实需求;最重要的是,他们经常能突发奇想,发挥创意,大开脑洞,以小的投入获取较多的用户和收入。
一言以蔽之,“增长黑客”就是具备各种跨界技能,可以利用各种巧妙的手段以极小的成本获取大量用户,实现最终的收入增加。
“增长黑客”让那些资金不够充裕、前期资源紧缺和初始用户匮乏的初创型互联网初创团队看到了“四两拨千斤”的希望,小投入也能办大事。
“增长黑客”的一个很好的理念,但它在不同的互联网领域有着不同的形态,具体的实现手法也不尽相同,比如在新媒体运营领域。
1.2 新媒体运营领域的“增长黑客”
新媒体是跟随互联网兴起的一个新兴媒体形态,它已经在很大程度上颠覆了以往的纸质刊物、广播及电视等传统媒体,重要性不言而喻。关于它的概念和内涵,笔者不想多说,网上有很多的详细介绍。在这里,笔者认为新媒体最为重要的一个特征是:
人人都可以是信息的生产者,人人也都是信息的传播者。
这意味着无论是谁,包含企业、机构还有个人,都有机会成为这个新媒体时代的成功者。咪蒙、一条、十点读书即是例证。
然而,随着中国的互联网时代进入下半场,新媒体行业也从野蛮生长的时代进入“弱肉强食”的“丛林时代”,常规的新媒体运营手段(包括内容、展现形式及推广方法等)已经很难从用户增长缓慢和收入增长停滞的困境中突围出来。
写到这里,笔者不由得想到儿时看过的动漫——《数码宝贝》中的主人公身边各类可爱的小精灵,在遇到危急情况时会进化,由“成长期”进化到“成熟期”、“完全体”,甚至是“究极体”,适应性和攻击力呈现指数级的提升,足以在危如累卵的逆境中打败强大的敌人,反败为胜。
与此类似,广大新媒体从业者们在这个时候,也需要“进化”,完成华丽的转身—采用精细运作、量化分析的科学手段去进行新媒体运营,以适应这个足以革新我们思维观念的“大数据时代”,而“增长黑客”正是一剂良方。
从前面对“增长黑客”的介绍中,我们可以发现:
“增长黑客”是一个多面手的角色,需要掌握跨领域的知识,其中最为核心的技能即是懂技术、精通数据分析。
然而,技术(码代码、编写程序等)和数据分析(数学知识和BI软件操作等)对于很多做新媒体运营的小伙伴来说,是十分棘手的两样事物:很多从事新媒体运营的小伙伴是正儿八经的文科生毕业,文案和排版方面,他们可以说是“长袖善舞”,但技术和数据分析却可能是他们的“梦魇”。
鉴于这种情形,笔者提倡“人+数据驱动思维+工具”理念—以人为本,从运营者自身的知识结构出发,以数据/量化思维作为方法论,用工具辅助运营,从而做到扬长避短,把自己的精力集中在重要的事情上。
笔者在这里特意收罗了10几款跟数据分析有关的工具,以弥补技术小白和数据分析小白技能上的匮乏,而且掌握它们不需要很懂技术,连数据分析这项技能也能借助它们轻松get。
值得注意的是,本文所要介绍的工具,并不是狭义上的“工具”,如可视化工具、文本分析工具和事件热度趋势/预测分析操作类工具,还包括数据新闻这种广义上的新型信息载体;更为重要的是,他们分别代表着四种思维/观念—重视非结构性数据、科学化预测、信息的具象化呈现以及用数据讲故事,这些“工具”都是为达到、完成或促进新媒体运营效果的有利武器。
如下图所示,以下是本文的行文结构:
新媒体运营的“增长黑客”数据分析工具箱
2 文本分析工具
文本分析的重要性笔者已经在之前的两篇文章中有过论述,详见《数据运营|数据分析中,文本分析远比数值型分析重要!(上)》《在运营中,为什么文本分析远比数值型分析重要?一个实际案例,五点分析(下)》,故本文不做赘述,直奔工具应用的主题。
2.1 NLPIR在线系统
NLPIR,即“自然语言处理与信息检索共享平台”的英文缩写, 打开该网址,即可进入主界面—“语义分析系统”,顾名思义,它是一个在线的中文语义分析工具,因为非商业化,它对处理文本的篇幅大小也有限制,只能处理3000字,可以给热衷于文本分析的小伙伴过过瘾,但要想用于商业目的,那只能呵呵了。
NLPIR在线系统的首页
上图中间部分的11个圆圈即是该系统的所有功能,但其中有几个只是挂出来,目前还未实现,结合新媒体运营工作中的实际需求,笔者只介绍其中几个比较有实用价值的功能模块。
以下以《<你的名字。>破5.5亿元日媒:和中国联手有钱赚》这则新闻作为测试文本,笔者来给大家介绍下这个系统中的实体抽取、词频统计、文本分类、情感分析和关键词提取这5个比较有实用价值、且准确度较高的功能模块。
2.1.1 实体抽取
NLPIR中的“实体抽取”功能模块可以智能识别出测试文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,这是对语言规律的深入理解和科学预测,它提炼出的词语不需要在词典库中事先存在。
实体抽取的图表效果支持力导向图和弦图这两种形式,如下图所示:
测试文本“实体抽取”的2种呈现形式
上图中,从“文本”这个一级类目中,分别分出了“关键词”、“地名”、“时间”这3个二级类目,由此能大致判断出测试文本中包含的事件元素,如主题是关于电影的,涉及国家(地区)间的对比,还有纵向时间维度的分析,一些关键词能让我们把握文章中重要的词句。
2.1.2 词频统计
在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
在文本分析中,词频统计是较为常规的、同时也是最为重要的一个环节,它用来评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
NLPIR只展示了名词、动词、形容词这3种开放词类,这个3个此类也是一段文本中最为重要的3个部分:
- 名词介绍文章中的各个主体,能让我们知道文本描述的对象是谁;
- 动词表征各个主体的动作和行为,能让我们知道关于主体发生了什么;
- 而形容词则能描述主体及动作/行为的特征,能让我们知道主体及其行为/动作的性质、状态、特征或属性。
NLPIR的词频统计只展示了上述词类的Top 10结果,以折线图和条形图的形式进行展现。看了下面的词频分类展示,联想文章标题,我们很自然地了解到《你的名字。》这部电影在市场上获得了不错的业绩,引发中日媒体的广泛报道和关注……
测试文本的词频统计呈现
2.1.3 文本分类
NLPIR“文本分类”部分目前所展示的类别只是新闻的政治、经济、军事、交通等,分类有待扩展和细化。
NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外,它还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
然而,从测试的效果来看,这个功能模块的分析效果还不甚准确,它没有“娱乐”这一分类,但起码也应该划入“其他”这一类中。
测试文本的文本分类结果呈现
2.1.4 情感分析
NLPIR的“情感分析”提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。大类上,“情感分析”部分分为“正(面)”和“负(面)”这两大类情感,这是内层;在外层,两个大类又分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7中细分的情感,这也就是大家常说的“七情六欲”中的“七情”。
目前正负面的判断已经较为成熟,但鉴于汉语的博大精深和词汇语义(用法)的波谲多变(反讽、贬义褒用、语境变化等),细分情绪的判断准确度还值得观察。
测试文本的情感分析结果呈现
观察上面测试文本的情感分析效果图,再比对原始文本,这个判断大致上是准确的,但负面的部分应该比实际的占比小,尤其是“恶”这个部分—笔者并未发现有出现厌恶的语句和词汇。
2.1.5 关键词提取
这里的关键词提取和前面的词频统计有一定的联系,但二者的算法(实现方法)是不一样的:
- 词频统计:词频统计的是一个词在文章中出现次数,出现的次数越多一般越重要;
- 关键词提取:关键词提取则是依据TF-IDF(term frequency–inverse document frequency,词频–反转文件频率),用以评估一个词对于文本内容的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。比如,“如果”、“也”、“你们”等词汇,他们出现的频次很高,但它们的重要性就很弱。
测试文本的关键词分析
从上图中测试文本的“关键词提取”中可以发现,这部分和“词频统计”部分既有重合也有明显区分,原因就在于上述的算法不同。
值得注意的是,不论是“词频统计”还是“关键词提取”,已经设置了“停用词(stopwords)”,在进行上述分析的时候,自动的将那些无明显意义的副词、冠词、代词给去掉了。
2.2 图悦
图悦是一款在线的热词分析工具,它可以对于载入文本或指向文本内容的链接进行词频提取和词语(重要性)权重分析,并可以导出成excel格式的文件,便于后期分析和处理。
图悦的主界面
处理热词分析,图悦还可以自定义词云形状,不过这里的词云效果不敢恭维,下面笔者将会介绍一个更优秀的词云制作工具,让经图悦处理过的词频焕发出个性化的风采。
值得注意的是,图悦导出的excel文档有三列:提取出的词语、词频数、词汇权重。后两个指标,笔者已经在前面做过论述,不明白的小伙伴可以“倒带”回去看看。具体的使用方法笔者将在下面的可视化自定义词云部分详述。但这款词频分析工具只能导出150个词汇,对于处理一些复杂且大量的文本就会捉襟见肘。
2.3 Tone Analyzer
Tone Analyzer是一款由IBM推出的、基于云计算的人工智能文本分析工具,能对电子邮件、博客文章以及手机短信进行感情色彩分析,以确定它的措辞是否如实地表达了你的愤怒、肯定、高兴或者悲伤等感情。
ToneAnalyzer的主界面
这一用来帮助评估和改善文字沟通当中的语气的服务目前尚处实验模式,如获成功,或将改变未来商家和营销人员同消费者、客户的沟通方式。
更重要的是,它可以应用到新媒体运营者的内容校正中来:
- 用来查验文章内容的调性和风格,了解自己的文字给人留下的印象如何,以使公众号的内容运营不偏离预设的定位。
- 帮助品牌运营者和内容输出分析,撰写何种风格的文案才可以引起受众的共鸣。
Tone Analyzer的评价系统包含三个维度,各个维度及其简介如下图所示:
Tone Analyzer的评价系统的三个维度
以下是Tone Analyzer的使用案例,大家可以从下面的几个模块中获得对文字信息的洞察,这部分笔者不做详述,感兴趣的小伙伴可以去官网查阅文档。
输入文本信息和选择分析类别
文本信息3个维度的分析结果
文本信息段落的逐行分析(附有标记)
3 热点捕获/趋势预测工具
3.1 搜索指数型
这里的搜索指数型趋势工具指的是,它们的数据绝大部分是基于用户的搜索行为,即用户搜索关键词而形成的数据及其展示,有一定的预测价值,但缺点是并不能发现搜索行为背后的原因。
3.1.1 百度指数
关于百度指数的介绍,笔者仅贴出部分官方关于功能的介绍:
百度指数是以百度海量网民行为数据为基础的数据分享平台,它能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词,帮助用户优化数字营销活动方案。
关于详细它的使用方法及一些关键原理,笔者在《寻找创业方向时,如何零成本用大数据获悉市场行情?》有详述,感兴趣的小伙伴可以去看看。
3.1.2 微指数
微指数是新浪微博的数据分析工具,基于新浪微博的全量数据,通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。微指数分为热词趋势、实时趋势、(信息分布)地域解读和(用户)属性分析4个板块。
“热词趋势”部分与百度指数的趋势很相像,但它有一个更为有价值的地方—点击趋势曲线中的各个节点,会显示出关注度排名靠前的3条微博,可以做到“知其然并知其所以然”。
微指数的热词趋势图
“实时趋势”则反映该热词近一天的走势情况。“地域解读”即该热词相关微博信息的地域分布情况。
最后一个功能板块是“属性分析”,这部分能获悉关注该热词及其相关事件的人群画像,有性别、年龄、兴趣标签比例和星座标签比例这4个人群属性。
微指数的“(人群)属性分析”
这部分可以参看笔者之前写的两篇文章《当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面》、《如何用数据分析,搞定新媒体运营的定位和内容初始化?》,不失时机将其运用到实际的运营工作中来,而不是仅仅停留在人群属性的分析描述层面。
3.2 现网信息型
现网信息型,顾名思义,就是该类工具的主要数据来源于现有的网络信息,而不是基于网民的搜索行为,因而通过它可以找到热词或事件关注(量)发生波动起伏的原因。
一般来说,这类数据产品的典型应用领域在舆情领域(包括舆情监测、品牌口碑监测等),比如新浪微舆情。
新浪微舆情的主页
以下是新浪微舆情这个大数据分析工具的介绍,我们能从中看到现网信息型热度分析工具的基本原理:
“利用独有的分布式网络技术,对互联网上舆情相关数据源进行完整采集,同时根据用户预定的监控关键词对全网数据进行补充获取。“新浪微舆情”可以在很短时间内收录到国内外重要网站、论坛、微博、微信公众号、贴吧、博客等互联网开放平台的相关信息,通过中文智能分词、自然语言处理、正负面研判等大数据处理技术对收录到的信息进行处理并分析…
可以看出,现网信息型热度分析工具的数据基于现有的全网信息搜集,并经过自然语言处理等技术对文本信息进行信息的“去粗取精”,从而有效把握事件的重要方面和影响因素。“
下面,笔者来详述新浪微舆情的几个很有价值的功能模块—分别是热度趋势分析、信息监测、事件分析和微博传播分析,它们可以很好的运用到新媒体领域,可以在热点追踪、内容规划、受众画像分析和营销分析方面给予运营者们以有益的指导。
3.2.1 (事件)热度趋势分析
在地震救援中,有一个概念叫做“黄金72小时”,它是地质灾害发生后的黄金救援期。因为救援界认为,灾难发生之后存在一个“黄金72小时”,在此时间段内,灾民的存活率极高。
同样,在新媒体内容运营追踪热点事件方面,也存在类似的定律,能在最短的时间内,把握观众所关注事件的发展走向和舆论倾向,因势利导,就能成功的“借势“。
新浪微舆情的(事件)热度趋势分析中有一个能反映事件关注度的一个数据指标—热度指数,它的全称是“网络传播热度指数”,是指在从新闻媒体、微博、微信、客户端、网站、论坛等互联网平台采集海量信息的基础上,提取与指定事件、人物、品牌、地域等相关的信息,并对所提取的信息进行标准化计算后得出的指数。
热度指数能客观反映事件、人物、品牌、地域等在互联网上的受关注程度。热度指数所呈现的数值为0~100,数值越大,表明其网络受关注度越高。
下面举个栗子,拿前不久广受关注的“淘宝被列入恶名市场名单”事件作为分析对象,来看看(事件)热度趋势分析的各个功能模块是如何运用到新媒体运营领域的。
(1)热度概况和热度趋势
从下图的“指数概况”部分,我们可以看到,淘宝被列入恶名市场名单”在72小时内(当然也可以选择24小时这个时间区间)的热度同比增长达到62315%,表明互联网上关于该事件的媒体报道和公众评论信息出现骤增的情形,且指数有将近6%的增幅,幅度不大结合这两个指标可以看出,在近72小时内该事件很火热,且热度呈现稳步增长的趋势。值得注意的是,这里的“同比”和“指数变化”是针对此次查询的72小时区间和上一个72小时区间的数值进行对比的。
在“热度趋势”部分,由时间轴和热度指数轴构成的折线图反映了近72小时内该事件热度指数的变化趋势,这个折线图的分析意义重大,能起到预测事件未来热度走势的神奇作用。
在分析热度指数的折线图的时候,要注意从微观层面和宏观层面上的把握。在微观层面上,要特别注意折线图中比较重要的节点,特别是峰值节点,它代表其对应的时间点它的关注度较高,要注意发现事件爆发的时间规律;在宏观层面上,要看整条折线的整体走向,是整体呈现上升趋势,还是呈现关注度的下降趋势,当情况属于前者时,新媒体运营者们则可以继续跟进事件的发展,接着“借势”和“跟风”。
热度概况及热度趋势分析
既然知道了事件热度的峰值节点出现在哪个时间点,这时我们肯定想了解这些时间区间内事件关注度骤然上升的原因。还好,紧接着“热度趋势”,下方给出了其中最突出的峰值节点出现的原因,以重点信息聚类的方式呈现。
在下图中,呈现的是12月23日 08时,达到24的峰值时的重点信息聚类。给出了这些热门文章的标题和来源站点,点击标题即可进入相应的网页,查看源信息。
最突出峰值节点的信息聚类
这里需要强调的是,对于最突出峰值节点的重点聚类信息的解读十分重要,因为这些文章阅读数高,抑或是转发量高,在某种程度上表明了公众对于这些信息的认可度高,能代表一定的公众舆论倾向。作为新媒体内容运营者来说,引导公众看法难度太大,不是人人都能做成意见领袖的,能因势利导的输出顺应公众观点的文章可能是上策。
(2)事件热度信息的关键词词云
这里的关键词云是由互联网上各个渠道的海量信息进行中文智能分词和自然语言处理所得,浓缩了关于该事件的TOP60关键词,能在一定程度上反映出事件的各个要素。
词语的大小代表该词出现次数的多寡,也表明了该关键词对于事件的重要程度如何。在进行内容组织的时候,可以考虑这些词频数高词汇所代表的方面,如在“淘宝列入恶名市场名单”这一事件中,除了“恶名市场”、“名单”这些出现在标题之中的关键词外,还有“加大力度”、“纳入保护”、“知识产权”等关键词表征的方面作为文章内容的着力方向。
“淘宝列入恶名市场名单”事件的关键词词云
(3)事件热度信息的来源类型
“信息来源”部分中,反映出了事件信息的来源占比情况,比重较大的部分是需要运营者重点关注的渠道。
“淘宝列入恶名市场名单”事件的信息在“微博”这一信息渠道中的比重最多,其次是“网站”、“新闻”、“客户端”等,具体的数据为:微博(49.32%)、网站(27.73%)和新闻(10.13%)。
“淘宝列入恶名市场名单”事件的信息来源分布
针对微博信息量为何占据如此大的比重这个问题,笔者找到了今年11月份新浪微博官方的一份关于微博UGC的数据,顿时了然:
新浪微博2016年PGC、UGC几项关键数据
新浪微舆情是新浪微博旗下的子公司,拥有全量的微博数据,再加上腾讯微博的信息量,因而其他渠道的信息量比例会被微博这一渠道巨大的UGC内容给稀释掉,形成绝对信息量不小但看起来很少的效果。
(4)事件热度信息的地域分布
(事件热度信息的)地域分布反映的是搜索事件的全网信息量在全国各地的分布情况,这一点与百度指数的原理一样。
“淘宝列入恶名市场名单”事件的信息地域分布
从地域分布来看,与“淘宝列入恶名市场名单”相关的信息主要来源北京(3561条)、广东(1139条)和上海(834条)。
(5)事件热度信息的关联词分析
事件热度信息的关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇(关于“共现”的原理介绍,请看《如何用数据分析,搞定新媒体运营的定位和内容初始化?》的第三部分)。
下图中的关联词和弦图和对应关联度数据表反映了该事件的关联词情况。
“淘宝列入恶名市场名单”的关联词分析
通过对与“淘宝列入恶名市场名单”相关的信息进行分析后可看出,与其核心词恶名市场关联度最高的词语为淘宝(100.00%)、美国(99.06%)和名单(97.19%)。
3.2.2 信息监测
一直以来,(舆情)信息监测的主要用户是政府、大型企业和专业新闻媒体,因而对应的主要功能是倾听民意、监测自身(也包含竞品)的品牌口碑及动向,以及追踪热点事件走向等。此外,它可以通过各种预警设置,对关注事件产生的新信息进行第一时间的提醒,以免运营者遗漏重要信息。
实际上,信息监测可以用于新媒体领域,结合上面提及的“事件热度趋势分析”板块,媒体运营者可以有效的追踪热点事件的最新进展,做到不遗漏。
关于它的应用场景,笔者目前想到2个:
(1)文章转载的全网监测
笔者平时会写一些关于互联网数据运营的文章,发布在一些知名的互联网平台上,因此想监测一下全网转载的情况,比如笔者最近的一篇文章—“如何用数据分析,搞定新媒体运营的定位和内容初始化?”,在“信息监测”的监测方案部分设置好关键词后,选好时间区间,转载的详细情况和数据统计图表尽收眼底:
文章转载的信息列表
笔者文章转载的各种信息反馈图表
(2)关注信息的全网监测
运营者可以在监测方案中按设置指定的关键词,定向的追踪自己感兴趣的事件、公司、品牌和资料等信息。
以下是笔者在学习数据分析时,进行的关键词设置,多个零散词汇通过逻辑运算符形成了一个监测方案,可以无遗漏的监测自己关注的信息,同时系统也会过滤掉垃圾信息。
通过各种逻辑运算符设置信息监测的关键词
设置好监测方案以后,点击“图表分析”,即可看到如下图所示的各种监测方案信息量的可视化分析图表。
监测方案的信息量的走势图
监测方案的信息量分布情况
监测方案信息量的地理分布情况
再选择“信息列表”项,通过时间、地域、渠道等选项的筛选,我们就可以得到自己想要的信息了。此外点击其中一条信息,即可进入信息详情页,如下图所示:
监测方案的信息列表
监测信息的详情页
另外,这个功能模块还有几个功能,如下图所示,篇幅有限,感兴趣的小伙伴自己去试试吧。
“信息监测”板块的预警通知、监测日报和定向监测功能
3.2.3 事件分析
事件分析(包括全网事件分析和微博事件分析)指的是,输入近期事件或话题关键词,系统自动进行深度挖掘和多重分析,记录事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情传播路径、关键词云、发展态势、受众反馈和网民观点分析。
3.2.4 微博传播分析
微博传播分析通过分析单条转发量/评论量大的的微博,从而得到关于该微博的传播路径、意见领袖、用户画像和微博营销传播质量等。
微博传播分析的部分功能
4 可视化工具
俗话说:“文不如字,字不如表,表不如图”,一张富含信息量且外观时尚靓丽的图会给文章增色不少,会激起读者的好奇心,不知不觉的去图片中探寻信息,从而让文章的可读性大大增加,易于传播。比如这张图:
人人都是产品经理网站“产品经理”专栏所有文章标题制成的词云
怎么样,想学了吧?
不急,这个其实很简单,下面我将以实例详细的讲解制作这张图的步骤,即使是小白的你,也能做出这样精美的个性化词云。
4.1 个性化词云制作
我把个性化词云的制作分为3个步骤,即抓取数据、文本处理和词云制作,详见下图:
个性化词云制作的步骤
4.1.1 数据获取
从本质上讲,词云是反映某一特定主题的文本数据的可视化展示。比如,上面的乔帮主词云反映的就是“产品经理”专栏中较为热门的关键词/话题。所以,要制作一个“出彩”且有内涵的自定义词云,文本不能无规律,需要定向的获取特定的文本数据。
笔者对前不久上映且广受好评的电影《你的名字》颇感兴趣,想分析一下这部电影的市场反响如何,先聊聊这部分数据的获取。
对于影片的分析,首选当然是豆瓣电影,因为它是国内最具有参考价值的影评网站,从文本中能得到很有价值和有意思的信息。但考虑到文本数据获取的难易程度,我先介绍如下3个数据获取的方法:
(1)自己编写爬虫,想要什么数据就去抓取什么数据,既经济(用爬虫工具会花钱),又会增加“自己动手,丰衣足食”的成就感,最重要的是,略施小计就可以躲避豆瓣的封IP机制。
用python编写爬虫抓取豆瓣影评数据
(2)利用集搜客这样的爬虫软件去抓取数据,不需要编程技术,且简单易上手,但是可能会被封IP。
(3)采用新浪微舆情这个大数据工具,因而不用豆瓣的评论数据,在互联网上进行全网信息搜集,获取有关该影片的热门文章标题作为分析的文本数据,这种方法是三种中最为轻松简单的,而且获取的是全网的数据,大家可以有选择性的选取自己需要的数据,操作步骤如下图所示:
用新浪微舆情获取文本数据
因为最近学了点Python,故笔者选择了用Python编写爬虫来获取了豆瓣这部分的影评数据。
获取《你的名字》豆瓣电影的影评数据
抓取后的数据整理成如下表格:
保存到本地的《你的名字》豆瓣影评数据
接下来,就是把文本数据单独取下来咯,全选“评论内容”这一列,把这些影评数据占到记事本上,作为接下来分析的“原材料”。
4.1.2 文本处理
一般情况下,文本数据的处理包含很多方面,如分词、词性标注、词频统计、文本分类、情感分析、关键词提取、文本摘要提取等。
在这里,制作词云只需要考虑关键词提取和词频统计这两个板块。
这里使用到的工具是前面提及的热词分析工具—图悦。将《你的名字》豆瓣评论的文本部分粘贴到上图中左边的文本框中,再点击右上方的“分析出图”,系统显示完成后,右边的预设词云会发生变化,此时点击“导出”,即可得到词频的csv文件。
经图悦处理得到的词频csv文件
这里去除词语和词频两列,用来进行接下来的词云制作。
4.1.3 词云制作
处理词云,笔者用到的工具是Tagul。下面是它的的主页展示:
Tagul主页
(1)词频载入格式
在页面左上方的“Words”处,就是加载词语及词频的地方,这里需要注意一下它的载入格式。,如下表所示:
Tagul的词频载入格式
上表中,前两列的“Word”和“Weight”就是刚才经处理过的词语和词频,Color一栏则是设置该词语的颜色,这是个性化词云中很关键的一个要素,会直接影响到最终的词云呈现效果。这里可以不填写,那么在形成词云时默认随机生成颜色。如果要形成定制化的颜色,则需要设置采用16进制的色值,以下是常用的颜色代码表,即色值表。
常用的16进制色值表
与此类似,字体也可选可不选,需要定制的话,则可进行相应的设置。
“Repeat”这项则表示该词语是否会重复出现,填写“0”,则表示不重复,填写“1”,则表示重复。为了保持信息的精准度,减少噪声,一般选择填写“0”。
后面的URL链接就忽略了,因为有前面的设置,就不需要进行网页链接。
按照上述操作,出词语和词频两例外,笔者还定制了“Color”和“Repeat”这两项,结果显示如下。
最终的词语载入表
全选该表格的文字部分,将其粘贴到“Import Words”的文本框里,进行保存。
(2)载入中文字体
因为Tagul是老外做的一个在线词云制作网站,所以Tagul不支持中文,这需要我们载入能支持中文显示的字体,如下图所示,笔者载入的是“You Yuan(幼圆)”字体。
载入中文字体
(3)处理背景图片
加载了字体,可以说这是个性化词云制作的核心部分,词云最终效果的美与不美就在此一举。
值得注意的是,在载入图片之前的图片选取步骤时,需要选择背景和主题对比比较明显的图片。从接下来的图片预处理过程中,你会发现这一点的重要性。
词云自定义图片的初始状态
笔者选取的是《你的名字》最为标志性的一张海报,看起来很有感觉:既有男女主角的形象,也交代了他们所处的生活环境,中间则是影片中重要的提条线索—彗星。这张图初始状态看似杂乱,不好处理,但仔细观察,可以发现主体(男女主角)和背景(天空、城市和彗星)之间的对比度和色相差异还是很明显的。在Tagul的“Custom Shape”的设置中可以进一步处理背景和主体之间的对比度问题。
在“Shapes”处载入图片后,点击上载成功后图片的右下角“齿轮”,打开图片预处理。其中,“Threshold”处理景深,可以拉开/缩小背景和主体之间的差异;“Edges”则是处理主体轮廓的锐度,可以调节图片的清晰程度模糊程度。这里的要点是—淡化背景,清晰主体轮廓。
淡化背景,强化主体轮廓
好了,完成上面繁琐的步骤之后,现在是见证奇迹的时刻了,点击右上方大大的黑体字“Visualize”,待进度条加载完毕后,即可得到如下的最终效果图:
最终的词云效果图
4.2 网络可视化利器— Gephi
Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具,下载地址为https://gephi.org/。网上目前比较权威的Gephi教程是在Udemy上的Ooof liu讲解的《Gephi中文教程》,地址为https://www.udemy.com/gephi/,看完这个部分仍有饶有兴趣的小伙伴可以去学习下。
下面是由Gephi制作的各种网络图,这些图不仅包含了丰富的信息量,而且极富美感,在吸引眼球的同时还给予我们有意义的信息。
各种由Gephi制成的网络图
Gephi是一款信息数据可视化利器,它的一般应用场景如下:
- 探索性数据分析
- 链接分析
- 语义网络分析
- 社交网络分析
- 生物网络分析
以下简单介绍下它的使用方法。
在操作下面步骤之前,先去Gephi官网上下载最新版的0.9.1 version,这是免费的,且支持中文,还有丰富的插件下载,这简直是数据可视化爱好者的福音!
值得注意的是,这款软件是用Java编写的,所以需要安装Java环境,这个有点磨人。演与演员的关系作为分析对象,来详细解读如何制作一个“秀外慧中”的社交网络可视化图谱。
4.2.1 制作源数据
Gephi的源数据可以在excel中完成。在excel中,仅输入2列即可,表头严格按照Gephi的格式来制作,第一列为“Source”,第二列为”Target”。下面以豆瓣上评分6以下的国内电影的导演(选取的是张艺谋、陈凯歌、冯小刚等大家耳熟能详的导演,演员随之确定)和演员关系表为例,做成如下格式:
在Excel上编辑Gephi的源数据
做好源数据之后,记得保存为CSV格式,Gephi仅能读取这种格式的数据。
4.2.2 导入数据
在导入数据时,分别在“分隔符”、“如表格”、“格式”这三个选项下选择“逗号”、“边表格”、“GBK”。接下来点击“下一步”,完成数据的导入。
在Gephi中导入csv数据
4.2.3 调整网络布局
刚打开“图”,也就是网络图的图形界面时,这几百个节点“蜗居”成一团,有点盘古开天辟地前“浑沌如鸡子”的感觉,但这个模样离我们心中的审美还有很长一段距离呢。
初始状态的网络图
不过,不用着急,下面几个简单的步骤就能让它“脱胎换骨”,完成华丽的变身。
在左上方的“布局”栏目中,选择其中的任一算法,并可以在下方的操作界面修改默认算法参数,也可使用默认的参数。单击图中运行按钮,布局算法生效。
选择“布局”中的算法
选择不同的“布局”算法,网络图的形态就会有相应的变化,以下是其中最为典型的集中算法及其拓扑图。
各种“布局”算法的网络图拓扑形态
在这里,笔者选取由“Frunchterman Reingold”算法确定的呈蒲公英花朵状的结构作为初始形态。
网络布局做好后,我们完成了这个网络图的“骨架”搭建,下一步则需要对它的外表进行修饰,包括节点、边和背景等部分的美化。
4.2.4 美化
在这里,我们可以对网络图进行“美容”,给它着上靓丽的颜色和合适的背景作为衬托。
如下图所示,我们可以在“外观”一栏对节点和边进行着色,然后在下方选择合适的背景,要注意节点、边和背景之间的色差和对比。
给节点、边和背景选择合适的颜色
还需要注意一点,沿着“外观”>“节点”>”数值设定”这一路径,让节点根据连接数的多少而显示相应的大小,使该网络图更有层次感;同理,可以对边进行类似的设定,则两个联系紧密的节点间的边将变得更宽。
经过调整后,可以得到如下的网络图。
颜色调整后的效果图
4.2.5 显示标签
经过上述几个操作步骤之后,网络图还需要加入最为重要的一项内容—标签,也就是前面提及的导演及演员的姓名,反映在节点上,由此完成他们之间的社交网络图的基本绘制。
沿着“窗口”>“预览设置”的路径,打开“预览设置”,界面显示如下。其中,需要在“节点标签”这部分完成字体的选择,把默认的西文字体变为中文字体。除此之外,此处还可以进行边框、字体大小、颜色、透明度等的设置。
在“预览设置”中设置中文字体
完成上述选项后,还需要在软件界面的下方,点击一下左下角那个大大的“T”,则节点标签就会显现,旁边也有些字体调节钮,大家可以摸索下。
在“布局”中,选择“标签调整”算法,得到下图:
最终效果图
图中各个节点的字体随节点的重要性(由度、连入度或连出度确定)而呈现出不同之大小。所以,大家先看文字,了解其中最为突出的一些演员和导演,其次在看他们之间的关系。
笔者比较懒,这个网络图其实还可以进行更深入的优化的,有兴趣的小伙伴可以尝试着做得更绚丽一些。
4.3 数据地图
数据地图,在Excel2013版及以上中都有三维地图,还有一些BI工具中也集成了这个模块,当然也有专业的地图GIS软件,如地图慧、智图等。由于笔者之前写过一篇关于数据地图如何运用的文章。
好了,上面的工具部分介绍完毕,该进入最终的收尾阶段了。在某种意义上讲,上面介绍的若干工具都是为接下来的“数据新闻”部分做准备—它们是数据新闻中不可获取的一部分,是数据新闻内容呈现的重要“武器”。
5 数据新闻
在正式介绍数据新闻之前,笔者先聊聊,为什么需要数据新闻这种新型的新闻报道方式。
这里,笔者引用美国Northwestern University人文与社科学院的Prof BrianKeegan的一段话作为注解:
“在当代,对于信息过载,以及恐惧、不确定性和怀疑等情绪的焦虑氛围下,数据驱动的新闻可以起到关键性的作用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。”
由此可见,信息过载、信息失真和现实世界广泛存在的不确定性,导致人们不再相信没有充分依据的信息,因而数据新闻这种更有说服力的信息载体呼之欲出。
5.1 数据新闻简介
数据新闻,又叫数据驱动新闻。是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。它致力于从海量数据中发现新闻线索,或是抓取大量数据拓展既有新闻主题的广度与深度,最后依靠可视化技术将经过过滤后的数据进行融合,以形象化、艺术化的方式加以呈现,致力于为读者提供客观、系统的报道以及良好的阅读体验。
目前,在大数据新闻制作上已经积累了经验的国际媒体有《卫报》《纽约时报》《华盛顿邮报》等。
以下是常见的数据新闻呈现方式:
不同类型的数据新闻
需要注意的是,数据新闻不一定非得要复杂的数据来呈现事实,表现出很高的逼格。在很多时候,简单的描述性数据即可,就像下面的一个示例一样,数据图表的呈现让读者更加清晰、直观的了解到西藏班在“量”和“质”上的变迁,是“绿叶”,而内地西藏班的整个发展历程才是真正的“红花”,是该报道的主线。
一张图读懂“内地西藏班”
5.2 数据新闻的形式
一般情况下,数据新闻有如下3种形式:
5.2.1 新闻叙事
数据新闻体系下的新闻叙事讲求客观理性和逻辑性,从数据视角来看待事件与社会话题的方方面面,加之以形象具体的可视化图表作为最后的呈现方式,使读者对内容的真实性和价值性产生信任。
以下是标题为《23萬投票紀錄 回顧第五屆香港立法會》的数据新闻,下面选取了该文中一些具有代表性的数据图示。
《23萬投票紀錄 回顧第五屆香港立法會》数据新闻中的一些图示
从上图中,在运用数据图示的同时,借助数据分析的方法,从多维度总结了议员的投票行为。这种基于数据的的表达,比起单纯的文字报道来,表现清晰,说服力强。
5.2.2 事实判断
一个孤立的事件当中的少量信息往往缺少关联度,但如果从正确的角度观察却能发现极为重要的价值。透过数据,内容运营者可以发现仅凭知觉和传闻难以感知的、隐藏在事件/新闻背后线索或假设,抽丝剥茧、言之凿凿的把事件的来龙去脉和其中缘由讲述透彻。
2016年7月25号在DT财经上有一篇文章,文章标题为《10万条挂号大数据显示:互联网也救不了看病难》,文章中全篇引用了挂号网各个维度的一手10W数据。采用循序渐进的逻辑描述并分析看病难互联网也很难解决这一难题。重要的是,作者将这些数据制作成可视化的数据图表,从挂号网注册医院分布、支持网络预约功能的医院占比到预约挂号量超10万的医院和人数分布情况,最后到患者参与分享的比例及对候诊时间的满意度分析,将这些数据转化为数据地图、点状图、旋风图和趣味条形图等可视化形式呈现出来。
《10万条挂号大数据显示:互联网也救不了看病难》中的可视化图表
从这个例子可以看出,数据新闻的报道方式能够在宏观上对某个事件看得更加清楚与全面,事件复杂的演进过程以及这个过程中的各个方面,都能描述得直观且有趣,最重要的是,很能让异见者服气。
5.2.3 预测走向
通过数据的挖掘和分析,寻找出有价值的相关性,继而增加对相关事件发展趋势的预测性,新闻和数据相结合创作出精确和深度报道,成为大数据时代的新闻业务发展方向。
下图是CNN在今年7月份关于美国总统大选预测的数据新闻,全篇大篇幅的介绍了当下美国社交媒体上各州对候选人的支持情况、通过复杂算法得出的候选人各州获胜的概率以及哪个州对于总统选举具有决定性意义等。
CNN在2016年7月份关于美国总统大选的预测(局部)
5.3 如何成为一个优秀的数据新闻内容运营者
数据新闻学是一门交叉的学科,数据新闻的产生给传统的新闻工作者提出了挑战,传统的新闻创作理念和方式,要求新闻工作者具备采写编评等基本专业技能,但目前已无法满足大数据时代下数据新闻的创作。
要做好数据新闻,需要运营者着重提升以下4个方面的素养/能力:
5.3.1 敏锐的数据洞察力
数据新闻需要大量的数据、数据分析处理,不仅仅是要有技术水平,更需要一双慧眼,分得清“真数据”和“假数据”,而且还要选择重要的数据和信息进行内容输出,为受众提供更细致、精确的事件分析,又快又准的报道新闻,数据新闻的把关在数据时代更为重要。
媒体工作者需多渠道的收集数据。从公开的数据库或者是政府部门、企业、机构中获取数据,从这些海量信息中判断和选择有表现力的数据。当媒体工作者获取数据之后,便开始处理和整合数据。将与新闻报道无关的数据筛选、过滤后,剩下有用的数据进行整合汇编,形成新的报道内容。
新闻工作者通过数据的挖掘和分析,寻找出有价值的相关性,继而增加对相关事件发展趋势的预测性,新闻和数据相结合创作出精确和深度报道,成为大数据时代的新闻业务发展方向。
5.3.2 熟练运用计算机能力
在如今信息爆炸的大数据时代,特别是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。大量的数据和信息摆在新闻工作者面前,传统的计算机无法处理大量的、无规律的数据,需要云计算进行分析、处理、统计。
因此,对于当今的新闻工作者提出了更高的要求,必须熟练运用计算机,掌握一门编程语言。如果之前没有编程基础,推荐python,它的设计哲学是“优雅”、“明确”、“简单”,掌握一些常用的爬虫包、数据分析及可视化包以及自然语言处理包,就能很好的将大量的数据和信息进行友好的呈现。
5.3.3 分析处理数据能力
数据新闻与传统的文字图片新闻不一样,数据新闻需要大量的数据,新闻工作者可以通过数据发现问题、提出问题,也可以先有了问题之后,再去收集相关的数据。而拥有大量数据后,必须对其进行分析和处理,将不需要或不相关的数据过滤掉,剩下有价值的数据加以分析整合,供新闻编辑使用。德勤在美国华盛顿特区的研发创新团队招聘数据记者,其中最重要的要求就是要具备分析数据的能力,由此可见,数据新闻记者必须具备较强的数据分析和处理的能力,才能胜任此工作。
5.3.4 可视化平面设计能力
数据新闻的可视化表达为新闻行业注入了一股新鲜的血液,让数据新闻充满希望与活力。数据新闻的可视化图片将不同的时间和空间联系在一起,将繁杂的数据简单化,便于受众理解,更有利于受众参与其中,满足不同受众的各方面需求。数据新闻的可视化是其一大特点,因此对于新闻工作者来说,应熟练掌握可视化技术,学会识图制图以及各种表格的制作。
最后,笔者介绍一个数据新闻的资料库,在这里小伙伴们可以看到国内外许多优秀的数据新闻案例,要做优秀的数据新闻制作者,首先从模仿学习做起。
数据新闻信息库链接地址:http://djchina.org/showcase/
好了,看到这里的小伙伴,我几乎可以断定是真爱了,希望你们能掌握好这些“工具”,成为运营领域的“增长黑客”,不必羡慕什么“技术流”,因为创造性思维和强烈的好奇心会给你带来好运的,等到工具、技能和思维三者融会贯通的时候,就会像独孤求败那样:
“不滞於物,飞花草木皆可伤人,草木竹石均可为剑”!
参考资料
- 范冰,《增长黑客》
- 新浪微舆情官网官方介绍
- NLPIR在线系统官方介绍
- IBM Watson Tone Analyzer官方文档
- 百度百科“数据新闻”词条
- CNN在2016.07美国总统大选预测网站
- FT数据新闻网
#专栏作家#
作者:苏格兰折耳喵(微信公众号:运营喵是怎样炼成的,个人微信:g18818233178)