玩家应该为游戏质量以外的原因打差评吗?

模拟经营游戏“纪元”系列最新作《纪元1800》还没发售,因为首次加入中文,又回归经典历史题材,在主播的推波助澜下引起了不小的关注。但与此同时,“纪元”系列之前的作品却在Steam上收获了一些新的差评。

原因非常简单,今年这种事儿都说腻了:它是一款离开Steam转投Epic(和Uplay)的游戏。

不过因为《纪元》系列一直比较小众,也预留出了足够多的时间给玩家预购,所以“新作叛逃,前作挨喷”的情况不是特别惨烈。

反观前段时间宣布Epic独占半年的《无主之地3》,情形就惨烈得多:

《无主之地2》评论区的刷屏

在如潮的差评之中,有悲伤的玩家表示,“游戏还是好游戏”,大家还是不要因为情绪因素瞎开火了。

其实这部分玩家并不需要替《无主之地》担心,G胖已经用崭新的技术手段帮助开发者规避了大规模差评的风险。

Steam上个月推出了新的“反差评机制”:短期内出现的大量与游戏本身无关的负面评价会经人工审核后遭系统主动屏蔽。

 《无主之地2》的近30天评测曾一度低到了“褒贬不一”,但现在已经恢复到了“好评如潮”

这些评价本身将依然可见,却不再计入整体权重。Steam官方称,此举是为了人工避免“跑题的评测恶意轰炸”。

关于这个机制有一堆官方问答,其中一个问题是:假如因为DRM或EULA(反盗版机制)的变更产生了差评,你认为他们属于不相关还是跑题呢?

V社官方回答是:

“从技术上讲,它们并不是游戏的一部分,但对某些玩家来说却是个问题。 最终,我们决定将它们定义为跑题评测恶意轰炸。 原因是“一般”的 Steam 玩家并不太在意它们,因此如果评测分数不包含它们,会更加准确。

Steam的这个新措施引起了一些争议,也得到了一些玩家的欢迎。根据立场的不同,你可以将其解读为“Steam尊重用户体验”和“Steam不尊重用户体验”这两种截然不同的答案。所以单纯评论对错与否意义不大,我们不妨从平台和用户的属性,来聊聊Steam为什么要这么做。

Steam游戏评测的特殊性

Steam官方开发这个反差评机制的原因,看上去似乎很简单:“跑题”的评测实在太多了,很多游戏的Steam评分已经不能客观反映出游戏本身的质量。非黑即白的二元评分制度,也在过去一段时间里招致了不少玩家和媒体的批评,常见的论调就是“不如电影评分准确”。

比如Steam上好评率最高的那堆游戏,很多都不是质量吹爆、拿奖拿到手软的游戏。有个第三方统计网站叫Steam Top 250,是效仿电影评分网站IMDb建立的。这个网站统计了去年新晋的Top250榜单,第二名是知名三消黄油《Mirror》。

鸡立鹤群

《Mirror》进入这个榜单的原因有很多——作为一个成人内容相当“良心”的黄油,它的售价常年折后5元,是一个典型的“性价比”游戏。显然,一部电影不会因为性价比和“尺度大”之类的因素进入IMDb榜单。

但在批评Steam评分公信力不足时,我们也有必要了解Steam评分诞生的初衷:它本来就不是一个“质量打分”,而是为其他人的购买做出参考。

Steam评分系统时的说明

一些热衷于贡献评测的玩家经常在社区里科普,Steam的“赞”和“踩”按钮,代表的含义本来就不是“好”或者“差”,而是“推荐”和“不推荐”。

评价系统的存在不是为了“给游戏打分”,而是为了避免用户买了一款不适合他的游戏。

举个例子,有个开发商叫Rockfish(石鱼),制作过非常经典的手游《浴火银河》。在转向端游开发后,他们又做了一个科幻飞行射击游戏叫《永恒空间》(Everspace),看上去很像《浴火银河》,实际上的玩法完全不同,是个非常硬核的Rougelike游戏。

在这款游戏的评论区,就有很多评测特意说明了这一点:这不是《浴火银河》,想要探索收集突突突的玩家可以绕道走了。

这就是典型的、Steam所希望的“有用评测”:

评论者对整个游戏做出一个全面的概括,并且尽量写出“什么样的玩家适合/不适合买这个游戏”,最后根据自身的判断给出“我不推荐”或 “我推荐”。

这也意味着Steam评分系统最大的价值并非好评率的数字,而是用户的文字评测,要判断一个游戏值不值得买,需要用户自己付出认知成本。

从底层系统的角度来讲,Steam一人一票的二元评分制有着先天缺陷,很难像电影网站一样光靠看得分就相对客观地判定一个产品的质量。

主流电影评分网站采用的评价系统往往相当复杂,比如老牌电影评分网站IMDb的Top 250排名,基于一套贝叶斯算法:

其中,v代表用户投票数,m代表电影进入Top 250榜单所需的最小票数,R代表该电影的平均分,C代表IMDb数据库所有电影的平均分。

IMDb这套算法的科学性,在于只计算对社区有过贡献的活跃用户票数,避免粉丝刷榜;同时,评论数所占权重很高,不会出现“一百人个人打10分”超过“一万个人打9分”的情况。

相比之下,Steam的评分制度确实在评价游戏素质上太过原始。

但话说回来,就算有一套更严谨、精准的评分算法,游戏界能诞生自己的IMDb吗?

答案大概率是“否”。

为什么Steam评分必然是“不客观”的

其他领域的评分规则,直接套在游戏界身上会显得格格不入。

玩家如果观察同一个游戏在Steam上和在媒体、评分网站上的分数差异,可能会发现一个有趣的现象:不仅评分天差地别,玩家对同一个分数的看法也截然不同。

Steam上达到70%好评率则进入“多半好评”,玩家们会倾向于认为是款不错的作品。《黑暗之魂3》因为涨价、盗版联机、优化等等问题,在发售初的好评率就堪堪达到70%,玩家却不会对游戏的素质有太多的疑虑。

但如果IGN给一个作品打出6.5或者7分,却往往意味着这是个“行吧就这样吧”的游戏。

R.I.P

这种观感不同,来自Steam评分里大量“游戏外因素”的影响,我们举两个例子。

第一个因素,是玩家对厂商的情感投射。

如《赛博朋克酒保行动》,Metacritic均分为79,却在Steam上的好评率却高达97%。

游戏本身的优秀素质固然是好评原因之一,但“开发者来自委内瑞拉,为了做游戏吃了半年黄油拌饭”这种动人的故事,也成为了Steam玩家打出好评的加分项。

《赛博朋克酒保行动》的大量评论都在表示对委内瑞拉开发者的敬意

要是有一个《社博朋克酒保行动》,是国内大厂旗下工作室推出的,这个加分项显然就没了。

这正是Steam反差评机制萌生的悖论:V社希望有一个对游戏素质相对公平的评分,因此约束玩家情感表达导致的不公正差评——他们却忘了,玩家的情感也会产生“不公正”的好评。

如果你只要一个绝对理性的评测,那这二者都是出局的。

第二个因素,是售价。

我们这里要说的并非“涨价差评”的问题,而是“性价比”影响分数的问题——这正是为什么游戏评分不可能直接对标电影评分的原因。

电影票价大多数时候只跟档期、票补、城市经济水平等因素相关,商业大片和文艺片的票价不会相去甚远(当然,最近的《复仇者联盟4》首映除外)。而游戏的定价跨度,可能会从6元直到600元。

有些作品可能本身素质未必有那么出众,却因为便宜/有成人内容等原因好评率惊人,我们随便看一个售价6元的小黄油:

《巫师3》的好评率只比它高1%哟

“你给我看便宜的(.人.),我就给好评”,这究竟算不算在V社标榜的“游戏本身质量”里呢?

这就是为什么其他领域的评价标准很难直接挪到游戏身上:光是对性价比的判断,有着不同经济能力和消费态度的玩家之间就会产生巨大差异。

游戏的评分生态,和电影、剧集、书籍之类的作品是完全不同的。玩家给游戏打出的分数,远不只是评价游戏质量,反映出玩家复杂的心态和思想感情。

这就回到了这篇文章讨论的原点:“评分”这件事情,对于不同的角色而言,有着怎样的意义和价值?

对于游戏媒体,评分是单纯的:媒体对一款游戏作出的综合评价,给读者以直观的游戏质量认知。而玩家的评分,可能会反映出包括质量、情怀、厂商口碑和运营行为在内的大量信息。

《地铁:离去》点赞数最高的差评

打个比方,一名玩家给《地铁:离去》打差评,原因是开发商不信守诺言,结果玩家纷纷点赞,认为说出了自己的心声。但如果一家游戏媒体给《地铁:离去》打个5分,原因是“垃圾游戏叛逃Steam”,那基本上只能得到“这编辑有病吧连基本的客观中立都没了”的评价。

知名游戏媒体Polygon在去年就取消了打分制,给好游戏的评价就是一个单纯的“Polygon推荐”认证。 他们认为,之前几十年用来支撑大部分游戏评价的“10分制”已经明显到达瓶颈。人们可以通过视频、直播等不同渠道了解到游戏的价值,而非依靠游戏媒体简单的分数做出判断。

这就是为什么游戏有着和其他文化载体完全不同的评分生态:媒体的职责是做产品评测,而玩家的集体评分更像是共同书写一款游戏的历史。

关心游戏本身的玩家,在评分里留下的是全貌式的评价;对运营商有意见的用户,在评分里像史官一样写下“X月X日某某游戏锁区”;还有很多Steam用户,码下的评测完全是基于共情的,像是一篇私人日记。

《新手指南》下的一篇评论

而Steam也在这个过程中,获得了难以复制的社区优势。

玩家唯一的武器

现在,让我们回到文章的标题做个总结:玩家应该为游戏之外的因素打差评吗?

其实这不是一个规则或道德方面的的问题,而跟产品定位有关,因为玩家有两面性,平台也有两面性。

玩家的两面性体现在,他们一方面想在Steam上找到质量高的游戏,这时候会希望评测数据贴近游戏本身的素质,是客观公正的。但另一方面,玩家在遇到一些外部情况时,又难免去Steam刷差评或好评来表达情绪。

这两面之间的矛盾是不可调和的,因为除了打分以外,玩家几乎没有能对厂商产生直接影响的表达通道,大多数时候他们只能靠Steam评分来表达。这个问题对于国内玩家更明显一些,国外玩家好歹能去Twitter、Metacric这些地方炎上,而国内玩家只有Steam这一个通道。

而Steam平台的两面性体现于,它既要试图提供某种中立的好坏评价体系,这个体系会带有很强的权威属性和引导性。同时,它又要服务于用户,以此来赚钱。这就是为什么Steam以“无关游戏质量”为由屏蔽了他们认为的“恶意差评”,却回避了“无脑好评”——情绪化的好评同样是不客观的,但游戏被吹得更高、卖得更多对于平台来说却不是坏事。

多种因素的制衡之下,就有了我们看到的评测生态:用户的情绪诉求常常和评价系统发生冲突。只是因为Steam本身平台+社区的属性,容错能力比单一的厂商和媒体强,所以大多数时候人们已经习惯了这种对立的情况,只会隐约有一种“评论区跑题了”的不对劲感。

但这种情况长存下去会越来越失控,“积极的差评”和“无效的差评”之间的界限会变得模糊,总的来说,群众发现差评有效,他们就会更依赖差评。而差评增多对于Steam平台本身就有负面影响,因为这毕竟是一个需要通过卖游戏来抽成盈利的平台,就更不说“跑题评论”泛滥后带来的舆论影响了,这些都会反过来影响V社作为商业公司的未来。

所以Steam开发了“反差评机制”避免失控。类似的控制其他平台也有,比如国内的TapTap一直在用技术来制衡“恶意差评”和“刷好评”,但也会出现“同一个游戏只因为开发商写的是网易就差了两倍分数”的情况。而隔壁影视圈——Netflix做得更狠,直接不显示用户评论、纯粹依靠算法推荐了。

去年7月,Netflix宣布取消现有评分体系,用户无法在影片的评论区撰写新的影评。

Netflix的说法是这样的:意见领袖的建议已经不重要了,用户的主观评论也不再有意义。现在最有效的推荐模式是基于你的个性化偏好的算法,它为你量身定制,而且“越用结果越准”。

这就是算法、片方和平台商共同定制的、没有“主观评论”的世界。如果游戏业也变成这样,好像格外令人悲伤。

目前为止,仅针对PC平台来说的话,Steam是玩家仅有的、能造最直观影响的话语权平台。这是它的竞争力,但反过来,也是软肋之一。如果玩家过于滥用差评这件武器,Steam调和不了这种矛盾,可能最后就去学习Netflix或Epic商店的“先进经验”了。

Epic商店的采用的“评分系统”——如果它能被称为评分系统的话——可以让开发者自行选择是否接受评价打分。也就是说,厂商看到差评太多,可以主动切换到“以下为开发者精选评论”模式。

当时有很多玩家群情激愤,Epic商店的战略总监Galyonkin是这样回应的:

有句古老的名言很适合评价Epic搞的这套“开发者精选”:若批评不自由,则赞美无意义。所幸在目前的Steam上,玩家仍然保有“差评”这件最后的武器——我们需要思考的,是怎么维护和用好它。

至于滥用……没人能定义怎样用才算滥用,但所有人都将承担滥用的后果。

热门相关:这游戏也太真实了   恶魔就在身边   闪婚娇妻:老公,深深爱   闪婚娇妻:老公,深深爱   无敌天帝