百合文库
首页 > 网文

这世上本没有路——讨论轻小说定义法之外的新思路

2023-03-14轻小说AVIDIA 来源:百合文库
作者:AVIDIA
长期以来一直困扰研究轻小说者的一个问题是——什么是轻小说?事实上这个问题谈论起来非常难解,因为长期以来一直没有人能给出对轻小说的有效的定义。因而对这个问题的讨论要么走向“这个小说有死宅最爱的美少女插画一定是轻小说”“出这本书的出版社是出轻小说的”这样的玄学,要么走向“我说这是轻小说这就是轻小说”的胡搅蛮缠。而本文的写作目的则是绕开轻小说定义这一难题对这个轻小说的根本问题进行客观的讨论。
这里的关键问题是不存在严格的轻小说的定义,但又确实存在轻小说的分类。通常采取的办法是设定判别轻小说的条件,然后判别是否。而由于这个条件不存在导致这一步。
但“存在书这个元素,属于轻小说这个集合”这个事实是确实的。我们不妨引入模糊集合的概念:
“但在人们的思维中还有着许多模糊的概念,例如年轻、很大、暖和、傍晚等,这些概念所描述的对象属性不能简单地用“是”或“否”来回答,模糊集合就是指具有某个模糊概念所描述的属性的对象的全体。由于概念本身不是清晰的、界限分明的,因而对象对集合的隶属关系也不是明确的、非此即彼的。”
显然模糊集合的概念可以很好地契合轻小说的问题,因此我接受这一思想,这篇文章将不提某本书从定义来讲属于或不属于,改提这个元素对集合的隶属程度,即隶属度。
但引入隶属度的概念后,依然很难建立一个定量计算的体系。因此我们再一次取巧地跳过这一问题,转而研究一本书对于已经确定属于轻小说这个集合的作品的相似度,并用这个相似度来近似地代替隶属度。
自此,我们就把“一本书是不是轻小说”的问题转变为了“这本书与现有的轻小说有多相像这一问题”。那现在我们要解决的难点就是,怎样衡量一本书与其他轻小说的相似度。
有理由相信轻小说作为一种文体,它与其他文体的区别是存在于它本身的。因此研究相似性要从文本本身入手。而基于已有的研究,将词频作为某种文体的一个特征是有说服力的。我们可以基于词频的统计来定量地评估一个作品对轻小说的相似程度。限于笔者能力问题,在这里的处理做了若干折衷,如并未采用日文原文和未引入同样很具有说服力的句长进入统计等。如果日后有条件可以进行改进。
那么既然要考察相似程度,首先要有一个相似的对象。在这里笔者选取了2005-2018年这本轻小说真厉害的前三位进行了词频统计。同时为了验证词频对不能否同文体进行区分,笔者也对一本长篇网络小说进行同样的处理。
在出现最多的前三项中有两项是一样的,这某种意义上体现了汉语叙述的特点。但是也能看到它们分别存在0.4%和1.0%的差异。注意到这是某个词汇在所有词汇中出现的频率,这个差异显然已经足够对两种文体进行区分。这说明词频分析对于描述一本书是否“轻小说”的问题是有效的。
经过筛选,笔者最终选择了“的”、“是”、“不过”、“我”、“她”、“世界”、“没有”、“自己”、“喜欢”、“同学”这十个出现频率较高又具有代表性的词作为探测词,
猜你喜欢