癸酉本吧 关注:1,301贴子:5,130
  • 47回复贴,共1

从词频分析的角度看吴氏石头记和80回《石头记》的关系

只看楼主收藏回复

作者:天涯飞鸿
摘要:2008年,网络上出现了一部《石头记》本子,此本共108回,被红学爱好者称为癸酉本或吴氏石头记。此本后28回故事情节极其令人震惊,与原《石头记》前80回情节对榫。然而,红友们对于这个本子的真伪却莫衷一是。本文拟利用多种人工智能大数据软件配合人工方法,对原《石头记》80回文本和吴氏石头记后28回文本进行词频分析,比较二者异同,结果我们发现两个版本在高频词的运用上有相当程度的一致性,个别较低频的特色词也在两个版本都有出现,但确有个别高频词和特色词在对方版本中出现频率极低,甚至完全没有,如"所以"、"可巧"等词。结论:《石头记》成书是个比较复杂的过程,可能有多人参与创作,“曹雪芹”是化名,他是其中一个重要的增删者。原《石头记》80回和吴氏石头记并非同一个人所作,然而两个本子可能源于一个共同的母本,吴氏石头记就是一个较早的版本。
关键词:癸酉本,吴氏石头记,《石头记》,词频,相关性

一,《红楼梦》及红学两大派别
《红楼梦》原名《石头记》,是中国古典文学的巅峰之作。一般认为,《红楼梦》的作者是清代作家“曹雪芹”。该书历史上流传下来很多版本,其中学界一般认为120回通行本的后40回不是“曹雪芹”的原著,而是后人的续作,但也有不同看法。一部没有最终结局的《红楼梦》引起了学界几百年的争论:《红楼梦》这部书到底创作的宗旨是什么?要表达什么思想?书中人物的结局分别是什么?由此还发展出一门红学。主要观点有两派:1,考证派。运用杜威实证主义方法,注重考证曹雪芹家事、《红楼梦》版本和成书过程。认为《红楼梦》是一部自传体小说,反映的是江宁织造曹家的兴衰史。这个学派的主要代表人物有胡适、周汝昌等。2,索隐派。又称政治索隐派。透过书中的谐音、拆字、藏头、谜语、谶纬等线索,用历史上或传闻中的人和事去考索《红楼梦》,考索出“所隐之事,所隐之人”。例如蔡元培先生的“吊明之亡,揭清之失”的观点。应该说上个世纪考证派是一个主流派别,索隐派被边缘化。
二,吴氏石头记及其来历
2005年刘心武先生在百家讲坛揭秘《红楼梦》,认为《红楼梦》是暗喻康雍乾三朝的宫廷政治斗争以及曹家在这场斗争中的家族兴亡史。2008年有一个网名叫何莉莉(又名赵文夕)的网友在网上公开了一个抄录本,就是后来被称作癸酉本或者吴氏石头记的第81回至108回,写的是原80回《石头记》后来的故事,有完整的回目和回前诗,情节出乎所有人的预料,但却和前80回的批语透漏出的人物故事结局高度吻合,也印证了蔡元培先生的排满之说,即明写青年男女的爱情故事及家族的兴衰,实际上是暗喻明清交际改朝换代的历史。为什么把此版本称为癸酉本或吴氏石头记呢,那是因为在此版本的最后一回结尾出现了这么一段批语:“本书至此告终,癸酉腊月全书誊清。梅村夙愿得偿,吾所受之托亦完。若有不妥,俟再增删之。虽不甚好,亦是尽心,故无憾矣。”从而可以得知此书的落款时间为癸酉年,故名"癸酉本";而批语中的梅村是指吴梅村(明末清初著名诗人,文学家),即本书的原作者,故又称“吴氏石头记”。此版本在社会上引起了轩然大波,支持者认为这才是《红楼梦》的真实结局,和前80回的情节遥相呼应堪称完美。但很快就有人指出该版本中很多诗词质量低劣,且文风和前80回迥然不同还夹杂着大量现代词语。何莉莉则解释目前发布的文字是其姐姐从原本上过录下来的,其姐姐文化水平不高,在抄写过程中对原文进行了相当程度的删改。后又有人指责上述关键批语是伪造等等,一时众说纷纭。目前主流红学界对此版本大都保持沉默,也有的持否定态度。

三,本研究的目的和使用的方法
面对这个有种种缺陷的吴氏石头记,我们想分析它的真伪肯定有相当的难度。我们采用的方法是考察吴氏石头记后28回的文字和原《石头记》前80回的文字相关性,即使用人工智能的词频统计软件对前后两部分高频词进行统计,比较两部分高频词使用状况的异同。另外我们也考察了一些特色词在两个版本中的出现情况。最后再综合分析给出一个客观的结论。
四,版本的选取
《红楼梦》的版本众多,版本之间的文字都稍有差异,我们在网上找了一个不带批语的120回通行本(人民文学出版社 1987.4),我们截取了前80回的文本,作为底本。然后为了慎重起见我们又找了一个带批语的《石头记》版本,也一并作为分析的底本。吴氏石头记的选取,最新一版的吴氏石头记和原版本的文字变异较大,综合考虑我们还是选取了比较忠实于吴氏石头记最初原貌的一个早期电子版本作为底本(出版人:金俊俊,何玄鹤)。
五,词频统计软件的选取
我们在网上查询了多家在线词频统计系统,各家的统计原理不尽相同,结果也有一定的差异,最后选取了两家,一个是图悦在线词频统计,它除了能统计词频还可以统计权重;另外一个就是sco在线词频查询,它的分词方式和图悦有差别,它会把两个字的词和包含这两个字的三字词分开统计,但它的优点是除了统计词频,还能统计出现率。最后我们把图悦作为我们的主要统计工具,sco作为补充工具。
六,词频统计结果及分析
首先我们要明确的是三个版本的字数规模,吴氏石头记后28回大约在21.8万字左右,不带批语的通行本80回约62.55万字,带批语的80回有71.8万字左右,也就是说吴氏石头记的正文大约是前80回正文的三分之一左右,那么吴氏石头记词频如果为前80回正文三分之一左右属高度相关,但可能受情节变化等因素的影响,一些词频可能有比较大的变化,我们为慎重起见,把吴氏石头记的词频高于前80回本词频六分之一规定为正常,低于六分之一为异常。
首先,脂批本有很多批语的专用词,如甲戌、庚辰这样的表达时间的词,这些词和不带批语版本进行比较是无意义的。另外表格里人名占了很大一部分,而且随着情节的变化,人名的频次和权重发生变化这是很正常的,所以我们把上述高频词分门别类进行比较,去掉无比较意义的批语专用词,把人名专用词和非人名词分开比较,以便观察各版本的分布特点。三个版本的人名和特指专人名词因为表格不能太长,只取6个分析如下:
三本人名高频词统计表(部分)


IP属地:天津1楼2020-02-23 18:02回复
    这个做的很专业啊,居然没有人评论


    IP属地:山东来自Android客户端6楼2020-08-26 14:59
    回复
      所以没有给结论吗?


      IP属地:安徽7楼2020-08-27 08:29
      回复
        外人能随意出入贾府,袭人突然变成泼妇,信佛的王夫人要宝玉娶尼姑,宝玉成了淫徒,林妹妹成为武装首领,宝钗逼迫宝玉、改嫁贾雨村,王熙凤魂魄杀仇人被天兵天将收走,卫若兰射圃写成在菜圃里射箭打敌人。我只能说,不忍直视


        来自Android客户端8楼2020-09-05 20:08
        收起回复
          这个是搞笑吗?全都是人名,当然重复率高了


          IP属地:云南来自Android客户端10楼2020-12-26 10:29
          收起回复
            补充几个,这个是我看到知乎一个UP批癸酉本不该出现“歪在床上”这个现代说法。好奇查了一下
            程高本就出现一次“歪在床上”。
            原版80回
            二十二回:只见林黛玉歪在炕上
            二十四回:果见鸳鸯歪在床上看袭人的针线呢
            二十六回:且说宝玉打发了贾芸去后, 意思懒懒的歪在床上
            四十四回:宝玉歪在床上,心内怡然自得.
            四十五回:这里黛玉喝了两口稀粥,仍歪在床上
            四十六回:宝玉将方才的话俱已听见,心中自然不快,只默默的歪在床上
            六十二回:宝玉笑说走乏了,便歪在床上.
            六十七回:宝玉心中着实不自在,就随便歪在床上.
            八十回:当下王一贴进来,宝玉正歪在炕上想睡,
            癸酉
            八十一回:刚进了门,就看见黛玉歪在炕上看书。黛玉见他走了,叹了口气,歪在炕上只是发呆;一时间回到潇湘馆,歪在炕上看了会书。
            八十二回:黛玉刚睡了中觉,正歪在炕上发闷。黛玉又看了一遍,思虑了半天,把笔一搁,又歪在炕上打盹
            八十三回:宝玉仍是闷闷的歪在床上,一时间忽然掉下泪来。
            八十四回:宝钗赶回家里,把门一关,歪在床上默不作声。
            八十四回:母亲歪在炕上捂着胸口生闷气。
            八十九回:平儿见他累了,因安顿他歪在炕上歇着。
            九十二回:歪在炕上握着帕子拭泪
            九十五回:题罢又看了一遍,歪在炕上沉思不语。
            一零二回:噘着嘴歪在炕上倒头睡着。
            一零五回:反揉搓一团投掷墙角,仍歪在炕上合目打盹。
            程高就出现一次
            八十八回:贾母刚吃完了饭,盥漱了,歪在床上说闲话儿
            刘心武版出现一次:
            贾母病了,歪在炕上,刘心武也算挺牛逼的,还注意到这个场景。


            IP属地:安徽11楼2022-04-11 17:12
            回复
              统计一个:“咭咭呱呱”
              程高本出现一次:
              八十七回:"宝玉看时,只见贾环贾兰跟着小厮们,两个笑嘻的嘴里咭咭呱呱不知说些什么,迎头来了
              前八十回,出现五
              二十九回:那边车上又说"蹭了我的花儿",这边又说"碰折了我的扇子",咭咭呱呱,说笑不绝.
              三十一回:也没见睡在那里还是咭咭呱呱,笑一阵,说一阵,也不知那里来的那些话.
              六十二回:只听外面咭咭呱呱,一群丫头笑进来
              七十回两处:这日清晨方醒, 只听外间房内咭咭呱呱笑声不断.因笑道:"倒是这里热闹,大清早起就咭咭呱呱的顽到一处."
              鬼本出现两次
              八十一回:因簇拥着咭咭呱呱出去了。
              八十九回:大家都把黛玉围着,咭咭呱呱笑个不住。
              ================
              再看下现代人续写的,刘心武续红楼是没有的。


              IP属地:安徽12楼2022-04-11 17:14
              回复
                还有“敁敠”这个词,“思忖”的意思,鬼本是伪造的话,造假者还得先学习古文,弄清意思,用的通顺,前提还要能想得到用,难度不小
                前八十回用了5次:
                1、凤姐手里拿着西洋布手巾,裹着一把乌木三镶银箸,敁敠人位,按席摆下。
                2、刘姥姥听了心下敁敠道:“我方才不过是趣话取笑儿,谁知他果真竟有!
                3、袭人敁敠其道路:“是他醉了迷了路”
                4、平儿今见他这般,心中也暗暗的敁敠:果然话不虚传,色色想的周到。
                5、凤姐儿冷眼敁敠:岫烟心性为人,竟不像邢夫人
                癸酉两次:
                1、袭人心下敁敠道:「我自恃事情做得机密,怎曾想被人知道了?
                2、凤姐低头敁敠半天,情知大事不妙
                程高本、刘心武版本都是没有的。有趣的是2008鬼本才放出来是“占諁”,就是错别字,如果造假照抄前文就是。可见发布者都没搞懂,如何谈得上伪造?


                IP属地:安徽13楼2022-04-11 17:16
                收起回复