周五参加小孩成人礼,我的脑子也没闲着,基本想清楚了下面的问题:
自然语言里面经常有多一个词、少一个词不影响语义的情况,例如:“步入婚姻”,“步入婚姻殿堂”,“步入婚姻生活”这三者语义基本相等,现在就想用计算方法来确定。
经过思考,我终于发现了其中的规律——
“婚姻殿堂”,“婚姻生活”的左右词完全被“婚姻”的左右词集合所覆盖,据此可以判断。
上述短语被“殿堂”的左右词集合全覆盖是很正常的,但是被前面定语的左右词集合覆盖就少见,就属于上述情况。
但是上面的名词短语语义还是稍微有点偏差,所以用加上“步入”后的短语对词频稍高的左右词进行统计更加符合。
这个问题又可以延伸为判断“婚姻殿堂”是不是建筑物的问题,因为“婚姻殿堂”右边的词基本上不出现“结构,面积,位置”,所以它不是建筑物,“殿堂”的语义在短语里比重很小。
再对“xx的殿堂”进行总结,发现“心灵的殿堂”,“科学的殿堂”都符合这种情况。所以这种情况实际上可以如此描述:“步入一座殿堂,这座殿堂的名字叫“婚姻”。”。所以这个名词性短语语义等同于“婚姻”。这一类情况可以直接定义为一种规则,便于程序处理。
自然语言里面经常有多一个词、少一个词不影响语义的情况,例如:“步入婚姻”,“步入婚姻殿堂”,“步入婚姻生活”这三者语义基本相等,现在就想用计算方法来确定。
经过思考,我终于发现了其中的规律——
“婚姻殿堂”,“婚姻生活”的左右词完全被“婚姻”的左右词集合所覆盖,据此可以判断。
上述短语被“殿堂”的左右词集合全覆盖是很正常的,但是被前面定语的左右词集合覆盖就少见,就属于上述情况。
但是上面的名词短语语义还是稍微有点偏差,所以用加上“步入”后的短语对词频稍高的左右词进行统计更加符合。
这个问题又可以延伸为判断“婚姻殿堂”是不是建筑物的问题,因为“婚姻殿堂”右边的词基本上不出现“结构,面积,位置”,所以它不是建筑物,“殿堂”的语义在短语里比重很小。
再对“xx的殿堂”进行总结,发现“心灵的殿堂”,“科学的殿堂”都符合这种情况。所以这种情况实际上可以如此描述:“步入一座殿堂,这座殿堂的名字叫“婚姻”。”。所以这个名词性短语语义等同于“婚姻”。这一类情况可以直接定义为一种规则,便于程序处理。