如何对两段文字进行比较,得出相似程度
如何对两段文字进行比较,得出相似程度,用百分比表示?
如:
文字段1:
====================================
近日,我国两艘海洋调查船前往钓鱼岛附近(海域)活动,却被日本海上保安厅巡逻舰强行驱离。日本方面就此大做文章,(各大媒体)网站都在显著位置报道称“中国海洋调查船入侵日本领海”。(日本政府也放出厥词宣称“尖阁诸岛(钓鱼岛)是日本的固有领土”。)
文字段2:
====================================
近日,我国两艘海洋调查船前往钓鱼岛附近活动,却被日本海上保安厅巡逻舰强行驱离。日本方面就此大做文章,网站都在显著位置报道称“中国海洋调查船入侵日本领海”。
====================================
注:文字段1中的括号部分是在文字段2中删除的文字,如何得到大概下面的结果:
每句相似率:60%,整体文字的相似率(也就是可能出现的每句顺序的不同):80%,整体的相似率(60%+80%)/2=70%
需要考虑的问题:每句文字的相似率,整体文字的相似率,整段文字的相似率
请高手以Code演示,谢谢!