中文文献（文言）两个版本差异对比，有没有什么方案？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 387 天前的主题，其中的信息可能已经有所发展或是发生改变。

同一篇中文文章（文言），有两个版本，想找一个程序做差异对比，有没有什么现有的或相关的工具？

同时想要以下这些差异被忽略：

标点不同。古文不标号的，都是后人标的，所以标点肯定不同
排版不同。换行、分段的位置
繁体和简体字的差异

例如， 版本 1 ，都是简体字，且无标点，又有空格，每小句都换行

床前看月光

疑是地上霜

举头望山月

低头思故乡

版本 2

牀前明月光，疑是地上霜。

舉頭望明月，低頭思故鄉。

希望软件给出的对比结果是：

看<->明
山<->明

以上例子是五言，每一句字数一样。还需要比较每句字数不一样的文章

有没有什么现有的或相关的工具？

标点

差异

文言

字数

6 条回复 • 2024-01-09 14:02:01 +08:00

vacuitym

2024-01-09 10:29:07 +08:00

这个自己实现起来应该比较容易，首先把两个都专程简体或者繁体，然后对符号也都转成一样的，然后直接对比差异

garywill

2024-01-09 10:46:54 +08:00

补充个难度更大点的例子。断句、复杂的标点。（甚至有中间缺失几句的）

版本 1
帝曰：「有其年已老而有子者，何也？」岐伯曰：「此其天壽過度，氣脈常通，而腎氣有餘也。此雖有子，男不過盡八八，女不過盡七七，而天地之精氣皆竭矣。」

版本 2
帝曰有其年已老而有子者何也
岐伯曰此其天壽過度氣脈常通而腎氣有餘也
此雖有子男不過盡八八女不過盡七七
而天地之精氣皆竭矣

superychen

2024-01-09 13:52:04 +08:00

字数都一样么？问问 gpt 就能用 python 给你生成个代码

superychen

2024-01-09 13:56:43 +08:00

```python
import opencc
import re
from difflib import SequenceMatcher

PATTERN_CHINESE = re.compile(r'[\u4e00-\u9fa5]')
CONVERTER = opencc.OpenCC("t2s")

# 只保留中文
def clean(text):
return ''.join(PATTERN_CHINESE.findall(text))

# 繁体转简体
def simplify(text):
return CONVERTER.convert(text)

# 比较文本
def compare_text(text1, text2):
text1 = clean(text1)
text2 = clean(text2)
text1a = simplify(text1)
text2a = simplify(text2)
matcher = SequenceMatcher(None, text1a, text2a)
diffs = matcher.get_opcodes()
index = 0
for tag, i1, i2, j1, j2 in diffs:
if tag == 'replace':
index += 1
print(f'{index}. {text1[i1:i2]} <-> {text2[j1:j2]}')

# 简体转繁体
simplified_text = '''床前看月光

疑是地上霜

举头望山月

低头思故乡'''
traditional_text = '''牀前明月光，疑是地上霜。

舉頭望明月，低頭思故鄉。'''

compare_text(simplified_text,traditional_text)
```

geelaw

2024-01-09 13:57:31 +08:00

可以用编辑距离建模。

准备工作：找一本字典，记住所有的标点、空白、汉字，以及同一个字的不同写法（简体繁体异体字）。

1. 两个字符串都删除所有的标点空白，只留汉字。
2. 计算编辑距离最小的编辑：把一个字替换为它的其他写法、删除一个字、增加一个字的代价可以都设置为 1 （这样的话把一个字改成和它没关系的另一个字的代价就是 2 ）。

第二步是标准的动态规划问题。

superychen

2024-01-09 14:02:01 +08:00