思路求教,分不够再加
请考虑一下这样一个工具。
比如我们已经翻译了sp1的user_guide(由html文件所构成)。
当需要翻译sp2的user_guide时,
因为到底文件哪里改动了不十分清楚,所以
需要从头查对所有文件。
希望有这样一个工具,能够自动把文件中一致的句子的翻译,
从sp1拷贝到sp2,保留不一致的英文内容,
这样就只需要翻译不一致的句子即可,
请开发一个这样的工具。
初步设想:
分析sp1的翻译来建立一个英文句子和中文句子的对照库,
在查对sp2的时候,自动把一致的内容拷贝到sp2处。
个人认为难点如下:
1.如何解析html文件,除去html标记
2.如何建立英文和中文之间的对应关系(翻译后的中文有可能不按照英文句子的顺序排列,所以说如果以句为单位截取英文和中文是不严密、不准确的)
3.如果以段为单位截取英文和中文,那么如何区分段?另:解析范围比较窄....
请教解决思路.thx!