Trados 分析报告中文件重复与交叉文件重复问题

一、起源
韩林涛老师在其《CAT计算机辅助翻译入门》系列课程“第18讲如何理解报告视图中的‘重复’和‘交叉文件重复’”中提到Trados里导入单个或多个文件时如何理解分析报告中“重复”和“交叉文件重复”,同时给出了两个文件计算重复的案例并留下三个文件计算重复的“课后作业”。而我的同学D在回顾计算重复这一功能时发现了一些问题,以下为问题详情以及测试过程和结果。
二、过程及问题
以下表格A、B、C分别代表A、B、C三个文档,韩林涛老师在视频中用这三个文档演示了“重复”和“交叉文件重复”的分析结果。我们在课后进行操作时分别导入A、AB、ABC来进行对比,为方便阅读,仅保留“重复”和“交叉文件重复”的结果:





1、仅导入A分析:
句段/字数
重复   1/6
交叉   0/0
2、导入AB分析:
重复   1/6
交叉   3/17
3、导入ABC分析:
重复   1/6
交叉   4/23


  以上是三种情况的交叉重复分析的结果。下表(表2.2)为对照分析样本,表格中如“1……6”代表“句段……字数”,文字表示则为“1/6”,后同。
  其中AB的交叉重复看上去似乎很好理解:按顺序一一对应即可,即AB交叉重复结果为A1B1+A2B2+A3B3=17,由此似乎可以推出文本内的重复句段——如A1A3和B1B3在计算交叉重复时会分别各算作一次重复,但是具体的运算过程是否真是如此?如果按照这种计算方法,再加入C之后交叉重复的结果便难以理解:
  • 如果AC和BC间的重复各算作1次,结果应为A1B1+A2B2+A3B3+A1(A3)C1+B1(B3)C1=29,而非trados算出的4/23
  • 如果C与AB交叉重复的结果进行重复统计,即结果为A1B1+A2B2+A3B3+A1(B1)C1+A3(B3)C1=29

  如果按照最初推测的两种方式去计算ABC的交叉重复,则无论C与A、B分别计算重复还是C与AB的重复结果再进行重复计算得出的结果都不吻合4/23。




三、测试及结论
  1. 测试

为了弄清实际的交叉重复计算方式,我分别调换A、B、C(名称不变)的文本内容并导入进行分析,结果如下:




由此可以得出几个初步观察的结果:
  •  同样的n个文件如果排列顺序不同,重复和交叉重复结果会出现不同的情况。
  • 具体到这个案例,当C为第一个分析文件时(此时名称依然是A),文件内部重复为0/0,而交叉重复则变为5/29,可以据此推测第一个文件的内部重复对所在文件群的交叉重复会产生影响。
  • 若只导入CB得到交叉重复2/12的结果,BC则是1/6,显然这里的运算过程是前一个文件进行内部去重后、后一个文件对前一个文件进行扫描匹配重复句段。由此得出两个文件的情况下的运算过程。

若三个及以上文件呢?我们再来对比一下ABC和CBA的结果差异:





  • A内部重复句段合并为A0,则AB交叉重复为:B1A0+B2A2+B3A0=17。接着AB进行合并去重即此时AB中仅有1个“北京语言大学”的句段和1个“五道口学院”句段,此时再由C对AB进行匹配,得到1个重复句段。所以ABC交叉重复为B1A0+B2A2+B3A0+C1AB1=23。
  • A(C)内部无重复句段,则A(C) B交叉重复为:B1A1+B3A1=12。接着A(C) B进行1)的步骤,A(C)BC(A)一共交叉重复为 B1A1+B3A1+C(A)1A(C)1+C(A)2A(C)2+C(A)3A(C)1=29。

      2. 结论
分析报告中的“重复”和“交叉文件重复”分别指文件内的重复和文件间的重复。N个文件的交叉重复运算过程是每个文件在前面所有文件合并且去重的基础上计算重复,最终得到的“交叉文件重复”结果是所有这些迭代运算的总和。
      3. 验证




根据结论推算,结果应为:
B1A0+B2A2+B3A0+C1AB1+C2AB6+C3AB5+C4AB4=6+5+6+6+6+6+4=39
重复   1     6
交叉   7     39




实测运行结果一致。
以上即为Trados 分析报告中文件重复与交叉文件重复问题的一个小测试,感谢您抽空阅读,文章中若有错误或不当之处欢迎批评指正。

0 个评论

要回复文章请先登录注册