跳转到内容

行间注释

维基百科,自由的百科全书

语言学教育学中,行间注释是放置在行间的一系列简短解释(例如定义或发音),如在原文和其翻译之间的行间注释。进行注释后,每行原文都会有一行或多行相应的转录文本,称为行间注释文本interlinear glossed text,IGT)—简称行间注释。这种注释帮助读者理解原文与其翻译之间的关系以及原语言的结构。行间注释最简单的形式是对原文的逐字翻译。

历史

[编辑]
1910年《Toussaint-Langenscheidt西班牙语》中的行间文本,这是一部为德语使用者编写的西班牙语教科书

行间注释在很长一段时间内被用于各种目的。其中一个常见用法是为双语教科书提供注释,以辅助语言教育。这种行间注释旨在明确原文的意义,而不尝试正式模拟原语言的结构特征。

这种注释偶尔也不是通过行间布局表达,而是通过目标语言和元语言中单词的编号表达。威廉·冯·洪堡古典纳瓦特尔语的注释就是一个例子:[1]

1

ni-

1

ich

2

c-

3

mache

3

chihui

2

es

4

-lia

4

für

5

in

5

der

6

no-

6

mein

7

piltzin

7

Sohn

8

ce

8

ein

9

calli

9

Haus

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der mein Sohn ein Haus

这种“行内”风格允许示例在文本流中包含,并且目标语言的单词顺序可以以近似目标语言句法的顺序书写。(在这里的注释中,“mache es”从相应的源顺序重新排列,以更自然地近似德语句法。)即便如此,这种方法仍然要求读者“重新对齐”源形式和目标形式之间的对应关系。

19世纪和20世纪的现代方法采取了垂直注释的方式,将相同的逐词内容排列,使元语言词条垂直排列在源语言词条下方。在这种风格中,给定的示例可能如下呈现(这里是英文注释):

ni-

I

c-

it

chihui

make

-lia

for

in

to-the

no-

my

piltzin

son

ce

a

calli

house

ni- c- chihui -lia in no- piltzin ce calli

I it make for to-the my son a house

"I made my son a house."

这里单词顺序由目标语言的句法决定。

最后,现代语言学家采用了使用简写语法类别标签的做法。2008年出版的一本书重述了这个例子,如下标注:[2]

ni-c-chihui-lia

1SG.SUBJ-3SG.OBJ-mach-APPL

in

DET

no-piltzin

1SG.POSS-Sohn

ce

ein

calli

Haus

ni-c-chihui-lia in no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

这种写法更为紧凑,但阅读起来也更麻烦。不过这种方式较少依赖于元语言的语法结构来表达目标形式的语义。

在计算领域,Unicode特殊字符中提供了特殊文本标记,用于指示行间注释的开始和结束。

结构

[编辑]

尽管IGT格式没有正式规范,但莱比锡注释规则[3]是一套旨在尽可能标准化格式的指南。

用于语言学的行间文本通常包含以下部分的一些或全部,通常按从上到下的顺序排列:

  • 原文正字法(通常用斜体粗斜体表示),
  • 拉丁字母的常规音译,
  • 音标转录,
  • 形态音位学音译,
  • 逐词或逐词素注释,其中单词内的词素用连字符或其他标点分隔,

以及

  • 自由翻译,如果语言结构差异过大而无法逐行对应,则可以放在单独段落或相对页面上。

例如,以下台湾闽南语句子被转录成五行文本:

1. 标准白话字音译,
2. 使用声调数字注释表面的声调,
3. 注释引用形式的基础声调(在经历变调之前),
4. 英语逐词素注释,

以及

5. 英文翻译:[4]

(1.)

(2.)

(3.)

(4.)

goá

goa1

goa2

I

iáu-boē

iau1-boe3

iau2-boe7

not-yet

koat-tēng

koat2-teng3

koat4-teng7

decide

tang-sî

tang7-si5

tang1-si5

when

boeh

boeh2

boeh4

want

tńg-khì

tng1-khi3.

tng2-khi3.

return.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) I not-yet decide when want return.

(5.) "I have not yet decided when I shall return."

逐词对齐. 根据莱比锡注释规则,标准做法是将目标语言中的单词与元语言中的对应单词左对齐;这种对齐可以在(1-3行)和第(4行)之间看到。

逐词素对应. 在词内层面,可分割的词素在例子和注释中都用连字符分隔。在例子和注释中应该有相同数量的连字符,如下例所示:

Gila

now

abur-u-n

they-OBL-GEN

ferma

farm

hamišaluǧ

forever

güǧüna

behind

amuqʼ-da-č

stay-FUT-NEG

Gila abur-u-n ferma hamišaluǧ güǧüna amuqʼ-da-č

now they-OBL-GEN farm forever behind stay-FUT-NEG

'Now their farm will not stay behind forever.'

语法类别标签. 在amuqʼ-da-č中,词干(amuq)被翻译为对应的英语词根(stay),而屈折词缀(da)和(č)分别表示将来时和否定。这些屈折词缀被注释为FUTNEG;莱比锡注释规则中可以找到广泛使用的语法类别标准缩写。

一对多对应关系. 当单个目标语言元素对应多个元语言元素时,用句点分隔它们。[3]例如:

çık-mak

come.out-INF

çık-mak

come.out-INF

'to come out'

非显性元素. 如果逐词素注释(中间行)包含的元素在例子中没有显性元素对应,标准策略是在目标语言文本中包含一个显性的“ø”,[3]它像显性元素一样用连字符分隔:

puer-ø

boy-NOM

puer-ø

boy-NOM

'boy'

重叠的处理类似于词缀,用波浪号(而不是标准连字符)将复制的元素连接到词干上:[3]

bi~bili

IPFV~buy

bi~bili

IPFV~buy

'is buying'

标点

[编辑]

在行间形态注释中,各种形式的标点用于分隔注释。通常情况下,单词与其注释对齐;在单词内部,当文本和其注释中都有边界时使用连字符,当边界仅出现在其中一方时使用句点。也就是说,文本和其注释中应有相同数量的单词由空格分隔,单词和其注释中也应有相同数量的连字符分隔词素。这是基本系统,可以普遍应用。例如:

Odadan hızlı çıktım. (土耳其语)

oda-dan

room-ABL

room-from

hız-lı

speed-COM

speed-with

çık-tı-m

go.out-PFV-1sg

go_out-perfective-I

oda-dan hız-lı çık-tı-m

room-ABL speed-COM go.out-PFV-1sg

room-from speed-with go_out-perfective-I

'我迅速离开了房间。'

当源语言中的一个单词对应于注释语言中的一个短语时,可以使用下划线代替句点,如go_out-PFV,尽管在其他情况下仍然会使用句点,例如希腊语oikíais house.FEM.PL.DAT 'to the houses'。

然而,有时可能需要更细致的区分。例如,附着词可以用双连字符(或为了便于输入,用等号)而不是连字符分隔:

Je t'aime. (法语)

je⹀te⹀aime

I⹀you⹀love

je⹀te⹀aime

I⹀you⹀love

'我爱你。'

导致不连续的词缀(中缀环缀、插入词缀等)可以用尖括号分隔,重叠用波浪号分隔,而不是用连字符:

sulat, susulat, sumulat, sumusulat (动词变化) (他加禄语)

sulat

write

su~sulat

未然式~write

sumulat

施事触发.过去时write

sumu~sulat

施事 触发未然式~write

sulat su~sulat sumulat sumu~sulat

write 未然式~write 施事触发.过去时write 施事 触发未然式~write

(参见词缀了解其他例子。)

无法轻易分离出的词素,例如德语变音,可以用反斜杠而不是句点标记:

unser-n

our-DAT.PL

Väter-n

father\PL-DAT.PL

(德语)

 

unser-n Väter-n

our-DAT.PL father\PL-DAT.PL

'给我们的父亲们'(Väter '父亲们'的单数形式是Vater

莱比锡注释规则中还展示了一些其他有时会使用的惯例。[3]

行间注释资源

[编辑]

目前已经有将世界上数百种语言的IGT数码化的资源。[5]

行间文本在线数据库

[编辑]

行间文本在线数据库 (ODIN) 是一个包含超过1500种语言的20多万个行间注释实例的数据库,这些实例是从学术语言研究中提取出来的。[6] 该数据库的构建分为两个阶段:自动构建和人工校正。自动构建阶段本身份为三个步骤完成:

  1. 首先,使用搜索引擎(如Google、Bing)检索可能包含行间注释的学术文献。查询包括与语言学研究相关的术语,例如语法词素(如"NOM"——主格的缩写;"3SG"——第三人称单数的缩写)。
  2. 其次,使用机器学习中的序列标注方法,对提取文档中的每一行进行标记,判断其是否属于行间注释行。
  3. 第三,给每个行间注释实例分配一个语言名称(如塔加洛语)和一个ISO 693-3语言ID。语言名称和ID是使用自然语言处理中的共指解析模型自动分配给行间注释的,这些行间注释实例被标记为从学术文献中提取时所使用的语言名称(和ID)。[6]

在人工校正阶段,数据库创建者手动校正自动构建阶段第二步中序列标注方法发现的行间注释实例的边界。然后,在数据的第二次和第三次遍历中,分别验证了语言名称和语言代码。

行间文本在线数据库中行间注释实例的语言分布(第一阶段和第二阶段)
行间注释实例范围 语言数量 行间注释实例数量 行间注释实例比例
>10,000 3 (1) 36,691 (10,814) 19.39 (6.88)
1000-9999 37 (31) 97,158 (81,218) 51.34 (51.69)
100-999 122 (139) 40,260 (46,420) 21.27 (29.55)
10-99 326 (460) 12,822 (15,560) 6.78 (9.96)
1-9 838 (862) 2,313 (3,012) 1.22 (1.92)
总计 1,326 (1,493) 189,244 (157,114) 100 (100)

行间注释实例的自动处理

[编辑]

现已有利用行间注释资源(如行间文本在线数据库)的自然语言处理模型。[7][8]

自动标注

[编辑]

例如,自然语言处理系统已经被开发出来自动产生语境标注。[7]

mi-s

你-GEN

ħumukuli

骆驼

elu-ab-ok'ek'-asi

我们.OBL-ERG.1.PL-偷-过去否定

anu

是.否定

mi-s ħumukuli elu-ab-ok'ek'-asi anu

你-GEN 骆驼 我们.OBL-ERG.1.PL-偷-过去否定 是.否定

'我们没有偷你的骆驼。'

给定单词分段线(上述第一行)和自由翻译线(上述第三行),任务是生成中间的标注线,包括词干翻译(例如,mi:)和与词缀对应的语法类别标签(例如,a:ERG.1.PL)。自然语言处理中的序列预测模型已被用来执行此任务。[7] 这个任务的难度有两个因素贡献:

  1. 翻译不一定与单词分段线对齐(例如,骆驼是翻译中的最后一个词,但是在单词分段线中是第二个词)。
  2. 单词分段线中的一些词在标注中有多个对应(例如,anu:是.否定)。

从标注中自动发现形态结构

[编辑]

研究人员使用语境标注来获取客体语言(即被标注的语言)的形态范例。为了从语境标注中自动创建形态范例,研究人员为每个标注中的词干创建了表格,并为标注中的每个语法类别(例如,ERG)创建了一个(可能为空的)插槽。例如,给定下面的标注句子:[7]

Vecher-om

晚上-INS

ya

1.SG.NOM

pobeja-la

跑-PFV.PST.SG.FEM

v

magazin

store.ACC

Vecher-om ya pobeja-la v magazin

晚上-INS 1.SG.NOM 跑-PFV.PST.SG.FEM 进 store.ACC

'晚上我跑到了商店。'

将为词干pobeja创建一个范例,并为PFV.PST.SG.FEMPFV.PST.SG.MASC的每个插槽创建一个(可能为空的)槽位:

(部分) pobeja的范例
插槽 屈折
PFV.PST.SG.FEM pobeja-la
PFV.PST.SG.MASC

PFV.PST.SG.FEM的槽位将被填充(因为在语境标注数据中观察到了),但PFV.PST.SG.MASC的槽位将为空(假设没有其他语境标注实例包含按PFV.PST.SG.MASC语法类别屈折的pobeja)。可以使用统计机器学习模型来填补缺失的条目。[8][9][10][11][12]

参见

[编辑]
  • 汉文训读 – 对古典汉语文本进行标注的日本传统
  • 旁注标记 – 有时与中文或日文一起使用以显示发音的标注
  • 词性标注,通常显示为在标记的词下的语境标注,有时与逐词翻译同时进行显示
  • Treebank,通常显示为原始文本的标注或注释。
  • 詹姆斯·汉密尔顿,19世纪的作曲家,也是语言学习中行间注释的推广者
  • Metaphrase

参考文献

[编辑]
  1. ^ Lehmann, Christian. 逐行形态翻译的指导. Geert Booij; Christian Lehmann; Joachim Mugdan; Stavros Skopeteas (编). 形态学。屈折与词构的国际手册. 语言与交际科学手册 2. 柏林: W. de Gruyter. 2004-01-23: 1834–1857. 
  2. ^ Haspelmath, Martin. 语言类型学与语言普遍性:国际手册有限度免费查阅,超限则需付费订阅. Walter de Gruyter. 2008: 715. ISBN 978-3-11-011423-2. 
  3. ^ 3.0 3.1 3.2 3.3 3.4 Bickel, Balthasar; Bernard Comrie; Martin Haspelmath. 莱比锡标注规则。逐词形态标注的约定。. 语言学系 – 资源 – 标注规则. 2008年2月 [2010-06-30]. 
  4. ^ 例子来自高积焕和陈邦镇的《A Basic Vocabulary for a Beginner in Taiwanese》
  5. ^ Georgi, Ryan. 从Aari到Zulu:利用逐词标注文本进行大规模多语言语言工具的创建 (学位论文). 华盛顿大学. 2016. 
  6. ^ 6.0 6.1 Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily. 丰富逐词标注文本的大规模多语言数据库. 语言资源与评估. 2016, 50 (2): 321–349 [2021-12-15]. S2CID 2674996. doi:10.1007/s10579-015-9325-4. 
  7. ^ 7.0 7.1 7.2 7.3 Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori. 利用翻译进行贫资源语言的自动逐词标注. COLING. 2020,. 第28届国际计算语言学会议论文集: 5397–5408 [2021-12-15]. S2CID 227231816. doi:10.18653/v1/2020.coling-main.471可免费查阅. 
  8. ^ 8.0 8.1 Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans. IG2P:从逐词标注文本到范例. EMNLP. 2020,. 第2020届自然语言处理方法会议论文集(EMNLP): 5251–5262 [2021-12-15]. S2CID 226262296. doi:10.18653/v1/2020.emnlp-main.424可免费查阅. 
  9. ^ Silfverberg, Miikka; Hulden, Mans. An Encoder-Decoder Approach to the Paradigm Cell Filling Problem. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics. 2018: 2883–2889. S2CID 53082616. doi:10.18653/v1/D18-1315可免费查阅 (英语). 
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans. Applying the Transformer to Character-level Transduction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics. 2021: 1901–1907. S2CID 218718982. arXiv:2005.10213可免费查阅. doi:10.18653/v1/2021.eacl-main.163可免费查阅 (英语). 
  11. ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz. Inflection Generation as Discriminative String Transduction. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. 2015: 922–931. S2CID 14929030. doi:10.3115/v1/N15-1093可免费查阅 (英语). 
  12. ^ Bhargava, Aditya; Kondrak, Grzegorz. Leveraging supplemental representations for sequential transduction. Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Montréal, Canada: Association for Computational Linguistics). 2012: 396–406. 

外部链接

[编辑]