能读懂中文和德文历史文献的AI系统问世

历史文本自然语言处理NLP

“读历史就是读人心”,总结历史文本不但可以帮助人们收集,组织和共享知识,更有助于了解当下和未来的人类心理与社会行为。但是和下围棋一样(如果不是更难),阅读并解释古文被看作是人工智能自然语言处理的“圣杯”之一。

考虑到文化和语言的变化以及档案馆浩如烟海的史料,即使对专家而言,(用现代语言)解释并提取历史文本摘要也颇具挑战性。

近日,谢菲尔德大学,北京航空航天大学和英国开放大学的研究人员尝试使用AI和机器学习技术来解决此问题(论文地址:https://arxiv.org/pdf/2101.10759.pdf)。他们说,他们的方法可以总结德文和中文撰写的历史文献,为将来的研究提供了坚实的基础。

研究人员选择聚焦德语和汉语,因为它们具有“丰富的文字遗产”和“可访问的”历史和现代形式的资源。这两种语言均是两种不同书写系统的“杰出”代表——德语代表字母文字,而中文是表意语言的代表。研究者称,对它们进行调查可能会得出对其他多种语言的通用见解。此外,两种语言的语言专家都很丰富,因此可以轻松地找到德语和中文文本的现代语言摘要,以评估机器学习摘要系统。

为了建立德语历史培训数据集,研究人员挑选1650年到1800年间的报纸,从383个可用故事中随机选择100个进行注释。中文方面,他们选择了明万历时期的故事集,搜索了200余篇相关学术论文,并检索了100篇新闻文本。为了用现代语言总结历史故事,论文合著者分别聘请了两位拥有德国和中国古代文学学位的专家。他们分别用两种语言制作了一个包含100个新闻故事和摘要的语料库,然后由其他六位专家进行了质量控制检查。

研究人员指出,他们只有现代德语和现代汉语的摘要训练数据,而古文形式的语料却非常有限。为了克服这些限制,他们使用了基于迁移学习的方法,他们说即使没有跨语言培训(也就是跨历史和现代语言形式的培训),也可以启动训练。

研究人员写道:“历史文本的摘要面临一些独特的挑战……历史文本不能用传统的跨语言摘要器(Summarizer)来处理,传统的跨语言摘要器需要跨语言的训练,或至少使用两种语言的大型摘要数据集”。“此外,语言的使用会随着时间的推移而发展,包括词汇,单词的拼写和含义,而且历史收藏可能长达数百年。写作风格也会随着时间而改变。例如,今天的新闻报道通常在前几句话中呈现重要信息,这是现代新闻摘要所采用的一种模式,但是在过去,这并不是正常的做法。”

研究人员说,在实验中,自动和人工评估证明了他们的方法在最新基准上的优势。将来,他们计划改进其模型以添加更多语言,并增加每种语言的训练数据集的大小。

研究者写道:“研究论文介绍了用现代语言总结历史文献的新任务,这是跨语言概述的先前未曾探索但重要的应用,它可以为历史学家和数字人文研究人员提供支持。本论文是对自动历史文本摘要的首次研究。”

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸

忘记密码

X