能读懂中文和德文历史文献的AI系统问世

作者： Cashcow
2021年01月29日
人工智能, 动态

“读历史就是读人心”，总结历史文本不但可以帮助人们收集，组织和共享知识，更有助于了解当下和未来的人类心理与社会行为。但是和下围棋一样（如果不是更难），阅读并解释古文被看作是人工智能自然语言处理的“圣杯”之一。

考虑到文化和语言的变化以及档案馆浩如烟海的史料，即使对专家而言，（用现代语言）解释并提取历史文本摘要也颇具挑战性。

近日，谢菲尔德大学，北京航空航天大学和英国开放大学的研究人员尝试使用AI和机器学习技术来解决此问题（论文地址：https://arxiv.org/pdf/2101.10759.pdf）。他们说，他们的方法可以总结德文和中文撰写的历史文献，为将来的研究提供了坚实的基础。

研究人员选择聚焦德语和汉语，因为它们具有“丰富的文字遗产”和“可访问的”历史和现代形式的资源。这两种语言均是两种不同书写系统的“杰出”代表——德语代表字母文字，而中文是表意语言的代表。研究者称，对它们进行调查可能会得出对其他多种语言的通用见解。此外，两种语言的语言专家都很丰富，因此可以轻松地找到德语和中文文本的现代语言摘要，以评估机器学习摘要系统。

为了建立德语历史培训数据集，研究人员挑选1650年到1800年间的报纸，从383个可用故事中随机选择100个进行注释。中文方面，他们选择了明万历时期的故事集，搜索了200余篇相关学术论文，并检索了100篇新闻文本。为了用现代语言总结历史故事，论文合著者分别聘请了两位拥有德国和中国古代文学学位的专家。他们分别用两种语言制作了一个包含100个新闻故事和摘要的语料库，然后由其他六位专家进行了质量控制检查。

研究人员指出，他们只有现代德语和现代汉语的摘要训练数据，而古文形式的语料却非常有限。为了克服这些限制，他们使用了基于迁移学习的方法，他们说即使没有跨语言培训（也就是跨历史和现代语言形式的培训），也可以启动训练。

研究人员写道：“历史文本的摘要面临一些独特的挑战……历史文本不能用传统的跨语言摘要器（Summarizer）来处理，传统的跨语言摘要器需要跨语言的训练，或至少使用两种语言的大型摘要数据集”。“此外，语言的使用会随着时间的推移而发展，包括词汇，单词的拼写和含义，而且历史收藏可能长达数百年。写作风格也会随着时间而改变。例如，今天的新闻报道通常在前几句话中呈现重要信息，这是现代新闻摘要所采用的一种模式，但是在过去，这并不是正常的做法。”

研究人员说，在实验中，自动和人工评估证明了他们的方法在最新基准上的优势。将来，他们计划改进其模型以添加更多语言，并增加每种语言的训练数据集的大小。

研究者写道：“研究论文介绍了用现代语言总结历史文献的新任务，这是跨语言概述的先前未曾探索但重要的应用，它可以为历史学家和数字人文研究人员提供支持。本论文是对自动历史文本摘要的首次研究。”


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    ChatGPT计划推出收费版本
                                      人工智能写作是革命性技术还是炒作？
                                      2021年值得尝试的8个开源NLP工具
                                      2021年人工智能的三大热门领域
                                      比机器写作难度更大：微软开发出会总结文本的人工智能系统
                                      谷歌开源顶级人工智能自然语言预处理训练技术
                                      从科大讯飞倒下的地方站起来：百度在机器同声传译领域取得突破
                                      自然语言处理NLP开发有哪些值得关注的开源工具？
                  



标签： NLP, 自然语言处理