March 01, 2020 ( last updated : March 01, 2020 )
question-answering
topics
文本问答 (Text Question Answering),研究如何使机器理解自然语言问题,并给出答案。
在实际应用中,文本问答与我们生活息息相关,广泛应用于搜索引擎中,并被广泛认为是下一代智能搜索引擎的核心功能之一。 另外,在智能助手中,如苹果的Siri,微软的Cortana,百度的度秘,阿里巴巴的天猫精灵等,我们也可以看到问答技术的身影。 同时,在医疗、金融和教育等行业中,问答技术也有非常大的应用前景和潜力。
从历史发展角度看,文本问答大致可分为四类:基于规则的问答,检索式问答,知识库问答和阅读理解式问答。 其中阅读理解式的问答在近几年发展迅速,其主要任务是让机器理解给定的一篇文章或多篇文章,然后给出与之相关的各种问题的答案。 在此任务上,学术界和工业界构造了大量的数据集, 如MCTest, CNN/DailyMail, SQuAD, SQuAD2.0, NewsQA, NarrativeQA, MSMACRO, DuReader, HotpotQA, CoQA, XQA, BiPaR等。 与此同时,多种机器阅读理解神经网络模型,如AttentiveReader, AoAReader, Match-LSTM, BiDAF, R-Net, QANet, S-Net, BERT, XLNet, RoBERTa等得到广泛研究和应用,机器阅读理解的性能水平甚至在某些数据集上已经超越了人类。 然而,这并不意味着机器已经拥有了与人类相媲美的阅读理解能力,事实上要让机器拥有这样的能力,还有很长的路要走。
我们提出了一个新的数据集BiPaR。
该数据集来自于双语 (中-英或英-中)小说文本,支持多语言和跨语言阅读理解 (Multilingual and Cross-lingual Machine Reading Comprehension)任务。
DATASET:https://multinlp.github.io/BiPaR/
CODE:https://github.com/sharejing/BiPaR
Related posts :