发布网友 发布时间:2022-04-25 10:48
共3个回答
热心网友 时间:2024-10-30 05:52
1. 首当评价:其冲是评价问题,对于摘要,文档这类无严格确定性答案的任务,评价起来很难,也许你生成的结果很好,但是自动评价就是对不上,所以有时你的方法并不是不work,这方面和机器翻译还是不太一样,机器翻译好歹有明确的任务目标和约束,而且BLEU等一堆指标相对还是很好用的,但是文摘的ROUGE感觉相关性不强,所以很多工作最后还是要上人工评价,这就了这个任务
2. 任务定义:就我感兴趣的新闻领域而言,不同的媒体,不同的作者写的结构,用词可能都不一样,及时对于同样的新闻,也可以有完全不同的关注重点导致不同的标题,即使同样的标题内容,也完全可以用不同字数的标题来表示,灵活性很大,标题和内容不存在严格意义上的对应关系
3. 数据方面:就中文新闻而言,存在很大的文章结构和标题结构差异,有些新闻是通告,有些是比较标准的新闻,有些是采访,或者混杂的,有些新闻很短,有些新闻包括好几个大的子标题内容,有些子标题和主题相关性都很强,有些可能完全不咋相关,对于标题,中文的单句标题和双句并列符合标题基本各占一半吧,所以感觉数据处理起来都很头疼,很难像机器翻译做到文本的规范化吧,对于英文新闻而言,一般CNN,BBC这些大厂的新闻质量还是比较高的,标题相对没有中文长,没有中文复杂,但是英文标题经常会出现一些隐喻等情况,总之,数据方面是个问题,数据的数量要求应该远大于机器翻译,数据的清晰和提纯也很重要。
现在的的Neural模型基本都套用机器翻译的框架,虽然也有一些真正考虑摘要本身的难点去解决的工作,但其实作用都不大,包括attention model,其实标题或者摘要和文章本身的所谓的机器翻译那种对齐关系并不是很显式,这种框架解决什么问题,比如摘要,图像文本生成等,都肯定比单纯的seq2seq要好,但是这是模型层次的,还不涉及到摘要本质问题。如果要说本质问题,可以想一下,一篇比较长的新闻,不同的人看完全可以总结出不同的标题或者摘要,每个人的兴趣侧重都不一样,而机器翻译要求你的生成结果要真是还原输入,有非常强烈的约束,这就导致了两个任务的解空间大小完全不一样,带来的问题的难度。另外,neural的方法还是非常难在文档这个层次进行提炼和升华内容的,那么长一个文本,其实本身标题只是起到一种引导阅读的作用,想让标题包含全部内容,或者重要内容,这个要求也是过高的,所以Rush等人的工作也就退而求其次,既然全文难做,那我就做首句好了,这就带来了一个问题,要不要做全文摘要,要不要一定看完全文才写出标题,个人的感觉就是真正的编辑可能也就看看首段就差不多了,否则哪有那么多时间呢。但是这样对于中文的双句并列标题,带冒号的标题等,有时确实要多看一些内容。
热心网友 时间:2024-10-30 05:56
自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。是不是热点取决于你觉得什么样的话题可以称为热点……自动文摘不管是学术圈还是业界都一直有在做但都一直没什么实质性突破。现有方法搞来搞去本质上还是基于频数、位置等信息去选词选句子。但最难的地方其实应该在于:到底应该摘什么。这个定义清楚之后接下来其实就是自动问答的范畴了……当然自动问答尤其是非事实型问答(如需要通过描述、陈列来回答的问题)现在几乎没有哪里看得到拿得出手的解决方案。
热心网友 时间:2024-10-30 05:56
自动文摘技术主要有机械文摘和理解文摘两种。机械文摘能够适用于非受限域,这符合当前自然语言处理技术面向真实语料、面向实用化的总趋势,但是由于它局限于对文本表层结构地分析,所以经过近40年的发展已接近技术极限,文摘质量很难再有质的飞跃。理解文摘牺牲领域宽度,换取了理解深度,它作为理论探索的价值很高,但实用性较低,在可预见的未来中前景黯淡。为了适应大规模真实语料的需要,自动文摘应立足于面向非受域,不断提高文摘质量。篇章结构属于语言学范畴,不触及领域知识,因而基于篇章结构的自动文摘方法不受领域的。同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文摘能够避免机械文摘的许多不足,保证文摘质量。
热心网友 时间:2024-10-30 06:00
1. 首当评价:其冲是评价问题,对于摘要,文档这类无严格确定性答案的任务,评价起来很难,也许你生成的结果很好,但是自动评价就是对不上,所以有时你的方法并不是不work,这方面和机器翻译还是不太一样,机器翻译好歹有明确的任务目标和约束,而且BLEU等一堆指标相对还是很好用的,但是文摘的ROUGE感觉相关性不强,所以很多工作最后还是要上人工评价,这就了这个任务
2. 任务定义:就我感兴趣的新闻领域而言,不同的媒体,不同的作者写的结构,用词可能都不一样,及时对于同样的新闻,也可以有完全不同的关注重点导致不同的标题,即使同样的标题内容,也完全可以用不同字数的标题来表示,灵活性很大,标题和内容不存在严格意义上的对应关系
3. 数据方面:就中文新闻而言,存在很大的文章结构和标题结构差异,有些新闻是通告,有些是比较标准的新闻,有些是采访,或者混杂的,有些新闻很短,有些新闻包括好几个大的子标题内容,有些子标题和主题相关性都很强,有些可能完全不咋相关,对于标题,中文的单句标题和双句并列符合标题基本各占一半吧,所以感觉数据处理起来都很头疼,很难像机器翻译做到文本的规范化吧,对于英文新闻而言,一般CNN,BBC这些大厂的新闻质量还是比较高的,标题相对没有中文长,没有中文复杂,但是英文标题经常会出现一些隐喻等情况,总之,数据方面是个问题,数据的数量要求应该远大于机器翻译,数据的清晰和提纯也很重要。
现在的的Neural模型基本都套用机器翻译的框架,虽然也有一些真正考虑摘要本身的难点去解决的工作,但其实作用都不大,包括attention model,其实标题或者摘要和文章本身的所谓的机器翻译那种对齐关系并不是很显式,这种框架解决什么问题,比如摘要,图像文本生成等,都肯定比单纯的seq2seq要好,但是这是模型层次的,还不涉及到摘要本质问题。如果要说本质问题,可以想一下,一篇比较长的新闻,不同的人看完全可以总结出不同的标题或者摘要,每个人的兴趣侧重都不一样,而机器翻译要求你的生成结果要真是还原输入,有非常强烈的约束,这就导致了两个任务的解空间大小完全不一样,带来的问题的难度。另外,neural的方法还是非常难在文档这个层次进行提炼和升华内容的,那么长一个文本,其实本身标题只是起到一种引导阅读的作用,想让标题包含全部内容,或者重要内容,这个要求也是过高的,所以Rush等人的工作也就退而求其次,既然全文难做,那我就做首句好了,这就带来了一个问题,要不要做全文摘要,要不要一定看完全文才写出标题,个人的感觉就是真正的编辑可能也就看看首段就差不多了,否则哪有那么多时间呢。但是这样对于中文的双句并列标题,带冒号的标题等,有时确实要多看一些内容。
热心网友 时间:2024-10-30 05:57
自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。是不是热点取决于你觉得什么样的话题可以称为热点……自动文摘不管是学术圈还是业界都一直有在做但都一直没什么实质性突破。现有方法搞来搞去本质上还是基于频数、位置等信息去选词选句子。但最难的地方其实应该在于:到底应该摘什么。这个定义清楚之后接下来其实就是自动问答的范畴了……当然自动问答尤其是非事实型问答(如需要通过描述、陈列来回答的问题)现在几乎没有哪里看得到拿得出手的解决方案。
热心网友 时间:2024-10-30 05:59
自动文摘技术主要有机械文摘和理解文摘两种。机械文摘能够适用于非受限域,这符合当前自然语言处理技术面向真实语料、面向实用化的总趋势,但是由于它局限于对文本表层结构地分析,所以经过近40年的发展已接近技术极限,文摘质量很难再有质的飞跃。理解文摘牺牲领域宽度,换取了理解深度,它作为理论探索的价值很高,但实用性较低,在可预见的未来中前景黯淡。为了适应大规模真实语料的需要,自动文摘应立足于面向非受域,不断提高文摘质量。篇章结构属于语言学范畴,不触及领域知识,因而基于篇章结构的自动文摘方法不受领域的。同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文摘能够避免机械文摘的许多不足,保证文摘质量。