欢迎来到呼和浩特互联网
Time:

您的位置: 首页 >> 科技

AIR040丨加拿大皇家學院院士李明深度

2019.08.16 来源: 浏览:0次

AIR 040丨加拿大皇家学院院士李明:深度学习在机器人问答中的应用

聊天机器人怎么做常见的方式一种是通过深度学习;另外则是利用信息论,即让机器人如何去聊天、如何反馈利用深度学习的方式现在已广泛应用,而第二种方式目前在应用较少,尚处于探索阶段

在全球人工智能与机器人峰会上,加拿大皇家学院院士

,滑铁卢大学教授,ACM、IEEE Fellow李明提到,利用深度学习的Context Model做聊天机器人,该机器人在对话中回答的问题就过于笼统,目前需要解决的产品痛点是要让机器的回答更有针对性所以李明和他的研究团队在此基础上加了一个CNN编码器,给机器人一个有上下文的题目,然后对它进行几亿对的问答训练,最终训练出40个,让回答更具针对性,而且精度在80%以上

它的工作方式是先接入两个Contet Model,通过不同的连接,把CNN的分类结果输入至RNN,从而更准确地理解问题,做出正确的回答

Siri作为一个背后由自然语言处理支撑的应用,目前还存在一定的问题当用户问Siri“鱼吃什么”Siri内部的系统提炼出“鱼”和“吃”这两个关键词,于是理解为用户的意图是想要吃海鲜,于是回答结果罗列出很多海鲜馆如果不用深度学习改用模板匹配也会出现问题,模板匹配灵活性较差,提问“今天天气怎么样”它可以回答,但如果换为“今天天气怎么样啊”,就会出现问题

最近李明做了一个研究,鉴定细胞里的某项物质有多少流程是先给到一个细胞,把细胞粉碎、分离,分离以后把黑点拿出,用质谱议摇一摇以后生成频谱,该频谱即它的质谱,按照质谱李明写了一个很简单的CNN模型,接上LSTM完成鉴定而在这种情况下,由于噪音问题,深度学习自身不工作,此外它还需要做动态规划,通过无数个CNN,最终用动态规划把它解决

问答机器人其中有一大技术挑战就是适度反馈系统阿尔法狗的反馈系统,通俗讲就是下棋下输一局就减一分,反之加一分相比于阿尔法狗简单地反馈输和赢,聊天和问答就不能用简单的对和错、输和赢来反馈,所以这里需要一个适用的度量系统李明提出一个度量系统概念,以信息论为基础的度量系统,他们需要度量两个句子的相似性或者一个问题和一个答案的相似性,最终找到两者的语义距离语义距离虽不可计算,但语义可以达到近似,而近似的实现方式就是压缩,通过压缩来度量语言的近似性

李明从另外几个角度利用深度学习来解决自然语言问题,为研究者们提供新的视角

以下是李明演讲实录:

大家好

我们有一个创业公司,叫薄言,我们就做聊天机器人这一件事情今天我就会给大家介绍一下我们的聊天机器人

大家可以在号上关注薄言豆豆,你就可以直接与它聊天实体机器人是我们聊天机器人的一个落地方式,但这不是我们主要的产品

聊天平台是怎么做的我们在这个方向已经耕耘近十年,公司成立了两、三年,共50多人不做别的,就做一件事:聊天今天会场上很多人谈到聊天这个项目,不乏有很多很精彩的报告,我想介绍一下自己的聊天机器人的平台我把它分为两个题目,一个是聊天机器人怎么做,一个是深度学习,另外一个是信息论,即怎么去聊天,怎么做反馈第一个题目是大家都已经做了很多了,但第二个题目比较新,也比较有实验性,有探索性

很多人知道做深度学习,就是所谓的Context Model,我们觉得以该技术研发出的产品回答问题太过笼统,我们需要让问题回答得更有针对性所以我们加了一个CNN Encoder,就是给它一个上下文的题目它需要几亿对的问答对去训练,训练出了40个然后它就会把它想问的题目告诉络,络就会用它来更有针对性的回答问题我们训练了以后,它的精度大概是在80%左右

C是有不同的方式可接入两个Contet Model,通过不同连接,把CNN的分类结果输入给RNN,让它更准确地理解意思,从而做出正确的回答举个例子,大家看第一个,这第一个是说铁达尼号是谁主演的,输出的是非常笼统的话,都没问题,全是中国话,没什么用,回答有很多很多人但是当你有了主题以后,它回答的就是一个正确的演员的名字还有第二个问题,当没有这个主题的时候,你问库里和詹姆斯谁是MVP,它就说要看情况,有了这个主题以后,它的回答就是答案是詹姆斯,这是主题输入的重要性

大家都在说深度学习怎么来帮助自然语言理解,举个有代表性的例子,大家知Siri,Siri用了很多关键字处理,假设你问它鱼吃什么它认为这有个鱼,还有吃,那肯定要吃海鲜,那就告诉你很多海鲜馆,这是很不靠谱的事情了但是你也可以做模板匹配,如果不做深度学习的话,做模板匹配也很不靠谱,刚才有个艾克的例子,艾克就可模板匹配,模板匹配相比而言非常不灵活,你说今天天气怎么样它可以回答,如果你说今天天气怎么样啊,它就不行了,灵活性非常差

大家看这个,这是经过了训练以后做出的东西,我渴了怎么办回答说喝水,有点渴怎么办多喝水,我x有点渴了怎么办多喝水,我就瞎加字,多喝水,我北京有点渴了怎么办喝王老吉,蝴蝶,我北京有点渴了怎么办还是说喝点水现在我把渴字换成饿字了,就一字之差,我说蝴蝶我北京有点饿了怎么办中国,机器就说吃东西,我又把饿字去掉了,我说蝴蝶在北京有没有怎么办中国,它的回答是有啊,北京所以深度学习给我们解决了很多问题,并不是说它理解了这句话的意思,但它变得非常精确

我再给大家举一个简单的例子,深度学习就是在凡是有数据的地方,凡是有标注性的地方都做得非常好在生物信息血也做得非常好,最近我们做了一个工作,生物信息血就是我在一个细胞里需要鉴定某个数量有多少,或者有没有那么我该怎么做呢先给一个细胞,然后把细胞粉碎分离,分离以后几个黑点,把它拿出来,就拿一个质谱议摇一摇,徭完了以后就生成这么一个频谱,这个频谱就是它的质谱,按照这个质谱我们就希望把它写出它的蛋白质等等所以我写了一个很简单的模型,就是CNN,后头接上了LSTM,深度学习很多时候根本就不适合,这种情况下,深度学习自己完全不工作,因为有很多噪音,而且它需要做所谓的动态规划我们用了无数多个CNN,用动态规划把它解决的当然这只是一个简单的说法,一个图

以前科学院做了一个比较,这个比较不完全公平,但是也不失可以给大家看看薄言豆豆,这个问题就用了一千个从微软里找出的问题这是在2015年发表的数据,他们拿来测试聊天机器人,我说不公平,是因为这些问题不太是聊天的问题,它是QA的问题,所以对有些比较是公平的,比如图灵机器人是公平的,因为它做这个,然后出门问问它也做这个,小i机器人也做这个,但对小冰和百度度秘就不太公平,因为它不做这个但是你要想聊天一定是什么问题都能回答,不能胡说八道,人家问你一个什么问题,你一定要正常的回答所以知识非常重要,知识就是力量

我想讲下一个问题,阿尔法狗做的非常好,下棋下输了就减一分,下赢了就加一分,这有正常的反馈系统而说话聊天,问一句话说一句话你怎么知道正确错误,所以要有正确的度量系统,所以最近我们在研究需要一个正确的度量系统,我们有一个信息论,以信息论为基础的度量系统,这就是我们LSTM比较具有相似性,现在我们需要度量什么东西呢两个句子的相似性或者一个问题和一个答案的相似性,我需要找到这些东西的语义距离,这两句话它的语义距离有多少,现在问题是这样,问题什么是语义距离,语义距离是没有定义不可计算,没有人知道什么东西的东西我们就提出一个新的理论,就是语义距离不知道是什么,我们就用一个东西来代替这件事

我能证明这件事,语义距离没有定义,不可计算,信息距离有距离,也不可计算,但可以近似怎么近似就是压缩但是我能证明以下事情,数学严格的证明任何对语义距离的一个描述,一个近似,不管你什么近似,只要你是可计算的,我的信息距离一定比你那个距离好就是别的不用了,语义距离不是没定义吗算了,咱别定义了,咱们就用信息距离好了,信息距离无非就是让你压缩,压缩完了就可以近似语义距离当然怎么压缩我也不知道,但是这是可以做的,因为很多我们已经开始在尝试着做这件事,通过压缩来度量这个东西,两个语言的近似性

原创文章,未经授权禁止转载详情见转载须知

如何给小孩健脾

薏芽健脾凝胶吃多久

肠胀气就是肠绞痛吗

微店官网
宝宝脾虚吃什么药
宝宝不爱吃饭要怎么办
Tags:
友情链接