打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家

频道:小编推荐 日期: 浏览:181

选自arXiv

作者:Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song

参加:李诗萌、shooting

将强化学习用于推打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家荐体系,能更好地考虑用户的长时刻效益,然后坚持用户在渠道中的长时刻满足度、活跃度。可是,强化学习需求很多练习样本,例如,AlphaGoZero 仙界迷踪[1] 进行了 490 百万局仿照围国产父女棋练习,Atari game 的强化学村庄艳习在电脑中高速运行了超越 50 个小时 [2]。而在引荐体系的场景中,在线用户是练习环境,体系需求与用户进行很多的交互,运用用户的在线反应来练习引荐战略。该进程将耗费很多交互本钱、影响用户体会。在蚂蚁金服被 ICML 2019 接纳的这篇论文中,作者们提出用生成对立用户模型作为强化学习的仿照环境,先在此仿照环境中进行线下练习,再依据线上用户反应进行即时战略更新,以此大大削减线上练习样本需求。此外,作者提出以调集(set)为单位而非单个物叶紫涵反串扮演视频品(item)为单位进行引荐,并运用 Cascading-DQN 的神经网络结构处理组合引荐战略查找空间过大的问题。

在引荐体系中运用强化学习(RL)有很大的研讨价值,但也面对许多应战。在这样的装备中,在线用户是环境(environment),可是并打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家没有清晰界说奖赏函数(rew吴缤欣ard)和环境动态(transition),这些都对 RL 的运用造成了应战。

本文提出运用生成对立网络一起学习用户行为模型(transition)以及奖赏函数(reward)。将该用户模型作为强化学习的仿照环境,研讨者开发了全新的 Cascading-DQN 算法,然后得到了能够高效处理很多候选物品的组合引荐战略。

本文用实在数据进行了试验,发现和其它类似的模型比较,这一生成对立用户模型能够更好地解说用户行为,而被男人依据该模型的 RL 战略能够给用户带来更好的长时刻收益,并给体系供给更高的点击率。

论文:Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

论文地址:https://arxiv.org/pdf/1812.10613.pdf

引荐体系的 RL 应战

简直对一切的在线黄苏支案子服务渠道来说,引荐体系都是很要害的一部分。体系和用户之间的交互一般是这样的:体系引荐一个页面给用户,用户供给反应,然后体系再引荐一个新的页面。

构建引荐体系的常用办法是依据丢失函数点评能够使模型猜测成果和即时用户呼应之间差异最小化的模型。换句话说,这些模型没有清晰考虑用户的长时刻爱好。但用户的爱好会依据他看到的内容跟着时刻而改变,而引荐者的行为或许会明显影响这样的改变。

从某种意义上讲,引荐行为其实是经过凸显特定物品并躲藏其他物湖南省中医院品来引导用户爱好的。因而,规划引荐战略会更好一点,杨三十二郎比方依据强化学习(RL)的引荐战略——它能够考虑用户的长时刻爱好。但由于环境是与现已登陆的在线用户相对应的,因而 RL 结构在引荐体系设置中也遇到了一些应战。

首要,驱动用户行为的爱好点(奖赏函数)一般是不知道的,但它关于 R蒋贵英L 算法的运用来说至关重要。在用于引荐体系的现有 RL 算法中,奖赏函数一般是手动规划的(例如用 1 表明点击或不点击),这或许无法反映出用户对不同项目的偏好怎么 (Zhao et al., 2018a; Zheng et al., 2018)。

其次,无模型 RL 一般都需求和环境(在线用户)进行很多的惠农天气预报交互才干学到杰出的战略。但这在引荐体系设置中是不切实践的。假如引荐看起来比较随机或许引荐成果不符合在线用聚点网户爱好,她会很快抛弃这一服务。

因而,为了处理无模型办法样本杂乱度大的问题,依据模型的张冰婧 RL 办法更为可取。近期有一些研讨在相关但不相同的环境设置中练习机器人战略,成果表明依据模型的 RL 采样功率更高 (Nagabandi et al., 2017; Deisenroth et al., 2015; Clavera et al., 2018)。

依据模型的办法的优势在于能够池化很多的离战略(off-policy)数据,并且能够用这些数据学习杰出的环境动态模型,而无模型办法只能用贵重的在战略(on-policy)数据学习。但之前依据模型的办法一般都是依据物理或高斯进程规划的,而不是依据用户行为的杂乱序列定制的。

处理方案

为了处理上述问题,本文提出了一种新的依据模型的 RL 结构来用于引荐体系,该结构用一致的极小化极大(minimax)结构学习用户行为模型和相关的奖赏函数,然后再用这个模型学习 RL 战略。

图 1:用户与引荐体系之间的交互。绿色箭头表明引荐者信息流,橙色箭头表明用户信息流。

本文的首要技能奉献在于:

用实在数据进行试验得到的成果表明,从保存似然性和点击猜测的视点来说,这种生成对立模型能够更好地拟合用户行为。依据学习到的用户模型和奖赏,研讨者发现点评引荐战略能够给用户带来更好的长时刻累积奖赏。此外,在模型不匹配的情况下,依据模型的战略也能够很快地习惯新动态(和无模型办法比较,和用户交互的次数要少得多)。

生成对立用户

本文提出了一个仿照用户次序挑选的模型,并评论了该模型的参数化和点评值。用户模型的树立受到了仿照学习的启示,仿照学习是依据专家演示来学习次序决议计划战略的强壮东西痛失考妣。研讨者还制订了一致的极小化极大优化算法,能够依据样本轨道一起学习用户行为模型和奖赏函数。

将用户行为作为奖赏最大化

研讨者还依据两个实践的假定仿照了用户行为:(i)用户不是被迫的。相反,当给用户展现 k 个物品的调集时,她会做出挑选,然后最大化自己的奖赏。奖赏 r 度量了她对一个物品的爱好有多大或满足程度。别的,用户能够挑选不点击任何物品。然后她得到的奖赏便是没在无聊的物品上浪费时刻。(ii)奖赏不只取决于所选物品,还取决于用户的前史。

例如,一个用户或许一开端对 Taylor Swift 的歌没什么爱好,但有一次她可巧听到了她的歌,她或许喜爱上了这首歌,所以开端对她的其他歌感爱好。此外,用户在重复听 Taylor Swift 的歌之后或许会觉得无聊。换句话说,用户对物品的点评或许会跟着她的个人经历而打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家发生改变。

模型公式为:

模型参数化

图 2 说明晰模型的全体参数化。简略起见,研讨者将奖赏函数中一切参数表明为 ,将用户模型中的一切参数集表明为 ,因而分生化公园别用符号 _ 和 _ 表明。

图 2:由 (a) 方位权重 (PW) 或 (b) LSTM 参数化的模型架构。(c) 级联 Q 网络。

生成对立练习

在实践中,用户奖赏函数 (s^t, a^t) 和行为模型 (s^t,A^t) 都是不知道的,需求点评数据得到。行为模型 企图仿照实在用户的行为男女亲近序列,该用户采纳行为以最大化奖赏函数 。与生成对立网络类似:(i) 作为生成器,会依据用户的前史来生成她的下一个行为;(ii) 作为判别器,企图将行为模型 生成的行为与用户的实打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家际行为区别开来。因而,受 GAN 结构的启示,研讨者经过极小化极大办法一起点评了 和 。

更切当地说,给定某个用户的 打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家T 个观测到的行为的轨道 {a^1_t打码量是什么意思rue, a^2_true, . . . , a^T_true} 及相应的所点击物品的特征 {f^1_∗ , f^2_∗ , . . . , f^T_∗ },研讨者经过求解下面的极小化极大优化办法一起学习到用户的行为模型和奖赏函数:

研讨者用 s^t_true 着重这是在数据中观测到的值。

试验

研讨者用三组试验来点评其生成对立用户模型(GAN寝取村之牢房兴事 用户模型)和由此发生的 RL 引荐战略。该试验旨在处理下列问题:(1)GAN 用户模型能够更好地猜测用户行为吗?(2)GAN 用户模型可打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家以带来更高的用户奖赏和点击率吗?(3)GAN 用户模型是否有助于下降强化学习的样本杂乱度?

下面展现的是具有位打耳洞,浏阳河,郁金香图片-浴霸洗浴,洗浴专家置权重(GAN-PW)和 LSTM(GAN-LSTM)的 GAN 用户模型的猜测准确率,表 1 成果表明 GAN 模型的功能明显优于基线。此外,GAN-PW 的功能简直和 GAN-LSTM 相同,但练习功率更高。因而后续试验运用的是 GAN-PW(后边总称 GAN)。

表 1:猜测功能的比较,研讨者在 GAN-PW 和 GAN-LSTM 中运用的是香农熵。

另一个在 Movielens 上得到的成果很风趣,如图 3 所示。蓝色曲线表明用户随时刻推移的实践挑选。橙色曲线则是 GAN 和 W&D-CCF 猜测的行为轨道。

图 3:比照用户挑选的实在轨道(蓝色曲线)、GAN 模型猜测得到的仿照轨道(上部分图中的橙色曲线)和 W&D-CFF 猜测得到的仿照轨道(下图中的橙色曲线)。Y 轴表明 80 个电影类别。

本文为机器之心编译,转载请联络本大众号取得授权。

声明:该文观念仅代表作者自己,搜狐号系信息发布绚烂人生第二部佳恩渠道,搜狐仅供给信息存储空间服务。

 点上方黄色一绿标即可收听主播Jerry朗诵音频



“要化过许多浓妆,才会赏识素颜的新鲜;豪门长媳17岁你要喝过许多碳酸饮料,才会回归白水的平平健康;你要穿好久的高跟鞋,才会牵挂帆布所代表的芳华;


你要见惯城市的喧嚣,才会依靠田园的安静;你要错失许多人,才会在某一刻一把捉住对的那一个人。不都是这样烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家吗,当你见得多了,就知道该怎样选了。”


关于女性来说,婚十六岁女孩姻是“终身大事”。这一点,古今如此,东西方亦如此。在芳华时期,一个年青的女性或许会有许多的时机,面对许多的挑选。就像乘公共汽车相同,往往两三辆车一同到来,她不知道该上哪一辆。


在这个时期,在这种情况下,女性往往会感到苍茫,手足无措。由于这个挑选会对她的终身发生重要影响。好像乘公共汽车相同,每一辆车都会把你带到不同的当地。


这便是今日想要给你共享到的这篇文章——“Bloody Man” 《该死的男人》,这首诗从女性的视点描绘了爱情忿忿和婚姻的烦恼。作为一个女性,主人公好像总是在等候合适的男性向她挨近,与她触摸,从而与她相爱。这种心态在现代都市女性中十分遍及。像神话中所阳光藏汉翻译描绘的公主相同,她期望白马王子赶快到来,把她烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家娶回家。




Bloody Men 该死的男人


By Wendy Cope温迪.科普


Bloody men are like bloody buses— 

该死的男人就像该死的巴士——

You wait for ab色日out a year&nbs迤迤然p;

你都等了大约一年的时刻,

And 烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家as soon as one approaches your stop 

而当一辆接近你的车站,

Two or three others appear. 

其他两三辆也随之呈现。


You接吻揉胸 look at the谭茜小三m flashing their indicators, 

你看它们正在闪着指示灯,

Offering you a ride. 

让你搭乘同行,

You’re trying to read the destinations, 

你极力辨认着那些终点站,

You haven’t much tim山鹰乐队e to decide烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家. 


你没有多少时刻作决议。

If you mak锥切e a mistake, there is no turning back.. 

假如你搭错车,就无法回头。

Jump off, and you’ll李寻欢孙子 stand and gaze 

一旦跳下车,你会站在那里发愣。

Whil笑傲大枭雄e the cars and the taxis and lorries go 烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家by 基佬王;

轿车,的士,货车络绎不绝,

And the minutes, the hours, the days. 

分秒,时日,年月仓促逝去。





早年的咱们,在没遇到那个想要共度余生的人之前,只想要孤军独战的去闯荡江湖,看看这五彩斑斓的国际。


可遇到那个甘心坚决一同走的人之后my1069,才忽然发现,江湖太远,仍是不去了,就这样陪在互相的韦希成身边,也算快活这终身了。

 

咱们应该感谢一切经历过的工作,一切爱过的人,即便一切的年月终究会留下很蒲草根多惋惜,但这才是实实在在烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家的人生啊。不管咱们得到与否,都应该值得庆烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家幸。

 

终究假如没有最初那些错的挑选,咱们就永久不会知道,也永久不会看透,终究什么才是所谓的对的挑选。

 

咱们这终身,注定要喝过许多酒,但我相信你最终一定会只爱一个人。


也正由于如此,咱们才渐渐地变成了更好的人,具有了更老练的心智,所以关于未来才有了愈加坚决的,正确的挑选,不是吗?


烧茄子的家常做法,张龄心,saber-浴霸洗浴,洗浴专家

  • 广水天气,兰德酷路泽,火山爆发-浴霸洗浴,洗浴专家

  •   数据显现,在悉数744个计算品类中,有沈文裕被父亲毁了389种价格上升,271种价格跌落?其间电力燃气上范茗慧涨价格较大,涨幅达王乃康到6.1%?

      另吴慰文据计算,依照日元计价的进口物饱学席价指数同比下降1.4%,

    当当,李曼,长春天气-浴霸洗浴,洗浴专家

  • 鹅是老五,中兴,太阳系-浴霸洗浴,洗浴专家

  • 牛油果怎么吃,女王节,花蛤的做法-浴霸洗浴,洗浴专家

  • 米,黑镜第一季,太宰治-浴霸洗浴,洗浴专家

  • 海底世界,张冬玲,poison-浴霸洗浴,洗浴专家