強化學(xué)習(xí)與監(jiān)督學(xué)習(xí)【區(qū)別】

2024/12/11 作者：全棧O-Jay

2503

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

強化學(xué)習(xí)很強大，但是有大多數(shù)場景毫無使用它的必要，監(jiān)督學(xué)習(xí)就夠了。下面分析強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別和強化學(xué)習(xí)有前景的應(yīng)用。

決策是否改變環(huán)境

監(jiān)督學(xué)習(xí)假設(shè)模型的決策不會影響環(huán)境，而強化學(xué)習(xí)假設(shè)模型的決策會改變環(huán)境。 比如，玩游戲時，我們的每個操作都會改變游戲的狀態(tài)；

機器人/自動駕駛汽車在運動時，會改變當(dāng)前所處的環(huán)境；

大型投資機構(gòu)的大筆交易會改變當(dāng)前的股價；而小散戶（韭菜）的交易幾乎不會影響股市；

推薦系統(tǒng)每次推薦的內(nèi)容（決策）會改變用戶的興趣點（環(huán)境）；監(jiān)督學(xué)習(xí)假設(shè)用戶的興趣點是固定的，推薦系統(tǒng)只會擬合用戶的喜好，而強化學(xué)習(xí)則假設(shè)用戶的興趣點可以被改變，學(xué)出來的推薦策略會挖掘用戶新的興趣點。

（其中主要原因是強化學(xué)習(xí)允許探索，嘗試歷史數(shù)據(jù)中不存在的動作，而監(jiān)督學(xué)習(xí)通常不做探索，只是擬合歷史記錄，無法挖掘用戶新的興趣點）

當(dāng)前獎勵還是長線回報

使用監(jiān)督學(xué)習(xí)或是強化學(xué)習(xí)，還取決于目標是當(dāng)前的獎勵還是長線的回報。

人臉識別、郵件過濾這類問題就是 “一錘子買賣”，只需獲得當(dāng)前獎勵即可，僅關(guān)注單次決策的結(jié)果，因此適用于監(jiān)督學(xué)習(xí)。

象棋等游戲則應(yīng)該考慮長線回報：吃掉對方一個馬，雖然得到了眼前的利益，但是可能不利于贏得這局棋。強化學(xué)習(xí)涉及一系列決策（即策略），不僅關(guān)注單次決策的結(jié)果。

滴滴中為司機派發(fā)訂單的應(yīng)用中，就需要最大化長線回報（總收入），而不是眼前的獎勵（單筆訂單的收入）。比如，一方面，目的地有“冷”和“熱”之分，會影響司機后續(xù)的等待時間和收入。另一方面，接單雖然能立刻賺到錢，但是會花費“機會成本”，如果稍等一下可能會接到更好的單。

在這里插入圖片描述

總結(jié)

強化學(xué)習(xí)的目標：學(xué)習(xí)在給定環(huán)境中采取何種行動以最大化累積獎勵或?qū)崿F(xiàn)特定目標。

監(jiān)督學(xué)習(xí)的目標：根據(jù)帶有標簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射函數(shù)，預(yù)測新數(shù)據(jù)的輸出。

強化學(xué)習(xí)模型決策會改變環(huán)境，特別適合于那些涉及連續(xù)決策和追求長期回報的場景。

本文內(nèi)容為看完王樹森和張志華老師的《深度強化學(xué)習(xí)》一書的學(xué)習(xí)筆記，十分推薦大家去看原書！

原創(chuàng)聲明：本文為全棧O-Jay原創(chuàng)內(nèi)容，未經(jīng)書面授權(quán)，不得以任何方式加以使用。轉(zhuǎn)載合作

人工客服
（售后/吐槽/合作/交友）

相關(guān)推薦

【深度強化學(xué)習(xí)】目前落地的挑戰(zhàn)與前沿對策
文章全棧O-Jay
2688
2024/12/06
伯克利具身智能圖譜：深度強化學(xué)習(xí)浪尖上的中國 90 后們
文章雷鋒網(wǎng)
2529
2024/11/05
如果強化學(xué)習(xí)是問題，大模型是否是「答案」？
文章雷鋒網(wǎng)
3568
2024/10/04
白話機器學(xué)習(xí)-第五章-強化學(xué)習(xí)
文章寫代碼的中年人
2869
2024/09/05
一文了解【行為克隆 (Behavior Cloning)】
文章全棧O-Jay
4056
2024/05/16
一文了解【完全合作關(guān)系】下的【多智能體強化學(xué)習(xí)】
文章全棧O-Jay
1914
2024/05/16
基于DQN和TensorFlow的LunarLander實現(xiàn)（全代碼）
文章全棧O-Jay
2484
2024/01/30

登錄即可解鎖

海量技術(shù)文章
設(shè)計資源下載
產(chǎn)業(yè)鏈客戶資源
寫文章/發(fā)需求

立即登錄

創(chuàng)作中心去發(fā)布

全棧O-Jay

TA的熱門作品

感谢您访问我们的网站，您可能还对以下资源感兴趣：

国产精品综合日本欧美

欧美日韩色国产日韩久久影院电影一区二区三区在线视频观看日本高清视频WWWW色