• 正文
    • 決策是否改變環(huán)境
    • 當(dāng)前獎勵還是長線回報
    • 總結(jié)
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

強化學(xué)習(xí)與監(jiān)督學(xué)習(xí)【區(qū)別】

2024/12/11
2503
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

強化學(xué)習(xí)很強大,但是有大多數(shù)場景毫無使用它的必要,監(jiān)督學(xué)習(xí)就夠了。下面分析強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別強化學(xué)習(xí)有前景的應(yīng)用。

決策是否改變環(huán)境

監(jiān)督學(xué)習(xí)假設(shè)模型的決策不會影響環(huán)境,而強化學(xué)習(xí)假設(shè)模型的決策會改變環(huán)境。 比如,玩游戲時,我們的每個操作都會改變游戲的狀態(tài);

機器人/自動駕駛汽車在運動時,會改變當(dāng)前所處的環(huán)境;

大型投資機構(gòu)的大筆交易會改變當(dāng)前的股價;而小散戶(韭菜)的交易幾乎不會影響股市;

推薦系統(tǒng)每次推薦的內(nèi)容(決策)會改變用戶的興趣點(環(huán)境);監(jiān)督學(xué)習(xí)假設(shè)用戶的興趣點是固定的,推薦系統(tǒng)只會擬合用戶的喜好,而強化學(xué)習(xí)則假設(shè)用戶的興趣點可以被改變,學(xué)出來的推薦策略會挖掘用戶新的興趣點。

(其中主要原因是強化學(xué)習(xí)允許探索,嘗試歷史數(shù)據(jù)中不存在的動作,而監(jiān)督學(xué)習(xí)通常不做探索,只是擬合歷史記錄,無法挖掘用戶新的興趣點)

當(dāng)前獎勵還是長線回報

使用監(jiān)督學(xué)習(xí)或是強化學(xué)習(xí),還取決于目標是當(dāng)前的獎勵還是長線的回報。

人臉識別、郵件過濾這類問題就是 “一錘子買賣”,只需獲得當(dāng)前獎勵即可,僅關(guān)注單次決策的結(jié)果,因此適用于監(jiān)督學(xué)習(xí)。

象棋等游戲則應(yīng)該考慮長線回報:吃掉對方一個馬,雖然得到了眼前的利益,但是可能不利于贏得這局棋。強化學(xué)習(xí)涉及一系列決策(即策略),不僅關(guān)注單次決策的結(jié)果。

滴滴中為司機派發(fā)訂單的應(yīng)用中,就需要最大化長線回報(總收入),而不是眼前的獎勵(單筆訂單的收入)。比如,一方面,目的地有“冷”和“熱”之分,會影響司機后續(xù)的等待時間和收入。另一方面,接單雖然能立刻賺到錢,但是會花費“機會成本”,如果稍等一下可能會接到更好的單。

在這里插入圖片描述

總結(jié)

強化學(xué)習(xí)的目標:學(xué)習(xí)在給定環(huán)境中采取何種行動以最大化累積獎勵或?qū)崿F(xiàn)特定目標。

監(jiān)督學(xué)習(xí)的目標:根據(jù)帶有標簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射函數(shù),預(yù)測新數(shù)據(jù)的輸出。

強化學(xué)習(xí)模型決策會改變環(huán)境,特別適合于那些涉及連續(xù)決策和追求長期回報的場景。

本文內(nèi)容為看完王樹森和張志華老師的《深度強化學(xué)習(xí)》一書的學(xué)習(xí)筆記,十分推薦大家去看原書!

相關(guān)推薦