強化學(xué)習(xí)很強大,但是有大多數(shù)場景毫無使用它的必要,監(jiān)督學(xué)習(xí)就夠了。下面分析強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別和強化學(xué)習(xí)有前景的應(yīng)用。
決策是否改變環(huán)境
監(jiān)督學(xué)習(xí)假設(shè)模型的決策不會影響環(huán)境,而強化學(xué)習(xí)假設(shè)模型的決策會改變環(huán)境。 比如,玩游戲時,我們的每個操作都會改變游戲的狀態(tài);
機器人/自動駕駛汽車在運動時,會改變當(dāng)前所處的環(huán)境;
大型投資機構(gòu)的大筆交易會改變當(dāng)前的股價;而小散戶(韭菜)的交易幾乎不會影響股市;
推薦系統(tǒng)每次推薦的內(nèi)容(決策)會改變用戶的興趣點(環(huán)境);監(jiān)督學(xué)習(xí)假設(shè)用戶的興趣點是固定的,推薦系統(tǒng)只會擬合用戶的喜好,而強化學(xué)習(xí)則假設(shè)用戶的興趣點可以被改變,學(xué)出來的推薦策略會挖掘用戶新的興趣點。
(其中主要原因是強化學(xué)習(xí)允許探索,嘗試歷史數(shù)據(jù)中不存在的動作,而監(jiān)督學(xué)習(xí)通常不做探索,只是擬合歷史記錄,無法挖掘用戶新的興趣點)
當(dāng)前獎勵還是長線回報
使用監(jiān)督學(xué)習(xí)或是強化學(xué)習(xí),還取決于目標是當(dāng)前的獎勵還是長線的回報。
人臉識別、郵件過濾這類問題就是 “一錘子買賣”,只需獲得當(dāng)前獎勵即可,僅關(guān)注單次決策的結(jié)果,因此適用于監(jiān)督學(xué)習(xí)。
象棋等游戲則應(yīng)該考慮長線回報:吃掉對方一個馬,雖然得到了眼前的利益,但是可能不利于贏得這局棋。強化學(xué)習(xí)涉及一系列決策(即策略),不僅關(guān)注單次決策的結(jié)果。
滴滴中為司機派發(fā)訂單的應(yīng)用中,就需要最大化長線回報(總收入),而不是眼前的獎勵(單筆訂單的收入)。比如,一方面,目的地有“冷”和“熱”之分,會影響司機后續(xù)的等待時間和收入。另一方面,接單雖然能立刻賺到錢,但是會花費“機會成本”,如果稍等一下可能會接到更好的單。
總結(jié)
強化學(xué)習(xí)的目標:學(xué)習(xí)在給定環(huán)境中采取何種行動以最大化累積獎勵或?qū)崿F(xiàn)特定目標。
監(jiān)督學(xué)習(xí)的目標:根據(jù)帶有標簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射函數(shù),預(yù)測新數(shù)據(jù)的輸出。
強化學(xué)習(xí)模型決策會改變環(huán)境,特別適合于那些涉及連續(xù)決策和追求長期回報的場景。
本文內(nèi)容為看完王樹森和張志華老師的《深度強化學(xué)習(xí)》一書的學(xué)習(xí)筆記,十分推薦大家去看原書!