真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

重慶分公司

重慶分公司

028-86922220

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）-創(chuàng)新互聯(lián)

作者：Artem Oppermann

成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括江寧網(wǎng)站建設(shè)、江寧網(wǎng)站制作、江寧網(wǎng)頁(yè)制作以及江寧網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái)，我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，江寧網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到江寧省份的部分城市，未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任！

這是關(guān)于自學(xué)習(xí)人工智能代理的多部分系列的第一篇文章，或者更準(zhǔn)確地稱(chēng)之為深度強(qiáng)化學(xué)習(xí)。本系列的目的不僅僅是讓你對(duì)這些主題有所了解。相反，我想讓你更深入地理解深度強(qiáng)化學(xué)習(xí)的最流行和最有效的方法背后的理論、數(shù)學(xué)和實(shí)施。

自學(xué)習(xí)人工智能代理系列 - 目錄

第一部分：馬爾可夫決策過(guò)程（本文）
第二部分：深度Q學(xué)習(xí)（Q-Learning）
第三部分：深入（雙重）Q學(xué)習(xí)（Q-Learning）
第四部分：持續(xù)行動(dòng)空間的政策梯度
第五部分：決斗網(wǎng)絡(luò)(dueling network)
第六部分：異步角色評(píng)論代理
?...

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖1 人工智能學(xué)會(huì)如何運(yùn)行和克服障礙馬爾可夫決策過(guò)程

目錄

0.簡(jiǎn)介
1. Nutshell的增強(qiáng)學(xué)習(xí)
2.馬爾可夫決策過(guò)程
2.1馬爾可夫過(guò)程
2.2馬爾可夫獎(jiǎng)勵(lì)程序
2.3價(jià)值函數(shù)?
3.貝爾曼方程（Bellman Equation）
3.1馬爾可夫獎(jiǎng)勵(lì)過(guò)程的貝爾曼方程
3.2馬爾可夫決策過(guò)程 - 定義
3.3政策
3.4動(dòng)作價(jià)值函數(shù)
3.5最優(yōu)政策
3.6 貝爾曼方程最優(yōu)性方程

0.簡(jiǎn)介

深度強(qiáng)化學(xué)習(xí)正在興起。近年來(lái)，世界各地的研究人員和行業(yè)媒體都沒(méi)有更多關(guān)注深度學(xué)習(xí)的其他子領(lǐng)域。在深度學(xué)習(xí)方面取得的大成就是由于深度的強(qiáng)化學(xué)習(xí)。來(lái)自谷歌公司的Alpha Go在圍棋游戲中擊敗了世界圍棋冠軍（這是幾年前不可能實(shí)現(xiàn)的成就），還有DeepMind的人工智能代理，他們自學(xué)走路、跑步和克服障礙（圖1-3）。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖2. 人工智能代理學(xué)會(huì)如何運(yùn)行和克服障礙

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖3. 人工智能代理學(xué)會(huì)如何運(yùn)行和克服障礙

其他人工智能代理自從2014年以來(lái)在玩雅達(dá)利游戲(Atari游戲)中的表現(xiàn)超過(guò)了人類(lèi)水平（圖4）。在我看來(lái)，關(guān)于所有這一切的最令人驚奇的事實(shí)是，這些人工智能代理中沒(méi)有一個(gè)是由人類(lèi)明確編程或教導(dǎo)如何解決這些任務(wù)。他們通過(guò)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的力量自學(xué)。多部分系列的第一篇文章的目標(biāo)是提供必要的數(shù)學(xué)基礎(chǔ)，以便在即將發(fā)表的文章中解決人工智能這個(gè)子領(lǐng)域中最有希望的領(lǐng)域。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖4 人工智能代理學(xué)習(xí)如何玩Atari游戲

1. 深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)可以概括為構(gòu)建一個(gè)直接從與環(huán)境的交互中學(xué)習(xí)的算法（或人工智能代理）（圖5）。其環(huán)境可能是現(xiàn)實(shí)世界、計(jì)算機(jī)游戲、模擬甚至是棋盤(pán)游戲，如圍棋或國(guó)際象棋。與人類(lèi)一樣，人工智能代理從其行為的后果中學(xué)習(xí)，而不是從明確的教導(dǎo)中學(xué)習(xí)。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖5深度強(qiáng)化學(xué)習(xí)的示意圖

在深度強(qiáng)化學(xué)習(xí)中，代理由神經(jīng)網(wǎng)絡(luò)表示。神經(jīng)網(wǎng)絡(luò)直接與環(huán)境相互作用。它觀察當(dāng)前的環(huán)境狀況，并根據(jù)當(dāng)前狀態(tài)和過(guò)去的經(jīng)驗(yàn)決定采取什么行動(dòng)（例如向左、向右等）。基于所采取的行動(dòng)，人工智能代理收到獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)金額決定了解決給定問(wèn)題所采取行動(dòng)的質(zhì)量（例如學(xué)習(xí)如何行走）。代理的目標(biāo)是學(xué)習(xí)在任何特定情況下采取行動(dòng)，以大化累積的獎(jiǎng)勵(lì)。

2.馬爾可夫決策過(guò)程

馬爾可夫決策過(guò)程（MDP）是離散時(shí)間隨機(jī)控制過(guò)程。馬爾可夫決策過(guò)程（MDP）是我們迄今為止為人工智能代理的復(fù)雜環(huán)境建模的最佳方法。代理旨在解決的每個(gè)問(wèn)題可以被認(rèn)為是狀態(tài)序列S1，S2，S3，... Sn（狀態(tài)可以是例如圍棋/象棋板配置）。代理執(zhí)行操作并從一個(gè)狀態(tài)移動(dòng)到另一個(gè)狀態(tài)。在下文中，將學(xué)習(xí)確定代理在任何給定情況下必須采取的行動(dòng)的數(shù)學(xué)。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式1 馬可夫性質(zhì)(Markov property)

2.1馬爾可夫過(guò)程

馬爾可夫過(guò)程是描述一系列可能狀態(tài)的隨機(jī)模型，其中當(dāng)前狀態(tài)僅依賴(lài)于先前狀態(tài)。這也稱(chēng)為馬可夫性質(zhì)(Markov property)（式1）。對(duì)于強(qiáng)化學(xué)習(xí)，這意味著人工智能代理的下一個(gè)狀態(tài)僅取決于最后一個(gè)狀態(tài)，而不是之前的所有先前狀態(tài)。

馬爾可夫過(guò)程是一個(gè)隨機(jī)過(guò)程。這意味著從當(dāng)前狀態(tài)s到下一個(gè)狀態(tài)s'的轉(zhuǎn)換只能以某個(gè)概率Pss'（式2）發(fā)生。在馬爾可夫過(guò)程中，被告知要離開(kāi)的代理只會(huì)以一定的概率離開(kāi)（例如0.998）。由可能性很小的環(huán)境來(lái)決定代理的最終結(jié)果。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式2從狀態(tài)s到狀態(tài)s'的轉(zhuǎn)換概率

Pss'可以被認(rèn)為是狀態(tài)轉(zhuǎn)移矩陣P中的條目，其定義從所有狀態(tài)s到所有后繼狀態(tài)s'（等式3）的轉(zhuǎn)移概率。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式3轉(zhuǎn)移概率矩陣

記?。厚R爾可夫過(guò)程（或馬爾可夫鏈）是一個(gè)元組。S是一組（有限的）狀態(tài)。 P是狀態(tài)轉(zhuǎn)移概率矩陣。

2.2馬爾可夫獎(jiǎng)勵(lì)程序

馬爾可夫獎(jiǎng)勵(lì)過(guò)程是元組。這里R是代理希望在狀態(tài)s（式4）中獲得的獎(jiǎng)勵(lì)。該過(guò)程的動(dòng)機(jī)是，對(duì)于旨在實(shí)現(xiàn)某個(gè)目標(biāo)的人工智能代理，例如贏得國(guó)際象棋比賽，某些狀態(tài)（比賽配置）在戰(zhàn)略和贏得比賽的潛力方面比其他狀態(tài)更有希望。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式4 狀態(tài)的預(yù)期獎(jiǎng)勵(lì)

感興趣的主要話題是總獎(jiǎng)勵(lì)Gt（式5），它是代理將在所有狀態(tài)的序列中獲得的預(yù)期累積獎(jiǎng)勵(lì)。每個(gè)獎(jiǎng)勵(lì)都由所謂的折扣因子γ∈[0,1]加權(quán)。折扣獎(jiǎng)勵(lì)在數(shù)學(xué)上是方便的，因?yàn)樗苊饬搜h(huán)馬爾可夫過(guò)程中的無(wú)限回報(bào)。除了折扣因素，意味著我們未來(lái)越多，獎(jiǎng)勵(lì)變得越不重要，因?yàn)槲磥?lái)往往是不確定的。如果獎(jiǎng)勵(lì)是金融獎(jiǎng)勵(lì)，立即獎(jiǎng)勵(lì)可能比延遲獎(jiǎng)勵(lì)獲得更多利益。除了動(dòng)物/人類(lèi)行為表明喜歡立即獎(jiǎng)勵(lì)。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式5所有狀態(tài)的總獎(jiǎng)勵(lì)

2.3價(jià)值函數(shù)

另一個(gè)重要的概念是價(jià)值函數(shù)v（s）之一。值函數(shù)將值映射到每個(gè)狀態(tài)s。狀態(tài)s的值被定義為人工智能代理在狀態(tài)s中開(kāi)始其進(jìn)展時(shí)將獲得的預(yù)期總獎(jiǎng)勵(lì)（式6）。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式6價(jià)值函數(shù)從狀態(tài)s開(kāi)始的預(yù)期收益

價(jià)值函數(shù)可以分解為兩部分：

代理收到的即時(shí)獎(jiǎng)勵(lì)R（t + 1）處于狀態(tài)s。
狀態(tài)s后的下一個(gè)狀態(tài)的折扣值v（s（t + 1））。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式7分解價(jià)值函數(shù)

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

3.貝爾曼方程

3.1馬爾可夫獎(jiǎng)勵(lì)過(guò)程的貝爾曼方程

分解的值函數(shù)（式8）也稱(chēng)為馬爾可夫獎(jiǎng)勵(lì)過(guò)程的貝爾曼方程。該功能可以在節(jié)點(diǎn)圖中顯示（圖6）。從狀態(tài)s開(kāi)始導(dǎo)致值v（s）。在狀態(tài)s中我們有一定的概率Pss'最終在下一個(gè)狀態(tài)s'中結(jié)束。在這種特殊情況下，我們有兩個(gè)可能的下一個(gè)狀態(tài)為了獲得值v（s），我們必須總結(jié)由概率Pss'加權(quán)的可能的下一個(gè)狀態(tài)的值v（s'），并從狀態(tài)s中添加即時(shí)獎(jiǎng)勵(lì)。這產(chǎn)生了式9，如果我們?cè)谑街袌?zhí)行期望算子E，那么這只不是式8。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式8分解價(jià)值函數(shù)

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖6從s到s'的隨機(jī)過(guò)渡

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式9執(zhí)行期望算子E后的貝爾曼方程

3.2馬爾可夫決策過(guò)程 - 定義

馬爾可夫決策過(guò)程是馬爾可夫獎(jiǎng)勵(lì)過(guò)程的決策。馬爾可夫決策過(guò)程由一組元組描述，A是代理可以在狀態(tài)s中采取的一組有限的可能動(dòng)作。因此，現(xiàn)在處于狀態(tài)s中的直接獎(jiǎng)勵(lì)也取決于代理在這種狀態(tài)下所采取的行動(dòng)（等式10）。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式10 預(yù)期獎(jiǎng)勵(lì)取決于狀態(tài)的行動(dòng)

3.3政策

在這一點(diǎn)上，我們將討論代理如何決定在特定狀態(tài)下必須采取哪些行動(dòng)。這由所謂的政策π（式11）決定。從數(shù)學(xué)角度講，政策是對(duì)給定狀態(tài)的所有行動(dòng)的分配。策略確定從狀態(tài)s到代理必須采取的操作a的映射。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式11作為從s到a的映射的策略

在此記住，直觀地說(shuō)，策略π可以被描述為代理根據(jù)當(dāng)前狀態(tài)選擇某些動(dòng)作的策略。

該策略導(dǎo)致?tīng)顟B(tài)值函數(shù)v（s）的新定義（式12），我們現(xiàn)在將其定義為從狀態(tài)s開(kāi)始的預(yù)期返回，然后遵循策略π。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式12狀態(tài)價(jià)值函數(shù)

3.4動(dòng)作價(jià)值函數(shù)

除狀態(tài)值函數(shù)之外的另一個(gè)重要功能是所謂的動(dòng)作價(jià)值函數(shù)q（s，a）（式13）。動(dòng)作價(jià)值函數(shù)是我們通過(guò)從狀態(tài)s開(kāi)始，采取動(dòng)作a然后遵循策略π獲得的預(yù)期回報(bào)。請(qǐng)注意，對(duì)于狀態(tài)s，q（s，a）可以采用多個(gè)值，因?yàn)榇砜梢栽跔顟B(tài)s中執(zhí)行多個(gè)操作。Q（s，a）的計(jì)算是通過(guò)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。給定狀態(tài)作為輸入，網(wǎng)絡(luò)計(jì)算該狀態(tài)下每個(gè)可能動(dòng)作的質(zhì)量作為標(biāo)量（圖7）。更高的質(zhì)量意味著在給定目標(biāo)方面采取更好的行動(dòng)。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖7動(dòng)作價(jià)值函數(shù)的圖示

記?。簞?dòng)作價(jià)值函數(shù)告訴我們?cè)谔囟顟B(tài)下采取特定行動(dòng)有多好。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式13 動(dòng)作價(jià)值函數(shù)

以前，狀態(tài)值函數(shù)v（s）可以分解為以下形式：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式14分解的狀態(tài)價(jià)值函數(shù)

相同的分解可以應(yīng)用于動(dòng)作價(jià)值函數(shù)：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式15分解的狀態(tài)價(jià)值函數(shù)

在這一點(diǎn)上，我們討論v（s）和q（s，a）如何相互關(guān)聯(lián)。這些函數(shù)之間的關(guān)系可以在圖中再次可視化：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖8 v（s）和q（s，a）之間關(guān)系的可視化

在這個(gè)例子中處于狀態(tài)s允許我們采取兩種可能的動(dòng)作a。根據(jù)定義，在特定狀態(tài)下采取特定動(dòng)作會(huì)給我們動(dòng)作價(jià)值q（s，a）。動(dòng)作價(jià)值函數(shù)v（s）是在狀態(tài)s（式16）中采取動(dòng)作a的概率加權(quán)的可能q（s，a）的總和（其不是策略π除外）。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式16狀態(tài)價(jià)值函數(shù)作為動(dòng)作價(jià)值的加權(quán)和

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

現(xiàn)在讓我們考慮圖9中的相反情況。二叉樹(shù)的根現(xiàn)在是一個(gè)我們選擇采取特定動(dòng)作的狀態(tài)。請(qǐng)記住，馬爾可夫過(guò)程是隨機(jī)的。采取行動(dòng)并不意味著你將以100％的確定性結(jié)束你想要的目標(biāo)。嚴(yán)格地說(shuō)，你必須考慮在采取行動(dòng)后最終進(jìn)入其他狀態(tài)的概率。在采取行動(dòng)后的這種特殊情況下，你可以最終處于兩個(gè)不同的下一個(gè)狀態(tài)s'：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖9 v（s）和q（s，a）之間關(guān)系的可視化

要獲得動(dòng)作價(jià)值，你必須采用由概率Pss'加權(quán)的折扣狀態(tài)值，以最終處于所有可能的狀態(tài)（在這種情況下僅為2）并添加即時(shí)獎(jiǎng)勵(lì)：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式17 q（s，a）和v（s）之間的關(guān)系

現(xiàn)在我們知道了這些函數(shù)之間的關(guān)系，我們可以從Eq中插入v（s）。從式16插入到式17的q（s，a），我們獲得了式18中，可以注意到，當(dāng)前q（s，a）和下一個(gè)動(dòng)作價(jià)值q（s'，a'）之間存在遞歸關(guān)系。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式18 動(dòng)作價(jià)值函數(shù)的遞歸性質(zhì)

這種遞歸關(guān)系可以再次在二叉樹(shù)中可視化（圖10）。我們從q（s，a）開(kāi)始，以一定概率Pss'結(jié)束在下一個(gè)狀態(tài)s'，我們可以用概率π采取動(dòng)作a'，我們以動(dòng)作價(jià)值q結(jié)束（s'，一個(gè)'）。為了獲得q（s，a），我們必須在二叉樹(shù)中上升并整合所有概率，如式18所示。

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

圖10 q（s，a）的遞歸行為的可視化

3.5最優(yōu)政策

深度強(qiáng)化學(xué)習(xí)中最重要的主題是找到最優(yōu)的動(dòng)作價(jià)值函數(shù)q *。查找q *表示代理確切地知道任何給定狀態(tài)下的動(dòng)作的質(zhì)量。此外，代理商可以決定必須采取哪種行動(dòng)的質(zhì)量。讓我們定義q *的意思。最佳的動(dòng)作價(jià)值函數(shù)是遵循大化動(dòng)作價(jià)值的策略的函數(shù)：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式19最佳行動(dòng)價(jià)值函數(shù)的定義

為了找到最好的策略，我們必須在q（s，a）上大化。大化意味著我們只選擇q（s，a）具有最高價(jià)值的所有可能動(dòng)作中的動(dòng)作a。這為最優(yōu)策略π產(chǎn)生以下定義：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式19最佳行動(dòng)價(jià)值函數(shù)的定義

3.6 貝爾曼最優(yōu)性方程

可以將最優(yōu)策略的條件插入到式中。式18因此為我們提供了貝爾曼最優(yōu)性方程：

漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）

式21 貝爾曼最優(yōu)性方程

如果人工智能代理可以解決這個(gè)等式，那么它基本上意味著解決了給定環(huán)境中的問(wèn)題。代理在任何給定的狀態(tài)或情況下都知道關(guān)于目標(biāo)的任何可能行動(dòng)的質(zhì)量并且可以相應(yīng)地表現(xiàn)。

解決貝爾曼最優(yōu)性方程將成為即將發(fā)表的文章的主題。在下面的文章中，我將向你介紹第一種解決深度Q-Learning方程的技術(shù)。

網(wǎng)站名稱(chēng)：漫談自學(xué)習(xí)人工智能代理：馬爾可夫決策過(guò)程（第一部分）-創(chuàng)新互聯(lián)
URL地址：http://weahome.cn/article/dcephs.html

其他資訊

在線咨詢(xún)

微信咨詢(xún)

電話咨詢(xún)

028-86922220（工作日）

18980820575（7×24）

提交需求

返回頂部