【溫馨提示】 dwg后綴的文件為CAD圖,可編輯,無水印,高清圖,,壓縮包內文檔可直接點開預覽,需要原稿請自助充值下載,請見壓縮包內的文件,所見才能所得,下載可得到【資源目錄】下的所有文件哦--有疑問可咨詢QQ:1304139763 或 414951605
黃河科技學院畢業(yè)設計(文獻翻譯) 第 10 頁
畢業(yè)設計
文獻翻譯
院(系)名稱
工學院機械系
專業(yè)名稱
機械設計制造及其自動化
學生姓名
武迪
學號
080105505
指導教師
楊漢嵩
2012年 03 月 10 日 綜合性應急機器人的運動模式
M.M. Svinina,*, K. Yamadab, K. Uedab
無機仿生控制研究中心,理化學研究所,森山區(qū),名古屋463-0003,日本
機械工程,神戶大學,納達區(qū),神戶657-8501,日本
2001年5月7日,2001年9月17日
本文研究的是穩(wěn)定的步態(tài)運動機器人的出現(xiàn)。一個分類器的系統(tǒng),正在加強實施學習計劃,步態(tài)機器人是用于八條腿感官機器人的電機控制合成。機器人沒有對環(huán)境的先驗知識和自己的內部模型。這僅僅是個假設,機器人能夠獲得通過學習如何達到目標區(qū)域的穩(wěn)定步態(tài)。在學習過程中的控制系統(tǒng)是由鋼筋信號自組織。到達目標區(qū)域。德納一個全球性的獎勵,提出議案得到當地的獎勵,而退一步失敗的話卻得到當地處罰。隨著學習的進展,在分類器系統(tǒng)的操作規(guī)則的數量穩(wěn)定在一定水平,相應的步態(tài)模式。根據仿真和實驗測試所提出的自組織系統(tǒng)的可行性。最小的模擬模型不需要構造復雜的計算方案只用于模擬。仿真數據,被下載到真正的機器人控制系統(tǒng),來發(fā)展最小的機器人模型??傮w而言,10個模擬數據成功
運行了7個真正的機器人。?Elsevier科學有限公司保留所有權利。
1. 分類器系統(tǒng)
我們的方法是用機器人控制系統(tǒng)進行建模,由一個分類器系統(tǒng)輸出控制命令回應一個感官輸入。在分類器系統(tǒng)中,實際觀測空間和行動傳感器操作規(guī)則確定的狀態(tài)空間映射到確定的行為。
該傳感器狀態(tài)空間的發(fā)展,作為學習進步,其結構是自組織(圖2)。分類器系統(tǒng)的結構類似于威爾遜提出的最基本的一個系統(tǒng)結構[28]。本質上的區(qū)別在于建立它的連續(xù)狀態(tài)與動作空間。
1.1運動規(guī)則
讓ns作為傳感器的數量和x={ x1,…,xn }T作為機器人的感官輸入。應該系統(tǒng)是一套操作準則,R. 準則r∈R定義如下:r;=
, V={ v1,…, vns }T是狀態(tài)向量與記憶的準則,W={w1,…, wns}T是權重向量,u是準則的效用,a是準則r相應的操作活動。實用u實在學習過程中的一個實數表示的相對值。它沒有任何直接的物理意義,并只可能與相關準則的力量和內部能量相聯(lián)系。該實用程序可能具有生物學意義,因為它是從準則的父繼承和稍后的進化過程中改變的。
在某種意義上,如果V匹配當前的感管輸入X,準則r變得活躍,能激發(fā)其作用。權重向量W是用來比較V和X的。wi∈[0,1]是荷蘭的‘不在意’符號的連續(xù)模擬。當wi接近于零是,第i個傳感器測量就不那么重要了。其中W=0是所謂的無限期準則。在目前的狀態(tài)X下無論任何地方的機器人都可以被激活。所有其他的準則都是明確的。他們可以被附近的V激活,使用重量W定義在其附近。準則的特異性:作為衡量明確的準則。其中λ是時間依賴的尺度參數。當λ接近1時,準則規(guī)定的行為會有更多的反應。另一方面,隨著λ越接近0,行為便變得更加積極主動(即會有更多不受限制地在探索環(huán)境的方式)。
其實,在我們的實現(xiàn),這是不夠的,僅僅保留一個模糊期準則。R中的所有其他準則都是明確的。開始R是由最初實用u0模糊準則分配的。隨著學習的進步,R,nr的總數通過復制和廢止而變化。
1.2運動選擇
在R中與對方進行權利競爭會引發(fā)他們的運動。對于所有rj∈R的準則,目前感官狀態(tài)X和準則的狀態(tài)向量Vj之間的加權距離定義為:其中,dk是隨時間變化的縮放參數,它被定義為在學習過程中觀察到的第k個傳感器的最高和最低值之間的最大區(qū)別。
接下來,我們定義匹配率:其中,Tm是一個常數。注意的是即使沒有明確的準則匹配的感官輸入X,模糊的準則也總是起作用。事實上,不管是否遇到狀態(tài)X,W=0和m=1總是匹配。這使得模糊準則可能的候補得以被選擇。這在學習過程的開始特別重要,模糊準則往往認為是新準則的執(zhí)行和新準則生成的重要因素。
也要注意,當模糊準則被執(zhí)行,與此活動相關的準則按照[amin,amax]均勻分布隨機生成。
成功的準則是按照概率加權的方法給出了的玻爾茲曼分布:參數T的溫度含義是保持設置的狀態(tài)空間開發(fā)和探索之間的平衡。
1.3信貸分配
公用事業(yè)的準則是每次更新后,優(yōu)勝者將執(zhí)行其活動。實用調整機制包括以下幾個部分。
直接收益分配。直接收益分配P是只在特定狀態(tài)下給予優(yōu)勝者的準則。其中有兩種類型:回報(P>0)和懲罰(P<0)。回報是沿著規(guī)則的順序傳播,從而引發(fā)他們的活動折扣率γ(即當前和以前的優(yōu)勝者):其中N是優(yōu)勝者鏈的深度,0<γ<1。這相當于分享利潤盈利的策略在隨著時間逐漸貼進一步向后倒退。在這里,rw(1)是rw的父類,而rw(2)又是rw(1)的父類,以此類推。
桶橋策略。當前的優(yōu)勝者rw交其用途的一部分,Δu,恢復到以前的優(yōu)勝者,rw:要注意的是準則rw(1)增加了其效用。然而,我們沒有減少的規(guī)則rw實用性,這是我們的戰(zhàn)略和傳統(tǒng)之間的主要區(qū)別。如果觸發(fā)的動作只由數量有限的準則(R的子集)和他們遞交ΔU到另一個準則決定,那么每個準則的效用有望逐步收斂到這些規(guī)則之間的最高效用。因此,行動準則,以這種方式進行合作,可以存活一段時間,這期間的回報是很少的。這可以根據自組織的準則尋找一個最終的獎賞。
征稅。每當一個明確的準則rw觸發(fā)其活動,其效用被更新為:準則rw激活率cf比照支付的成本,以防止死鎖或循環(huán)的行為。在某種意義上說,準則是征稅的執(zhí)行權。需要注意的是模糊準則是免稅的,因為它的主要功能是生成新的規(guī)則。
蒸發(fā)。當機器人到達目標狀態(tài)時,所有的規(guī)則都減少他們實用蒸發(fā)率η<1:從某種意義上講,它所對應的是‘通貨膨脹’。其效用低于閾值以下的規(guī)則將被刪除。
1.4復制
在選擇優(yōu)勝者規(guī)則rw的時候,我們執(zhí)行與此規(guī)則相關的行動aw。接下來的事情就是我們應該關心行動之后的執(zhí)行以及效用的調整,這個過程就是復制過程。在我們的系統(tǒng)中,除了rw觸發(fā)的行動導致倒退或者崩潰這種情況,優(yōu)勝者規(guī)則rw總是生成一個新規(guī)則rc(孩子規(guī)則)。復制過程的詳細信息形式化如下。
如果優(yōu)勝者是模糊規(guī)則,復制的規(guī)則參數就設置為:vic=xi,wic=1,i=1,…,ns。
我們稱之為‘經驗記憶’。效用的新規(guī)則,其作用的代碼是通過父類實現(xiàn)的:ac=aw,uc=uw。
另一方面,如果優(yōu)勝者是一個明確規(guī)則,我們試圖‘推廣經驗’,那么新產生的規(guī)則是廣義的。
要注意的是,即使其匹配率mw<1,具有較高的實用uw的規(guī)則rw也可以在競爭中取勝。在我們的系統(tǒng)中,優(yōu)勝者再次提供的一個通用的規(guī)則rc的匹配率mw,是在某一確定的閾值θr,i.e,mw<θr范圍內。下面的表達式是與θr有關的實用規(guī)則uw的表達式:θr=exp(-Truw)。其中Tr是個常量。言下之意是,具有較高匹配率但實用性低的規(guī)則,我們允許其通過復制障礙,反之亦然。
Vc和Wc為廣義新規(guī)則載體的設置如下:vic=xi,wic=1-|xi-vic|\di,i=1,…,ns.
為新的廣義規(guī)則的代碼實用性和靈活性設置為:ac=aw,uc=λcuw。
要注意的是,上述形成的新的廣義規(guī)則可以和一個更加寬廣的狀態(tài)空間相匹配,其中包括其父類的狀態(tài)。
2. 模擬實驗與測試結果
首先,學習步驟的可行性需要用模擬實驗來檢驗。如果機器人到達目標區(qū)域,或者產生的行動步驟超過500,程序就會更新一次。參數設置如下:全局獎勵P=5,本地獎勵P=5,對應行為的懲罰P=-5%, u0=10, umin=9.5, cf=0.015, γ=0.8, к=0.1, η=0.98, T=3, Tm=100, Tr=0.5。
10次模擬實驗連續(xù)進行,每一次的動作都會進化。模擬的不同僅在于初始生成的隨機數量。圖10中顯示了機器人第6次和第9次的運動軌跡。兩次都到達了目標區(qū)域。注意即使在成功案例中,機器人也沒有使用最短路徑。實際上,前進方向的數據并沒有放進傳感器的學習步驟里。因此,選擇不同的前進方向,并沒有對應的懲罰或者獎勵操作。另外一點,盡管機器人并不是直線到達目標區(qū)域,但腿部的運動模式一直很穩(wěn)定。
圖11中展示了學習過程的動態(tài)曲線。記錄了到達目標區(qū)域,所經歷的懲罰,獎勵以及必須步驟的數目。圖表中,機器人得到的全局獎勵由向下的箭頭標示。很顯然,隨著學習過程的進展,懲罰的次數逐漸減少。
圖11. 學習記錄
圖12展示了規(guī)則的總數,固定規(guī)則的數量,以及生成規(guī)則的數量。分別以點連線,細線,粗線表示。
圖12. 規(guī)則的生成
學習的動態(tài)過程展示了規(guī)則的總數,和到達目標區(qū)域的必須步驟的數量之間,有相應的關系。也就是說,總數減少之后,必須步驟也隨即減少。并且,懲罰的數量和新生成規(guī)則的數量之間,也有相應的聯(lián)系。這就間接說明,不定規(guī)則的探索能力,逐漸可以歸納為有效固定規(guī)則的開發(fā)功能。實際上,僅有少量的固定規(guī)則才能產生“有用”的行為來引發(fā)機器人的動作,并且增強這些動作的實用性。同時,“不相關”規(guī)則的實用性逐漸降低,并且最終消失。因此,一段時間過后,剩余的規(guī)則就能發(fā)揮主導作用。
到達目標的必須步驟在第35節(jié)之后,開始變得穩(wěn)定。這是因為機器人掌握了一定的行為規(guī)則。圖13中展示了機器人第90次的腿部動作記錄。
圖13. 腿部動作
模擬環(huán)境下,控制裝置生成新行為的能力不斷進化,現(xiàn)在也能夠在試驗中得到驗證。模擬數據(第90次以后的規(guī)則)被下載到機器人OCT1-b的控制系統(tǒng)中,會執(zhí)行一次實驗動作。在這次實驗動作中,機器人被相同的分類系統(tǒng)所控制。
整體來說,控制真實機器人的10次模擬數據中,有7次是成功的。為了說明實驗結果,我們選擇了一次成功的數據和一次不成功的實驗行為數據。機器人在第6次和第9次模擬實驗中的行為見圖14。在模擬試驗中進化出的直線前進的動作與不完美的模擬數據相比,并不健壯。這給了我們引出了另一個問題,就是修正模型中的噪點,并且在存在干擾因素的環(huán)境下,進化機器人的控制系統(tǒng)。
圖14. 真實機器人行為
圖15展示了實驗階段里機器人的步伐(腿部動作的角度)。所有的測試中,即使是失敗案例,機器人都在嘗試跟隨模擬實驗里的運動模式。某種意義上來說,動作步驟所組成的行為模式,可以看作是機器人控制系統(tǒng)中基因的組成“材料”。
圖15. 腿部動作記錄
3 總結
出現(xiàn)在運動機器人的穩(wěn)定步態(tài)研究在這個文件。一個分類器系統(tǒng),實施實例基于強化學習計劃,用于感官八條腿的移動機器人的電機控制。機器人沒有先驗知識的環(huán)境,其自己的內部模型,和目標坐標。這只是假設機器人可以通過學習獲得穩(wěn)定的步態(tài)如何達到目標區(qū)。在學習過程中的加固信號控制系統(tǒng)是自組織。達到光源德納一個全球性的獎勵。向前議案獲得當地的獎勵,同時加強和下降沿下得到當地的懲罰??刂菩袆?。如學習進步,在數量上的行動規(guī)則分類器系統(tǒng)穩(wěn)定到一定程度。因此,運動模式全球行為(穩(wěn)定步態(tài))出現(xiàn),作為規(guī)則分類器系統(tǒng)的自我學習期間舉辦的過程。提出系統(tǒng)的可行性進行測試下仿真和實驗。虛擬船模型建造和使用不斷變化的機器人控制器在模擬環(huán)境下。驗證模型。
本文所提出的結果我們初步運動模式的新興合成研究運動機器人。因此,有足夠的空間?在未來應解決的關鍵點?例如,最小的模型似乎工作以及簡單導航任務,但其性能尚未測試更復雜的行為。接下來,分類器系統(tǒng),我們作為一個學習.引擎有許多參數調整到最佳值。此外,我們并沒有使用正規(guī)系統(tǒng)的程序,以評估性能因為這是一個不平凡的問題。在這方面,工作[31]的結果可能會提供一些??有價值的見解。
談到的框架,進一步發(fā)展最小的仿真模型,我們認為計算簡單最小的機型應該是成反比,控制對象的復雜性成正比??紤]隨著時間的簡單性和復雜性變化依靠數量上的學習經驗,正常模式也可以被視為在一個可進化的方式。?“進化的組件將允許關閉控制循環(huán)和減少學習控制器之間的差距。正在使用該模型。從這個角度來看,它會有趣的建立和利用之間的二元(行動狀態(tài)的映射)模型和控制器(狀態(tài)到動作映射)在開發(fā)協(xié)同進化場景。這里的關鍵問題是在之間的關系真實的評價和自我評價。在為了得到一些如何真正評價的頻率基本的了解下,發(fā)展個人計算時間,我們計劃探測相對簡單的一維或二維的問題控制任務。