據(jù)外媒報道,近日,谷歌大腦展示了如何讓機器人沒有目標地“玩”也可以變得更聰明。谷歌通過模擬遠程操縱機器人獲得了一個數(shù)據(jù)集“Learning from Play data(LfP)”。在遠程操作中,研究人員讓機器人用機械手和機械臂與現(xiàn)實世界交互,但是沒有具體的目標。
谷歌將這個數(shù)據(jù)集用于系統(tǒng)內(nèi),該系統(tǒng)試圖對這些有趣的動作序列進行分類,并將它們映射到一個潛在的空間。同時,系統(tǒng)中的另一個模塊試圖查看潛在空間并提出可以將機器人從其當前狀態(tài)轉(zhuǎn)換到其目標狀態(tài)的動作序列。
谷歌將使用這個數(shù)據(jù)集的方法與使用行為克隆技術(shù)等方法做比較,結(jié)果發(fā)現(xiàn)使用LfP數(shù)據(jù)集的機器人表現(xiàn)更穩(wěn)定,且在大部分任務(wù)中成功率都較高。有趣的是,研究人員還發(fā)現(xiàn),使用LfP數(shù)據(jù)集訓(xùn)練的機器人在首次失敗后會多次重新嘗試完成任務(wù),且在從未接受過任務(wù)標簽訓(xùn)練的情況下,機器人的潛在規(guī)劃空間會學(xué)會嵌入任務(wù)語義。