七七影院色七七_免费观看欧美a一级黄片_亚洲综合久久久久久中文字幕_国产999999在线视频免费观看,国产小视频无码,国产精品亚洲日日摸夜夜添,女人高潮潮叫免费网站,久久影院国产精品,日韩成人在线影院,欧美囗交XX×BBB视频,色在线综合高清

機(jī)械社區(qū)

 找回密碼
 注冊會員

QQ登錄

只需一步,,快速開始

搜索
查看: 9347|回復(fù): 11
打印 上一主題 下一主題

如何讓機(jī)器人通過自學(xué)習(xí)的方式學(xué)會玩“石頭、剪刀,、布”游戲,?

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
1#
發(fā)表于 2016-4-8 17:44:57 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
本帖最后由 劉景亞 于 2016-4-11 18:26 編輯 - u! d9 q1 V; `( t
( h4 `7 O; r; [/ ~* m3 P& X
前段時間的人機(jī)圍棋大戰(zhàn)賺足了人們的眼球,Google公司的AlphaGO也使機(jī)器學(xué)習(xí)和深度學(xué)習(xí)讓更多的人有了一定的了解,可謂做了一次很好的科技普及。
) _) b" k3 M# i1 E$ y現(xiàn)在我們從簡單問題入手,如何基于機(jī)器學(xué)習(xí),,通過自學(xué)習(xí)的方式讓機(jī)器人學(xué)會玩“石頭、剪刀,、布”游戲,?9 X# V: y% K' N
不知大家有何建議?歡迎大家發(fā)言參加討論,。

2 G$ Q3 u! w, N*******************************************************************************************% W$ L; |4 E: L4 ~
分割線以上為原貼& R# f7 A1 k, q( k: o/ B, d6 N2 X
*******************************************************************************************2 C9 @! }4 s+ W5 \0 u
非常感謝各位大俠的參與和討論,。
3 |4 p2 o/ O0 B8 l關(guān)于機(jī)器人玩“石頭、剪子,、布”游戲,,我本打算分三個問題和步驟和大家一起探討�,?吹接懻撝�,,大家對這三個方面都有所涉及。0 }/ T! K, M" l7 V
下面我把我對這個問題的認(rèn)識拋出來與大家交流分享,。
! n( e: D; D1 E7 H$ |要讓一個機(jī)器人玩“石頭,、剪刀、布”,,我們分三步走,。
0 f, D8 R: s4 o, @5 O第一步,,如何讓機(jī)器人通過自學(xué)習(xí)的方式學(xué)會游戲規(guī)則?比如,,一開始機(jī)器人并不知道石頭、剪子和布,,哪個贏哪個,,要玩游戲首先得學(xué)會規(guī)則。當(dāng)然要實現(xiàn)這一步,,有比較簡單的辦法,,最直接的是程序員編程時,直接定義這個規(guī)則,,這是以前經(jīng)常用的傳統(tǒng)的方法�,,F(xiàn)在我們想通過一種新的方法來實現(xiàn),讓機(jī)器人像小孩一樣,,通過不斷地實踐,、摸索和總結(jié)掌握這個規(guī)則,也就是自學(xué)習(xí)和機(jī)器學(xué)習(xí),。
" d0 _1 w# z% s8 u8 T第二步,,如何讓機(jī)器人在掌握規(guī)則后大概率獲勝?: [7 A  e1 I, X  {1 g. h- q
第三步,,能不能通過一種方法,,使機(jī)器人在每局對戰(zhàn)時100%獲勝?% @# P  O1 d1 i- O
*****************************************************************************************7 }2 Z5 b) b6 X% G/ e
關(guān)于第一步,,可以用如下方法實現(xiàn):讓機(jī)器人和人對戰(zhàn),,在對戰(zhàn)的實踐過程中訓(xùn)練機(jī)器人,使其不斷自學(xué)習(xí)以掌握規(guī)則,。在對戰(zhàn),,人始終隨機(jī)出,機(jī)器人一開始并不知道規(guī)則,,也隨機(jī)出,。贏了有獎勵,輸了有懲罰,,隨著對戰(zhàn)次數(shù)的增多,,機(jī)器人就會對出拳的種類形成“價值判斷”。在訓(xùn)練過程中,,機(jī)器人會反復(fù)判斷,,是隨機(jī)出還是基于已經(jīng)學(xué)到的部分知識。經(jīng)過不斷訓(xùn)練,,機(jī)器人就會學(xué)會游戲規(guī)則,。這個過程區(qū)別于以往的程序員直接定義,和人類的學(xué)習(xí)過程十分類似。
. J+ A( x& F' G3 z; F那么這個方法有沒有效果,,我們驗證一下,。
  A- Z4 b  i% S% U6 x5 e下圖是我與機(jī)器人玩25局的情況,注意這個機(jī)器人一開始并不知道游戲規(guī)則,。我隨機(jī)出拳,,機(jī)器人一開始也隨機(jī)出,贏了獎勵,,輸了懲罰,。大家會發(fā)現(xiàn),從第11局開始,,機(jī)器人就已經(jīng)完全掌握了規(guī)則,。
! g( _3 ]! h% @) X! }' s. `# h$ S+ [2 ?) G! c
+ Y6 o5 s+ L, m$ k; o

5 v$ f1 `. \- s+ I- A/ j8 B* U$ C( e( w, `
3 x0 @8 g- ?- f6 `$ u

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號,?注冊會員

x
2#
發(fā)表于 2016-4-8 17:54:56 | 只看該作者
這種純概率的東西,,要做算法是很簡單,但是勝率要提上去不容易啊

點評

我們要想一種方法,,最終實現(xiàn)100%獲勝,。  發(fā)表于 2016-4-11 18:20
3#
發(fā)表于 2016-4-8 18:15:31 | 只看該作者
應(yīng)該上一個圖形處理系統(tǒng),先分辨對面這家伙是誰,,再決定怎么玩,,* ?% I6 f" b! {( Q9 @

; d7 u# Y' l6 K$ U  {) L% I人的活動,是有固定姿態(tài)的,,比如下一步怎么活動,,有細(xì)微表現(xiàn),,總結(jié)了這些姿態(tài),就可以勝了對面的家伙,," V3 Z2 o% g) D* P5 U
4 j/ K* {8 V0 G

點評

998大俠高人,,這是我們做這個系統(tǒng)的最終目的和最高境界。  發(fā)表于 2016-4-11 18:21
8也的觀點讓我想起了那個很有名的猜拳理論,。高舉拳,,將注意力放在對方的手上,在出手的一瞬間,,按照人的行為習(xí)慣,手會有一個瞬時的形態(tài)變化,,據(jù)此可判斷對方出的是什么,。只要眼力好,勝率超過95%  發(fā)表于 2016-4-9 02:24
8爺,,久仰大名,。他表達(dá)的不是這個意思,他舉得是圍棋的例子,。所以他想要知道的是邏輯上的自學(xué)習(xí),,簡單點說,就是第一次和這個人下棋因為走這一步輸了,,下次他就不會再走這步了,。是類似這種邏輯怎么用程序?qū)崿F(xiàn),  發(fā)表于 2016-4-8 20:04
8爺,,久仰大名,。他表達(dá)的不是這個意思,他舉得是圍棋的例子,。所以他想要知道的是邏輯上的自學(xué)習(xí),,簡單點說,就是第一次和這個人下棋因為走這一步輸了,,下次他就不會再走這步了,。是類似這種邏輯怎么用程序?qū)崿F(xiàn),  發(fā)表于 2016-4-8 20:03
八爺學(xué)過心理學(xué)吧,,我有一親戚,,以前流行喝酒猜拳的時候,陌生人頂多剛開始會輸幾把,。熟人逢他必喝,,假如他想喝了才會故意輸。就是機(jī)靈,,觀察細(xì)致  發(fā)表于 2016-4-8 18:22
4#
發(fā)表于 2016-4-8 18:38:22 | 只看該作者
本帖最后由 crazypeanut 于 2016-4-8 18:39 編輯
6 k6 l6 M4 S0 a2 D8 h( Z1 P3 C9 ]3 D: _
如果不考慮心理學(xué)因素的話,,猜拳不是博弈系統(tǒng),,是一個純概率系統(tǒng),樣本空間為(剪,,石),,(剪,布),,(剪,,剪),(石,,剪),,(石,布),,(石,,石),(布,,剪),,(布,石),,(布,,布)7 e; P( X1 ]8 L
) u8 s$ L+ F& m% ~% l* M
獲勝組合是(剪,布),,(石,,剪),(布,,石),,概率為1/3,相應(yīng)的,,平局組合和輸?shù)艚M合均為1/3% {: J1 e: W& g) |1 k# \! F

9 S1 r" ?+ t( D) D$ i' x因此,,如果沒有心理學(xué)算法在里面,用隨機(jī)算法隨機(jī)選擇出拳的話,,獲勝幾率不會超過1/3
9 z8 u4 D' G7 W: U: p3 j! u' S# d5 a3 d9 d' l7 v) E
而將心理學(xué)因素考慮進(jìn)去,,就像8爺所說的,要加上圖形系統(tǒng),,增加了復(fù)雜性,,也偏離了正道0 K8 P9 _2 E" Z8 r2 ~$ }
' Z$ s2 e2 a! |' ^" e8 s2 i
個人建議,選擇五子棋或者黑白棋作為研究對象更合適,,五子棋和黑白棋應(yīng)該算是最簡單的博弈系統(tǒng)了,,棋子就黑白兩種,相對容易處理! u* L0 ~' Y9 e/ h

* [3 v' L8 s+ |, X有人可能說井字棋更簡單,,但是作為博弈系統(tǒng),,井子棋有不敗的策略,,沒有太大的研究價值

點評

我在主樓對該系統(tǒng)做了進(jìn)一步說明,歡迎探討交流,。  發(fā)表于 2016-4-11 18:22
之前好像有一個日本的機(jī)械手,,就是這么干的,動作相當(dāng)靈活  詳情 回復(fù) 發(fā)表于 2016-4-8 19:06
998那方法,,是“作弊”的方法,,相當(dāng)于滯后一步。要是根據(jù)上一步出法,,就是考慮心理學(xué),,博弈和統(tǒng)計,求個概率勝法,。  發(fā)表于 2016-4-8 18:56
5#
發(fā)表于 2016-4-8 19:06:20 | 只看該作者
crazypeanut 發(fā)表于 2016-4-8 18:38 + K: C( I8 p3 J' B( V, _% A
如果不考慮心理學(xué)因素的話,,猜拳不是博弈系統(tǒng),是一個純概率系統(tǒng),,樣本空間為(剪,石),,(剪,,布),(剪 ...

# H( @( q8 V- |& @" `之前好像有一個日本的機(jī)械手,,就是這么干的,,動作相當(dāng)靈活
# z3 _: O! t3 R

點評

實質(zhì)就是這樣的了,又不是下象棋,。象棋之類的話還要一個內(nèi)核,,一個掃描和伺服。你就石頭剪刀布的話就用幾個氣缸也可以控制手勢  發(fā)表于 2016-4-11 19:17
日本東京大學(xué)的研究室  發(fā)表于 2016-4-11 18:22
6#
發(fā)表于 2016-4-8 19:54:31 | 只看該作者
     玩石頭剪刀布沒問題,。很簡單,。生成1 2 3 隨機(jī)數(shù)分別代表石頭剪刀布。  自學(xué)習(xí)估計這個論壇里懂得就少了,。去個程序員論壇估計能弄明白自學(xué)習(xí)的程序的都不多,。頂多就是 分析下 這個人出什么的概率,和出完什么再出什么的概率,。然后弄個算法分析下他會出什么的概率最大,。再高科技點,就分析他出什么之前的渾身表情動作等,。

點評

歡迎交流探討  發(fā)表于 2016-4-11 18:23
7#
發(fā)表于 2016-4-8 20:25:16 | 只看該作者
這是一個隨機(jī)概率的問題,,石頭,剪刀,,布就是三個動作點,,然后隨機(jī)輸出一個動作點就會呈現(xiàn)一個動作就好了,,從理論上來講是完全可行的

點評

實質(zhì)就是這樣的了,又不是下象棋,。象棋之類的話還要一個內(nèi)核,,一個掃描和伺服。你就石頭剪刀布的話就用幾個氣缸也可以控制手勢  發(fā)表于 2016-4-11 19:17
這個思路可進(jìn)一步探討  發(fā)表于 2016-4-11 18:24
8#
發(fā)表于 2016-4-8 20:45:29 | 只看該作者
樓主的意思應(yīng)該是“如何讓機(jī)器人學(xué)會玩剪刀石頭布”,,而不是“使機(jī)器人玩”剪刀石頭布吧……
5 f0 p8 w" E5 s- x樓上都跑偏了吧

點評

大家討論的問題都會涉及,,我在主樓做了進(jìn)一步說明。  發(fā)表于 2016-4-11 18:24
9#
發(fā)表于 2016-4-9 07:58:07 | 只看該作者
可以根據(jù)對方出拳的情況,,用多項式擬合,,然后用多項式預(yù)測下一步對方出什么,對方每出一次拳,,就修正多項式

點評

這個方法可行性可進(jìn)一步討論  發(fā)表于 2016-4-11 18:25
10#
發(fā)表于 2016-4-11 10:14:52 | 只看該作者
用上“分歧終端機(jī)”呢,,非誠勿擾里的那個

點評

可作為應(yīng)用案例  發(fā)表于 2016-4-11 18:25
您需要登錄后才可以回帖 登錄 | 注冊會員

本版積分規(guī)則

小黑屋|手機(jī)版|Archiver|機(jī)械社區(qū) ( 京ICP備10217105號-1,,京ICP證050210號,,浙公網(wǎng)安備33038202004372號 )

GMT+8, 2025-4-24 04:43 , Processed in 0.057927 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回復(fù) 返回頂部 返回列表