|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯 8 [& `" Y! g. z! U
. h \( q" A( A1 o! [. P/ [讓GPT-4操縱人形機器人,,事先不做任何編程or訓練,,能搞成啥樣兒,?
; _/ Y1 R( d1 P; x7 i5 Z9 e8 p& \6 ~7 W" P
答案是:太 獵 奇 了,!* O8 b2 A2 f6 _& e5 M4 n' a5 s
( V/ l- g6 W2 O: M& g這不,,要求機器人表演“在昏暗電影院里狂炫爆米花,,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的😅”。: }' d% ~5 P8 v
- e/ _+ }$ I5 o" f: {3 f/ ~! `
在GPT-4的操縱下,,機器人笑容凝固,,“尷尬”得搖頭扶額后仰:7 r- L2 S0 z! \0 g" R% s* ^
0 I- v% r7 c% V' i1 i; A
5 M" u, t, U( k1 `; L9 y( I
( ^: u" @' b* |7 s- w6 |, b& l 但在尷尬之余,竟然還不忘再抓一把塞嘴里,?,?,?又像是要求機器人“彈吉他”。
$ M% ^! M0 D0 M: R) [; r _. z, l" }* y0 ~* M
GPT-4略思考一番,,開始操控機器人活動一番手指,、隨后瘋狂甩頭,好像是有點搖滾內味兒,。但仔細一看,,甩頭的時候,手指就完全不動了……
, _8 g# Y1 m9 P7 o
* A" Z9 a) V) X9 C
. x% {0 @3 y6 `' Z) U c, \* L x 你要說這是神叨叨的地攤先生在掐指一算,,好像也沒什么不對(手動狗頭),。
; w) M' y8 S! w6 v
6 J' z" V: k- @總結一系列動作來看——+ h, k$ t" v8 a
! l& v: @0 @* ?) C+ @2 D7 m7 ]
相比波士頓動力人形機器人,一舉一動均由人為程序精細操縱,,這個GPT-4直接操控的機器人,,表情猙獰,動作詭異,,但一切行為又符合prompt的要求,。: V. D6 ]7 T+ {1 G" e0 Q
0 w! F: Z) N7 H
m( M3 x3 u, `* A, s' J% j0 |; @- b1 g; p i
這一連串GPT-4操控機器人的視頻po到網上后,不少網友直呼“恐怖谷效應犯了”:3 n5 G. P/ W( }
Z: N, H! u+ U4 z6 B- o+ P原來,,這是首個由GPT-4驅動人形機器人的研究,,來自東京大學和日本Alternative Machine公司。 0 z4 s& f% }; ?, J" m
# q2 r0 r! r$ p7 P: [
* [! k; I" @$ u. B9 H; m& r 依靠這項研究,,用戶無需事先給機器人編程,,只需語言輸入、也就是動動嘴皮和GPT-4聊上一會兒,,就能讓機器人根據指令完成行動,。) t: q1 h( p( b
& g4 T4 c$ i% [2 u8 o7 B 0 f) F: [' i* }& h" Q
6 a# [" z# `- C$ l- h 來具體講講把GPT-4和Alter3集成到一起,是如何實現(xiàn)的,。! n* d7 }. `5 P" `: p7 ]* d
7 q& h# Q% `+ {% e+ t& p大體可以分為兩個步驟:2 O! S# O; `( d# J2 [" c. N
7 p& G* B$ H& c/ E F' S首先,,先用prompt描述一下,想要Alter3能夠完成什么行為或者動作,,比如“咱來張自拍吧”“自拍的時候胳膊再舉高一點”,。) B/ i m; E( D+ ^
8 e! r, l* _+ O% R0 G4 o: f5 T接收到輸入的GPT-4會生成一系列的思考步驟,這些步驟詳細地闡述了要完成這個動作,,需要先后完成些啥,。
8 w6 M( t4 t9 p/ q
' G/ c/ y+ P1 B2 E# X; r- I$ q這個過程被研究團隊稱為CoT的一部分,即將一個復雜任務分解為一串更簡單的思考步驟,。7 B: e0 p/ x' ~8 b
( b( k* W$ i: a( ^6 Z然后,,研究者們再祭出另一個prompt,把分解后的詳細步驟轉化為Alter3可以聽懂的動作指令。4 `9 @; F! {( k4 {
9 {5 ~ D( }) [! M' I& w7 ]: d簡單理解就是把人們的指令描述轉化為Python代碼,,這些代碼可以直接用來控制Alter3的各個身體部位的具體運動參數(shù),。8 d) ~$ z% X @' F
5 p! ?" n* H H3 b
有了轉化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,,想撇嘴就能撇嘴; k: S( u# ^# j9 f3 u0 D
0 I) Y- ]0 G5 q0 K9 y, n# U研究團隊把這第二步也看成CoT的一部分,,因為它完成的是“把一個抽象描述轉化為具體操作”。
9 A" |1 N8 A- c) r* ]4 x) H$ O& g* R+ A0 j: M7 B
) [* w7 l" A1 L* w: }2 j" \
- J4 @, T! p7 M2 ^( D+ m* ~( Z; R% X6 Y
團隊表示,,CoT讓GPT-4能夠有效控制Alter3,,命令它做各種復雜動作,且不用額外的訓練或者微調,。- l. T. W% {; }
! l# A0 n) X7 Z
多說兩句,,除了上述的兩個Prompt搞定機器人控制外,研究團隊還順手完成了一些其它研究,。* D8 k) K \& {7 {7 Z; V
( p+ p5 `, t" _2 I7 H' X& E1 Y比如掰開了看Alter3在對話中的行為,主要針對其對話軌跡和語義時間演化,。
2 F4 ?; F! L$ `, N2 H0 ~8 {) _" H% S* o% {
針對對話軌跡,,研究團隊使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團隊把對話內容嵌入二維空間,,從而方便觀察這個簡化版的對話發(fā)展過程,。3 m' n* m* e2 q' |+ S
, x/ `# ^" j0 w; F e' X% L! j) T他們發(fā)現(xiàn),當對話順序固定時,,對話軌跡會呈現(xiàn)循環(huán)模式,,也就是老在重復同樣的話題。7 @8 t" k9 e5 |$ j
. S) s2 Q Y, Z( A2 U) _
而當對話順序隨機時,,對話內容更有發(fā)散性or創(chuàng)造性,。# W8 Z. @7 s/ s
! J: p' e, n2 r7 [- z1 o& d) A. B賊有趣的一點,研究發(fā)現(xiàn)GPT-4聊久了過后,,會傾向于反復說“再見”,。如果你不來點兒人為干預,它就會沉迷于想辦法跟你說再見,。' \- V, y0 s3 [# y$ C
3 d" H8 v. A" [( U: N
而做語義時間演化分析的過程中,,團隊觀察了隨著時間變化,聊天內容的變化,。
) R, S# e$ ^8 @5 C/ U
* I( }* B" r% C6 w1 M他們發(fā)現(xiàn),,對話初期的一些關鍵詞,比如“藝術”或者“學習”啥的,,會聊著聊著就被GPT-4忘了,,取而代之的是諸如“文化”“人類”“抑制”之類的詞。- P8 Q# \* V# v/ |# b! G
6 @# y+ A& @1 F+ W4 C5 S) A
這表明對話內容是在逐漸發(fā)展變化的。
. c/ T: k: ^1 Y7 [1 S5 |0 j; m( n$ C! w+ P& {
當然,,如果你開始跟GPT-4說“再見”,,它就幾乎一心一意只想跟你說byebye~(doge)
5 k8 ^5 l8 C0 l
! U, D4 l. X" n$ E這項火爆全網的研究,來自東京大學和日本Alternative Machine公司,。
$ f, R; Y. }+ q7 ]0 d7 }6 v+ @* [2 ?& ?, n/ }; {
一作Takahide Yoshida,,來自東京大學通用系統(tǒng)科學系。9 n# ] B" L, l: A
' c* T S2 H1 {另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),,都是既在東京大學,,又屬于Alternative Machine公司。
/ y+ ?/ z( Y, o4 s' g( \2 r& k/ j5 N2 H" K
5 n" `( C* d# ?) }) T# w
" Z3 u% a6 O8 G0 ?1 d 最后,,不得不提到本次研究內容的主人公Alter3,,它的幕后研究者也來自東京大學,由東京大學AI研究學者池上高志和日本“機器人之父”石黑浩聯(lián)袂打造,。
9 d* s9 k' w& i. o9 [. L2 e1 z3 u c
2 v& b |" }' Y( F+ dAlter3出生于2020年,,是同系列機器人第三代產品。 U7 C0 ]7 [# z% M+ U; ?
( k0 a4 R2 L5 F0 F5 M據了解,,Alter系列的兩次迭代都是在歌劇演唱中完成的,。第3代的初亮相就是在東京新國立劇場指揮管弦樂隊并參加其他現(xiàn)場表演。
) E2 C1 y+ Q/ }# ~; T n( c6 v5 ?' H0 @ b9 J* s) o4 H1 v
# b' O% y9 s0 B6 q V0 w
& R$ S2 Y( L) m5 G1 O% d 那個時候它的特色是增強了傳感器,,并改善了唱歌的表達能力和發(fā)聲系統(tǒng),。' w+ k+ V3 g- U
3 |1 {4 C7 Y) F/ Z+ V N" w9 t/ O
以及身體里那粒能夠最終驅動43個氣動裝置的CPG。1 X9 W- \6 \; ?; ^$ i
`3 i E$ F. H) P# D3 g
CPG對數(shù)據的分析靈敏到什么程度呢,?就是如果Alter3呆的房間里如果溫度驟降,,Alter3會因此打個冷顫,表示自己有被冷到,。/ p$ |, v+ f# c& V" b
: g6 k7 ~' a1 y$ n" D! ^
3 J- k! D1 ^8 _這或許也為現(xiàn)在接入GPT-4當腦子后的它,,能夠活靈活現(xiàn)做表情、完成動作提供了一些基礎吧,。
- E1 W1 r2 i1 i8 ~
G7 q0 J& C7 w* e# B4 I& K4 n' x
6 P2 I, Q, J3 m% z5 \7 I; o7 H5 A |
|