|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯
1 B. E8 D" d- y1 t5 e" F* i8 ^) ?& K2 B) t9 f6 q) d0 z- X, c( |
讓GPT-4操縱人形機(jī)器人,事先不做任何編程or訓(xùn)練,,能搞成啥樣兒,?
$ N: v* j& Q! U& s
: Q1 T7 }- @6 O9 v$ v答案是:太 獵 奇 了!
0 P6 G: F, E$ W0 f, E& N5 u3 Z2 R6 s% o* ^
這不,,要求機(jī)器人表演“在昏暗電影院里狂炫爆米花,,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的😅”。+ ~, v( P7 n' q/ Y
; M- j. N, P9 N' ^* M" T5 V在GPT-4的操縱下,,機(jī)器人笑容凝固,,“尷尬”得搖頭扶額后仰:
' G( r+ S. i' k3 i3 |
, h+ E+ q! A" B, k8 o) c0 T2 ^# \7 ]" J7 O2 q! i F4 `
& } J* Y/ o/ Y5 T+ N 但在尷尬之余,竟然還不忘再抓一把塞嘴里,?,??又像是要求機(jī)器人“彈吉他”,。
$ Y9 m0 w$ u# X0 @" \# M& S. I* C$ f# a& Z' A/ _/ `4 U$ Q
GPT-4略思考一番,,開始操控機(jī)器人活動(dòng)一番手指、隨后瘋狂甩頭,,好像是有點(diǎn)搖滾內(nèi)味兒,。但仔細(xì)一看,甩頭的時(shí)候,,手指就完全不動(dòng)了……+ l1 c+ v0 J N3 a6 `9 Q( O
* `& ^5 K: V w9 _" U0 v' t$ Z- j+ Q$ l0 k: z3 L, \; i8 W
你要說這是神叨叨的地?cái)傁壬谄敢凰�,,好像也沒什么不對(duì)(手動(dòng)狗頭)。 @0 J/ L, f7 { f
8 D% x( o8 N; o$ J O3 _( L1 F
總結(jié)一系列動(dòng)作來看——9 G) q; J8 M) D) I9 F
& L8 E" }2 i% i" ^' L7 ^5 {* }相比波士頓動(dòng)力人形機(jī)器人,,一舉一動(dòng)均由人為程序精細(xì)操縱,,這個(gè)GPT-4直接操控的機(jī)器人,表情猙獰,,動(dòng)作詭異,,但一切行為又符合prompt的要求。
9 p9 f2 v' v8 Q' D& R7 `. r- L, o" v: s4 a. r4 P1 b9 w s. p: ~
8 ^( C" g6 ?5 R# I4 ^- J* I* R* f4 a u) ~2 I4 ~
這一連串GPT-4操控機(jī)器人的視頻po到網(wǎng)上后,,不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”:3 B+ m9 R& r4 i2 B% A0 z
5 t4 a+ s1 s% ~1 {原來,,這是首個(gè)由GPT-4驅(qū)動(dòng)人形機(jī)器人的研究,來自東京大學(xué)和日本Alternative Machine公司,。 2 q/ m& ~! [2 S
( O2 c% ? W0 r8 g- | O
- w' J. D, y6 O& c
依靠這項(xiàng)研究,,用戶無需事先給機(jī)器人編程,只需語言輸入,、也就是動(dòng)動(dòng)嘴皮和GPT-4聊上一會(huì)兒,,就能讓機(jī)器人根據(jù)指令完成行動(dòng)。
. ]6 w1 u; e7 q8 \" l
& o. n. M3 V9 \) I) u$ I. s/ ^+ O# i1 z: p
( m1 Y, m. v' ^% _, K ~ 來具體講講把GPT-4和Alter3集成到一起,,是如何實(shí)現(xiàn)的,。+ r V) Q7 a6 x6 K' p8 |8 P
1 _, c$ t; \1 R( J: W) ^6 e
大體可以分為兩個(gè)步驟:
, k1 l8 l& [, s* O
0 c8 y! E" n7 E首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動(dòng)作,,比如“咱來張自拍吧”“自拍的時(shí)候胳膊再舉高一點(diǎn)”,。5 m, h) A- _6 K3 s' G" ]6 \6 _
/ S# `$ B$ G$ l1 Y! P* W9 X
接收到輸入的GPT-4會(huì)生成一系列的思考步驟,這些步驟詳細(xì)地闡述了要完成這個(gè)動(dòng)作,,需要先后完成些啥,。5 _4 L7 b$ X8 b4 }7 n$ r# E
]; h2 F R& Z8 @
這個(gè)過程被研究團(tuán)隊(duì)稱為CoT的一部分,即將一個(gè)復(fù)雜任務(wù)分解為一串更簡(jiǎn)單的思考步驟,。! P2 [ e+ O* }" t
# V: I! y# D; S0 O
然后,,研究者們?cè)偌莱隽硪粋(gè)prompt,把分解后的詳細(xì)步驟轉(zhuǎn)化為Alter3可以聽懂的動(dòng)作指令,。; C6 T j5 ~. V5 ]( S; i
, O* P3 `5 ]2 x& W: K# N' p簡(jiǎn)單理解就是把人們的指令描述轉(zhuǎn)化為Python代碼,,這些代碼可以直接用來控制Alter3的各個(gè)身體部位的具體運(yùn)動(dòng)參數(shù)。
3 y, K" h0 ^: h! z9 a" i6 B% y
: g, @( v; g4 u" Z有了轉(zhuǎn)化后的代碼,,Alter3想擠眉弄眼就擠眉弄眼,,想撇嘴就能撇嘴
Q+ d2 ] j k- M7 y4 e$ M# W" ^8 r4 t; u
研究團(tuán)隊(duì)把這第二步也看成CoT的一部分,因?yàn)樗瓿傻氖恰鞍岩粋(gè)抽象描述轉(zhuǎn)化為具體操作”,。0 i% u) O! s1 J% G; k% P+ u6 h
1 Z/ q# Q8 t5 e. C' p3 y/ m( H
H7 q- Y" R; _+ Z( {# g2 ?2 M
. f9 m, e: u- r0 p1 d 團(tuán)隊(duì)表示,,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復(fù)雜動(dòng)作,,且不用額外的訓(xùn)練或者微調(diào),。
/ h1 [3 K) l% V% [! t: r7 ?2 M! R( M; j* Q" Q4 I
多說兩句,除了上述的兩個(gè)Prompt搞定機(jī)器人控制外,,研究團(tuán)隊(duì)還順手完成了一些其它研究,。
; l) ?; j" `3 z0 L5 M* W
0 }+ Y) @; l w0 s- F9 M" u! [比如掰開了看Alter3在對(duì)話中的行為,主要針對(duì)其對(duì)話軌跡和語義時(shí)間演化,。( e" L/ m+ ] i: h2 V# j
2 U7 V; p8 L7 y2 M$ [5 b% f針對(duì)對(duì)話軌跡,,研究團(tuán)隊(duì)使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團(tuán)隊(duì)把對(duì)話內(nèi)容嵌入二維空間,,從而方便觀察這個(gè)簡(jiǎn)化版的對(duì)話發(fā)展過程,。
7 ?- P; `! T X6 T, u8 ]8 J9 v
+ q0 T$ H2 n! N/ g: q' K他們發(fā)現(xiàn),當(dāng)對(duì)話順序固定時(shí),,對(duì)話軌跡會(huì)呈現(xiàn)循環(huán)模式,,也就是老在重復(fù)同樣的話題。
: H1 Y+ N j# w$ k q2 i( ?' c' N* n) u
而當(dāng)對(duì)話順序隨機(jī)時(shí),,對(duì)話內(nèi)容更有發(fā)散性or創(chuàng)造性,。3 J& \) ~2 V) M' J7 @( v0 v W
8 L2 I& l) _0 }賊有趣的一點(diǎn),研究發(fā)現(xiàn)GPT-4聊久了過后,,會(huì)傾向于反復(fù)說“再見”。如果你不來點(diǎn)兒人為干預(yù),它就會(huì)沉迷于想辦法跟你說再見,。
0 C% E+ @: z' h# p' e, t# x* E# X# [; J0 D$ q
而做語義時(shí)間演化分析的過程中,,團(tuán)隊(duì)觀察了隨著時(shí)間變化,聊天內(nèi)容的變化,。, r" V0 b/ k# y! x( d7 ~- `/ T+ E
* Z0 i) R- b/ S9 E- r$ P他們發(fā)現(xiàn),,對(duì)話初期的一些關(guān)鍵詞,比如“藝術(shù)”或者“學(xué)習(xí)”啥的,,會(huì)聊著聊著就被GPT-4忘了,,取而代之的是諸如“文化”“人類”“抑制”之類的詞。
2 ^, W- r" \- O# j2 U t' {# W0 r) [6 C5 l7 N+ f+ t
這表明對(duì)話內(nèi)容是在逐漸發(fā)展變化的,。
, S7 r1 p* A/ v9 f+ V% q& a6 Q0 D7 u* B) I
當(dāng)然,,如果你開始跟GPT-4說“再見”,它就幾乎一心一意只想跟你說byebye~(doge)
[4 j5 L8 y# `5 X) o8 s I
* J$ F; B4 x6 X) o! p- e! I這項(xiàng)火爆全網(wǎng)的研究,,來自東京大學(xué)和日本Alternative Machine公司,。2 @ b0 C+ z3 t% b2 T) t
% ]; K% p& y4 g* p7 Q1 A- {
一作Takahide Yoshida,來自東京大學(xué)通用系統(tǒng)科學(xué)系,。* N7 |* }3 O: K1 h8 m. Q
2 Y3 X/ E5 m& ~) A9 y: M1 d3 w另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),,都是既在東京大學(xué),又屬于Alternative Machine公司,。/ b' v) x1 B8 \. ^! t+ {5 f
0 F# ?% @3 m# a. Q' ^9 g2 w
% R1 G/ `5 F+ _4 \
/ p2 B, Q5 V( ?4 ?. P0 b 最后,,不得不提到本次研究?jī)?nèi)容的主人公Alter3,它的幕后研究者也來自東京大學(xué),,由東京大學(xué)AI研究學(xué)者池上高志和日本“機(jī)器人之父”石黑浩聯(lián)袂打造,。5 D' ~7 Z1 Q, p# n. ?# Z
+ ~0 v& m) K+ C+ w
Alter3出生于2020年,是同系列機(jī)器人第三代產(chǎn)品,。
( y; D2 B: f2 V( L, @' q& n/ R. B6 \% S! W
據(jù)了解,,Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國(guó)立劇場(chǎng)指揮管弦樂隊(duì)并參加其他現(xiàn)場(chǎng)表演,。
% A h, j! C! c7 a' H8 T
1 G- M8 Q1 Q/ |* t& Z1 h5 A) E
, Y& y& f0 q* A1 L
' i1 e+ b; _; K3 K T( H 那個(gè)時(shí)候它的特色是增強(qiáng)了傳感器,,并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)。
+ L3 E i! x. Y9 Z/ P4 {# M. G) A3 M) o, p
以及身體里那粒能夠最終驅(qū)動(dòng)43個(gè)氣動(dòng)裝置的CPG,。
4 p }' z) i: z% P
; r! d8 B. J& z) P2 j' SCPG對(duì)數(shù)據(jù)的分析靈敏到什么程度呢,?就是如果Alter3呆的房間里如果溫度驟降,Alter3會(huì)因此打個(gè)冷顫,,表示自己有被冷到,。" n) g; @" y( Y! R7 g" V0 ~1 i+ j4 U/ J: b
8 J% C. H1 @& Y" m
4 z8 M. _1 v1 w這或許也為現(xiàn)在接入GPT-4當(dāng)腦子后的它,能夠活靈活現(xiàn)做表情,、完成動(dòng)作提供了一些基礎(chǔ)吧,。- O4 u" X8 u! x4 W: u
M0 D9 H9 k2 U7 K9 g [* e: L3 N
+ `+ A, b k1 c9 m5 e+ Q- O* ] |
|