一区二区三区风骚黄色片,精品国产99高清一区二区三区

如果以哈利波特視角打開Sora"劇本" | 達(dá)開腦洞

發(fā)布日期：2024-02-24

微信圖片_20240226084428.png

新年開工第一周，迎來OpenAI再次發(fā)布大殺器級別產(chǎn)品Sora的“轟炸”。技術(shù)流分析在你的訂閱列表里不斷更新，我們希望從一個(gè)更好玩的視角打開Sora的“劇本”，或許能激發(fā)我們更多的思考。

本文來自超級充電站，作者Stella 蔡康淇

|| 魔法思維盆：腦海里有，Sora就有

在魔法世界里，記憶高深的魔法師，比如鄧布利多，可以用魔杖從太陽穴拉出一根綿長的銀絲，再置于石盆中，化成可以跳進(jìn)去沉浸式體驗(yàn)的「記憶」。第一次看這個(gè)情節(jié)，就覺得如果大腦里想到的東西，可以這樣方便地有選擇性地還原出來，呈現(xiàn)給其他人，一定是一件非常有趣的事。當(dāng) OpenAI 拿出 Sora 模型，好像這件事已經(jīng)要實(shí)現(xiàn)了。

Sora 是發(fā)布 ChatGPT 的公司 OpenAI 最新發(fā)布的一個(gè)「文字生成視頻」的模型，與以往其他的 AI 視頻模型不同，Sora 可以根據(jù)用戶提供的文字描述生成最長達(dá) 1 分鐘的高清視頻，也就是你想到了什么，告訴它，它就幫你「實(shí)現(xiàn)」。Sora 生成的可以是常規(guī)的單個(gè)畫面視頻，也可以是有切分的多視角/多畫面視頻，并且畫面非常流暢穩(wěn)定，人物/主體對象沒有畸變，還包含復(fù)雜的鏡頭調(diào)度。

OpenAI 官網(wǎng)上發(fā)布的 Sora 生成視頻，提示詞是：「在印度孟買的一場冬季風(fēng)暴期間，一只可愛的袋鼠穿著藍(lán)色牛仔褲和白色 T 恤在悠閑地漫步?！?/span>

除了基本的「文生視頻」功能，Sora 還能夠生成高清圖像（2048 x 2048）、使靜止的圖片動(dòng)起來（圖片轉(zhuǎn)視頻）、向前或向后延長視頻（AI 補(bǔ)全）、對已有的視頻做出調(diào)整/改變，以及將兩個(gè)視頻巧妙地連接起來（在視頻之間形成順滑合理的過渡）等。

上傳一張圖片，然后加上文字描述，Sora 就可以根據(jù)你的描述將圖片轉(zhuǎn)化成視頻。

原始視頻中車是在森林里開，將它上傳到 Sora，Sora 就可以讓它「開」到海底、恐龍世界等超乎現(xiàn)實(shí)的地方，還可以改成游戲畫風(fēng)，或者直接讓場景回到中世紀(jì)馬車時(shí)代。在這個(gè)過程中，主體「車」始終保持在畫面中央，前進(jìn)速度和鏡頭運(yùn)行方式也保持一致。

將無人機(jī)飛越古城的視頻（最左）和蝴蝶在海底的視頻（最右）都上傳給 Sora，Sora 就可以將兩個(gè)視頻很好地銜接起來：先把無人機(jī)替換成蝴蝶，然后逐漸把古城變成海底生物的質(zhì)感（看中間的這張圖），最后完全變成蝴蝶在海底的視頻。

使用方面，目前 OpenAI 沒有公布向公眾開放 Sora 的計(jì)劃，應(yīng)該是要進(jìn)行進(jìn)一步的評估和優(yōu)化。同時(shí)，OpenAI 也篩選了部分視覺藝術(shù)家、設(shè)計(jì)師和電影工作者來收集使用反饋，目前 Twitter 上已經(jīng)有非常多受邀人士發(fā)布了自己的作品。

Sora 團(tuán)隊(duì)成員 Bill Peebles 發(fā)布的作品，給 Sora 的提示詞是：「一座巨大的大教堂里全是貓。放眼望去，到處都是貓。一個(gè)男人走進(jìn)大教堂，向坐在王座上的巨型貓王鞠躬。」在這 20 秒的視頻里，這個(gè)男人說了一段話，貓王給出了情緒反應(yīng)，而且最后還走到了這個(gè)男人身邊，就像一個(gè)完整的電影片段。

盡管 Sora 最大的特點(diǎn)是「模仿現(xiàn)實(shí)」，能夠生成非?！刚鎸?shí)」的視頻畫面，但目前 Sora 模型也存在明顯的弱點(diǎn)，比如它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系，比如，一個(gè)人咬了一口餅干，但之后視頻里的餅干卻沒有咬痕。它還可能混淆空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。

Sora 生成的視頻不能準(zhǔn)確地模擬玻璃杯掉下來摔碎的動(dòng)作，杯子摔下來之后似乎跟底下的液體融為了一體。

不過，Sora 目前出現(xiàn)的錯(cuò)誤其實(shí)大部分人并不能馬上看出來，已經(jīng)達(dá)到了所謂「混淆視聽」的能力。例如在官方放出的 demo 當(dāng)中，有一個(gè)猴子下棋的視頻（見下圖），看起來栩栩如生，但是它的棋盤和棋子其實(shí)是不完全符合現(xiàn)實(shí)中的棋盤和棋子的模樣/規(guī)則的。這不得不讓人有些擔(dān)心，就像 ChatGPT 回答問題的時(shí)候經(jīng)?！负巵y造」一樣，如果 Sora 開放給公眾使用，出現(xiàn)一系列真實(shí)程度不明的視頻，可能也很容易誤導(dǎo)受眾，這時(shí)候就體現(xiàn)出「Facebook 標(biāo)記 AI 生成內(nèi)容」的重要性。

Sora 生成的猴子下棋視頻，當(dāng)中的棋子數(shù)目顯然是不對的，棋盤也有點(diǎn)奇怪，當(dāng)然也不排除這是屬于猴子的「棋」……

|| 湯姆·里德爾魔法日記：ChatGPT開始有記憶

魔法世界里不僅有能自己寫字的筆，還有能跟記憶對話的「魔法日記」，它屬于小時(shí)候的伏地魔——湯姆 · 里德爾。當(dāng)羅恩的妹妹金妮開始在日記上寫自己的心情的時(shí)候，湯姆就在紙面上「復(fù)活」了。

如果這個(gè)寫日記的人是你自己，而你可以跟自己的記憶對話，這種感覺是不是也很妙？

OpenAI 稱本周將對部分用戶開放 ChatGPT 的「記憶」功能，但沒有透露更大規(guī)模應(yīng)用的時(shí)間表。使用此功能的用戶可以自主選擇是否讓聊天機(jī)器人「記得」他們在對話當(dāng)中透露的信息，比如家里有幾個(gè)人、喜歡旅行、寫 Summary 需要特定格式等……或者也可以直接告訴 ChatGPT 希望它「記得」某些信息，或者「忘記」某些信息。這樣用戶就不需要每開一次新的對話窗口就重復(fù)一遍信息了，能夠節(jié)省很多時(shí)間，同時(shí)也對自己的信息有直接的控制權(quán)。

OpenAI 舉了一些例子來說明「記憶」功能的實(shí)用性，比如，如果你告訴 ChatGPT 你擁有一家咖啡店，那么下次當(dāng)你向 ChatGPT 詢問有沒有什么好的社媒點(diǎn)子來慶祝一個(gè)新店開張的時(shí)候，它就會(huì)知道也許是你提過的這家咖啡店開張了。又比如，如果你說過家里有一個(gè)嬰兒非常喜歡水母，那么下次當(dāng)你問它能不能幫忙生成一張給寶寶的生日賀卡時(shí)，它就會(huì)記得在賀卡上放一些水母元素。

其實(shí)當(dāng)前 ChatGPT 在去年 7 月份已經(jīng)發(fā)布過一個(gè)叫「Customize ChatGPT」的功能，允許 Plus 版本的用戶「自定義」他們的 ChatGPT，讓聊天機(jī)器人記得一些基本信息，比如對用戶的稱呼、用戶在什么地點(diǎn)、用戶的工作內(nèi)容和愛好、希望 ChatGPT 答復(fù)的語氣和長度等，不過這都是用戶主動(dòng)輸入并且可以隨時(shí)修改的信息。比如當(dāng)我輸入了「請叫我 Stella」以及「我有一只柯基叫椰子」這些信息之后，ChatGPT 就會(huì)在對話中使用這些信息，當(dāng)我提到「我的狗」，它就「知道」是「椰子」（見下圖）。OpenAI 表示這個(gè)功能在「記憶」功能開放之后也將繼續(xù)發(fā)揮作用。

此外，GPT 商店中的個(gè)性化 GPT 也將享有「記憶」功能，這也將帶來許多便利，比如，如果你在用一個(gè)推薦書籍或者電影的 GPT，那么 GPT 就會(huì)記得你的喜好，以及你跟它說過你曾經(jīng)看過什么書或者影片，讓推薦更精準(zhǔn)。

不過，壞處當(dāng)然是很多用戶會(huì)擔(dān)心的隱私問題，對此，OpenAI 表示，這個(gè)功能用戶是可以自主決定開關(guān)的，并且他們也可以直接要求機(jī)器人「抹去」某次對話的內(nèi)容。功能開啟之后，用戶也可以使用「臨時(shí)對話」模式，這個(gè)功能不會(huì)調(diào)用「記憶」，也不會(huì)創(chuàng)建「記憶」。

|| 麻瓜錯(cuò)誤：不要嘗試讓GPT用左手寫字!

AI犯錯(cuò)的「麻瓜時(shí)刻」——生成圖像時(shí)的錯(cuò)誤。

不知道你有沒有發(fā)現(xiàn)，ChatGPT 有一些總是無法辦到的事情，比如接下來要說的這三件：它無法生成「左手寫字」的圖像，無法生成「任意時(shí)間」的鐘表，也無法生成「兩只眼睛在同一邊」的人。

當(dāng)嘗試讓它生成左手寫字/吃飯/打籃球的圖像時(shí)，它總是假裝它生成的是左手，但其實(shí)圖像里永遠(yuǎn)還是在用右手。

更有趣的是，當(dāng)讓 GPT 生成一張小朋友正在辨認(rèn)自己的左右手的圖片，并且要求它在圖上標(biāo)注左右時(shí)，它生成的圖像中左和右指向的是同一個(gè)方向。

第二件事，當(dāng)讓它生成圓盤時(shí)鐘時(shí)，無論輸入什么時(shí)間，它生成的永遠(yuǎn)是十點(diǎn)十分。據(jù)說這是因?yàn)榇蟛糠值臅r(shí)鐘廣告當(dāng)中展示的「時(shí)間」都是十點(diǎn)十分，因?yàn)檫@樣時(shí)針和分針會(huì)形成一個(gè)有趣的「V」字形狀，視覺上更平衡和愉悅；另外，鐘表的 logo 一般都會(huì)在「12」下面，十點(diǎn)十分的時(shí)候 logo 正好在正中間，能得到最好的展示。也許是 GPT 過多地「學(xué)習(xí)」了這些鐘表的圖片，所以默認(rèn)鐘表時(shí)間都是十點(diǎn)十分？

最后，ChatGPT 無法生成眼睛長在同一邊的人，也無法生成嘴巴長在額頭上的人，以此類推。這似乎比較好理解，畢竟現(xiàn)實(shí)中也沒有這樣的人，影視作品中也很少，AI 沒有數(shù)據(jù)可以借鑒，也無法理解。

當(dāng)我們用哈利波特視角打開Sora"劇本"，這個(gè)魔法世界，是否已經(jīng)來到了身邊？還有一個(gè)問題，我們需要分院帽嗎？

精品日本一区二区三区免费,欧美一区1区三区3区公司,日韩av无码久久一区二,文中字幕一区二区三区视频播放

新聞中心