對話《AI風險聲明》發起人：蒸汽機不會讓人類滅絕，但AI會！

2023-06-13 04:11:34

本文系騰訊新聞《潛望》作者張小珺發自北京

圖片來源：由無界AI工俱生成

半個月前，包括OpenAI CEO Sam Altman、圖靈獎得主Geoffrey Hinton在內的數百名人工智能頂尖人士，聯名簽署了一封關於AI對人類滅絕存在威脅的簡短聲明。

這聲明只有一句話——“減輕人工智能的滅絕風險應該與流行病和核戰爭等其他社會規模風險一起成為全球優先事項。”

劍橋大學人工智能研究助理教授David Krueger是這封信最早的發起人之一，也是簽名者。

6月9日，Krueger在出席2023北京智源大會上期間，與騰訊新聞《潛望》進行了一次深度對話。他長期關注AI對齊與安全問題，從2012年起就開始憂慮人工智能對於人類滅絕的潛在風險，業界將此稱為“X-Risk”（An existential risk）。

針對AI風險，一種觀點反駁稱，這種強烈的擔憂可能與幾百年前蒸汽機出現時人類的過度驚慌有相似之處。但Krueger稱，兩者最大不同是，蒸汽機不會讓人類滅絕，但AI會。

Krueger認為，AI比人類更聰明，無序的競爭，以及構建對世界產生更直接影響的AI系統——這三重因素都會極大增加人工智能係統失控的風險係數。 “系統越是開放、越是自主、越是智能，並且越是旨在實現長期目標，系統失控的風險就越大。”他說。

在他看來，人工智能的安全問題就像全球氣候變化問題一樣，各方有各自的利益，會有諸多衝突與分歧，最終使之成為複雜的全球協調問題。因此必須儘早開始，通過各方努力，才能讓人類不至於淪落至被AI接管的命運。

只有這樣，人類才能活下去。

大衛克魯格

以下為David Krueger的談話精要。

01《AI風險聲明》聯名信僅一句話，是精心設計的

**騰訊新聞《潛望》：你是《AI風險聲明》（Statement on AI Risk）簽署者之一，能不能告訴我們，這封聲明是怎樣誕生的？ **

David Krueger：我一年多前就有了這樣的想法，原因是人們對AI的風險，特別是AI可能會導致人類滅絕的風險越來越關注。與此同時，很多人並沒有公開討論這個問題。

一個重要原因是歷史緣故，這個觀點曾被視為邊緣想法，人們擔心公開討論會給他們帶來負面影響，甚至影響職業前景。

幾個月前，好時機來了。自從ChatGPT和GPT-4發布，人們對AI的關注達到空前。很長一段時間，人們承認這可能是假設性的未來問題，但現在為時過早。

至於這個聲明是如何產生的，我聯繫了一些同事，包括人工智能安全中心的負責人Dan Hendrycks。我告訴他我們應該做這樣一份聲明，而且我打算盡快做。但我不確定自己是否有足夠的能力完成。它十分緊急。於是，Dan接過這個話題，推動了聲明發表。

**騰訊新聞《潛望》：你對這封信的措辭提供了什麼意見？ **

David Krueger：我提議只使用一句話來表達。原因有幾個。

首先，當你有較長陳述，很可能會有人對其中某些內容持不同意見。

我們在幾個月前看到，生命未來研究所（Future of Life Institute）發表呼籲：所有人工智能實驗室立即暫停訓練比GPT-4更強大的人工智能係統至少6個月。很多人對此的反應是，聽起來不錯，但我認為我們無法暫停人工智能的發展。

當然他們發表這個聲明仍然很有效，因為一旦人們說我們無法暫停，就是我們需要採取行動的跡象。我們確實需要有能力暫停一項過於危險而不應該開發的技術。

我使用這個例子是為了說明，當你說得越多，人們就越有不同意見。在這種情況下，我們沒有提如何處理這個風險，因為人們對正確方法有不同看法；我們也沒有說為什麼它可能導致人類滅絕，因為不同的人對此有不同看法——有些人更擔心技術被濫用，另一些人更擔心技術失控，而這不是某個惡意行為者故意造成的結果。

無論哪種方式，只要有很多人認同這是巨大風險，我們需要採取行動，那就可以了。

02AI風險與蒸汽機有本質差異

**騰訊新聞《潛望》：人們對於人工智能威脅的擔憂，與兩三百年前人們對蒸汽機的恐懼，最大差別是什麼？ **

David Krueger：對於那段歷史，我了解不多。我不確定當時是否有人說過會導致人類滅絕。如果有人這樣說過，我也不確定他們會使用什麼樣的論點，對我來說，似乎不太可能。

關鍵區別在於我們討論的是滅絕。我們討論的是一種可能比人類在各種相關能力上更聰明、更強大的技術。

蒸汽機使我們能創造比人類更強大、更快速的物理力量。但蒸汽機並不具備智能，相對容易控制。即使其中一個失控，最糟糕的情況也只是它出故障，上面的人可能會死亡或受傷。但是，如果一個智能係統或者一個能夠自我複制的系統失控了，很多人可能會死亡，因為它可以成長並獲得更多力量，這是關鍵區別。

**騰訊新聞《潛望》：有些人認為公開聲明只能阻止好人，試圖讓好人加強對安全問題的關注、減緩研發速度，但卻無法阻止壞人的行動。我們如何預防壞人呢？ **

David Krueger：通過監管和國際合作來規範行為。

我不太喜歡用“好人”和“壞人”來談論這個問題，因為每個人總是認為自己是好人。我擔心的主要風險不是一些壞人或惡意行為者對人工智能係統進行惡意操作，而是類似氣候變化的問題——個人可能會從燃燒更多化石燃料或製造更難控制的更強大系統中獲得更多利益，但每個人都要承擔一些代價。在氣候變化的情況下，這會對環境造成損害。在人工智能的情況下，風險是系統失控並導致滅頂之災。

這更多是一個激勵問題。事實上，人類更關心自己、朋友、親人和社區，而不是世界另一邊的某個陌生人。因此，並不需要惡意意圖，只需要自私本能。這就是為什麼需要監管，這是解決這類人類共同利益問題的方式。

03AI對齊工作有大量未解之謎

**騰訊新聞《潛望》：你的研究興趣是深度學習、AI對齊和安全，能不能用普通人能聽懂的語言解釋什麼是對齊（Alignment）？你說過“對齊將是AI發展的關鍵驅動力之一”，為什麼它如此重要？ **

David Krueger：我喜歡說人們對此有三種不同理解。一種是使AI系統按照我們的意願行動。但我不認為這是一個好定義，它太寬泛了，每個工程師都在嘗試讓AI系統按照他們的意願行動。

還有一個更具體的定義，即“意圖對齊”。在我看來這是正確定義，是指讓系統試圖按照我們的意願行動。在設計系統時，你希望它具有正確的意圖、動機和目標。它仍然可能無法按照你的意願行動，因為它可能缺乏能力，也可能不夠聰明，不知道如何實現你的意願。但如果它具有正確的意圖，你可以說它是對齊的。

人們對對齊的最後一種含義是任何減少人類滅絕風險的技術努力。有時，也指像我這樣專注於對齊與安全這個領域的人所在的社區。這也不是我喜歡的定義。這只是人們針對如何解決這個問題的一個想法。但最終，在治理、監管和國際合作方面還需要進行更多工作，例如締結條約，這是緩解這一風險所必需的。

**騰訊新聞《潛望》：科技公司和科研機構在對齊技術上最近取得了哪些新進展？面臨最迫切的挑戰和難題是什麼？ **

David Krueger：最重要的是針對大型語言模型的微調技術，他們已經做了很多工作改變模型的行為。比如，GPT-3和GPT-4的區別在於，對系統進行了對齊，能更多地按照設計者的意圖行動。主要是通過強化學習和人類反饋實現，儘管具體細節並不公開。這在很大程度上取得了成功，但它並沒有完全消除這些模型存在的問題。

我擔心這種技術對於更強大的系統可能不足夠，因為它對行為的改變可能相對錶面。隨著系統更強大，這個問題可能變得更嚴重。

這有點像訓練動物的比喻，就像你訓練一隻狗不上家具。也許當你在場時，它在這方面表現得非常好，但如果你離開房間，它仍然上家具。類似情況可能會發生在這些模型中。它們看起來可能是對齊的，但如果它們認為我們不會注意到它們的不當行為，它們仍然會表現不良。

**騰訊新聞《潛望》：當AI智能比人類聰明很多時，人類怎麼在一個超級智能體上完成對齊工作？ **

David Krueger：這是一個開放性研究問題。因此，進行AI對齊的研究很重要，就是為了找到這個問題的答案。

**騰訊新聞《潛望》：我們如何通過對齊，使AI愛護人類而不是傷害人類？ **

David Krueger：這與前一個問題是一樣的。我希望我有一個答案，但目前還不知道。

04這三大誘因能增加AI失控風險

**騰訊新聞《潛望》：你認為，如今這個時間點處於AI歷史上的什麼時刻？ **

David Krueger：我們已經到了世界都開始意識到風險的時刻。我等待這個時刻到來已經很久了。

**騰訊新聞《潛望》：你從十年前聽Geoffrey Hinton教授的深度學習課程後，就開始擔心AI可能導致人類滅絕。你為什麼在這麼早的階段開始憂慮？ **

David Krueger：我從原則上就擔心在某個時候會發生這種情況，因為總有一天它會比人類更聰明，但當我看到Hinton的課程時，我的擔憂發生了變化。深度學習的潛力比我之前聽說的其他方法更大，可以產生真正的智能。

**騰訊新聞《潛望》：在什麼情況下，人工智能係統會失控？ **

David Krueger：第一，如果它們比我們更聰明，你開始擔心它們在細節上失控的時候，但很難準確預測這種情況會如何發生。

第二個增加風險的因素是，存在大量競爭，希望盡快開發和部署強大的AI系統。目前我們在谷歌和微軟之間看到了這種競爭存在。人們也擔心國際競爭，這可能是經濟競爭，也可能是地緣政治競爭，甚至可能是軍事競爭。

第三個因素是，如果你正在構建對世界產生更直接影響的AI系統。目前我們看到的系統只是語言模型，它們只是生成文本。但也有很多人在研究將它們與其他系統結合，例如使用它們編寫代碼，使用它們控制不同的事物，無論是在線上還是利用它們來控制現實世界中的事物。給予這些系統更多的控制權和自主權會增加風險。

再比較一下我們現在擁有的系統，這些系統主要只是訓練來預測文本，這是一種相對安全的構建系統的方式——與要求系統在某個環境中實現目標相比，特別是與系統在和現實世界、物理世界頻繁互動的環境中實現目標相比，這更安全。當系統試圖在現實世界中實現目標，它們可能自然而然地嘗試獲取更多資源和權力，因為這些對於實現長期目標是有幫助的。

因此，系統越是開放、越是自主、越是智能，並且越是旨在實現長期目標，系統失控的風險就越大。

**騰訊新聞《潛望》：如果你認為應該制定全球協作的框架，以確保各國在AI發展方面遵循共同的原則和標準，那麼這些具體的原則和標準應該有哪些？ **

David Krueger：我們絕對需要這樣做，而且需要緊急著手去做。因為這將是困難的，將需要大量的討論和談判，因為不同國家之間存在許多衝突和分歧。

關於具體細節，這是我仍在思考的問題。我們希望確保我們擁有一些非常合法的治理機構或治理體系，如果在未來的某個時候我們覺得有必要，能夠推動暫停。這是其中一個重要部分。

在我們正在開發和部署的系統方面，情況變得更複雜。我們希望有一些測試、評估和審計機制。我們可能還需要考慮某種形式的許可證，但還有很多細節需要解決。目前，我腦海中沒有完整的方案。這就是為什麼我希望我們能激勵更多從事政策制定、擁有政策和國際關係等方面專業知識的人們去思考這個問題。

**騰訊新聞《潛望》：在當前的人工智能係統中，哪些方面需要盡快改進，以應對潛在的風險和威脅？ **

David Krueger：一是魯棒性（注：魯棒性是指在異常和危險情況下系統生存的能力）。我們當前的系統在魯棒性方面存在重大問題，其中最引人注目的是對抗性魯棒性問題，即對輸入進行微小改變（甚至對人類來說難以察覺）可能對系統的行為產生巨大影響。這個問題已經是眾所周知的問題大約有10年了，但似乎仍然沒有解決方案。如果我們考慮那些追求某個目標並試圖優化它們對目標的理解的系統，這是非常大的問題。因為根據它們對目標的理解，最優的結果可能與我們所想像或意圖的目標有很大不同。而我們目前進行的評估很難發現。

另一個是，我們對這些系統工作方式缺乏理解。我們真的希望能夠理解這些系統的工作方式，這是我們能夠預測它們行為的最佳方式之一。我們希望確保它們不會在新情況下以意外和危險的方式行事。這與魯棒性問題有關。

05人類滅絕距離現在遙遠嗎？

**騰訊新聞《潛望》：現在來看，人類距離滅絕的距離遙遠嗎？預計會多少年？ **

David Krueger：Jeffrey Hinton一直在說我們要花20年或更短時間才能獲得通用人工智能（AGI），這是合理的時間範圍。這與我的觀點相當相似。

我認為在那之後不久，人類可能會滅絕，但也可能需要更長的時間，我猜這也是我想強調的，即使這還有幾十年，我們也需要盡快開始解決。

再次回到氣候變化的類比。我們花了幾十年時間才開始真正採取有效的行動，但仍然沒有做足夠的工作來防止氣候變化帶來的嚴重後果。這是因為它是一種複雜的全球協調問題。人工智能也會面臨類似的情況。我們應該儘早開始。

**騰訊新聞《潛望》：大語言模型能帶來AGI嗎？ **

David Krueger：很多人現在都在問這個問題。我的觀點比較複雜。我會說這是有可能的，但更有可能的是需要將其與其他技術相結合，甚至可能需要開發一些新技術。

**騰訊新聞《潛望》：怎麼看待人類與人工智能的關係？人類會是智能的過渡嗎？ **

David Krueger：只有時間能告訴我們答案。我希望不會這樣。不過現在，這是一個我們還有一些主動權和能力去引導、決定未來將如何發展的問題。如果我們能夠以智慧和協調的方式行動，如果我們能夠走運，那麼作為人類，AI是否在某個時刻接管，將取決於我們自己的決定。

**騰訊新聞《潛望》：Hinton有一個非常有趣的觀點。他說：毛毛蟲會提取養分，然後轉化為蝴蝶，人們已經提取了數十億認知的養分，GPT-4就是人類的蝴蝶。你同意這個觀點嗎？ **

David Krueger：非常富有詩意，我不認為完全準確，但也許它觸及了某種本質上的真理，即AI系統不一定需要從頭開始、經歷艱苦的方式學習一切。人類需要通過漫長的進化才達到人類智能的水平，但現在人類產生了所有這些文化產品，包括互聯網上的所有文本，這對於AI系統是非常有啟發。因此，它們不一定需要重新經歷所有的進化來達到類似的智能水平。

**騰訊新聞《潛望》：你是第一次來中國嗎？對來中國的印象怎麼樣？對中國的人工智能和大模型發展，是否有一些建議？ **

David Krueger：這是我第一次來到中國。我昨天早晨剛到。整個訪問時間都是在與人會面和交談，人們很友好，我在這裡有良好體驗。但我不覺得我已經真正體驗到中國。我只是與研究人員會面，不幸的是，對我來說這將是一個短暫的旅行，但我希望在離開前的最後一天至少能好好看看北京。

（對中國的建議）我想，重要的是思考和理解安全性和對齊性。從我進行的對話中可以看出，人們至少在某種程度上已經在做這方面的工作。

**騰訊新聞《潛望》：電影《Her》中許多場景已經逐漸在我們的真實世界裡出現。人類會對人工智能會產生情感嗎？你對你所開發的AI模型是否有情感上的依戀？ **

David Krueger：我沒有，但據我所知，有人有。

確實存在類似的人工智能女友聊天機器人，有人已經對這種關係產生了情感依賴。這是這項技術的一個悲哀的後果。

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
#PI#
256693 帖子
#BTC#
243109 帖子
#ETH#
156762 帖子
4#GateioInto11#
80284 帖子
5#ContentStar#
66779 帖子
6#GT#
65436 帖子
7#BOME#
60864 帖子
8#DOGE#
59505 帖子
9#MAGA#
52105 帖子
10#SLERF#
50475 帖子