在接受挽救生命和改變生活的手術之前,年輕的美國亞歷克西斯“萊西”博根的聲音充滿活力。
她喜歡在車上高唱泰勒絲和札克布萊恩的民謠。她總是在笑——即使在把行為不端的學齡前兒童圍起來或與朋友辯論政治時也是如此。在學校裡,她是合唱團的女高音。
然後,一夕之間,那個聲音就消失了。
去年八月,醫生切除了她腦部後部附近的腫瘤。一個月後,當呼吸管拔出時,博根出現吞嚥困難,費力地向父母打招呼。
幾個月的康復幫助她康復,但她的言語仍然有障礙。朋友、陌生人和她自己的家人很難理解她想告訴他們的事情。
4月,21歲的她恢復了昔日的聲音。不是真正的聲音,而是由 ChatGPT 製造商 OpenAI 的人工智慧 (AI) 技術生成的語音克隆,她可以從手機應用程式中召喚它。
對人工智慧深度造假的厭倦
經過對她青少年聲音的 15 秒時間膠囊進行訓練(來自她為學校專案錄製的烹飪演示影片),她合成但聽起來非常真實的人工智慧聲音現在幾乎可以說出她想說的任何內容。
她在手機中輸入幾個單字或句子,應用程式會立即大聲朗讀。
「嗨,能給我一杯特級冰紅糖燕麥奶昔濃縮咖啡嗎?」博根在一家星巴克得來速餐廳將手機伸出車窗外時,人工智慧的聲音說道。
專家警告說,快速改進的人工智慧語音克隆技術可能會放大電話詐騙,擾亂民主選舉,並侵犯那些從未同意重新創造自己的聲音來說出自己從未說過的話的人們(無論是生者還是死者)的尊嚴。
它被用來模仿美國總統拜登向新罕布夏州選民製作深度偽造的機器人電話。
在美國馬裡蘭州,當局最近指控一名高中體育主任使用人工智慧生成學校校長發表種族主義言論的虛假音訊片段。
但博根和羅德島壽命醫院集團的一群醫生相信,他們已經找到了一個可以證明風險合理的用途。
重現失去的聲音
博根是第一批(也是唯一一個患有她這種情況的人)能夠通過OpenAI 的新語音引擎。
其他一些人工智慧供應商,例如新創公司 ElevenLabs,已經針對有言語障礙和喪失能力的人測試了類似的技術,其中包括一名現在在法庭上使用她的語音克隆的律師。
布朗大學醫學院和羅德島醫院的神經外科住院醫師羅海德·阿里博士說:“我們希望 Lexi 能夠成為技術發展的開拓者。”
他說,數百萬患有使人衰弱的中風、咽喉癌或神經系統疾病的人可能會受益。
「我們應該意識到風險,但我們不能忘記病人和社會利益,」參與該試點計畫的另一位住院醫師法蒂瑪·米爾扎博士說。 「我們能夠幫助 Lexi 找回她真實的聲音,她能夠用最真實的語言說話」。
已婚的 Mirza 和 Ali 引起了 ChatGPT 製造商 OpenAI 的注意,因為他們之前在 Lifespan 的研究計畫使用 AI 聊天機器人來簡化患者的醫療同意書。
這家舊金山公司今年稍早在為其新型人工智慧語音產生器尋找有前景的醫療應用時伸出了援手。
恢復緩慢
博根仍在從手術中緩慢恢復。
這種疾病始於去年夏天,伴隨頭痛、視力模糊和臉部下垂,這讓普羅維登斯孩之寶兒童醫院的醫生感到震驚。
他們發現一個高爾夫球大小的血管腫瘤壓在她的腦幹上,並與血管和腦神經糾纏在一起。
「這是一場控制出血並取出腫瘤的戰鬥,」兒科神經外科醫生康斯坦蒂娜·斯沃科斯博士說。
斯沃科斯說,腫瘤的位置和嚴重程度,加上長達 10 個小時的手術的複雜性,損害了博根對舌頭肌肉和聲帶的控制,阻礙了她進食和說話的能力。
「當我失去聲音時,這幾乎就像我的身份的一部分被奪走了,」博根說。
飼管是今年問世的。言語治療仍在繼續,使她能夠在安靜的房間裡清晰地說話,但沒有跡象表明她會完全恢復自然聲音的清晰度。
「在某些時候,我開始忘記自己的聲音是什麼樣的,」博根說。 「我已經習慣了我現在的聲音」。
「訓練」人工智慧如何說話
每當電話鈴在北史密斯菲爾德普羅維登斯郊區的家裡響起時,她就會把電話交給母親接聽電話。
每當朋友們去吵鬧的餐廳時,她都覺得自己給他們帶來了負擔。她的父親患有聽力損失,很難理解她的意思。
回到醫院,醫生正在尋找一名試驗患者來試驗 OpenAI 的技術。
「斯沃科斯博士第一個想到的人是萊克西,」阿里說。 「我們聯繫了 Lexi,看看她是否感興趣,但不知道她會有何反應。她很樂意嘗試一下,看看效果如何」。
博根必須回到幾年前才能找到合適的她的聲音錄音來「訓練」人工智慧系統她的說話方式。在這段影片中,她解釋瞭如何製作義大利麵沙拉。
她的醫生故意向人工智慧系統輸入 15 秒的片段。烹飪聲音使影片的其他部分變得不完美。這也是 OpenAI 所需要的——對先前需要更長樣本的技術的改進。
他們也知道,對於未來在網路上找不到自己聲音蹤跡的患者來說,在 15 秒內獲得有用的資訊可能至關重要。給親戚留下一封簡短的語音郵件可能就夠了。
“每次聽到她的聲音我都會很激動”
第一次測試時,所有人都被分身語音的品質驚呆了。偶爾的小故障——單字發音錯誤、語調缺失——大多是難以察覺的。
四月,醫生為博根配備了一款只有她可以使用的客製化手機應用程式。
「每次聽到她的聲音,我都會非常激動,」她的母親 Pamela Bogan 眼含淚水說道。
「我認為我能再次聽到那種聲音真是太棒了,」萊克西·博根補充道,他說這有助於「將我的信心提升到這一切發生之前的水平」。
她現在每天使用該應用程式約 40 次,並發送回饋,希望能夠幫助未來的患者。
她的第一個實驗是與她擔任助教的幼兒園的孩子們交談。
她輸入“哈哈哈哈”,期待機器人的回應。令她驚訝的是,這聽起來像是她以前的笑聲。
她在 Target 和 Marshall's 都用它來詢問在哪裡可以找到物品。這幫助她與父親重新建立了聯繫。這讓她更容易點快餐。
博根的醫生已經開始複製羅德島州其他自願病患的聲音,並希望將這項技術帶到世界各地的醫院。
OpenAI 表示,它在擴大語音引擎的使用方面正在謹慎行事,但該引擎尚未公開。
許多規模較小的人工智慧新創公司已經向娛樂工作室出售語音克隆服務,或讓這些服務得到更廣泛的應用。
大多數語音生成供應商表示,他們禁止假冒或濫用,但他們執行使用條款的方式各不相同。
更廣泛地存取人工智慧語音克隆
OpenAI 產品負責人 Jeff Harris 表示:“我們希望確保在服務中使用聲音的每個人都持續同意。”
「我們希望確保它不會在政治背景下使用。因此,我們採取了一種非常有限的方法來向誰提供技術」。
哈里斯表示,OpenAI 的下一步涉及開發一種安全的「語音身份驗證」工具,以便用戶只能複製自己的聲音。他說,這可能「對於像萊克西這樣突然喪失言語能力的患者來說是有限的」。
「因此,我們確實認為我們需要建立高度信任的關係,尤其是與醫療服務提供者的關係,以便更不受限制地使用該技術」。
博根專注於思考該技術如何幫助其他有類似或更嚴重語言障礙的人,這給她的醫生留下了深刻的印象。
「她在整個過程中所做的部分工作就是思考如何調整和改變這一點,」米爾扎說。 「她給了我們很大的啟發」。
雖然目前她必須擺弄手機才能讓語音引擎說話,但 Bogan 設想了一種人工智慧語音引擎,可以改進舊有的語言恢復療法(例如機器人發聲的電喉或語音假肢),與人體融為一體或實時翻譯單字。
隨著年齡的增長,她不太確定會發生什麼,而且她的人工智慧聲音聽起來仍然像她十幾歲的時候一樣。她說,也許這項技術可以讓她的人工智慧聲音「老化」。
目前,「儘管我的聲音還沒有完全恢復,但我有一些東西可以幫助我再次找到我的聲音,」她說。