人工智能突破聲音障礙


MIT開發出一款人工智能系統,該系統可“觀看”無聲視頻並生成該視頻應該包含的聲音

人工智能已經突破了一項聲音障礙。麻省理工學院(MIT)的研究人員開發了一款人工智能系統,可以“觀看”無聲的視頻並且生成一段聲音,效果十分逼真,以至於多數觀眾無法分辨出這些聲音是否是計算機生成的。

MIT計算機科學和人工智能實驗室(MIT Computer Science and Artificial Intelligence Laboratory)稱,其“深度學習算法”是頭一個通過“聲音圖靈測試”的,生成的聲音能夠以假亂真。

這款視覺指示聲音系統(Visually Indicated Sounds,簡稱Vis)受到訓練,能夠對棍子擊打、刮擦或者捅一系列物體(從樹葉、水到土壤和鋼鐵)時發出的聲音進行分析。

研究人員稱,Vis的本領可以延伸至很多其他場景。例如,未來的版本可以為電影和電視生成比傳統方法(比如在鋁箔上撒鹽以模擬雨聲)更逼真的聲音效果。

該項目的負責人安德魯•歐文斯(Andrew Owens)稱,更重要的應用或許是幫助機器人理解物體的物理屬性、更好地與它們所在的環境互動。該項目將於本月晚些時候在拉斯維加斯舉行的計算機視覺與模式識別大會(CVPR)上展出。

“機器人可以看著人行道、本能地知道水泥地是硬的而草地是軟的,因此知道如果它踩上兩種地面會發生什麽,”他說,“能夠預測聲音,是預測與世界進行物理互動的後果的重要第一步。”

該MIT團隊“訓練”Vis的方法是,向其輸入包含4.6萬種聲音的1000段視頻,這些聲音是鼓槌在不同堅實度的物體上敲打或劃過而產生的。之後,幫計算機在大量數據中找到模式的“深度學習”算法對這些聲音進行解構。

為了從無聲視頻片斷中預測一種新聲音,Vis會查看最可能與每個視頻畫面相關的音頻屬性,並把這些音頻串在一起編輯成連貫的聲音。Vis可以模擬快節奏和舒緩的微妙聲音,無論是斷斷續續拍打岩石的聲音,還是穿過常春藤時發出的細小沙沙聲。它既可以模擬擊打墊子發出的低沉砰砰聲,又可以模擬敲擊欄桿時發出的刺耳聲音。

為了測試這些聲音在人耳聽起來的逼真性,研究人員對400名觀眾進行了調查。他們觀看了兩遍視頻,其中一遍聽的是真實聲音,另一遍聽的是Vis的模擬版。他們要說出哪一次是真實的聲音。

如果Vis生成的聲音與真實的聲音無法區分,Vis版被選擇的概率應為50%。結果調查得出的概率為40%,這是一個相當不錯的分數。

當聲音清晰、尖銳時——比如敲木頭或金屬的聲音——該系統的表現最差,在生成由樹葉或泥土產生的較輕柔、持續時間較長的聲音時,Vis表現最好。有時,如果棍子剛好停在目標物之前,它還會“幻想出”假的敲擊聲。

歐文斯的夢想是在沒有明確視覺線索的情況下讓Vis模擬聲音。“從微風輕撫、到筆記本電腦的嗡嗡作響,任何時候環境中都存在著許多與我們正盯著看的東西無關的聲音,”他說。

來源:FT中文網

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s