讓照片會說話

最近看到一家公司的產品很讓人覺得有趣,這家公司他們利用手機照一張相片後,使用者經過簡單的步驟指出照片中主角的眼睛和嘴角的位置後,輸入要說的話或是錄一段聲音後,就可以送出去給別人的手機,然後接收者就可以利用手機看到一個真的像在講話的主角。

這邊所說的主角,你可以照一張人臉或是一張寵物(狗狗、貓貓)的臉,然後再拿來變化。其實這個所用到的技術都不陌生,VoiceML、TTS(Text- To-Speech)、Image Processing、MMS,不過整合起來,加上生動的說明,仍是讓人有感到新奇的感覺。

透過照下的 Image 加上 特徵值(眼睛[做眨眼動畫]、嘴角[做必嘴巴說話動畫]及頭型外圍[做晃頭動話]) 的輸入,配合輸入要說的文字或聲音資料,將這些所有的資料組成VoXML的內容及夾檔後,送到(透過MMS或WAP)電信後端的主機,主機收到後,進行下 面的動作:

1a. 如果說話的內容是文字表示,那文字變會送進TTS產出語音檔並產生講話口型資訊。
1b. 如果說話的內容是語音檔,那送入語音辨識處理的程序,抓出講話口型的資訊。
2. 主角圖片依據特徵值並配合講話口型資訊計算各種動畫。
3a. 最後將這些訊息特過 SMIL 格式描述後,發送給接收者。或
3b. 將這些結果組成MP4或3GP的檔案,發送給接收者。
4. 接收者下載後,撥放的結果就會像是圖片中的主角在講話一樣。

Microsoft很早前就有開發提供Speech engine的API,全球像IBM及許多公司也有開發各種語言的TTS技術,國內像聲碩就在這方面有提供產品。

我深深覺得光靠高端的技術不一定能賺錢,但簡單有趣的創意卻可以。 目前有一家手機大廠就對這個技術頻頻叫好,不曉得是不是很快就有這樣的手機在市面推出了。

留言

熱門文章