讓照片會說話

4月 15, 2005

讓照片會說話

最近看到一家公司的產品很讓人覺得有趣，這家公司他們利用手機照一張相片後，使用者經過簡單的步驟指出照片中主角的眼睛和嘴角的位置後，輸入要說的話或是錄一段聲音後，就可以送出去給別人的手機，然後接收者就可以利用手機看到一個真的像在講話的主角。

這邊所說的主角，你可以照一張人臉或是一張寵物(狗狗、貓貓)的臉，然後再拿來變化。其實這個所用到的技術都不陌生，VoiceML、TTS(Text- To-Speech)、Image Processing、MMS，不過整合起來，加上生動的說明，仍是讓人有感到新奇的感覺。

透過照下的 Image 加上特徵值(眼睛[做眨眼動畫]、嘴角[做必嘴巴說話動畫]及頭型外圍[做晃頭動話]) 的輸入，配合輸入要說的文字或聲音資料，將這些所有的資料組成VoXML的內容及夾檔後，送到(透過MMS或WAP)電信後端的主機，主機收到後，進行下面的動作:

1a. 如果說話的內容是文字表示，那文字變會送進TTS產出語音檔並產生講話口型資訊。
1b. 如果說話的內容是語音檔，那送入語音辨識處理的程序，抓出講話口型的資訊。
2. 主角圖片依據特徵值並配合講話口型資訊計算各種動畫。
3a. 最後將這些訊息特過 SMIL 格式描述後，發送給接收者。或
3b. 將這些結果組成MP4或3GP的檔案，發送給接收者。
4. 接收者下載後，撥放的結果就會像是圖片中的主角在講話一樣。

Microsoft很早前就有開發提供Speech engine的API，全球像IBM及許多公司也有開發各種語言的TTS技術，國內像聲碩就在這方面有提供產品。

我深深覺得光靠高端的技術不一定能賺錢，但簡單有趣的創意卻可以。目前有一家手機大廠就對這個技術頻頻叫好，不曉得是不是很快就有這樣的手機在市面推出了。

搜尋此網誌

Roger Deng

讓照片會說話

留言

熱門文章

緬懷光華橋（一）

台灣養老之瀧吃到飽的日本料理

讓照片會說話

留言

熱門文章

緬懷光華橋（一）

台灣養老之瀧 吃到飽的日本料理

台灣養老之瀧吃到飽的日本料理