我們經(jīng)常能在科幻影片里能看到各種機器人與人類同臺出演,與人類自由的溝通交流,甚至比人類更加聰明。大家肯定想知道這樣的人造機器是如何做到的,我們現(xiàn)在真的能造出這樣的機器人嗎?
開玩笑,我在這絕不可能解釋好這個問題,但是從另一個角度簡單來講,與機器人交流其實這是通過語音來實現(xiàn)與機器交互,互動的一種操作,人與機器人的溝通其核心的一個方面便是語音的識別,就是說機器人得先聽懂人說話。那此文就來淺聊下關于通過語音來實現(xiàn)人機交互的一些問題。
我們先看一個較簡單的例子 —— Windows語音識別程序:
Windows語音識別功能主要是使用聲音命令指揮你的電腦,實現(xiàn)離開鍵盤鼠標來實現(xiàn)人機交互。通過聲音控制窗口、啟動程序、在窗口之間切換,使用菜單和單擊按鈕等功能。Windows語音識別功能僅僅限于 Windows系統(tǒng)體系內的一些常用操作和指令,并且是與監(jiān)視器顯示輔助來完成整個語音操作。
例如你想用語音通過主菜單打開某個程序,當你說出“開始”后,系統(tǒng)將會提供一個“顯示編號”的區(qū)塊劃分功能,(編號是半透明的,使你能知道此編號下是哪個程序或文件夾)這樣假如你想打開“下載”這個文件夾,你只需說出它的編號“10”,程序就會給你打開“下載”這個文件夾了。這樣做的原因一是因為:如果你需要開啟用戶自行安裝的紛繁復雜的程序,Windows的語音庫里面可能沒有這些程序相應的名稱,會造成識別不準,甚至無法識別,二是通過顯示編號,和語音識別編號,響應指令的效率更高,因此這樣語音配合監(jiān)視器的分模塊顯示大大的提高了用戶使用Windows系統(tǒng)的效率和準確率。
同樣,如果你對桌面的快捷方式或文件進行語音操作,系統(tǒng)將會提供一個稱之為“鼠標網(wǎng)絡”的功能,對桌面進行以前區(qū)域的劃分和自動編號,用語音+視覺來提高操作效率和識別的精準率:
在目前Windows的語音識別程序中,除文本的語音輸入(包括文字和符號)之外,還包括16個常用命令,9項常用控件命令,31項文本處理命令,15項窗口命令,5個點擊屏幕任意位置命令,以及另外的幾組鍵盤命令。用戶所能語音指揮的也就是圍繞這些預先準備好了的命令進行交互操作,旨在這將有可能提高使用電腦的效率,和盡可能的把雙手從鼠標鍵盤上解放出來。