在沒有機器之前,人類最早的交互方式就是語言和動作。如今,在自然交互方式的趨勢下,我們又回到了語言這種交互形式上。
原始的交互方式,就是人與人用語言、動作、眼神交互,人與物用動作交互。機器剛出現(xiàn)的時候,并沒有人機交互的理念,機器很難操作,需要人去學(xué)習(xí)和適應(yīng)。肖爾斯的「QWERTY」鍵盤會流傳開來就是因為這種字母的排列設(shè)計可以降低打字速度,避免快速輸入造成按鍵連桿的互相干涉。
二戰(zhàn)期間的研究促進(jìn)了人因工程的發(fā)展,機器適應(yīng)人類、提高人的效率的理念得到發(fā)展。在計算機領(lǐng)域,從命令行界面(CLI)進(jìn)入到圖形用戶界面(GUI)是一大突破,隨后發(fā)展到目前的主流操作方式觸控,使用手指在屏幕上滑動點按。語音交互界面(Voice User Interface,VUI)、手勢、動作、表情交互,甚至腦機接口,都屬于自然用戶界面(NUI)。
從載體上分,語音交互以手機或電腦為載體,或以其他硬件為載體。除了這些,在客服、教育和醫(yī)療等行業(yè)也都有應(yīng)用,如客服語音質(zhì)檢、口語測評等。
△ 語音交互界面的形式
VUI的效率高還是低?
高效的交互方式就是好的交互方式。人機交互在于提高人的使用表現(xiàn),從速度、準(zhǔn)確性、注意負(fù)荷三個維度衡量。讓用戶速度越快、越準(zhǔn)確,并且占用最少注意負(fù)荷的就是好的交互。我們來看幾種情況。
輸入文本:效率極高。人說話的速度比打字快,且不需要分心看屏幕,考慮到打字輸入也有錯誤,語音交互在輸入文本表現(xiàn)不錯。因此很多產(chǎn)品都會在文本輸入處加上語音入口。
布置任務(wù):如果我們想打快車回家,用語音助手還是圖形界面的打車APP更快?由于路徑短,語音助手的理論速度更快,喚醒Siri并說句話,不需要打開APP再點選。在現(xiàn)有狀況下,輸入任務(wù)容易出錯。如果命令語言出現(xiàn)偏差,語音助手聽不懂你的意思,就會導(dǎo)致任務(wù)失敗。我們需要思考該怎么布置任務(wù),是說「我要打車回家」還是「打開XX并打車回家」?如果語音助手三次都聽不懂命令,你還會繼續(xù)嘗試嗎?放棄語音布置任務(wù),只要打開APP,找到熟悉的入口點擊操作就完成了。
輸出:相比即時的圖形反饋,語音是一種不太合格的輸出方式,它過于緩慢、效率低下。由于聽覺是線性的,我們只能聽完一句話再聽下一句,而不能像視覺一樣瞬間完成圖片加工,也不能在文本間掃描跳過,電話語音服務(wù)系統(tǒng)就是這種浪費時間的方式。另外,持續(xù)聽語音還會消耗大量注意和記憶資源。如果客服念完卻沒有聽到想要的內(nèi)容,重聽按0是另一場噩夢。另一方面,我們大部分的信息來自于視覺,但語音方式不能輸出視覺信息。
適合雙手被占用的場合
語音交互適合在哪里使用?雙手被占用時,如駕駛、烹飪、游戲等情況。比如,開車時眼睛需要看路,雙手握著方向盤,而且車內(nèi)環(huán)境既安靜又私密,這種情況下就適合使用語音交互。另外,在輸出層面上,如果視覺通道被占用,聽覺通道更適合接收緊急和重要的通知。
門檻極低
語音交互的支持者認(rèn)為,語音是最自然的交互方式。人人都會說話,門檻極低,尤其對于輸出困難人群(如視力障礙人群),他們完全可以無障礙的使用語音交互的形式。但是另一方面,習(xí)慣觸控的人群不一定愿意轉(zhuǎn)向語音,對新技術(shù)有畏難情緒的人群也可能不愿意嘗試語音交互這種「新」的技術(shù)。
語音可以傳遞情感,但人還不適應(yīng)和機器交談。
語音由于有聲調(diào)和節(jié)奏,相比文字,更能傳遞情感。問題在于我們不習(xí)慣和機器人或者手機對話。據(jù)統(tǒng)計,在公共場合使用Siri的人只有3%。我們默認(rèn)語言是人和人交流的方式,或是和貓、狗這種我們認(rèn)為有人性的動物交流的方式。當(dāng)人與物進(jìn)行交流時,更多會采用動作交互。因此人和手機說話時會有很奇怪的感覺,尤其對于東方人來說,心理障礙可能會更大。
為了減少用戶的壓力,拉近心理距離,很多智能語音助手會設(shè)定自己的「人物形象」。例如Siri高冷又忠誠,微軟小冰可愛又貧嘴。另外,語音助手大多是女性聲音,也是因為女性的聲音聽起來更加和善包容。在操作過程中出現(xiàn)問題,如果響起了男性的聲音,容易給使用者產(chǎn)生被責(zé)備、被批評的感覺。
不過,語音助手也不能太像真正的人??植拦壤碚撜J(rèn)為,對于和人越來越像的東西,我們的好感會上升,但我們厭惡很像人而不是人的東西,例如僵尸。從恐怖谷的理論來看,我們可能會害怕逼真的語音助手。
△ 恐怖谷
不適合在公開場合使用
語音交互不適合在公開場合使用,尤其是圖書館、辦公室這類安靜的場合。
身份識別問題。在漢堡王的一則視頻廣告里,售貨員最后湊近屏幕,說“OK google, what’s the whoppers?”?!窸K google」是安卓手機和Google Home的喚醒詞,用戶會發(fā)現(xiàn)在自己沒有下達(dá)命令的情況下,設(shè)備已經(jīng)啟動并搜索了皇堡,這是設(shè)備缺少身份識別系統(tǒng)造成的。為此有產(chǎn)品推出了聲紋識別系統(tǒng)以保障支付安全問題,至于聲紋驗證的可靠性則是另外一個問題。
△ 漢堡王的視頻廣告
隱私方面也是如此,相比起屏幕,公共場合的輸入和輸出對話更容易被聽到。敏感的金融、醫(yī)療和私人信息風(fēng)險更大。
場景分析
總體來說,語音交互至少需要滿足噪音低和私密兩條要求。在眾多的場景中,車內(nèi)和家里是滿足要求的,加上手機上的移動場景,共3大場景。Mary Meeker在2016年的報告也指出,美國語音使用的主要場景是家里(43%),車上(30%),路上(19%),工作僅占3%。
語音交互系統(tǒng)發(fā)展的歷史并不短,早在1952年,貝爾實驗室就開發(fā)了能夠識別阿拉伯?dāng)?shù)字的系統(tǒng)Audrey。1962年,IBM發(fā)明了第一臺可以用語音進(jìn)行簡單數(shù)學(xué)計算的機器Shoebox。
△ IBM的Shoebox系統(tǒng)
在發(fā)展了半個多世紀(jì)后,語音交互仍沒有達(dá)到成熟應(yīng)用的水平,遇到的困難貫穿開發(fā)到使用流程。
一套完整的語音交互系統(tǒng)有三個典型模塊,語音識別(Automatic Speech Recognition,ASR)將聲音轉(zhuǎn)化成文字,自然語言處理過程(Natural Language Processing,NLP)將文字的含義解讀出來,并給出反饋,最后通過語音合成(Text to Speech,TTS),將輸出信息轉(zhuǎn)化成聲音。
△ 典型的語音交互系統(tǒng)模塊
遠(yuǎn)場識別難題
第一個難題是獲取語音的問題。語音質(zhì)量高的前提下,才能有較好的語音識別結(jié)果。有些公司宣稱自己的語音識別率達(dá)到了95%甚至99%,但其前提條件往往是聲源距離很近、環(huán)境特別安靜、說話人的普通話特別標(biāo)準(zhǔn),而非日常的應(yīng)用場景。
獲取用戶語音,根據(jù)距離分為近場識別和遠(yuǎn)場識別兩種情況,后者難度更大。
手機上的語音交互是典型的近場,距離聲源近,語音信號的質(zhì)量較高。另一方面,采集語音的交互相對簡單,有觸摸屏輔助,用戶通過點擊開始和結(jié)束進(jìn)行信號采集,保證可以錄到用戶說的話。
遠(yuǎn)場語音交互以智能音箱為代表,聲源遠(yuǎn),不知道聲源具體位置,環(huán)境中存在噪聲、混響和反射。單麥克風(fēng)無法滿足要求,需要麥克風(fēng)陣列支持。用戶可能站在任意方位,被語音喚醒后,需要定位到聲源位置,向該方向定向識音,增強語音并降低其他區(qū)域和環(huán)境的噪聲。
△ 遠(yuǎn)場識別示意圖(來源:雷鋒網(wǎng))
語音識別正確率
實際工作中,常用的指標(biāo)是識別詞錯誤率(Word Error Rate)。微軟語音和對話研究團(tuán)隊負(fù)責(zé)人黃學(xué)東最近宣布微軟語音識別系統(tǒng)錯誤率由5.9%進(jìn)一步降低到5.1%,可與專業(yè)速記員比肩。進(jìn)步來自于兩方面,一是技術(shù),包括隱馬爾可夫模型、機器學(xué)習(xí)和各種信號處理方法,另一方面是龐大的計算資源和訓(xùn)練數(shù)據(jù)。
語義識別
如果你和語音助手進(jìn)行過對話,會發(fā)現(xiàn)其語義理解還停留在固定模式識別的套路上,根據(jù)用戶話中特定的詞做出反應(yīng),不一定能給出正確的回答。
約翰·希爾勒提出過「中文房間」的思想實驗,一個不懂中文,會說英語的人在一個封閉房間中,房間里有一本英文手冊告知如何處理相應(yīng)的中文信息。用中文寫的問題從窗戶遞進(jìn)房間里,這個人對照手冊進(jìn)行查找,將對應(yīng)的中文解答寫在紙上并遞出去。房間外的人可能會覺得這個人很懂中文,實際他一竅不通。訓(xùn)練機器來理解語義類似于這個過程。通過訓(xùn)練,我們讓機器的反應(yīng)接近于能夠理解,但無法像人類一樣真正理解語言。
語言是人和人之間交流的工具,某種程度上適合人的認(rèn)知系統(tǒng),如何期待機器更好的理解我們?
目前來講,遇到的問題至少有分詞、歧義和未知語言處理。中文不像英文單詞有空格分開,而且歧義性高,對AI有更高的要求。例如「南京市長江大橋」就可以分成「南京市/長江大橋」和「南京市長/江大橋」兩種,「雞不吃了」有多種含義。和Siri說「打開飽了么外賣」,在它沒有學(xué)過「飽了么」這個單詞的情況下,它將如何處理?
多輪對話問題
我們覺得語音助手很蠢,有時是因為它違反了人類對話的原則。人類對話看似簡單,但會根據(jù)對方的背景和自己掌握的信息,調(diào)整對話內(nèi)容,上下文之間也會有呼應(yīng)關(guān)系。但是,現(xiàn)有的很多產(chǎn)品,其對話缺少關(guān)聯(lián)性。語音助手不理解上下文背景,只能進(jìn)行單輪對話,看似進(jìn)行的多輪對話其實也只是多個單輪對話的組合。
「愚蠢」帶來的一是不自然,二是增加任務(wù)難度。比如當(dāng)你問語音助手「明天的天氣是什么?」它說下雨,再接著問「后天呢?」這時它并不明白提問的是后天的天氣,只能再完整的問一次「后天的天氣是什么?」
在下面這個對話里,小冰一會兒說陰陽師是游戲,一會兒是電影,并沒有對話的記憶。
△ 小冰沒有對話的記憶
由于語言尤其口語的形式不固定,變化很大,VUI的交互設(shè)計和GUI截然不同,更加細(xì)致繁瑣。亞馬遜已經(jīng)給開發(fā)者提供了成熟的交互設(shè)計規(guī)范。
語音交互設(shè)計至少可分為幾步,首先建立功能目的,其次撰寫腳本,即用戶和系統(tǒng)如何對話,第三步是制定流程、用戶使用路徑等,還需要定義技能的結(jié)構(gòu),包括完成一個功能需要哪些參數(shù)、用語有哪些變化。例如對于同一個功能,用戶可以說「天氣怎么樣」也可以問「外面下雨嗎」。
遠(yuǎn)場語音交互產(chǎn)品的冷啟動
遠(yuǎn)場語音交互產(chǎn)品存在冷啟動周期,只有積累了一定數(shù)據(jù)才可以更好提升產(chǎn)品體驗,但如何提高銷量、積累數(shù)據(jù)是產(chǎn)品啟動時需要思考的問題。如果希望語音交互產(chǎn)品可以成為平臺,千萬量級是基本門檻,如果Echo在今年的銷量可以達(dá)到預(yù)計的兩千萬臺,基本上有了足夠數(shù)據(jù),有成為平臺的希望。國內(nèi)一些模仿者使用節(jié)日促銷的模式,例如雙十一天貓精靈99元的售價,賣出了100萬臺,希望通過這種方式進(jìn)行數(shù)據(jù)的初步積累。
缺乏持續(xù)使用動力和核心場景
新鮮勁過去后,很多人會對語音交互失去興趣,觸控仍然是主要的交互方式。Creative Strategies的數(shù)據(jù)發(fā)現(xiàn),97%的人在兩周時間內(nèi)會對Alexa的新功能失去興趣。Voice Lab的數(shù)據(jù)發(fā)現(xiàn),62%的安卓用戶很少或者偶爾使用語音助手,這一比例在iOS用戶上是70%。目前,語音交互缺乏只有其才能實現(xiàn)的核心功能,即使亞馬遜的Echo,它最多的用途仍然是聽歌,缺少核心競爭力和不可替代性。
語音交互是否會成為主流交互方式
筆者的意見是,就像觸控沒有取代鼠標(biāo)鍵盤,語音交互不太可能成為主流的交互方式。交互界面本來就是多模態(tài)的,語音交互將豐富現(xiàn)有的交互形式而不會取代其他。如前文所述,語音交互不能解決所有問題,只是在特定的場景可以發(fā)揮作用。
伴隨語音的多交互通道是不錯的選擇,例如語音和觸控結(jié)合可以提高準(zhǔn)確度,語音和視覺結(jié)合,實現(xiàn)語音輸入加視覺反饋,或者加上手勢等。
是否需要追求語音交互的純潔性
Echo團(tuán)隊認(rèn)為,語音是最自然的交互方式,因此堅持設(shè)計語音交互,但語音輸入和視覺輸出的模型已被證明其成功性,我們在手機上使用的語音交互模型就是如此。新品Echo Show也裝上了屏幕,可以顯示視覺信息了。所以是否有必要堅持純粹的語音交互模型?答案似乎已經(jīng)很明顯。新問題是,如果Echo加上了屏幕,用戶會認(rèn)為它是音箱還是平板?
△ 加上屏幕的Echo Show
本質(zhì)上,語音交互允許人通過語音的方式完成任務(wù),能通過語音完成的,觸控也可以,Siri可以做到的,Echo也可以,做不到的大家都做不到。所以語音交互能夠完成什么獨有的任務(wù)以體現(xiàn)它的價值呢?
VUI vs. CUI
語音設(shè)計師Cheryl Platz在她的Medium上反復(fù)提及一個問題,VUI還是Conversational UI?
語音交互界面是基于單獨的任務(wù),它的模式是簡單的「下命令——完成任務(wù)」,然而這不是自然的對話,我們需要思考如何下命令,距離對話太遠(yuǎn)了。如果要朝著CUI的目標(biāo),語音交互必須更加智能和流暢,允許通過真正的對話完成任務(wù),像和真人說話一樣。
隱私問題
如果語音助手要更好用、更智能,就需要不斷收集用戶的信息。所以我們是否需要語音助手改變自己的反應(yīng)?如果語音助手目的就是商業(yè)的,那么我們是否信任它并提供信息,從而讓它更了解我的喜好?
另一方面,語音助手是否安全?通過喚醒詞喚醒的語音交互產(chǎn)品會保持待機,從環(huán)境中獲取聲音,這種機制可能被利用。在一則新聞中,Echo被破解并成為了一個24小時竊聽器。還有連接方式,德國禁止銷售的一款兒童語音玩具「My Friend Cayla」,其藍(lán)牙連接就被證明是不安全的,兒童與玩具對話的語音可能被第三方獲取。
△ 兒童語音玩具M(jìn)y Friend Cayla
語音交互界面的測試方式
和普通產(chǎn)品的研究方法共通,可用性測試、訪談等方法依然適用于研究語音交互系統(tǒng)。測試VUI時可以特別注意一些地方,例如用戶的反應(yīng),成功率,停頓或者失敗等等。有一些特定指標(biāo)可以用于評估,例如速度準(zhǔn)確度、用戶付出的認(rèn)知努力、清晰易懂度、系統(tǒng)友好程度和聲音質(zhì)量等。
下面介紹一個有趣的語音交互界面測試方法——Woz法。由于語音交互系統(tǒng)成本較高,在系統(tǒng)開發(fā)前,通過Woz(Wizard of Oz)的原型測試發(fā)現(xiàn)問題,成本很低。由一名研究人員扮演Wizard,一名普通研究人員協(xié)助,用戶操作后,由Wizard在暗處手動播放反饋。
△ 車內(nèi)Woz測試(來源:《Designing Voice User Interfaces》)
語音交互仍需要發(fā)展,技術(shù)成熟需要時間。但它的出現(xiàn)意味著我們可以用更多方式操作設(shè)備、傳遞信息,我們離理想的交互界面更近了一步。以上對語音交互做了簡單的總結(jié),有疏漏和想法不成熟之處,歡迎交流指正。
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2021/ m.lb577.com 北京漫動者教育科技有限公司 備案號:京ICP備12034770號 監(jiān)督電話:010-62568622 郵箱:bjaaa@aaaedu.cc