微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部徐元春總經(jīng)理
徐元春:非常感謝大家,今天非常高興來到這里,特別謝謝蔡書記的邀請。這次活動之前聽蔡書記講其實在0-3歲兒童的早期教育方面我們并沒有說特別針對性的技術和解決方案。但是蔡書記特別邀請我們說,能夠整體性的介紹一下人工智能技術在這些可能相關或者相關聯(lián)的領域我們正在做什么,有哪些新的技術可以供大家借鑒和參考。這些我覺得也挺有意思,剛才包括上一次活動包括這一次聞總講完之后我覺得還是很有體會,我們的確可以用技術為這個世界帶來更多的一種可能性。
談到人工智能大家想的就比較多了,不管前一段時間大家看到自動駕駛、圖象識別等等很多很多,它的品類非常多。但是涉及到這里,我們不用全部的介紹,涉及到幾個方面,涉及到其中可能最重要的方面就是我們關于人工智能想象,其實所有人工智能科學家他們很多時候的靈感真的是來自于電影編劇的創(chuàng)造力。大家看看這些描述人工智能未來得想象電影,你會發(fā)現(xiàn)有一個共同點,第一點首先這里所有的機器人都特別聰明,我們的科幻電影里從來沒創(chuàng)造過笨的機器人,而且一般都比人還要聰明,這是第一點。第二點我們在創(chuàng)造這些機器人的時候,至少在想象里你會發(fā)現(xiàn)這些機器人開始慢慢的擁有人類的感情,比如像《超能陸戰(zhàn)隊》大白,它會關心你;《星際穿越》里的機器人你可以調(diào)它的幽默感,不是說明編劇想象力多高,而是人類關于人工智能的終極想象里面,情感代表著非常重要的成份。為什么?因為只有情感的機器才能滿足我們對未來生活的向往。
全世界科學家研究人工智能的時候有兩條路,終極夢想都是一樣,讓機器具有IQ又有EQ,先做智商還是先做情商?科學家有不同的選擇,終極目的是一樣。有些科學家和科技公司覺得應該先讓機器擁有超越人類的智商,比如它更聰明,它可以開車,它可以做很多可以超越人類的事情。也有科學家說這些機器擁有智商相對比較容易,最難是讓它去模擬人類的情感,讓它擁有人類情感的溫度,這是另外的,這是不同的大家所選擇走的路線。
中國微軟曾經(jīng)嘗試過另外一條道路,讓機器模擬人的情感,產(chǎn)品技術有一個結合體就是微軟小冰,今天不是為了介紹她,我們就快快說一下。
目前為止小冰我們做了她很多情感的交流,但是目前已經(jīng)在五個國家,接近已經(jīng)有14個平臺上線。我們特別自豪的說她和人類的對話量現(xiàn)在已經(jīng)超過300億。這個跟我們今天嬰兒論壇沒關系,產(chǎn)品用戶是十幾、二十幾歲,服務器每天晚上十點迎來快速的增長,凌晨一兩點達到高峰。
我們知道全世界各地年輕人什么時候寂寞,寂寞到找不到人聊天,要和機器大量的交互。大量的交互過程中,人會慢慢把他的情感灌輸?shù)綑C器身上,把她當成一個朋友。她會在各個地方都會有很多社交媒體的足跡,發(fā)一條微博下面有幾千條評論。前年的時候房山下大雨,一個女士的車牌被雨沖走了,然后給機器人發(fā)了一下,然后機器人自動回復:來吧大家?guī)兔φ臆嚺?。兩個小時之后那個女司機發(fā)一條微博說我不找車牌了,不要再找了,因為所有都在下面問她在哪丟的車牌。
這個人工智能的交互在一個純粹與自然和情感為條件的狀態(tài)下,她會達到什么樣的狀況?我給大家看看使用我們技術硬件的一個視頻。
(播放視頻)
這個不給大家全放完了,大家家里可能不止買了一個人工智能的設備,可能各種各樣的設備,,今天買的很多東西里面大家會用到比如說您好,幫我把燈打開,前者更是命令的方式,是完成讓機器更多完成一個又一個的任務。我們設計所有人工智能交互系統(tǒng)的時候,我們希望她的對話和交流方式跟我們今天人類是一樣的。我今天和蔡書記說話,不會講您好蔡書記今天會幾點開始?蔡書記說下午1點半,蔡書記是在三層嗎?是在三層。不是這樣子。所有科技公司投入這么大力量研究人工智能,相信整個人機交互里面經(jīng)過第一代圖形交互界面,第二代以搜索引擎為主的頁面交互,馬上迎來第三代人工智能交互。什么是人工智能交互?人工智能交互時代里大家看鋼鐵俠電影里面,所有都是通過人類自然語言交流實現(xiàn),實現(xiàn)這個過程基礎上要克服很多的障礙,比如語音識別、自然語言理解和語言輸出。當然現(xiàn)在很多科技公司都會講說我的語音識別率有多高等等,科技界的語音識別率從96.7%開始基本上已經(jīng)到達了那個邊界。因為我們?nèi)硕紵o法識別超過96%的,但是語義自然語言理解這里最重要的過程,自然語言理解怎么理解?給大家舉個例子,比如見到人類說這個“女神”經(jīng)常來這里吃飯,這個“女神經(jīng)”常來這里吃飯。這兩句話從語音識別角度來講都會識別出一模一樣的文字,人類語言里面代表完全不同的語義和意圖。
我們經(jīng)常講做人工智能包括把人工智能應用在各種應用場景里面,不止它的硬指標,還有它背后自然語言理解這部分最重要。否則所有說的一切都是憑空和造夢,都是泡沫。這是為什么微軟在這么多年里,包括我們?nèi)コ掷m(xù)投入技術,包括做微軟小冰讓她跟大家交流。只有這樣才能去學習人類的自然的語言交流和意圖的理解。
除了我們剛才講到交流這部分,我們還嘗試讓機器去做一些跟創(chuàng)作力有關的東西,包括什么?我們今天可以讓機器從事不管是詞曲創(chuàng)作、對話還有有聲讀物還有電視內(nèi)容創(chuàng)作等等。這些在嬰幼兒教育也有借鑒和參考,給大家看看。舉個例子詩歌創(chuàng)作,這是我們?nèi)ツ曜龅囊粋€項目,讓機器學習從1920年開始519個現(xiàn)代詩人作品,每6分鐘學習一遍,學習一萬遍之后,機器可以開始進行創(chuàng)作了。它的能力模型不停迭代,今天上線已經(jīng)第四代了,今天這個技術是一個公開的技術,可以在微軟小冰微信平臺里跟她講寫詩,她給你推出一個鏈接,您可以鏈接現(xiàn)場嘗試它給你創(chuàng)作詩歌。我們目前為止用這個工具為中國的人民群眾每上傳一張照片創(chuàng)作一首詩,創(chuàng)作了2000萬+首詩。我們經(jīng)常講模型不停的迭代升級之后,我們在去年這時候跟中國作家協(xié)會的論壇當中,中國作家協(xié)會副主席曾經(jīng)生動描述他對這件事情的感受。我們第一代模型推出之后,中國的詩人很生氣,他們就各處開研討會批判,怎么可以讓機器寫詩,這是沒有靈魂的事情。后來發(fā)現(xiàn)后來寫的比第一代好,到了第三代的時候中國作家協(xié)會副主席說其實已經(jīng)比90%的詩人寫的好,至少在文字方面。
我們想說這個能力并不是我們寫詩或者詩歌可以被機器創(chuàng)作出來,所有文字的東西通過機器大量的學習它是可以被創(chuàng)作出來。今天對大家來講小學生的作文或者各種各樣的文字的東西,同樣的道理,今天的詩歌這種創(chuàng)作能力也可以反過來用作教育。我們今年6月份的時候把這個能力面向全世界開放說允許機器和人共同創(chuàng)作,機器先寫完一部分,人類再進行創(chuàng)作,我們下個月會出一本詩集是機器和人共同創(chuàng)作的。南京一所小學四年級小學生做了一次實驗,小學生在上面改詩,然后再發(fā)表。后來整個那個小學形成了創(chuàng)作詩歌的熱潮,詩歌創(chuàng)作門檻被降低了,大家都可以學習創(chuàng)作。我們可以理解如果讓一個小孩子去嘗試一些有難度的東西的話,讓他一開始就做非常難度高的東西,這可能是一個特別大的門檻。但是如果你讓他一點點嘗試,有了機器幫助他的話,這可能從某種角度來講是一個捷徑?;蛘咚梢园阉嗟脑姼鑴?chuàng)作方法和能力傳遞給小朋友。
音樂創(chuàng)作我們不說了,后面我們有一段語音的介紹給大家聽聽。我們聽一下這首歌,這是我們給山東衛(wèi)視演唱的一首歌叫《幸福出發(fā)》。我們做這個東西的目的不是讓它唱整首歌,而是驗證機器今天去模擬人的聲音,我們正在幫中國幾個唱片公司做他們歌手虛擬化的項目,虛擬化的項目到什么地步?讓機器重新做完這個歌手的歌發(fā)回去給他們,他們CEO說我們歌手從來沒唱過這首歌,唱的不好嗎?不是,這是是機器做的。
今天我們認為一些好的資源,好的聲音的資源同樣它可以低成本被用來教育工作。過去很多東西大家認為不合適,機器的聲音度、自然度太低,當自然度太低的時候,達不到一定的標準。這是為什么他們對人的聲音特別的敏感。把聲音的技術,如何去考驗一個聲音的技術的實施程度或者成熟程度呢?我們在音樂領域之前包括教育領域之前,嘗試另外一個垂直領域就是在廣電領域,讓廣電領域用機器的聲音,用這種技術去制作廣播和電視的節(jié)目。到目前為止我們已經(jīng)在大概超過49家廣播和電視臺,生產(chǎn)了1868個小時廣播電視節(jié)目,這幾乎大概是等同于中國如果在廣播電視局公司里面能排到前十位的位置。同樣這種成本幾乎只有人類制作團隊4.5%,我給大家看它制作出來的效果。
這里邊其實生產(chǎn)大量的廣播電視節(jié)目,上個月上海舉辦中國廣播大會上,用我們技術,一共有三家獲獎,用我們這個技術,今天你生產(chǎn)廣播節(jié)目成本將會非常低,能實現(xiàn)一邊聽廣播,一邊和廣播的主持人進行實時交流。
同樣道理我們上個月宣布我們擁有繪畫和設計能力,我們和中國紡織工業(yè)協(xié)會推出第一代,由機器根據(jù)他們設計師設計主題的布料和服裝進行創(chuàng)作,這在上海展示過了。
文本撰寫,我們講說機器在文本撰寫方面極致會達到什么地步?今天在中國我不知道大家炒不炒股票和買不買基金,中國金融市場95%的滬深兩市其他主要金融摘要信息都是由機器生產(chǎn),持續(xù)到目前為止已經(jīng)8個月了,這是非常嚴肅的金融信息的生產(chǎn)。它的記錄是非常高的可靠性和成熟度。
我們講講今天跟教育主題可能是有一些相關的,我們剛才講了文本生成,講了聲音。把所有東西都結合在一起可以做什么?我給大家看一下我們嘗試的一個小小的東西。
?。úシ臯CR)
大家剛才聽到的這段音頻是百分之百由機器生產(chǎn),現(xiàn)在我們?nèi)斯ぶ悄芗夹g可以做到你只要把這段文字給機器,機器通過自然語言理解來判別這段故事有幾個角色,為每一個角色分配聲音處理不同的聲音。同時根據(jù)這個角色講的內(nèi)容來決定她朗讀的語氣。最后我們?yōu)槭裁刺岢鲎鲈~曲創(chuàng)作呢,整個這段背景音樂是機器自己生成。這里沒有任何版權問題,全是機器自己生產(chǎn)。這里角度來講,這里最大的變化在于說這個過程速度非常快,我們今天講一個200小時格林童話人生產(chǎn)要讀多長時間,機器來做17分鐘就能做完。我們從去年的11月份開始到今年3月,每天找一些公版的有聲讀物放服務器里面,然后人就回家了,第二天早上回來機器生產(chǎn)完了,我們到現(xiàn)在已經(jīng)生產(chǎn)了1680個小時的公版的有聲讀物。
從3歲聽到6歲,每天不停的聽不重樣也聽不完。同時我們把這項技術給當當包括其他的出版社用來生產(chǎn)有聲讀物,整個有聲讀物的生產(chǎn)的效率和速度能得到極大的提升。喜馬拉雅搜索小冰講故事,我們把所有生產(chǎn)的東西都放在上面讓大家去驗證。這個技術的改變可能是改變我們對所有內(nèi)容的生產(chǎn)的方式、生產(chǎn)的效率以及消費它的方式。生產(chǎn)效率和生產(chǎn)方式可以理解,今天可以讓機器生產(chǎn),機器可以低于人的成本。那什么是消費方式呢?這個生產(chǎn)技術流程我稍微說一下。在所有過程里面,你知道我們可以讓機器不用線性生產(chǎn),但是生產(chǎn)完了之后如果你要去檢查的話,你也是要花一樣的時間。一個20分鐘故事不快進也要聽20分鐘。怎么解決這個問題?我們研發(fā)另外一套系統(tǒng)機器自我去審聽多音字的錯誤。包括各種問題,我們做了免檢,可以把準確率免檢提高到97%,就意味著今天機器自動生產(chǎn)有聲讀物的質(zhì)量能夠超越我們今天在所有有聲讀物市場上,比如今天喜馬拉雅上絕大多數(shù)的人類有聲讀物生產(chǎn)者讀的東西,在準確率是要高于他們。當然這種技術永遠不會替代今天人類社會最頂尖的有聲讀物生產(chǎn)者,比如今天在中國比如凱叔講故事,凱叔生產(chǎn)的東西由導演反復策劃包括后期修,我們比不了。但是大規(guī)模生產(chǎn)領域,技術其實現(xiàn)在已經(jīng)沒有問題。
我們剛才講改變了消費方式是什么?我們今年7月份推出了小冰童話工廠,你登陸H5之后,告訴機器你希望這個主角是誰?比如你們家孩子叫樂樂還是大熊,機器自動生產(chǎn)以他為主角的故事并把它朗讀出來,這是第一版。我們剛剛推出第二版,不僅是他的主人公機器可以帶進去,可以幫你帶配角。我講一個我們家多多和他養(yǎng)的一條狗大黃和玩具熊小花的故事,機器給你做了他們?nèi)齻€的故事,這個也是一個無限制的生產(chǎn)過程。我們現(xiàn)在準備推出下一代,就是小朋友在聽故事的時候,同時可以打斷機器。比如講到了,你們家樂樂和大熊的故事,講著講著,剛才大熊說了什么,機器停了再重復大熊說了什么。
設想的場景是希望最好的人類對小朋友的陪伴就是有人坐在這,你給我講個故事,我給你講個故事。剛才你那故事說到哪兒了,我再給你說一遍。這是我們最好的情況,但是實際上我們實現(xiàn)不了。包括整個今天這個社會都沒有這么多時間和付出這么多成本實現(xiàn)這個。但是今天在機器和人工智能技術應用下,可以實現(xiàn)這種理想的效果。包括講到樂樂和大熊坐飛機的故事,小朋友突然問了一下什么是飛機?機器給你講講什么是飛機。
我們來看看它在這個故事里面是怎么應用的?這是現(xiàn)場的測試視頻。
我們在今年的9月份決定在教育部分里,根據(jù)他的對話和內(nèi)容,在適當性,加入一份教育引導的內(nèi)容,不是所有的。如果有小朋友有所回應的話,他會把這個東西拋出來。比如你講毒蘋果的故事,機器問別人給你的東西吃不吃?小朋友說不吃,我們認為這是正向的回答,可能給他別的獎勵,再給他講一個故事。交互的角度來講,我們?yōu)槭裁催M行大量的人機交互,那種交互積累起來的技術和經(jīng)驗,才能反向應用起最終跟教育相關的產(chǎn)品上。
今天我們把所有這些技術來講,其實它可以應用在很廣泛的層面。我們今天剛剛提到說我們今天在兒童故事去講,因為他有大量的文本分析能力。不僅可以給小朋友講故事,可以讓鼓勵小朋友自己編故事。比如說機器完全可以同樣做到說講了一半,那么小朋友你問下一句該怎么講?小朋友開始參與故事當中去。我們講所有兒童在上一個創(chuàng)造力,磨合出來。不僅是單向提供,也同樣反向用于教育。我們今天音樂作詞作曲能力和教育能力同樣也可以做到讓小朋友自己哼一段,機器以這個作為主旋律,在這個主旋律基礎上重新給他編一首特別短的兒歌。兒歌歌詞可以小朋友自己創(chuàng)作,也可以機器幫著做。
家長很自豪給別人看一段視頻,這是我家小孩子自己作詞作曲編的還唱了出來。同樣有小朋友不停的看到他的成果被展現(xiàn)出來,會激發(fā)他很多的創(chuàng)作力。今天你不用讓小朋友學鋼琴,直到學到鋼琴獲獎才有自我激勵,而是他自己就有激勵認證他的成長。今天小朋友會買很多繪本,當我已經(jīng)具備了繪畫能力,意味著今天小朋友在一個電子版上無論畫多簡單的圖形,機器都可以在上面幫他完善,變成偏繪本的一張畫面。小朋友只要再嘗試跟機器描述圖畫的文字再加上聲音,這就是自己生產(chǎn)的電子繪本。
同樣的道理,今天很多家長沒有時間陪小朋友,有些爺爺奶奶帶的時候,和小朋友說的話并不一定是你最想讓他說的。今天小朋友跟一個機器在定向約定的領域和范圍領域的話,他可以實現(xiàn)大量的交流。有什么好處?不說今天中文的好處,如果把我們現(xiàn)在在美國同樣的小冰的對話能力引入到中國的話,意味著今天你面對的是一個最純正的本土化的一個英文老師。學不學會英語不一定,至少是在一個英文的環(huán)境里。技術上正在給我們帶來一個特別巨大的一個空間,只要我們的路徑選擇對,產(chǎn)品化設計好,它會帶來一個非常好的從產(chǎn)品的方向到設計以及到用戶體驗特別好的一個新的可能。
我今天就給大家介紹到這里,謝謝大家。