揭秘聽(tīng)見(jiàn)世界APP:人工智能公益助盲,復(fù)旦眸思大模型打破視覺(jué)界限
隨著科技的不斷發(fā)展,人工智能不僅在商業(yè)領(lǐng)域取得了巨大成功,也在公益事業(yè)中展現(xiàn)了強(qiáng)大的潛力。一部名為《聽(tīng)見(jiàn)世界》的公益短片在社交媒體上引起了關(guān)注,它不僅讓觀眾感受到深刻的情感共鳴,還展示了復(fù)旦眸思大模型如何借助AI科技為視障者打破視覺(jué)界限的努力。
目前,聽(tīng)見(jiàn)世界APP已經(jīng)上線(xiàn),盲人朋友可以在安卓商店進(jìn)行應(yīng)用下載。為揭開(kāi)聽(tīng)見(jiàn)世界項(xiàng)目的神秘面紗,我們對(duì)復(fù)旦眸思公益助盲項(xiàng)目團(tuán)隊(duì)進(jìn)行了專(zhuān)訪。
源起:復(fù)旦眸思大模型,助力產(chǎn)品打破視覺(jué)界限
“在多模態(tài)大模型開(kāi)發(fā)過(guò)程中,我們一直在探討利用多模態(tài)大模型能具體做些什么。我們?cè)陧级嗄B(tài)大模型構(gòu)建過(guò)程中使用了數(shù)億張圖片進(jìn)行訓(xùn)練,其中有大量的自然場(chǎng)景,在測(cè)試過(guò)程中,我們發(fā)現(xiàn)它可以非常好地對(duì)自然環(huán)境,甚至是可以對(duì)非常罕見(jiàn)的自然場(chǎng)景進(jìn)行準(zhǔn)確描述,”中工互聯(lián)首席科學(xué)家、復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授張奇講道:“我們覺(jué)得這就像是機(jī)器長(zhǎng)了眼睛。由此,我們很快想到將圖像轉(zhuǎn)換為語(yǔ)音,可以為盲人朋友在行走、尋找物品等場(chǎng)景下提供巨大的幫助?!?/p>
圖:聽(tīng)見(jiàn)世界項(xiàng)目研發(fā)團(tuán)隊(duì)部分成員
顯而易見(jiàn),復(fù)旦眸思大模型成為了聽(tīng)見(jiàn)世界APP運(yùn)行的基石。
張奇教授表示:眸思大模型提出了全新的多視覺(jué)專(zhuān)家混合架構(gòu)。它將擅長(zhǎng)圖文匹配、光學(xué)字符識(shí)別(OCR)和圖像分割等多種經(jīng)典視覺(jué)任務(wù)的專(zhuān)家巧妙地融為一體。在各類(lèi)場(chǎng)景中,眸思大模型展現(xiàn)出良好的性能和邏輯推理能力。
中工互聯(lián)(北京)科技集團(tuán)有限公司創(chuàng)始人、董事長(zhǎng)智振講道:“眸思大模型是復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的最新力作,代表國(guó)內(nèi)科研機(jī)構(gòu)最先進(jìn)的技術(shù)水平。聽(tīng)見(jiàn)世界APP的表現(xiàn)非常驚艷。長(zhǎng)遠(yuǎn)來(lái)看,隨著人工智能技術(shù)的進(jìn)步和未來(lái)腦機(jī)接口技術(shù)的突破,可能盲人朋友真就能‘看到’世界了。要實(shí)現(xiàn)這一長(zhǎng)遠(yuǎn)的目標(biāo),需要全世界科技工作者共同的努力?!?/p>
圖:中工互聯(lián)董事長(zhǎng)智振
推進(jìn):項(xiàng)目研發(fā)團(tuán)隊(duì),產(chǎn)學(xué)研用強(qiáng)強(qiáng)聯(lián)合
復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室與復(fù)旦大學(xué)視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室在開(kāi)發(fā)復(fù)旦眸思多模態(tài)大模型時(shí)就同步進(jìn)行了聽(tīng)見(jiàn)世界項(xiàng)目的開(kāi)發(fā)工作。該項(xiàng)目由復(fù)旦大學(xué)桂韜、紀(jì)燾、張奇、黃萱菁、邱錫鵬、吳祖煊、姜育剛等主導(dǎo),樊曉然、江常皓、李爍、金森杰等近20名博士和碩士研究生共同參與了產(chǎn)品研發(fā)。
圖:張奇教授
“中工互聯(lián)在整個(gè)項(xiàng)目的研發(fā)過(guò)程中給予了全方位的支持,”張奇教授講道:“我們之間建立了良好的戰(zhàn)略合作關(guān)系,在中工互聯(lián)擅長(zhǎng)的工業(yè)領(lǐng)域,我們一起利用多模態(tài)大模型,在圖紙理解、產(chǎn)品質(zhì)檢和異常檢測(cè)等領(lǐng)域開(kāi)展了廣泛的產(chǎn)品落地?!?/p>
智振董事長(zhǎng)表示:中工互聯(lián)復(fù)旦大學(xué)聯(lián)合實(shí)驗(yàn)室,以及智工·工業(yè)大模型研發(fā)團(tuán)隊(duì)全程參與了項(xiàng)目研發(fā)。項(xiàng)目團(tuán)隊(duì)由頂級(jí)大學(xué)科研隊(duì)伍和務(wù)實(shí)的產(chǎn)品落地成員組成。既有創(chuàng)新精神又可以高效快速落地。這種能力在智工工業(yè)大模型的研發(fā)中得以展現(xiàn)。
應(yīng)用:我是你的眼,世界就在你耳邊
聽(tīng)見(jiàn)世界APP采用安卓系統(tǒng)進(jìn)行開(kāi)發(fā),可以支持最低端的智能手機(jī)。在后端模型架構(gòu)層面,研發(fā)團(tuán)隊(duì)采用了非常靈活的部署策略,可以使用智算中心的閑置算力,甚至是居民個(gè)人家庭中3090顯卡的閑置時(shí)間。
聽(tīng)見(jiàn)世界APP的全部識(shí)別功能都全部來(lái)源于眸思大模型,在不同的模式下預(yù)設(shè)了不同的Prompt,從而方便盲人朋友使用。
據(jù)悉,聽(tīng)見(jiàn)世界APP產(chǎn)品目前設(shè)計(jì)了街道行走、物品尋找、自由問(wèn)答和電視介紹等四種模式。它可以成為視障人士的生活助手與智能管家。
圖:聽(tīng)見(jiàn)世界APP電視介紹模式
舉個(gè)例子。當(dāng)盲人朋友開(kāi)啟街道行走模式,聽(tīng)見(jiàn)世界APP會(huì)通過(guò)攝像頭實(shí)時(shí)捕捉交通畫(huà)面,并將畫(huà)面?zhèn)鬟f給復(fù)旦眸思大模型,由模型識(shí)別當(dāng)前場(chǎng)景中的情況,并對(duì)紅綠燈、路口、臺(tái)階、坡道等信息進(jìn)行重點(diǎn)識(shí)別,進(jìn)而生成文字并合成語(yǔ)音,播放給盲人朋友。
圖:聽(tīng)見(jiàn)世界APP街道行走模式
“其他模式與這個(gè)類(lèi)似,都是通過(guò)攝像頭捕捉圖像,盲人朋友通過(guò)語(yǔ)音與模型進(jìn)行交互,從而得到整體結(jié)果,”張奇教授講道:“未來(lái),我們會(huì)圍繞盲人的衣食住用行等方方面面的需求,全面完善產(chǎn)品功能。讓聽(tīng)見(jiàn)世界APP真正變成盲人的朋友的‘眼睛’?!?/p>
圖:聽(tīng)見(jiàn)世界APP物品尋找模式
智振董事長(zhǎng)表示:聽(tīng)見(jiàn)世界APP,我們?yōu)樗业搅艘粋€(gè)產(chǎn)品推廣語(yǔ)——我是你的眼,世界就在你耳邊。這款產(chǎn)品既可以成為盲人朋友生活的必備工具,讓他們和正常人一樣感受到世界的美好。
圖:聽(tīng)見(jiàn)世界APP可以實(shí)現(xiàn)實(shí)時(shí)交互
未來(lái):定位公益項(xiàng)目,讓每一份生活都更美好
關(guān)于聽(tīng)見(jiàn)世界APP產(chǎn)品應(yīng)用成本,研發(fā)團(tuán)隊(duì)曾經(jīng)算過(guò)一筆賬。
張奇教授分析道:在大模型層面,我們目前有80億、140億和350億等三個(gè)參數(shù)版本。即便采用80億參數(shù)的版本,一個(gè)終端每小時(shí)所消耗的GPU計(jì)算費(fèi)用在1元左右,估算下來(lái),服務(wù)每個(gè)盲人朋友每個(gè)月大約需要150元左右。但是,我們希望盡最大努力,協(xié)調(diào)各方資源,將這個(gè)產(chǎn)品免費(fèi)提供給盲人朋友。
張奇教授表示:“在政府的支持下,我們計(jì)劃與NGO組織、智算中心和硬件廠商等開(kāi)展合作,致力于讓盲人朋友免費(fèi)使用產(chǎn)品和相關(guān)的服務(wù)?!?/p>
圖:復(fù)旦大學(xué)NLP實(shí)驗(yàn)室青年副研究員桂韜
“在人工智能引領(lǐng)的時(shí)代潮流中,我們不應(yīng)該忽視任何一個(gè)人,眸思項(xiàng)目能夠幫助1800萬(wàn)盲人重新找回生活的色彩,這不僅是技術(shù)的一次飛躍,也是人工智能在服務(wù)人類(lèi),改善我們生活方面道出的重要一步,”復(fù)且大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室青年副研究員桂韜表示:“這代表著我們實(shí)驗(yàn)室對(duì)于打造一個(gè)更加包容、更加美好世界的堅(jiān)定承諾?!?/p>
“人工智能等一切科技文明都是人類(lèi)集體智慧的結(jié)晶,我們需要在科技的發(fā)展中尋求更多的公正和平等。聽(tīng)見(jiàn)世界,我們對(duì)它的定位是公益項(xiàng)目,”智振董事長(zhǎng)講道:“與此同時(shí),我們會(huì)加快眸思大模型的商業(yè)化落地進(jìn)程,盡快惠及更多行業(yè)更多用戶(hù)。我們計(jì)劃在復(fù)旦大學(xué)中工互聯(lián)聯(lián)合實(shí)驗(yàn)室的框架內(nèi),加大科研經(jīng)費(fèi)的投入,首期計(jì)劃投入1500萬(wàn)研發(fā)經(jīng)費(fèi)來(lái)加大基礎(chǔ)大模型的研究?!?/p>
-
海能新能源助力科技創(chuàng)新——第六屆射頻與天線(xiàn)技術(shù)國(guó)際學(xué)術(shù)研討會(huì)在深圳成功召開(kāi)
-
漢王友基與廣州美術(shù)學(xué)院達(dá)成校企戰(zhàn)略合作
-
以遠(yuǎn)見(jiàn)超越未見(jiàn) | 2023 山石網(wǎng)科 · 安全守護(hù)者峰會(huì)成功舉辦
-
漢王友基點(diǎn)陣筆新品上市,賦能紙筆互動(dòng)智慧教育場(chǎng)景
-
新生產(chǎn)力,躍升!2023WAIC“智慧金融與數(shù)字員工”分論壇在滬成功舉辦
-
DHL亞特蘭大樞紐投運(yùn)
-
三亞太陽(yáng)灣柏悅酒店開(kāi)啟盛夏山海暑期童趣之旅