版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、多媒體信息處理,劉 剛網(wǎng)絡搜索教研中心模式識別與智能系統(tǒng)實驗室liugang@bupt.edu.cn2024年3月28日星期四,信息工程導論,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),2024年3月28日,2,信息與通信工程學院 liugang@bupt.edu.cn,1.概述,什么是多媒體為什么要研究多媒體信息信息處理流程多媒體信息處理研究內(nèi)容,2024年3月2
2、8日,3,信息與通信工程學院 liugang@bupt.edu.cn,1.1 什么是多媒體,媒體(Media)就是人與人之間實現(xiàn)信息交流的中介,簡單地說,就是信息的載體,也稱為媒介。多媒體就是多重媒體的意思可以理解為直接作用于人感官的文字、圖形、圖像、動畫、聲音和視頻等各種媒體的統(tǒng)稱,即多種信息載體的表現(xiàn)形式和傳遞方式。,2024年3月28日,4,信息與通信工程學院 liugang@bupt.edu.cn,,信息來源統(tǒng)計根據(jù)美國哈
3、佛商學院有關(guān)研究人員的分析資料表明,人的大腦每天通過五種感官接受外部信息的比例分別為:味覺1%,觸覺1.5%,嗅覺3.5%,聽覺11%,以及視覺83%。主要的三個媒體聲音: 語音(語言的表達形式之一),音樂,音效(一般音頻)圖像: 圖形,圖像,動畫,視頻文本(抽象): 文本(語言的表達形式之一),數(shù)據(jù)等,2024年3月28日,5,信息與通信工程學院 liugang@bupt.edu.cn,1.2 為什么要研究多媒體信息,多媒體是
4、信息載體的總稱,是信息的承載形式或表現(xiàn)形式。多媒體信息處理,實際上就是信息處理。信息及其處理是當前時代的標志信息處理是信息工程專業(yè)的使命多媒體信息處理又有自身的特點,2024年3月28日,6,信息與通信工程學院 liugang@bupt.edu.cn,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,7,信息及其處理是當前時代的標志,社會發(fā)展史: 農(nóng)業(yè)社會(物質(zhì)資源)擴展人的體質(zhì)能力工業(yè)社會
5、(能量資源)擴展人的體力能力信息社會(信息資源)擴展人的智力能力沒有物質(zhì)什麼都不存在,沒有能量什麼都不發(fā)生,沒有信息什麼都沒意義,信息處理是信息工程專業(yè)的使命,信息工程的使命信息工程是面向信息通信行業(yè),口徑寬、適應面廣的專業(yè)。該專業(yè)培養(yǎng)系統(tǒng)掌握信息傳輸和處理的基本理論和基本知識,掌握信息獲取和應用的核心技術(shù),能從事現(xiàn)代信息網(wǎng)絡和智能信息系統(tǒng)的設(shè)計、開發(fā)、研究及運營等方面工作的高素質(zhì)專門人才。,2024年3月28日,8,信息與通
6、信工程學院liugang@bupt.edu.cn,多媒體信息處理又有自身的特點,音頻---隨機視頻---隨機文本/數(shù)據(jù)---確定多媒體融合,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,9,如何結(jié)合不同媒體的特點進行更好的信息處理如何進行多個媒體的信息融合處理,1.3 信息處理的流程,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,10,信息處理的流程,信息
7、科學基本原理,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,11,1.3 信息處理的流程,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,12,多媒體信息處理主要研究與媒體相關(guān)的部分,1.4 多媒體信息處理研究內(nèi)容,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,13,數(shù)字信號處理數(shù)據(jù)采集技術(shù),通信原理信息處理與編碼,模式識別
8、Web搜索,語音信號數(shù)字處理 , 數(shù)字圖像處理,1.4 多媒體信息處理研究內(nèi)容,研究如何更有效地產(chǎn)生、傳輸、存儲、獲取和應用多媒體信息多媒體信息采集多媒體通信/存儲多媒體編碼/譯碼----信源編碼多媒體內(nèi)容處理---智能信息處理多媒體信息識別多媒體信息檢索多媒體信息生成,2024年3月28日,14,信息與通信工程學院 liugang@bupt.edu.cn,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多
9、媒體信息檢索多媒體信息生成總結(jié),2024年3月28日,15,信息與通信工程學院 liugang@bupt.edu.cn,2.多媒體信息采集,概述傳感器模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換噪聲處理等預處理,2024年3月28日,16,信息與通信工程學院 liugang@bupt.edu.cn,2.1多媒體信息采集-概述,采集原則不失真有用信號不失真噪聲干擾小處理過程傳感器采集模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換噪聲處理等預處理,2024年3月28日,
10、17,信息與通信工程學院 liugang@bupt.edu.cn,數(shù)據(jù)采集技術(shù),2.2 傳感器,傳感器transducer/sensor一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號或其他所需形式的信息輸出兩個功能信號敏感換能,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,18,2.2 傳感器,傳感器是人類五官的延長,又稱之為電五官光敏傳感器——視覺聲敏
11、傳感器——聽覺氣敏/化學傳感器——嗅覺化學傳感器——味覺壓敏、溫敏、流體 傳感器——觸覺,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,19,鹽度傳感器,2.2 傳感器---Mic陣列,2024年3月28日,20,信息與通信工程學院 liugang@bupt.edu.cn,2.2 傳感器---Mic陣列,2024年3月28日,21,信息與通信工程學院 liugang@b
12、upt.edu.cn,2.2 傳感器---Mic陣列,,2024年3月28日,22,信息與通信工程學院 liugang@bupt.edu.cn,針對復雜應用如: 音源定位 遠距離聲音采集 聲場分析等,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,2.3 模數(shù)轉(zhuǎn)換,23,圖像二值化等,2024年3月28日,24,信息與通信工程學院 liugang@bupt.edu.cn,2.3
13、 預處理,噪聲的去除和有用信息的初步提取降噪分割檢測……,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,25,語音預處理,語音增強語音端點檢測,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,26,譜減法語音增強,,,Kalman濾波法,,2024年3月28日,27,圖像的降噪,http://groups.google.com/group/dipr,信息與通
14、信工程學院 liugang@bupt.edu.cn,2024年3月28日,28,圖像增強,信息與通信工程學院 liugang@bupt.edu.cn,2024年3月28日,29,圖像恢復,,運動模糊圖像,恢復圖像,信息與通信工程學院 liugang@bupt.edu.cn,2024年3月28日,30,圖像的分割,信息與通信工程學院 liugang@bupt.edu.cn,周界檢測系統(tǒng),系統(tǒng)可以自動檢測到進入到場景中的運動目標,判斷是否進
15、入設(shè)定警戒區(qū)域。應用場景:機場,小區(qū),軍事禁區(qū),2024年3月28日,31,信息與通信工程學院 liugang@bupt.edu.cn,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),2024年3月28日,32,信息與通信工程學院 liugang@bupt.edu.cn,3.多媒體通信和存儲—多媒體編碼,為什么要進行編碼信源編碼---壓縮,提高有效性為什么可以壓縮信號本身的冗
16、余度---語音感知特性----人耳的聽覺特性語音--G.721,G.729,G.723.1 混合音頻編碼圖像--JPEG、JPEG2000視頻-- MPEG-1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG21,2024年3月28日,33,信息與通信工程學院 liugang@bupt.edu.cn,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),20
17、24年3月28日,34,信息與通信工程學院 liugang@bupt.edu.cn,4. 多媒體信息識別,模式識別概述語音識別音頻事件識別圖像識別多模態(tài)模式識別,2024年3月28日,35,信息與通信工程學院 liugang@bupt.edu.cn,4.1 模式識別,模式識別(Pattern Recognition)模式分類模式識別是從模式到類別的映射模式識別是模擬人的某些功能 模擬人的視覺: 計算機+
18、光學系統(tǒng)--?圖像識別模擬人的聽覺: 計算機+聲音傳感器---?語音識別模擬人的嗅覺和觸覺: 計算機+傳感器模式識別是從模式到類別的映射,2024年3月28日,36,信息與通信工程學院 liugang@bupt.edu.cn,模式識別在智能信息處理中的地位,,2024年3月28日,37,信息與通信工程學院 liugang@bupt.edu.cn,模式識別在信息處理中的地位,2024年3月28日,信息與通信工程學院 liug
19、ang@bupt.edu.cn,38,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,38,模式識別的原理框圖,,,2024年3月28日,39,信息與通信工程學院 liugang@bupt.edu.cn,模式識別的原理,,4.2 語音識別,什么是語音識別語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。 分類語音識別(內(nèi)容)特定人/非特
20、定人,孤立詞/連續(xù)語音/關(guān)鍵詞識別說話人識別/聲紋語種識別/方言識別性別識別情緒識別,母語/ 非母語,發(fā)音評價,疾病診斷,說話時吃東西?,2024年3月28日,41,信息與通信工程學院 liugang@bupt.edu.cn,演示系統(tǒng),語音輸入法/語音搜索谷歌、百度、搜狗、訊飛、微信語音問答系統(tǒng)蘋果 SIRI計算機聲控系統(tǒng),2024年3月28日,42,信息與通信工程學院 liugang@bupt.edu.cn,4.3
21、音頻事件識別,語音?音頻音頻事件識別關(guān)鍵事件---安全監(jiān)控腳步聲,關(guān)門開門聲,槍聲,玻璃破碎聲,重物落地聲,語音等音頻場景分析/情境計算音視頻摘要、檢索,2024年3月28日,43,信息與通信工程學院 liugang@bupt.edu.cn,演示系統(tǒng),2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,44,4.4 圖像識別,一、二維條碼識別?簡單問題文字識別、指紋識別、虹膜識別、掌紋識別、人臉
22、識別、車牌識別……物體識別,2024年3月28日,45,信息與通信工程學院 liugang@bupt.edu.cn,46,字符識別,脫機 offline OCR聯(lián)機 online 手寫輸入,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,2024年3月28日,47,,遼C79388,信息與通信工程學院 liugang@bupt.edu.cn,人臉識別,人臉識別是指通過人臉進行
23、身份確認或者身份查找的技術(shù)人臉圖像采集人臉定位人臉識別預處理身份確認以及身份查找等;,2024年3月28日,48,信息與通信工程學院 liugang@bupt.edu.cn,49,人臉檢測,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,50,人臉識別,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,51,指紋識別,2024年3月28日,信息與通信工程學院 li
24、ugang@bupt.edu.cn,52,虹膜識別,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,生物特征識別,生物特征識別:未來的身份驗證方法!生物:指紋、虹膜、人臉、掌紋、手形、視網(wǎng)膜、紅外溫譜行為:筆跡、步態(tài)、聲紋,2024年3月28日,53,信息與通信工程學院 liugang@bupt.edu.cn,手勢識別,體態(tài)識別靜止運動步態(tài)識別,2024年3月28日,54,信息與通信工程學院
25、liugang@bupt.edu.cn,物體識別(圖像解析),2024年3月28日,55,信息與通信工程學院 liugang@bupt.edu.cn,4.5 多模態(tài)模式識別,聽覺視覺雙模態(tài)語音識別視頻與聽覺語音聯(lián)合使用,提高識別率---多媒體融合,2024年3月28日,56,信息與通信工程學院 liugang@bupt.edu.cn,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),2
26、024年3月28日,57,信息與通信工程學院 liugang@bupt.edu.cn,5.多媒體信息檢索,文本檢索語音檢索音頻檢索圖像檢索多媒體融合信息檢索,2024年3月28日,58,信息與通信工程學院 liugang@bupt.edu.cn,5.1文本檢索,另外一講多媒體檢索與文本檢索的異同文本檢索是信息檢索的基礎(chǔ)多媒體檢索需要進行識別再進行檢索識別錯誤會產(chǎn)生影響,2024年3月28日,信息與通信工程學院 liuga
27、ng@bupt.edu.cn,59,5.2 語音檢索,查詢方式?文本,語音檢索對象?文本,語音,2024年3月28日,60,信息與通信工程學院 liugang@bupt.edu.cn,語音檢索演示,語音檢索檢索對象: 廣播新聞語音,如新聞聯(lián)播檢索輸入: 文本,2024年3月28日,61,信息與通信工程學院 liugang@bupt.edu.cn,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,
28、62,5.3 音頻檢索,基于樣例的音頻檢索哼唱檢索基于語義的音頻檢索音頻事件檢索音頻場景檢索,2024年3月28日,63,信息與通信工程學院 liugang@bupt.edu.cn,基于樣例的音頻檢索,功能簡介通過音頻片斷(原始的音頻片段或者錄制的)搜索到整個音頻的完整信息,,2024年3月28日,64,信息與通信工程學院 liugang@bupt.edu.cn,,2024年3月28日,信息與通信工程學院 liugang@bu
29、pt.edu.cn,65,基于樣例的音頻檢索,哼唱檢索,QBH(Query By Humming)通過哼唱歌曲的某個片段來找到想要搜尋的歌曲,是一種基于內(nèi)容的音樂信息檢索方式。,2024年3月28日,66,信息與通信工程學院 liugang@bupt.edu.cn,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,67,多媒體融合信息檢索---以音樂檢索為例,檢索輸入信息: 歌名,歌手,歌詞,旋
30、律,曲譜,流派,風格等形式: 文本,語音,哼唱,音頻,圖像(曲譜)檢索對象(輸出)文本,語音,歌曲,圖像等技術(shù)文本檢索,語音檢索(語音識別),哼唱檢索,流派識別,樣例檢索,音頻屬性檢索,多媒體信息融合等,2024年3月28日,68,信息與通信工程學院 liugang@bupt.edu.cn,5.4 圖像信息檢索,圖片檢索(谷歌、百度圖片搜索)文本檢索圖片圖片檢索圖片基于圖像的商品檢索,2024年3月28日,69,信息與通
31、信工程學院 liugang@bupt.edu.cn,,,基于3G手機的圖片檢索系統(tǒng),2024年3月28日,70,信息與通信工程學院 liugang@bupt.edu.cn,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),2024年3月28日,71,信息與通信工程學院 liugang@bupt.edu.cn,6.多媒體信息生成
32、 ---虛擬現(xiàn)實/增強現(xiàn)實,多媒體信息的再生---轉(zhuǎn)換多媒體信息的合成---合成人臉表情合成語音合成聽覺場景生成視覺場景生成3D 4D 5D電影---全息。。。。。。,2024年3月28日,72,信息與通信工程學院 liugang@bupt.edu.cn,6.1 語音合成(TTS),什么是TTSText To Speech讓機器開口說話評價指標可懂度、自然度,2024年3月28日,73,信息與通信工程學院 liug
33、ang@bupt.edu.cn,6.2 人臉表情合成,,2024年3月28日,74,信息與通信工程學院 liugang@bupt.edu.cn,6.2 人臉表情合成,,2024年3月28日,75,信息與通信工程學院 liugang@bupt.edu.cn,聽覺場景生成,計算聽覺場景分析用計算機技術(shù)將人類聽覺對聲音的處理過程( 聽覺場景分析) 建模, 使計算機具備從混合聲音中分離各物理聲源并作出合理解釋的能力。聽覺場景生成通過多揚聲
34、器在新的聲學空間重現(xiàn)聲學場景環(huán)繞立體聲免提全息電話Bee游戲虛擬現(xiàn)實,2024年3月28日,76,信息與通信工程學院 liugang@bupt.edu.cn,視覺場景生成,全息投影/景象往往包括音頻(即聽覺)3D 4D 5D電影---全息Microsoft HoloLens 全息眼鏡Magic Leap,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,77,3D,4D,5D電影,3D
35、立體效果的基礎(chǔ)上增加動感座椅,環(huán)境特效,5D電影院讓觀眾從聽覺、視覺、觸覺,這幾方面達到最強大的逼真感如同置身于影片中,通過環(huán)境模擬實現(xiàn)風、雨、電、煙、雪花、泡泡、火焰掃腿、捅背、震動、香煙等環(huán)境效果,順著影視內(nèi)容變化可實時感受到置身“閃電、煙霧、雪花”中,在“火焰”前有灼熱感,海浪撲身時會“濕”了衣裳。體驗下墜、震動、刮風、下雨、掃腿等全新的真切感覺,對電影行業(yè)有一定的推動作用。,2024年3月28日,信息與通信工程學院 liuga
36、ng@bupt.edu.cn,78,Microsoft HoloLens 全息眼鏡,Holograms借助頭戴設(shè)備HoloLen的幫助,讓用戶的眼前出現(xiàn)懸浮界面,以實際環(huán)境作為載體,實時處理、獲取虛擬信息:如在墻上查看消息、查找聯(lián)系人,在地上玩游戲、在客廳墻上直接進行 Skype 視頻通話、觀看球賽。,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,79,,,2024年3月28日,信息與通信工程學院 l
37、iugang@bupt.edu.cn,80,Magic Leap公司的3D裸眼技術(shù),,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,81,Magic Leap公司的相關(guān)展示,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,82,Magic Leap公司的相關(guān)展示,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,83,,2024年3月
38、28日,信息與通信工程學院 liugang@bupt.edu.cn,84,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,85,,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,86,,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,87,,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,88,
39、,,2024年3月28日,信息與通信工程學院 liugang@bupt.edu.cn,89,目錄,概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié),2024年3月28日,90,信息與通信工程學院 liugang@bupt.edu.cn,7. 多媒體信息處理---總結(jié),信息處理的重要組成部分各個媒體的處理各有特色,相互又有聯(lián)系智能信息處理,2024年3月28日,91,信息與通信工程學院 li
40、ugang@bupt.edu.cn,直接涉及的課程,數(shù)據(jù)采集技術(shù)通信原理信息技術(shù)導論信息處理與編碼生物信息基礎(chǔ)數(shù)字圖像處理模式識別語音信號數(shù)字處理WEB搜索技術(shù),2024年3月28日,92,信息與通信工程學院 liugang@bupt.edu.cn,搭建一個完整系統(tǒng)/產(chǎn)品,硬件系統(tǒng)軟件系統(tǒng)算法理論基礎(chǔ)技術(shù)方法,2024年3月28日,93,信息與通信工程學院 liugang@bupt.edu.cn,以手機為例,其它
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多媒體信息處理
- 多媒體信息處理技術(shù)
- 多媒體信息處理概述
- 多媒體信息處理考試答案
- 多媒體課件-視頻數(shù)字信息處理技術(shù)
- 多媒體視頻信息處理
- [學習]多媒體信息處理工具
- 電子教案多媒體信息處理與應用
- 基于Xscale的多媒體信息處理系統(tǒng).pdf
- 網(wǎng)絡多媒體系統(tǒng)視頻信息處理的研究.pdf
- 畢業(yè)論文(設(shè)計)《計算機應用基礎(chǔ)與信息處理》多媒體課件制作
- 基于DSP的多媒體信息處理平臺的設(shè)計與實現(xiàn).pdf
- 面向多媒體信息處理的算子級可重構(gòu)細胞電路研究.pdf
- 信息科學與技術(shù)導論是信息處理第四講
- 基于并行對象關(guān)系數(shù)據(jù)庫的多媒體信息處理研究.pdf
- 多媒體信息處理綜合課程設(shè)計-- jpeg編解碼方法設(shè)計與實現(xiàn)
- 圖像信息處理
- 光學信息處理
- 智能信息處理
- 信息和信息處理工具
評論
0/150
提交評論