第三章 文本編輯與閱讀軟件

上傳人:hjk****65 文檔編號:204768581 上傳時間:2023-04-27 格式:PPT 頁數(shù):65 大?。?15KB
收藏 版權(quán)申訴 舉報 下載
第三章 文本編輯與閱讀軟件_第1頁
第1頁 / 共65頁
第三章 文本編輯與閱讀軟件_第2頁
第2頁 / 共65頁
第三章 文本編輯與閱讀軟件_第3頁
第3頁 / 共65頁

下載文檔到電腦,查找使用更方便

15 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《第三章 文本編輯與閱讀軟件》由會員分享,可在線閱讀,更多相關(guān)《第三章 文本編輯與閱讀軟件(65頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1 1頁頁/共共6565頁頁第三章 文本編輯與閱讀軟件 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2 2頁頁/共共6565頁頁主要內(nèi)容文本編輯軟件 電子圖書簡介UltraEditAdobe ReaderOCR手機閱讀器西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3 3頁頁/共共6565頁頁3.1 文本編輯及閱讀軟件簡介 文本編輯軟件及閱讀軟件可以幫助用戶編寫、修改各類電子文檔,對文檔進行排版、校對等工

2、作;還可以瀏覽各種通用的文檔,實現(xiàn)無紙化辦公和無紙化閱讀。有些文本編輯軟件甚至可以幫助用戶編寫應(yīng)用程序的代碼,并提供語法檢查功能。而一些文本閱讀軟件則可以通過網(wǎng)絡(luò)定時更新本地的文檔、訂閱信息,甚至通過語音閱讀文檔。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4 4頁頁/共共6565頁頁文本編輯軟件文本編輯軟件文本編輯軟件是在日常工作和生活中使用相當(dāng)頻繁的應(yīng)用軟件之一。其主要包括兩大類,即文本編輯器和文字處理器。記事本寫字板UltraeditEditplus西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University

3、第第5 5頁頁/共共6565頁頁文本閱讀軟件文本閱讀軟件文本閱讀軟件在日常生活中使用也非常廣泛。經(jīng)常用于瀏覽各種電子文檔。常用的文本閱讀軟件主要包括文檔瀏覽軟件、RSS訂閱軟件以及語音閱讀軟件等。在日常工作中,經(jīng)常需要通過各種文字處理器編寫各種各樣的文檔。這些文檔大多都是包含各種文本樣式和排版的編譯文檔或加密文檔。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6 6頁頁/共共6565頁頁3.2 電子圖書1、電子書是利用計算機技術(shù)將一定的文字、圖片、聲音、影像等信息,通過數(shù)碼方式記錄在以光、電、磁為介質(zhì)的設(shè)備中,借助于特定的設(shè)備來讀取、復(fù)制、傳輸?shù)?/p>

4、內(nèi)容呈現(xiàn)形式。2、構(gòu)成三要素:(1)E-book 的內(nèi)容(2)電子書的閱讀器(3)電子書的閱讀軟件西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第7 7頁頁/共共6565頁頁電子圖書的特點擁有與傳統(tǒng)書籍許多相同的特點:包含一定的信息量;其編排按照傳統(tǒng)書籍的格式以適應(yīng)讀者的閱讀習(xí)慣;通過被閱讀而傳遞信息等等。又擁有許多傳統(tǒng)書籍不具備的特點:必須通過電子計算機設(shè)備讀取并通過屏幕顯示出來;具備圖文聲像結(jié)合的優(yōu)點;可檢索;可復(fù)制;有更高的性價比;有更大的信息含量;有更多樣的發(fā)行渠道等等。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest

5、University第第8 8頁頁/共共6565頁頁電子圖書形式1、完全執(zhí)行文件 這種形式的電子圖書一般帶有保護性質(zhì),資料量大,有保密性,可閱讀性比較差。適合于內(nèi)部刊物等。2、專有格式 這種形式的電子圖書需要以某種專門的閱讀器閱讀,功能比較固定,目前僅有國外幾種閱讀器適用,升級/二次開發(fā)依賴國外軟件商的升級,不利于國內(nèi)快速增長的電子圖書市場。3、通用格式 這種形式的電子圖書一般以通用的圖文混排格式制作,即使沒有閱讀器,一般用戶也可在自己的電腦上閱讀,而定制的增強功能的閱讀器則可以發(fā)揮更高的閱讀效率。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第9

6、 9頁頁/共共6565頁頁電子圖書的格式1EXE文件格式:不支持Flash和Java及常見的音頻視頻文件,需要IE瀏覽器支持 2 HLP文件格式3CHM文件格式:Compiled Help Manual,支持JavaScript、VBScript、ActiveX、Java Applet、Flash、常見圖形文件(GIF、JPEG、PNG)、音頻視頻文件(MID、WAV、AVI)等 4PDF文件格式:電子讀物美觀、便于瀏覽、安全性很高;但是這種格式不支持CSS、Flash、Java、JavaScript等基于HTML的各種技術(shù)5WDL文件格式:這種格式的電子讀物由于對打印和拷貝作了限制,所以適當(dāng)

7、保護了作者和出版商的利益。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1010頁頁/共共6565頁頁6SWB文件格式:軟件WinEbook Compiler的一種專有格式 7LIT文件格式:不支持與HTML相關(guān)的各種技術(shù),只支持圖片的瀏覽,對中文支持不是很好 8EBX文件格式:該格式可以包括sound、wave等多媒體文檔 9.TXT:最常見的TXT小說,不僅方便的在電腦上打開,還可以下載到MP3和手機中10.HTML:網(wǎng)頁格式,可用網(wǎng)頁瀏覽器直接打開 11.CEB:轉(zhuǎn)換方便,幾乎所有格式都可以轉(zhuǎn)換成CEB格式,包括XML、S2、PS、PDF、

8、TIFF、DOC、WPS等 電子圖書的格式西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1111頁頁/共共6565頁頁12.ABM:一種全新的數(shù)碼出版物格式,這種格式最大的優(yōu)點就是能把文字內(nèi)容與圖片、音頻甚至是視頻動畫結(jié)合為一個有機的整體13PDG:超星公司把書籍經(jīng)過掃描后存儲為PDG數(shù)字格式,存放在數(shù)字圖書館中14EBK文件格式該格式是Voyager公司的MAC機(也有PC格式)讀書軟件格式 15.DOC:Microsoft WORD的專有格式16.PDB/PRC:PDA專用的格式17.CLF:LISTPRO軟件的專有格式電子圖書的格式西北大學(xué)

9、分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1212頁頁/共共6565頁頁18.RB文件格式:“Rocket eBook”19.CAJ 文件格式:Chinese academic journal 20.NLC 文件格式:中國國家圖書館的電子圖書格式21.STK文件格式:宜銳公司的電子書格式22.XPS格式:XPS,XML Paper Specification,一種基于Zip壓縮格式的文件,包括Word、Excel、PowerPoint、Access、Publisher、Visio、OneNote、及InfoPath等應(yīng)用程序所保存的檔案都可以存成XP

10、S 電子圖書的格式西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1313頁頁/共共6565頁頁手機電子書兼容格式手機終端常見的電子書格式為UMD、JAR、TXT這三種。1、umd是掌上書院創(chuàng)立的手機電子書文件格式 2、JAVA手機電子書的格式一般為JAR和JAD 3、TXTPDB格式:是PDA palm的的專用格式 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1414頁頁/共共6565頁頁電子圖書版權(quán)及其它e-Book的數(shù)字化特點為其復(fù)制提供了異常廉價、簡便、快捷和準(zhǔn)確的使用方式,與紙質(zhì)圖書和傳統(tǒng)

11、出版物相比有許多優(yōu)越性 從而大大促進了數(shù)字作品的傳播,為公眾提供了便利.但隨之出現(xiàn)的版權(quán)問題也成為著作權(quán)人、出版商、讀者關(guān)注的焦點。電子圖書的出現(xiàn)打破了原有的著作權(quán)法范圍內(nèi)作者、出版者和讀者之間的利益平衡,引起了嚴(yán)重的版權(quán)問題.而成為限制e-Book發(fā)展的瓶頸.版權(quán)保護的措施和法規(guī)不完善已經(jīng)成為電子圖書普及的最大障礙。及時有效的版權(quán)管理和加密技術(shù)對電子圖書的發(fā)展顯得極為重要。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1515頁頁/共共6565頁頁自1999年以來,出現(xiàn)了以保護數(shù)字版權(quán)為核心的數(shù)字版權(quán)管理(Digital Rights Mana

12、gement,簡稱DRM)技術(shù),避免播放和復(fù)制未經(jīng)授權(quán)的數(shù)字內(nèi)容,是對著作權(quán)法的有效和必要的補充.數(shù)字版權(quán)管理技術(shù)的出現(xiàn),為解決e-Book等電子出版物的侵權(quán)問題提供了較好的思路.中文在線電子書被“免費”使用 獲賠20萬 因未經(jīng)許可傳播紅色童話、永不瞑目等作品的電子書,蛙撲網(wǎng)絡(luò)技術(shù)有限公司被北京中文在線文化發(fā)展有限公司告上法庭,被判賠償原告20萬元。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1616頁頁/共共6565頁頁3.3 文本編輯UltraEdit西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University

13、第第1717頁頁/共共6565頁頁工具欄按鈕西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1818頁頁/共共6565頁頁西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第1919頁頁/共共6565頁頁主要功能1十六進制編輯模式2同時編輯多個文件3多文件的查找和替換4保存為項目文件 5拼寫檢查6支持多種文件格式7宏功能 8支持多種字體9命令調(diào)用西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2020頁頁/共共6565頁頁西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)

14、重點實驗室Northwest University第第2121頁頁/共共6565頁頁打開多個文檔 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2222頁頁/共共6565頁頁Replace對話框 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2323頁頁/共共6565頁頁Specify Project File對話框 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2424頁頁/共共6565頁頁Check Spelling對話框 西北大學(xué)分析科學(xué)研究所/

15、陜西省電分析化學(xué)重點實驗室Northwest University第第2525頁頁/共共6565頁頁File Associations選項卡西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2626頁頁/共共6565頁頁轉(zhuǎn)換文本格式 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2727頁頁/共共6565頁頁字符集基本的概念字符到底是什么東西?字符是抽象的最小文本單位 語言的基本單元是字符,如每個英文字母都是一個字符,每個漢字也都是一個字符其他控制字符等,如回車、換行字符什么是字符內(nèi)碼?內(nèi)碼指某種語言的

16、字符在計算機存儲器內(nèi)的表現(xiàn)形式;內(nèi)碼主要與字符的編碼方式有關(guān)系,如ASCII編碼的字符“A”的內(nèi)碼是0 x41。什么是字符集、編碼字符集?字符集是字符的集合;編碼字符集是所有字符都有數(shù)字編碼的字符集西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2828頁頁/共共6565頁頁字符編碼的基本概念一個字符的編碼就是表示這個字符的一串內(nèi)碼數(shù)字;每種字符集采用特定位長的數(shù)字用以編碼用于編碼字符的數(shù)字成為“代碼點”,不一定所有代碼點都用來編碼字符字符編碼方案是一個或多個編碼字符集映射為一個或多個定長編碼單元(8/16/32)的方法,如GBK是漢字字符集的一種

17、編碼方案,GB18030也是。DBCS,Double-Byte Character SetMBCS,Multi-Byte Character Set西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第2929頁頁/共共6565頁頁字符的存放與顯示字符是如何存放的?存放的只是表示字符的內(nèi)碼字符是如何在計算機屏幕展現(xiàn)的字符的展現(xiàn)離不開字形庫(字體)字形庫存放的字符字形以及內(nèi)碼與字形的映射表一般有點陣字形和矢量字形(TTF字體全是矢量字形,F(xiàn)ON文件存放的是點陣字型16*16或24*24)西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest

18、University第第3030頁頁/共共6565頁頁常見字符編碼ASCIIISO8859_1BIG5GB2312GBK/GB13000GB18030UnicodeJava中的字符編碼西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3131頁頁/共共6565頁頁ASCIIASCII(American Standard Code for Information Interchange,美國信息互換標(biāo)準(zhǔn)代碼)是基于羅馬字母表的一套電腦編碼系統(tǒng)。主要含現(xiàn)代英語和西歐英語國家字符使用單字節(jié)的7個bit編碼ISO8859_1擴展了ASCII,利用了單字節(jié)的1

19、27以上部分含西歐國家主要語系的字符,表格符號等ISO8859_1編碼的是Latin_1字符集西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3232頁頁/共共6565頁頁Big5又稱大五碼或五大碼,1984年由臺灣財團法人信息工業(yè)策進會和五間軟件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大眾(FIC)創(chuàng)立,故稱大五碼使用單字節(jié)、雙字節(jié)存儲,主要包含繁體中文漢字重復(fù)地收錄了兩個相同的字:“兀”(0 xA461及0 xC94A)、“嗀”(0 xDCD1及0 xDDFC)。GB2312GB2312又稱為GB2312-80

20、字符集,全稱為信息交換用漢字編碼字符集基本集,由原中國國家標(biāo)準(zhǔn)總局發(fā)布,1981年5月1日實施使用單字節(jié)、雙字節(jié)存儲,主要收錄簡體中文漢字西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3333頁頁/共共6565頁頁GBK/GB13000是GB2312-80的擴展,涵蓋簡體中文、繁體中文、日文、韓文等GBK是GB2312向GB13000過渡的一個中間產(chǎn)物 使用單字節(jié)、雙字節(jié)存儲Unicode兩種標(biāo)準(zhǔn)的妥協(xié)國際標(biāo)準(zhǔn)化組織(ISO)的 ISO 10646(UCS)項目多語言軟件制造商組成的協(xié)會組織的 Unicode 項目通用字符集是所有其他字符集標(biāo)準(zhǔn)的

21、一個超集。與其他字符集是雙向兼容的。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3434頁頁/共共6565頁頁Unicode的幾種編碼方案UTF-32 即將每一個 Unicode 代碼點表示為相同值的 32 位整數(shù)。UTF-16 使用一個或兩個無符號的 16 位代碼單元的序列對 Unicode 代碼點進行編碼UTF-8 使用一至四個字節(jié)的序列對編碼 Unicode 代碼點進行編碼 Java Modified UTF8:字符”U+0000”使用兩個字節(jié)只使用一至三個字節(jié)編碼增補字符使用替代方式表示西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室

22、Northwest University第第3535頁頁/共共6565頁頁命令調(diào)用 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3636頁頁/共共6565頁頁DOS Command對話框 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3737頁頁/共共6565頁頁Command Output窗口 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第3838頁頁/共共6565頁頁3.4 Adobe Reader西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗

23、室Northwest University第第3939頁頁/共共6565頁頁基本用法1使用導(dǎo)覽標(biāo)簽2打開文檔3保存 Adobe PDF 文檔4關(guān)于創(chuàng)建 Adobe PDF 文檔5導(dǎo)覽文檔6調(diào)整文檔的視圖7設(shè)置頁面布局和方向8以全屏視圖閱讀文檔 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4040頁頁/共共6565頁頁西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4141頁頁/共共6565頁頁編輯Adobe PDF文檔1復(fù)制文本可以使用“文本選擇工具”復(fù)制文本。2復(fù)制圖像復(fù)制圖像與復(fù)制文本類似,所不

24、同的是使用“選擇圖像工具”來選擇要復(fù)制的圖像。3粘貼圖像可以在其他應(yīng)用程序中,如寫字板和Word中將上面復(fù)制的文字、圖像等進行粘貼。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4242頁頁/共共6565頁頁使用注釋工具單擊“視圖工具欄注釋工具”命令即可打開如圖6-3所示的“注釋工具”工具欄。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4343頁頁/共共6565頁頁3.5 漢字識別 漢字識別屬于文字識別(OCR)的范疇,文字識別是模式識別的重要應(yīng)用領(lǐng)域。漢字識別技術(shù)涉及到模式識別、圖像處理、人工智

25、能、模糊數(shù)學(xué)、組合論、信息論、計算機等多個學(xué)科,也涉及到語言文字學(xué)、心理學(xué)等學(xué)科,是一門綜合性的技術(shù)。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4444頁頁/共共6565頁頁漢字OCR技術(shù)發(fā)展歷史西文OCR技術(shù)研究始于50年代Optical Character Recognition(OCR)幾乎所有的早期模式識別研究者都進行過字符識別的幾乎所有的早期模式識別研究者都進行過字符識別的研究。隨后的研究。隨后的 30 30 多年來,字符識別一直是模式識別多年來,字符識別一直是模式識別的重要內(nèi)容之一的重要內(nèi)容之一 漢字OCR技術(shù)印刷體漢字的識別最早

26、可以追溯到印刷體漢字的識別最早可以追溯到6060年代年代19661966年,年,IBMIBM公司的公司的CaseyCasey和和NagyNagy發(fā)表了第一篇關(guān)于印發(fā)表了第一篇關(guān)于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了板匹配法識別了1 1,000000個印刷體漢字個印刷體漢字西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4545頁頁/共共6565頁頁漢字OCR技術(shù)發(fā)展歷史70年代以來,日本人做了許多工作日本的常用漢字有日本的常用漢字有20002000個左右個左右1977197

27、7年東芝綜合研究所研制了可以識別年東芝綜合研究所研制了可以識別20002000個個漢字的單體印刷漢字識別系統(tǒng)漢字的單體印刷漢字識別系統(tǒng)8080年代初期,日本武藏野電氣研究所研制的可年代初期,日本武藏野電氣研究所研制的可以識別以識別23002300個多體漢字的印刷體漢字識別系統(tǒng),個多體漢字的印刷體漢字識別系統(tǒng),代表了當(dāng)時漢字識別的最高水平代表了當(dāng)時漢字識別的最高水平日本的三洋、松下、理光和富士等公司也有其日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識別系統(tǒng)研制的印刷漢字識別系統(tǒng)西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4646頁頁/共

28、共6565頁頁我國自70年代后期開始字符識別方面的研究,80年代以后,臺灣和香港發(fā)展的也很快7070年代末期到年代末期到8080年代末期年代末期算法和方案探索算法和方案探索 :單體漢字識別:單體漢字識別9090年代初期年代初期由實驗室走向市場,初步實用由實驗室走向市場,初步實用9090年代后期年代后期混排混排多語言混排文本:如中英文多語言混排文本:如中英文多字體混排文本:如:宋,楷體,多字體混排文本:如:宋,楷體,)多字號混排文本:不同大小多字號混排文本:不同大小西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4747頁頁/共共6565頁頁2000

29、年代后識別率、魯棒性的提高識別率、魯棒性的提高單純單純OCR文檔分析文檔分析多語混排,多字號,多字體多語混排,多字號,多字體版面分析版面分析文本的結(jié)構(gòu)文本的結(jié)構(gòu)表格,圖像(如插圖),公式表格,圖像(如插圖),公式攝像設(shè)備(非掃描儀)攝像設(shè)備(非掃描儀)名片名片手機攝像手機攝像通訊錄通訊錄西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4848頁頁/共共6565頁頁國內(nèi)主要研究機構(gòu)漢王科技中科院自動化所中科院自動化所1985年劉迎建開發(fā)出國內(nèi)第一個聯(lián)機手寫漢字識別年劉迎建開發(fā)出國內(nèi)第一個聯(lián)機手寫漢字識別系統(tǒng),并獲國家發(fā)明專利。系統(tǒng),并獲國家發(fā)明專利。

30、1993年初,在中科院自年初,在中科院自動化研究所的支持下創(chuàng)辦了中國漢王科技公司,出動化研究所的支持下創(chuàng)辦了中國漢王科技公司,出任總經(jīng)理任總經(jīng)理中科院計算所智能計算機研究中心中科院計算所智能計算機研究中心西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第4949頁頁/共共6565頁頁系統(tǒng)構(gòu)成西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5050頁頁/共共6565頁頁信號采集方式脫機識別掃描儀或者攝像設(shè)備掃描儀或者攝像設(shè)備數(shù)字圖像信號數(shù)字圖像信號聯(lián)機手寫識別手寫屏,手寫輸入板手寫屏,手寫輸入板運動軌跡電信

31、號,記錄了筆劃和筆順信息運動軌跡電信號,記錄了筆劃和筆順信息電磁式或壓電式,在書寫時,筆在板上的運動軌跡(在板上的電磁式或壓電式,在書寫時,筆在板上的運動軌跡(在板上的坐標(biāo))被轉(zhuǎn)化為一系列的電信號,電信號可以串行地進入到計坐標(biāo))被轉(zhuǎn)化為一系列的電信號,電信號可以串行地進入到計算機中,從這些電信號我們可以比較容易地抽取筆劃和筆順的算機中,從這些電信號我們可以比較容易地抽取筆劃和筆順的信息信息.西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5151頁頁/共共6565頁頁OCR技術(shù)一般流程西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwe

32、st University第第5252頁頁/共共6565頁頁文字識別軟件的使用 目前,大量的非電子化文檔,嚴(yán)重影響著我們?nèi)粘5霓k公效率,為了更好的解決這個問題,我們可以使用文字識別軟件(OCR)對掃描的圖像文件進行文本化轉(zhuǎn)換,將紙質(zhì)文檔轉(zhuǎn)化為可以再次編輯的電子文檔。目前常用的中文文字識別軟件很多,比如:清華紫光 OCR、尚書OCR、漢王OCR、蒙怡OCR、丹青OCR等。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5353頁頁/共共6565頁頁漢王PDF OCRV8.0 識別字符識別字符簡體字符集:國標(biāo)GB2312-80的全部一、二級漢字6800

33、多個。純英文字符集。簡繁字集:除了簡體漢字外,還可以混識臺灣繁體字5400多個以及香港繁體字和GBK漢字。識別字體種類識別字體種類能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體,并支持多種字體混排。識別字號識別字號初號 小六號字體。表格識別表格識別可以自動判斷、拆分、識別和還原各種通用型印刷體表格。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5454頁頁/共共6565頁頁系統(tǒng)設(shè)置系統(tǒng)設(shè)置 支持的掃描任務(wù)語言有:中文簡體、簡繁混合、純英文等。如果選中“灰度彩色圖像總存為JPG”,那么系統(tǒng)會自動將灰度彩色圖像掃描保存成JPG格式。如

34、果選中“識別”頁中的“自動傾斜校正”,在版面分析時,系統(tǒng)會自動校正傾斜的圖像文件。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5555頁頁/共共6565頁頁操作界面操作界面 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5656頁頁/共共6565頁頁文件管理區(qū)文件管理區(qū)打開文件:打開文件:選擇“文件”菜單,選擇打開圖像文件的路徑,圖像文件便顯示在管理區(qū)用鼠標(biāo)可將圖像文件拖拽到管理區(qū),也可將打開的圖像頁復(fù)制、粘貼到管理區(qū)。刪除文件:刪除文件:按鍵盤上的“Delete”鍵將文件刪除。調(diào)整文件:調(diào)整文件

35、:選中一個文件或按住Ctrl可以選擇多個文件,把文件拖放到要調(diào)整的位置。文件格式:文件格式:本系統(tǒng)支持TIF、BMP、PDF,彩色灰度圖還支持JPG格式。文件語言:文件語言:本系統(tǒng)支持中文簡體、英文、簡繁體混排方式、以及中英文混排方式。圖像文件重命名:圖像文件重命名:選中文件,點擊文件菜單選擇可保存成TIF、BMP、JPG文件(說明:本系統(tǒng)不支持批量圖像文件的改名)。圖像文件保存路徑:圖像文件保存路徑:在中可以設(shè)置獲取圖像文件的路徑、名稱、格式。如該路徑不存在,系統(tǒng)會提示是否創(chuàng)建該路徑;如果要選擇已存在的某個路徑,可以點擊“掃描到”按鈕,彈出選擇路徑對話框,選擇需要保存圖像的路徑。西北大學(xué)分析

36、科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5757頁頁/共共6565頁頁獲取圖像獲取圖像獲取圖像有四種方式:通過點擊工具欄上的按鈕打開已掃描好的圖像文件;通過掃描儀批量掃描文稿;用鼠標(biāo)將圖像文件拖拽管理窗口;將打開的圖像文件復(fù)制、粘貼到文件管理器中。掃描文稿時,先準(zhǔn)備好掃描儀,點擊工具欄上的進入掃描程序,將要掃描的稿件放置在掃描儀的適當(dāng)位置上,屏幕上顯示掃描儀配置窗口(這里以掃描儀AV620C為例)。在掃描之前,可以通過掃描窗口選擇掃描精度、掃描方式和紙張大小。系統(tǒng)支持黑白二值模式、灰度模式以及彩色模式,即選擇黑白掃描方式、灰度掃描方式和彩色掃描方式。建

37、議不要大量采用灰度、彩色掃描模式掃描文件,因為彩色圖像文件占用大量的內(nèi)存和CPU,操作速度會很慢;而且背景圖案會影響處理效果。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第5858頁頁/共共6565頁頁處理圖像處理圖像 圖像反白圖像反白本功能只處理白底黑字的圖像,若掃描得到的圖像不是白底黑字,點“編輯”菜單中的“圖像反白”命令作反白處理。旋轉(zhuǎn)圖像旋轉(zhuǎn)圖像若發(fā)現(xiàn)當(dāng)前圖像不是正常位置顯示,選擇“編輯”菜單內(nèi)的“旋轉(zhuǎn)圖像”菜單項,再選擇相應(yīng)的旋轉(zhuǎn)方向,按90度旋轉(zhuǎn)當(dāng)前圖像(可以連續(xù)旋轉(zhuǎn)),將當(dāng)前圖像旋轉(zhuǎn)到正常位置。傾斜校正傾斜校正自動傾斜校正:若掃描后

38、的圖像是傾斜的,按系統(tǒng)測定的角度自動傾斜校正。選擇“編輯”菜單的“自動傾斜校正”,可以對傾斜的圖像作自動傾斜校正使之正常顯示。手動傾斜校正:手工調(diào)整橫豎坐標(biāo),使得水平線條與文本圖像的傾斜角度一致;也可以用鍵盤上的上下箭頭在按鈕間切換,進行校正操作。去除噪聲去除噪聲調(diào)整邊框:若發(fā)現(xiàn)當(dāng)前的圖像帶有多余的版面噪音,可以調(diào)整當(dāng)前圖像的圖像框范圍,將多余的或影響版面分割和識別準(zhǔn)確率的版面噪音(掃描過程產(chǎn)生的黑線條、黑污點等)刪去,以提高識別準(zhǔn)確率。剪切噪音:點擊工具欄中的按鈕,按住鼠標(biāo)左鍵,拖動鼠標(biāo)選中圖像中的噪音(黑點或黑框),放開鼠標(biāo)左鍵,就可以將噪音清除。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重

39、點實驗室Northwest University第第5959頁頁/共共6565頁頁分析圖像分析圖像自動版面分析自動版面分析單擊工具欄的按鈕,或選擇“識別”菜單內(nèi)選擇“版面分析”命令,自動對當(dāng)前文件或管理窗口內(nèi)選定的一批文件進行版面分析。若單擊按鈕,或選擇“識別”菜單上的“選擇全部文件”命令,將全部文件選中,進行版面分析時,系統(tǒng)自動對全部圖像文件進行版面分析。調(diào)整分析結(jié)果調(diào)整分析結(jié)果移動光標(biāo)箭頭到文件圖像上的待調(diào)整圖像框,點擊1、2、3、4、5鍵,將當(dāng)前框的屬性標(biāo)識為橫欄、豎欄、表格、圖像、英文;若框切分不對,可單擊工具欄中的按鈕,或選擇“識別”菜單內(nèi)的“取消當(dāng)前欄”,取消當(dāng)前欄重新畫框;若整頁

40、切分錯誤較多,可單擊工具欄中的按鈕,或選擇”識別”菜單內(nèi)的“取消版面分析”,取消圖像頁的全部版面分析,手動進行版面分析。在調(diào)整分析結(jié)果時,如果框的范圍包含了其它屬性框,被包含的框自動消失;當(dāng)框的范圍與已有的屬性框交叉時,調(diào)整框大小無效。手工版面分析手工版面分析移動光標(biāo)箭頭到文件圖像上的適當(dāng)位置(例如文章段首),按住鼠標(biāo)左鍵不放,拖動至另一適當(dāng)位置(例如文章段尾),再放開左鍵,劃分出所要識別的圖像框圖(見圖像框線),重復(fù)此操作,以劃分出全部圖像框的框圖。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6060頁頁/共共6565頁頁識別圖像識別圖像 西

41、北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6161頁頁/共共6565頁頁校對調(diào)整窗口顯示調(diào)整窗口顯示字符校對字符校對1、字符校對:對照隨行顯示的當(dāng)前字符的原始圖像校正識別結(jié)果。2、字符修改:選擇當(dāng)前字的候選字替換識別有誤的字,也可以調(diào)出輸入法輸入正確的字符。3、字符編輯:在文本編輯區(qū)內(nèi)可以進行退格、刪除、撤消等操作,在窗口最下面的狀態(tài)欄的或處單擊,可以切換字符的鍵入方式。在“編輯”菜單內(nèi)選擇“剪切”“復(fù)制”或“粘貼”,可以對選定的文字做相應(yīng)的操作。保存圖像保存圖像在工程操作時,想將經(jīng)過處理后的圖像保存,可以點“文件“菜單下的“保存圖像”命令進行

42、保存;如果想將處理后的圖像文件保存到其它位置,可以點“文件”菜單下的“換名保存圖像”命令,將圖像文件換名保存。輸出到指定格式文件輸出到指定格式文件校對完成后的圖像文件可以輸出保存成文字處理軟件(如WORD、WPS97等)可處理的文件,還可以保存成文本文件。點“輸出”菜單,選擇“到指定格式文件”,在彈出的“保存識別結(jié)果”窗口中,用戶可以選擇文件要存儲的路徑和文件類型。本系統(tǒng)的識別結(jié)果可以保存成*.RTF、*.TXT、和*.HTML以及*.XLS四種格式的文件。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6262頁頁/共共6565頁頁3.6 熊貓看

43、書 熊貓看書是網(wǎng)龍公司開發(fā)的一款深受好評的手機看書軟件,基于iPhone/Windows Mobile/Symbian/Android/M8/Kjava等多手機平臺上的全能免費閱讀軟件。全面支持TXT、ZIP、HTML、UMD、NDB等多種格式,同時還支持JPG、BMP、PNG、GIF等多種格式圖像查看。自適應(yīng)中文編碼,自動排版,支持RSS新聞離線閱讀,大容量文本瞬間載入,豐富的個性化設(shè)置,帶給您友好界面人性化閱讀體驗 西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6363頁頁/共共6565頁頁主要功能主要功能 A.RSS閱讀閱讀 國內(nèi)國際時事新

44、聞、體育娛樂、財經(jīng)、軍事、生活旅游、汽車、游戲、數(shù)碼時尚以及與手機應(yīng)用相關(guān)等最新消息,盡在掌握。B.強大的設(shè)置強大的設(shè)置 搜索、歷史記錄、書簽收藏、密碼設(shè)置,多種風(fēng)格的背景,豐富的字體、編碼等個性化的設(shè)置,怎么隨意怎么來。C.多格式閱讀多格式閱讀 熊貓看書不僅支持txt、umd、zip、html、NDB、NDZ等常見的文檔,還支持jpg、bmp、png、gif等圖片的查看瀏覽,D.完美體驗完美體驗 對大容量文本的讀取速度有極高的優(yōu)化,分秒間瀏覽到需要的信息;智能記憶可以自動記錄閱讀過的摘要;操作便捷,友好界面的人性化閱讀體驗。E.雜志漫畫雜志漫畫 手機也能輕松看雜志動漫,原汁原味精美雜志隨時享

45、受;漫畫在線閱讀,最新最熱漫畫、搞笑漫畫,想看就看。西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6464頁頁/共共6565頁頁軟件特色軟件特色 A個性化設(shè)置個性化設(shè)置 搜索、跳轉(zhuǎn)、書簽收藏,自動滾屏、亮度調(diào)節(jié),多種風(fēng)格的背景,豐富的字體等個性化設(shè)置,滿足您的各項閱讀需求,非常全面和貼心。B高速閱讀高速閱讀 極大的優(yōu)化了大容量文本文件的讀取速度,瞬間載入,高速讀取,分秒間瀏覽到需要的信息。C智能記憶智能記憶 自動記錄上一次閱讀過的內(nèi)容,方便用戶查閱自己的瀏覽記錄。在電子書和圖片較多的情況下,大大簡化了用戶的操作。D圖像瀏覽圖像瀏覽 專業(yè)的圖片閱讀

46、功能,支持手機里所有JPG、BMP、PNG、GIF等圖像文件的查看。還提供了全屏查看、放大、縮小、圖片旋轉(zhuǎn)等多項功能,甚至還可以將自己喜歡的圖片作為軟件的背景。E海量資源海量資源 通過熊貓看書不僅能看各類免費電子小說,還能在線閱讀豐富的雜志和漫畫,圖文并茂,隨時享受原汁原味的精美雜志和最新最熱門的漫畫.西北大學(xué)分析科學(xué)研究所/陜西省電分析化學(xué)重點實驗室Northwest University第第6565頁頁/共共6565頁頁思考題1簡述文本編輯軟件有哪些功能?2簡述字符集含義,并給出5種常用的字符集。3概述電子圖書的特點。4電子圖書有哪些格式?5簡述UltraEdit的主要功能。6、簡述漢字OCR技術(shù)發(fā)展歷史。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!