最近的研究要用論文來做統計資料,估計會有上千篇左右。
如果要針對每一篇論文做轉檔再給程式處理,那真是吃不消…
那…不如寫個PDF轉Text的程式吧!
我所用的IDE是Eclpise 3.2,
環境是WinXP Pro。
找資料的時候,同學給我一個網址,裡面列出提供這項功能的Java library:
http://schmidt.devlib.org/java/libraries-pdf.html
底下找到了一個PDFBox,看起來還蠻好用的:
http://www.pdfbox.org/
最重要的是,它是開放程式碼,免費使用!
從那頁面,即可找到下載點,下載完就可以開始用囉。
抓完解壓縮後,使用ant來找到build檔安裝,
ant: http://ant.apache.org/
完成後就可以開始用Java來做讀寫PDF動作。
至於它的語法,可以參考PDFBox頁面所說的:
A variety of examples can be found in the src/org/pdfbox/examples folder.
This guide will refer to specific examples as needed.
到此,即使和我一樣的初學者,
也可以順利的處理PDF檔囉!
後記:
用Eclpise時,若出現:
java.lang.NoClassDefFoundError
這樣的訊息,只要把訊息後找不到的那個class加進外部參照就可以了!
另外,PDFBox並非支援所有的中文顯示,轉檔時會有亂碼產生。
我研究要用的樣本都是英文,所以一開始沒注意到這個缺點。 = ="
哈哈~~但它算很好使用的API,試過後會發現,
這和一般的讀檔、寫檔一樣簡單呢。 ^^
- Jul 24 Tue 2007 13:18
用Java來讀寫PDF檔案
close
全站熱搜
留言列表
發表留言