close

最近的研究要用論文來做統計資料,估計會有上千篇左右。

如果要針對每一篇論文做轉檔再給程式處理,那真是吃不消…

那…不如寫個PDF轉Text的程式吧!



我所用的IDE是Eclpise 3.2,
環境是WinXP Pro。

找資料的時候,同學給我一個網址,裡面列出提供這項功能的Java library:
http://schmidt.devlib.org/java/libraries-pdf.html

底下找到了一個PDFBox,看起來還蠻好用的:
http://www.pdfbox.org/
最重要的是,它是開放程式碼,免費使用! 

從那頁面,即可找到下載點,下載完就可以開始用囉。

抓完解壓縮後,使用ant來找到build檔安裝,
ant: http://ant.apache.org/

完成後就可以開始用Java來做讀寫PDF動作。


至於它的語法,可以參考PDFBox頁面所說的:
A variety of examples can be found in the src/org/pdfbox/examples folder.
 This guide will refer to specific examples as needed.

到此,即使和我一樣的初學者,
也可以順利的處理PDF檔囉!  


後記:

用Eclpise時,若出現:
java.lang.NoClassDefFoundError
這樣的訊息,只要把訊息後找不到的那個class加進外部參照就可以了!

另外,PDFBox並非支援所有的中文顯示,轉檔時會有亂碼產生。
我研究要用的樣本都是英文,所以一開始沒注意到這個缺點。 = ="

哈哈~~但它算很好使用的API,試過後會發現,
這和一般的讀檔、寫檔一樣簡單呢。  ^^


全站熱搜
創作者介紹
創作者 wou 的頭像
wou

紙飛機

wou 發表在 痞客邦 留言(8) 人氣()