ナンクル力学系

学んだ事を書き連ねていこう。

PDF管理ソフトを作ってみた

leave a comment »

インターネットで論文が大量に手に入るのは良いけど,そのせいで放っておくとデスクトップがPDFだらけになってしまう.一つディレクトリを作ってぶちこんでおけばあとはGoogle Desktopがクロールしてくれるから良いかなとも思ったけれど,

  1. 検索の精度が悪い
  2. テキストデータじゃなくて画像データのPDFもある
  3. Google DesktopはPDFの最初のうん百文字しかインデックスしてないらしい

という訳でなかなか使い勝手は良くなかった.

そこで,wxPythonを使って作ってみたのがコレ:

起動したらPDFファイルをドロップしろと言う.

PDFファイルをドロップすると,Text:っていう部分にその中身(の最初の200行くらい)が表示される.

そのテキストから,まずタイトルを選択してマウスを離すと...

Title欄に選択した部分が入る.その次にAuthorの部分が光るので,

こっちも選択してマウスを放すと入力される.この状態で「Add PDF」を押す.

指定したフォルダ内に「“Author”; “Title”」の形式でフォルダが作られて,

その中に「“Title”.pdf」というファイルと「paper.txt」というファイルが入っている.

この「paper.txt」はPDFファイルの中身のテキストを全部を書き込んだもの.

ここまでやったら,後はGoogle Desktopで検索しようという魂胆.少なくとも論文名か著者名だったら絶対引っ掛かるはず.テキストファイルへの変換が上手く行ってれば,中身もちゃんと検索出来ると思う.あとPDF内のテキストが取れないやつでも,ホームページにはタイトル,著者名,要約くらいはあるのでそれをText欄にコピペすればあまり手間をかけずに整理が出来る.

ちなみに,PDF > TXTの変換はxdoc2txtを使用している.

こんなニッチなソフトを必要とする人が居るか謎だけど,一応ソースは公開:

exe化したら普通にフリーソフトとして公開出来るはずだけど,exe化はまだ手を出してないので今日はやめておく.眠いし.気が向いたらやろうかな.

Written by tkf

May 18, 2008 at 11:25 am

Posted in PC, programming

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: