e-book」タグアーカイブ

Amazon Kindleで日本語表示研究 その4 – 本をスキャンする


Warning: Illegal string offset 'src' in /home/kamikura/www/weblog/wp-content/plugins/vipers-video-quicktags-migrator/vipers-video-quicktags-migrator.php on line 322

スキャンした本のデータをPDFに加工すればKindleに表示できるが、本棚に埋もれた本をスキャンするのは大変な作業のように思える。
この筋のベテランは、裁断機など専用の道具を使って日々スキャンに励んでいるようだが、これに適した裁断機も結構な値段なのでなかなか手が出ない。

唯一許せるのはスキャナ本体と、それに使うカッターナイフくらいだろう。
ということで、普通のカッターナイフとスキャナを使って書籍をPDFに買おうするのにかかる時間、スキャンした物がどれだけ見栄えに耐えるかをテストしてみた。

使用したのは、富士通のScan Snap S1500。このスキャナは、スキャナ本体、ソフト共に非常に完成度が高くおすすめです。
試した本は、文庫本、漫画、ハードカバー2段組の本です。

まずは、本の解体ですが、文庫本、漫画共に、カッターナイフで単純に切るだけなので簡単です。一冊につき、2~3分程度で出来ます。
問題はハードカバーで、本の中身を切ることになるのですが、厚みがあると特に大変です。
通常は、背表紙部分を暖めて糊を柔らかくして、本体と堅い部分を分離。その後裁断という作業をするらしいのですが、今回は手っ取り早くカッターナイフで切断しました。
今回試したハードカバーは厚みもあるので、時間がかかり15分くらいかかりました。慣れたとしても5分から10分くらいはかかるかと思います。

この裁断した本をスキャンしますが、スキャンしたオリジナルデータは保存版として将来の加工も考え、比較的高画質で保存します。
Scan Snapの設定で言えば、解像度はグレーで300dpi、圧縮率は2という、中より1段上の画質です。

これで読み取った文庫本は、168ページで37MB、漫画は232ページで131MB。ハードカバーは572ページで180MBです。
HDDの単価は下がっているので、この程度の容量なら十分な容量でしょう。
これ以上の高画質にも出来ますが、スキャン速度と、見た目のバランスを考えると、この程度が将来も必要十分な画質なのではないかと思われます。

これをそのままKindleで表示しても良いのですが、Kindleの画像縮小能力が低いためか、加工した方が見栄えが良くなり、ファイルサイズも小さくなります。Kindleは1.5GB程度しか保存容量がないので、なるべく小さなサイズの方がよいでしょう。

これを加工するのに便利のなのが、Windows用ですが、ChainLPというソフトです。

このソフトで、余白などを削除し、離れたところにあるページ番号の位置も最適化、スキャンしたときの傾き、レベル補正、ガンマ補正などを施したKindle用解像度のPDFを出力します。
データサイズは、文庫本が20.6MB、漫画が53.5MB、ハードカバー71.6MBがとなりました。
それぞれ半分程度にはなっていますし、容量がでかい分厚いハードカバーでも70MB程度なので、20冊は入れられます。
これだけで1週間旅行し、一日中本を読んでいても十分な量ではないでしょうか。何しに旅行に行っているのかという話になりますが。

出力したPDFをKindleに転送し表示しますと、どれもそこそこの視認性です。
老眼の方にはつらいかもしれませんが、個人的にはこのレベルで読めるなら、こんな便利なデバイスはないという印象です。

これには、本を解体する時間、スキャナにセットする時間(数回)、スキャンした物が問題ないか確認する時間。Kindle用に加工する時間と転送する時間が必要。

解体しながらスキャンするという技もあるが、文庫本程度なら数分。スキャンした物が問題ないかを確認するには、途中のページ番号とPDFファイル内の枚数をチェックするのが手っ取り早く、これは1分前後。
Kindleに加工するのも作業自体は1分程度で、終わるのを待つだけでバッチ作業も可能。
スキャン時間も含めて、慣れれば10分程度で全ての加工が終わる。
1日1時間あれば6冊。10日で60冊。100日で600冊をデジタルデータ化し、本棚がすっきりし、押し入れに空きスペースが出来る。

これをやるのに必要なのは、ある程度の時間と、本を切り刻むという罪悪感を捨てること。
ある程度デジタルライブラリが完成すると、iTunesで聞かなかったようなCDが発掘されるように、押し入れに入れていたら二度と読まないような本が浮かばれるかも。

http://www.vimeo.com/7951168 720p版動画

つづく

Amazon Kindleで日本語表示研究 その3 – 一般的なPDFの表示


http://www.youtube.com/watch?v=UwKqb749Y94

Kindleでは日本語フォントを組み込んだPDFや、画像として保存したPDFなどを表示することで、日本語が表示可能だ。
それでは、一般的なPDF書類はどうだろうか。

一般的なPDF書類はA4サイズで出力されている。米国では国際版(Letter size)というA4より若干小さい書類サイズが一般的だが、基本的にA4サイズくらいが全世界のPDFファイルの標準と考えていい。

これは基本的に紙に印刷したときに読みやすいようにと、フォントサイズやレイアウトなどがデザインされている。
PC上で読む場合にA4縦書きが読みやすいわけではないし、Kindleだって表示領域がA4サイズではないので、そのまま表示しても読みやすいわけではない。

しかし、A4サイズを基準にしたPDFは世の中にあふれているわけで、これが問題なく表示できれば、PDFファイル表示マシンとして活用できる。

KindleでA4 PDFを表示

これが、Kindle 2(国際版、Global Wireless版、International版などともいう)でA4一般的な書類を表示した例である。
画像だけで見ると必要十分な視認性のようにも見えるかもしれないが、実際は文字が薄く表示されているので、完璧とは言えない。
個人的には読めなくはないが、まあ気にしなければ問題ない品質であると言える。
このPDF表示を横に回転させて、半分くらいだけ表示したのが下の画像である。

KindleでA4 PDFを表示

これなら文字サイズは一般的な読書に耐えられるレベルだし、文字も細すぎたり、薄かったりすることはない。
A4サイズを半分くらいずつ表示するので、書類の中央付近にイラストなど画像がある場合、それが分断されてしまう。改ページする際、若干上下方向は重複されて表示されるので、文字が半分切れたりして読めないと言うことはないが、画像が多いPDFだと不便かもしれない。

しかし、この表示から考えられることは、表示領域が大きく、解像度も高いKindle DXなら、一般的なPDFファイルの表示に不満はないだろうということ。
なにしろ、小型サイズのKindleの表示領域はA6サイズ以下であり、普通の紙であってもA4サイズを縮小したら読みにくくなるわけで、Kindleで表示して視認性が上がるわけがない。
この表示領域しかないのに、これだけ読めればとりあえず十分と言える。

つづく

Amazon Kindleで日本語表示研究 その2 – 本のスキャンを考える

KindleではPDFファイルに日本語フォントを埋め込めば、日本語の表示が可能なことはわかった。
将来のアップデートか新モデル、もしくは他の電子ブックリーダーが本体に視認性の高い日本語フォントを組み込み完全対応すれば、フォント埋め込み問題はどうにでもなる。
実際、今でもKindleのファームウェアをハックすれば、日本語の表示が出来る。

しかし、本棚にある本をどうするかという問題はそのまま残る。

文字数の少ない英語の書籍なら、スキャンしてOCRで認識すれば、99%以上の精度で文字として取り込めるだろう。
しかし、日本語の場合は90%行けばいいほうだ。個人的な感覚として95%程度の精度で文字を認識しても、まともに読めない。アルファベット系の言語と同等になるのは当分先だろうから、これは期待できないし、人力で修正するのは青空文庫などなら別で、個人でやるには限界がある。

ということで、日本語の書籍をデジタル化するのに現実的なのは画像として保存することだ。

KindleにPDFで画像化したファイルを表示

何も考えずに、高解像度でスキャンしたものをPDFに出力し、それをKindleで表示したのがこれである。
とりあえず読めるが、はっきり言って視認性は悪い。

Original

オリジナルの画像はこれで、青空文庫のデータを一般的な文庫本風にWordでレイアウトし、画像として出力した物だ。
これはスキャンの状態が非常によい場合という設定だが、これで視認性が悪いと言うことは問題だ。

視認性が悪くなるのは、細い文字をKindleで表示する際薄くなりすぎているからだが、これは白黒の電子ペーパーと、その表示機能などが問題なのだろう。
これを解消するにはデバイスその物の問題もあり簡単にはできない。そこで、画像をKindleの解像度に合わせて出力すれば、視認性も高くなるのではないかと考えた。

一般的な文庫本は300ページとかあるので、自動化しなければならないが、PhotoShopなどのマクロを使うなどやり方はいろいろあるが、現実的ではない。
専用のソフトを作るのが一番いいが、それを実践している人がいた。

No.722というサイトで公開しているChainLPというソフトだ。

このソフトを使えば、各種電子ブックリーダーや携帯端末用に、解像度やガンマ・レベル補正などを最適化したPDFや様々な形式のファイルが出力できる。
ものすごく利便性の高いソフトである。

これを使ってKindle用に出力し、Kindleで表示したのがこれ。

Kindle

Chain LP Amazon Kindle用TEST出力PDF

この表示には問題はないし十分読めるレベルになったが、PCでこのファイルをみると解像度が荒すぎて視認性が悪い。これで十分な方もいるだろうが個人的には不満である。
そこで、Kindleの2倍の解像度で出力したPDFをKindleで表示してみた。

Kindle x2

違いがわかりにくいが、こちらの方が若干ながら視認性は高い。PDFをPCなどで表示しても悪くない品質だ。
問題はファイル容量で、この1ページで500kb程度になる。Kindleに特化すれば140kb程度だ。
この差は大きくて、300ページの文庫本で換算すると42MBと150MBと3倍以上になる。
Kindleの容量は1.5GB程度あるので、150MBでも10冊保存できる。これでも十分だが、Kindleだけで読むことを考えると無駄ではなかろうか。

ということで、オリジナルの高画質版はPC用や将来の高品質な電子書籍用にとっておき、Kindle用をChainLPで作成するのがいいのではないかと考えた。

つづく