「PDF」タグアーカイブ

Amazon Kindleで日本語表示する方法

Kindleは現在の所、正式に日本語化されていませんが、いろいろやれば日本語ファイルの表示が可能で、十分な品質であることがわかりました。

Amazon Kindleで日本語表示研究その1
Amazon Kindleで日本語表示研究その2 – 本のスキャンを考える
 Amazon Kindleで日本語表示研究その3 – 一般的なPDFの表示
 Amazon Kindleで日本語表示研究その4 – 本をスキャンする
 Amazon Kindleで日本語表示研究その5 – 青空文庫
 Amazon Kindleで日本語表示研究その6 – スキャンした本がどれだけ読めるか?
Amazon Kindleで日本語表示研究その7 – スキャンの手間は

以上の研究結果をPDFにまとめてみました。
Kindle自体で読みやすいサイズにしています。

Kindleで日本語を読む方法 PDFファイル(約300KB) HowToReadJapaneseByKindle20091226.pdf

主な目次
Kindle とは
Kindle が日本語を表示できないわけ
Kindle で日本語を表示する方法
Kindle が表示できる形式は
Kindle 用の画像入りPDF を作成する方法
PDF ファイルに日本語フォントを埋め込む方法
Kindle に日本語を覚えさせる
応用編
青空文庫
本をスキャンしてPDF 化する
本をスキャンしてPDF 化する方法
スキャンに必要な道具
本の解体方法
スキャン時の注意点
本の解体に踏襲してしまう方へ
スキャン後のKindle 用補正
Kindle にファイルを送る方法
Kindle 用に向いてない書籍

ライセンスはCreative Commons (CC)

Amazon Kindleで日本語表示研究その7 – スキャンの手間は

Warning: Illegal string offset 'src' in /home/kamikura/www/weblog/wp-content/plugins/vipers-video-quicktags-migrator/vipers-video-quicktags-migrator.php on line 322

Warning: Illegal string offset 'src' in /home/kamikura/www/weblog/wp-content/plugins/vipers-video-quicktags-migrator/vipers-video-quicktags-migrator.php on line 322

KindleがPDFに対応し、青空文庫が簡単に読めようになった事で喜んでいる方がいるが、本当にそれだけでうれしいのだろうか?
もちろん、それも良いことは確かだが、Amazon.comのKindle Storeで販売されているような新刊などを、日本語で読みたいというのが本音だとは思う。

青空文庫で入力などの作業をしている方々は頑張っている物の、古い本なら何でもあるわけではない。
例えば、ニコラス・ゴーゴリの外套は青空文庫にあっても、ドストエフスキーの罪と罰はない。
一方、Project Gutenbergに外套は無いが、罪と罰(英語版)はある。

日本語の罪と罰など、古い本でも青空文庫に登録されていない物を読むには紙の本を入手するしかない。
その紙の本を紙のまま読むのもいいが、せっかくKindleがあり、スキャンしてPDF化したものは十分読めるのだからKindleで読んでしまえばいい。
しかし、スキャンする手間や時間がどうなのかが気になるところ。

時間と手間がかかりすぎるのなら、スキャンするよりも直接読んでしまった方が速いかもしれない。
ということで、1冊あたりのカット(裁断)、スキャン時間がどれくらいになるか検討してみた。

ScanSnapは解像度や紙サイズにもよるが、A4の書類を300dpiで読み取る場合、1分あたり20枚のスキャンが可能。
つまり、400ページの書籍なら、200枚の紙があるので10分かかるということになる。
これは最低時間で、これに書籍をカット・解体する手間がかかる。

課題図書村上龍半島を出よ (上)

課題図書高杉良生命燃ゆ (新潮文庫)

カットは裁断機を使う場合も、厚みがある書籍の場合、裁断機に入るように加工する必要がある。裁断機を使わないなら、カッターナイフなどで切るしかない。
カッターで切るのは手間がかかりそうだが、実際にやってみると、多少時間はかかる物の良く切れるカッターを使えばたいした手間ではない。

時間がかかると言っても、スキャン時間が最低10分くらいので、カット時間はスキャンよりも短いかもしれない。
カット中にスキャンすれば、スキャン中にカット作業自体はほぼ終わると思われる。
例外は、カットに手間がかかるハードカバーで厚みがすごい場合。これも切り方に慣れればあまり問題はないが、初めは多少手こずるかもしれない。
また、製本がうまくいってないのか、接着に使った糊がかなりはみ出ている物。
これはカットしても糊の部分を探して剥がさなければならない。重ねてスキャンしてしまった物を修正する手間を考えると、初めからしっかりと確認しておくのがおすすめ。

あくまでもScanSnapの設定だが、傾き補正や書類の向き(縦とか横とか)の補正は切って置いた方が良い。漫画はかなりの確率でこの判定に失敗する。
小説などの挿絵等も失敗する可能性がある。切り方を失敗していなければ、傾き補正もほとんどすることなくスキャン可能。
また、白紙ページの自動削除も、あとでページ数とスキャン枚数を確認する際に戸惑う元なのでやらないでも良いと思う。

カッターでカットし、それぞれのページを分離する時間はページ数などにもよるが、1冊あたり10分前後。スキャン後の確認などを含めても15分かからない程度だ。
これなら1日1時間、4冊スキャンすると言うことを1ヶ月続ければ、100冊以上のスキャンが可能。
CDのリッピングなどに比べ手間はかかるが、読む時間に比べて時間がかかりすぎると言うことはないと思う。
なによりも、デジタル化すれば、埋もれた本の再活用も簡単になるわけで、一度始めると意味もなく保存していた本を全てデジタル化したくなってくる。

期間限定公開。無短縮版

つづく

Amazon Kindleで日本語表示研究その6 – スキャンした本がどれだけ読めるか?

Warning: Illegal string offset 'src' in /home/kamikura/www/weblog/wp-content/plugins/vipers-video-quicktags-migrator/vipers-video-quicktags-migrator.php on line 322

小説や漫画をスキャンした物は、ある程度Kindleでも読むに耐えうる品質であることはわかったが、どの程度まで可能なのかさらにチェックしてみた。

試してみたのは、通常の漫画や小説に加えて、カラーがある漫画、大きめの紙に書き込みの多い漫画、雑誌風の物、コンピュータ関連マニュアル書に多い大きめの紙の分厚い本。

結論から言えば、どれも一応読める。特に、通常の漫画や小説は問題ない。
これを使っているとKindleは初期のiPodにしか見えない。数年後には持ち歩いて音楽を聴く人がiPodや類似デバイスを持っているように、ほとんど全員がKindleのようなデバイスを持っているんじゃ無かろうか。

しかし、以前も書いたように紙で読むことを前提としたA4サイズ程度の書類は、文字サイズの関係できつい。
Kindle DXなら問題なさそうだが、Kindle 2(Global Wireless)で読むには少々無理がある。
個人的にはとりあえず読めるが、そのレベルでしかない。老眼の方には無理だろうし、普通に読むには厳しい。

ビデオは下のリンクにある720p版を推奨します。

あくまでも参考だが、スキャンしてKindle用に加工したPDFファイルの容量は
漫画が300ページで60MB程度
コンピュータ系マニュアル書は500ページで50MB程度
カラーの雑誌は100ページで100MB程度
文庫本の小説は200ページで30MB程度
ハードカバーの小説は400ページで50MB程度
になる。

1冊あたり50MB前後とすると、1.5GBで30冊程度の書籍を入れられる。
iTunesのような転送に便利なソフトが出てくるとさらに使えると思うが、普通スキャンすることなんかないだろうし、PDFファイルの管理はとりあえず自分でやるしかない。
音楽と違って、一度に読める量も限られているのでそんなに入れる必要はないけど、管理ソフトは必要になると思う。

通常の漫画や小説 – 問題なく読める
カラーがある漫画 – 問題なく読める
大きめの紙に書き込みの多い漫画 – 少々厳しいが読める
雑誌風の物 – かなり厳しいが一応読めないことはない
コンピュータ関連マニュアル書に多い大きめの紙の分厚い本 – 一応読めるけどかなり厳しい

http://www.vimeo.com/8021634 720p版

つづく

Amazon Kindleで日本語表示研究その5 – 青空文庫

http://www.youtube.com/watch?v=reFyuxtxqxs

日本語の良質な文章コンテンツの一つに青空文庫がある。
著作権の切れた文学作品を中心に、有志によってデジタル化されているが、基本的に著者が亡くなってから50年以上経った物である。
古い作品を読みたい場合は利便性が高いが、個人的には新しい作品を読みたい。特に積ん読になって死蔵した物をどうにかしたいから必死でスキャンしている。
スキャンするのはいいが、青空文庫のようなデジタル化された物をKindle用にPDFにするのも、結構手間がかかる。

やり方は大きく分けて2つあり、自分でどうにかしてPDFファイルを作る方法と、何らかのソフトを使ってPDF化する方法。

自分でどうにかしてやる方法でも何らかのソフトを使うわけだけど、ブラウザからPDF化、ワープロソフトで整形してPDF化が一般的だと思う。

ブラウザでPDFにするにはルビと文字サイズの問題があるが、XHTML Ruby Supportでルビ問題は解決する。
文字サイズは、Stylishを使いCSSを自分で修正すればなんとかなる。
但し、これで出来るPDFファイルは横書きであるし、微調整などが結構難しい。

Wordなどのワープロソフトでやるには、修正は手動もしくはマクロになるが、ルビをどう処理するかがこれも問題になるだろう。
一番手っ取り早いのが、青空文庫テキスト傍点ルビ変換マクロだ。このサイズを変更するには、フィールドコードという物を見て、自分でこの数値を置換するような作業が必要になる。
他にはシェアウェアのルビふり君forWordもある。いずれにせよ、なかなか面倒くさい。

専用のソフトを使う方法ではWindowsのChainLPを使う方法が一般的だろうか。
本来、画像化するソフトだが、印刷でPDFを選べばPDF化できる。PDF化する場合、専用のソフトAdobe Acrobatなどを使うのものいいが、PrimoPDFなどを使えば無料でPDF化可能。

ChainLPでは自分の好みに合わせたフォント、サイズなどを設定できるし、縦書き表示も可能。

これはWindows用ソフトだし、他にも青空文庫のファイルを加工するソフトはいくつかあるようなので、それを使うのも良さそうだ。

てふてふ君、あげは蝶君というようなWebサービスなどもある。
これはWebだけでなく、基本的にTeXなので自分の環境で何とか出来るが、Kindleに特化しているわけではない。
自分で修正も可能だが、難しいという方も多いと思う。

KindleにしたWebサービスとしては青空文庫 to Kindleが登場している。これは、まだ出たばかりだが、IPA明朝フォントを組み込んでそこそこ見栄えがよいし、ブックマークレットを使えば変換も一発だ。

個人的には縦書きでも横書きでもどちらでもいいが、問題はフォントである。明朝体の細いフォントより太めのフォントの方が読みやすいと思うが、かといってMSゴシックは不細工だ。ヒラギノ明朝も、Kindleでの見栄えは良いとは言えないと思う。
どのフォント、サイズがいいかは好みにもよるだろうが、なかなか難しい。

また、ルビは不要という方もいそうだが、個人的には青空文庫にあるような文章こそルビが必須だと思う。なにしろ、古い漢字表現の多くはまともに読めないのだ。これが全て難なく読める方はすごいと思う。

このようなサービスやソフトは、基本的にKindleが正式に日本語対応するまでの中繋ぎでしかない。それがいつになるかはわからないが、中繋ぎのサービスであるとはいえ、日本人にはかなり有効に使える。

つづく

Amazon Kindleで日本語表示研究その4 – 本をスキャンする

Warning: Illegal string offset 'src' in /home/kamikura/www/weblog/wp-content/plugins/vipers-video-quicktags-migrator/vipers-video-quicktags-migrator.php on line 322

スキャンした本のデータをPDFに加工すればKindleに表示できるが、本棚に埋もれた本をスキャンするのは大変な作業のように思える。
この筋のベテランは、裁断機など専用の道具を使って日々スキャンに励んでいるようだが、これに適した裁断機も結構な値段なのでなかなか手が出ない。

唯一許せるのはスキャナ本体と、それに使うカッターナイフくらいだろう。
ということで、普通のカッターナイフとスキャナを使って書籍をPDFに買おうするのにかかる時間、スキャンした物がどれだけ見栄えに耐えるかをテストしてみた。

使用したのは、富士通のScan Snap S1500。このスキャナは、スキャナ本体、ソフト共に非常に完成度が高くおすすめです。
試した本は、文庫本、漫画、ハードカバー2段組の本です。

まずは、本の解体ですが、文庫本、漫画共に、カッターナイフで単純に切るだけなので簡単です。一冊につき、2~3分程度で出来ます。
問題はハードカバーで、本の中身を切ることになるのですが、厚みがあると特に大変です。
通常は、背表紙部分を暖めて糊を柔らかくして、本体と堅い部分を分離。その後裁断という作業をするらしいのですが、今回は手っ取り早くカッターナイフで切断しました。
今回試したハードカバーは厚みもあるので、時間がかかり15分くらいかかりました。慣れたとしても5分から10分くらいはかかるかと思います。

この裁断した本をスキャンしますが、スキャンしたオリジナルデータは保存版として将来の加工も考え、比較的高画質で保存します。
Scan Snapの設定で言えば、解像度はグレーで300dpi、圧縮率は2という、中より1段上の画質です。

これで読み取った文庫本は、168ページで37MB、漫画は232ページで131MB。ハードカバーは572ページで180MBです。
HDDの単価は下がっているので、この程度の容量なら十分な容量でしょう。
これ以上の高画質にも出来ますが、スキャン速度と、見た目のバランスを考えると、この程度が将来も必要十分な画質なのではないかと思われます。

これをそのままKindleで表示しても良いのですが、Kindleの画像縮小能力が低いためか、加工した方が見栄えが良くなり、ファイルサイズも小さくなります。Kindleは1.5GB程度しか保存容量がないので、なるべく小さなサイズの方がよいでしょう。

これを加工するのに便利のなのが、Windows用ですが、ChainLPというソフトです。

このソフトで、余白などを削除し、離れたところにあるページ番号の位置も最適化、スキャンしたときの傾き、レベル補正、ガンマ補正などを施したKindle用解像度のPDFを出力します。
データサイズは、文庫本が20.6MB、漫画が53.5MB、ハードカバー71.6MBがとなりました。
それぞれ半分程度にはなっていますし、容量がでかい分厚いハードカバーでも70MB程度なので、20冊は入れられます。
これだけで1週間旅行し、一日中本を読んでいても十分な量ではないでしょうか。何しに旅行に行っているのかという話になりますが。

出力したPDFをKindleに転送し表示しますと、どれもそこそこの視認性です。
老眼の方にはつらいかもしれませんが、個人的にはこのレベルで読めるなら、こんな便利なデバイスはないという印象です。

これには、本を解体する時間、スキャナにセットする時間(数回)、スキャンした物が問題ないか確認する時間。Kindle用に加工する時間と転送する時間が必要。

解体しながらスキャンするという技もあるが、文庫本程度なら数分。スキャンした物が問題ないかを確認するには、途中のページ番号とPDFファイル内の枚数をチェックするのが手っ取り早く、これは1分前後。
Kindleに加工するのも作業自体は1分程度で、終わるのを待つだけでバッチ作業も可能。
スキャン時間も含めて、慣れれば10分程度で全ての加工が終わる。
1日1時間あれば6冊。10日で60冊。100日で600冊をデジタルデータ化し、本棚がすっきりし、押し入れに空きスペースが出来る。

これをやるのに必要なのは、ある程度の時間と、本を切り刻むという罪悪感を捨てること。
ある程度デジタルライブラリが完成すると、iTunesで聞かなかったようなCDが発掘されるように、押し入れに入れていたら二度と読まないような本が浮かばれるかも。

http://www.vimeo.com/7951168 720p版動画

つづく

Masaru Kamikura Blog

Masaru Kamikura's Blog