Amazon」タグアーカイブ

Amazon Kindleで日本語表示研究 その6 – スキャンした本がどれだけ読めるか?

小説や漫画をスキャンした物は、ある程度Kindleでも読むに耐えうる品質であることはわかったが、どの程度まで可能なのかさらにチェックしてみた。

試してみたのは、通常の漫画や小説に加えて、カラーがある漫画、大きめの紙に書き込みの多い漫画、雑誌風の物、コンピュータ関連マニュアル書に多い大きめの紙の分厚い本。

結論から言えば、どれも一応読める。特に、通常の漫画や小説は問題ない。
これを使っているとKindleは初期のiPodにしか見えない。数年後には持ち歩いて音楽を聴く人がiPodや類似デバイスを持っているように、ほとんど全員がKindleのようなデバイスを持っているんじゃ無かろうか。

しかし、以前も書いたように紙で読むことを前提としたA4サイズ程度の書類は、文字サイズの関係できつい。
Kindle DXなら問題なさそうだが、Kindle 2(Global Wireless)で読むには少々無理がある。
個人的にはとりあえず読めるが、そのレベルでしかない。老眼の方には無理だろうし、普通に読むには厳しい。


ビデオは下のリンクにある720p版を推奨します。

あくまでも参考だが、スキャンしてKindle用に加工したPDFファイルの容量は
漫画が300ページで60MB程度
コンピュータ系マニュアル書は500ページで50MB程度
カラーの雑誌は100ページで100MB程度
文庫本の小説は200ページで30MB程度
ハードカバーの小説は400ページで50MB程度
になる。

1冊あたり50MB前後とすると、1.5GBで30冊程度の書籍を入れられる。
iTunesのような転送に便利なソフトが出てくるとさらに使えると思うが、普通スキャンすることなんかないだろうし、PDFファイルの管理はとりあえず自分でやるしかない。
音楽と違って、一度に読める量も限られているのでそんなに入れる必要はないけど、管理ソフトは必要になると思う。

通常の漫画や小説 – 問題なく読める
カラーがある漫画 – 問題なく読める
大きめの紙に書き込みの多い漫画 – 少々厳しいが読める
雑誌風の物 – かなり厳しいが一応読めないことはない
コンピュータ関連マニュアル書に多い大きめの紙の分厚い本 – 一応読めるけどかなり厳しい

http://www.vimeo.com/8021634 720p版

つづく

Amazon Kindleで日本語表示研究 その5 – 青空文庫


http://www.youtube.com/watch?v=reFyuxtxqxs

日本語の良質な文章コンテンツの一つに青空文庫がある。
著作権の切れた文学作品を中心に、有志によってデジタル化されているが、基本的に著者が亡くなってから50年以上経った物である。
古い作品を読みたい場合は利便性が高いが、個人的には新しい作品を読みたい。特に積ん読になって死蔵した物をどうにかしたいから必死でスキャンしている。
スキャンするのはいいが、青空文庫のようなデジタル化された物をKindle用にPDFにするのも、結構手間がかかる。

やり方は大きく分けて2つあり、自分でどうにかしてPDFファイルを作る方法と、何らかのソフトを使ってPDF化する方法。

自分でどうにかしてやる方法でも何らかのソフトを使うわけだけど、ブラウザからPDF化、ワープロソフトで整形してPDF化が一般的だと思う。

ブラウザでPDFにするにはルビと文字サイズの問題があるが、XHTML Ruby Supportでルビ問題は解決する。
文字サイズは、Stylishを使いCSSを自分で修正すればなんとかなる。
但し、これで出来るPDFファイルは横書きであるし、微調整などが結構難しい。

Wordなどのワープロソフトでやるには、修正は手動もしくはマクロになるが、ルビをどう処理するかがこれも問題になるだろう。
一番手っ取り早いのが、青空文庫テキスト傍点ルビ変換マクロだ。このサイズを変更するには、フィールドコードという物を見て、自分でこの数値を置換するような作業が必要になる。
他にはシェアウェアのルビふり君forWordもある。いずれにせよ、なかなか面倒くさい。

専用のソフトを使う方法ではWindowsのChainLPを使う方法が一般的だろうか。
本来、画像化するソフトだが、印刷でPDFを選べばPDF化できる。PDF化する場合、専用のソフトAdobe Acrobatなどを使うのものいいが、PrimoPDFなどを使えば無料でPDF化可能。

ChainLPでは自分の好みに合わせたフォント、サイズなどを設定できるし、縦書き表示も可能。

これはWindows用ソフトだし、他にも青空文庫のファイルを加工するソフトはいくつかあるようなので、それを使うのも良さそうだ。

てふてふ君あげは蝶君というようなWebサービスなどもある。
これはWebだけでなく、基本的にTeXなので自分の環境で何とか出来るが、Kindleに特化しているわけではない。
自分で修正も可能だが、難しいという方も多いと思う。

KindleにしたWebサービスとしては青空文庫 to Kindleが登場している。これは、まだ出たばかりだが、IPA明朝フォントを組み込んでそこそこ見栄えがよいし、ブックマークレットを使えば変換も一発だ。

Kindle to 青空文庫 蟹工船

個人的には縦書きでも横書きでもどちらでもいいが、問題はフォントである。明朝体の細いフォントより太めのフォントの方が読みやすいと思うが、かといってMSゴシックは不細工だ。ヒラギノ明朝も、Kindleでの見栄えは良いとは言えないと思う。
どのフォント、サイズがいいかは好みにもよるだろうが、なかなか難しい。

また、ルビは不要という方もいそうだが、個人的には青空文庫にあるような文章こそルビが必須だと思う。なにしろ、古い漢字表現の多くはまともに読めないのだ。これが全て難なく読める方はすごいと思う。

このようなサービスやソフトは、基本的にKindleが正式に日本語対応するまでの中繋ぎでしかない。それがいつになるかはわからないが、中繋ぎのサービスであるとはいえ、日本人にはかなり有効に使える。

つづく

Amazon Kindleで日本語表示研究 その4 – 本をスキャンする

スキャンした本のデータをPDFに加工すればKindleに表示できるが、本棚に埋もれた本をスキャンするのは大変な作業のように思える。
この筋のベテランは、裁断機など専用の道具を使って日々スキャンに励んでいるようだが、これに適した裁断機も結構な値段なのでなかなか手が出ない。

唯一許せるのはスキャナ本体と、それに使うカッターナイフくらいだろう。
ということで、普通のカッターナイフとスキャナを使って書籍をPDFに買おうするのにかかる時間、スキャンした物がどれだけ見栄えに耐えるかをテストしてみた。

使用したのは、富士通のScan Snap S1500。このスキャナは、スキャナ本体、ソフト共に非常に完成度が高くおすすめです。
試した本は、文庫本、漫画、ハードカバー2段組の本です。

まずは、本の解体ですが、文庫本、漫画共に、カッターナイフで単純に切るだけなので簡単です。一冊につき、2~3分程度で出来ます。
問題はハードカバーで、本の中身を切ることになるのですが、厚みがあると特に大変です。
通常は、背表紙部分を暖めて糊を柔らかくして、本体と堅い部分を分離。その後裁断という作業をするらしいのですが、今回は手っ取り早くカッターナイフで切断しました。
今回試したハードカバーは厚みもあるので、時間がかかり15分くらいかかりました。慣れたとしても5分から10分くらいはかかるかと思います。

この裁断した本をスキャンしますが、スキャンしたオリジナルデータは保存版として将来の加工も考え、比較的高画質で保存します。
Scan Snapの設定で言えば、解像度はグレーで300dpi、圧縮率は2という、中より1段上の画質です。

これで読み取った文庫本は、168ページで37MB、漫画は232ページで131MB。ハードカバーは572ページで180MBです。
HDDの単価は下がっているので、この程度の容量なら十分な容量でしょう。
これ以上の高画質にも出来ますが、スキャン速度と、見た目のバランスを考えると、この程度が将来も必要十分な画質なのではないかと思われます。

これをそのままKindleで表示しても良いのですが、Kindleの画像縮小能力が低いためか、加工した方が見栄えが良くなり、ファイルサイズも小さくなります。Kindleは1.5GB程度しか保存容量がないので、なるべく小さなサイズの方がよいでしょう。

これを加工するのに便利のなのが、Windows用ですが、ChainLPというソフトです。

このソフトで、余白などを削除し、離れたところにあるページ番号の位置も最適化、スキャンしたときの傾き、レベル補正、ガンマ補正などを施したKindle用解像度のPDFを出力します。
データサイズは、文庫本が20.6MB、漫画が53.5MB、ハードカバー71.6MBがとなりました。
それぞれ半分程度にはなっていますし、容量がでかい分厚いハードカバーでも70MB程度なので、20冊は入れられます。
これだけで1週間旅行し、一日中本を読んでいても十分な量ではないでしょうか。何しに旅行に行っているのかという話になりますが。

出力したPDFをKindleに転送し表示しますと、どれもそこそこの視認性です。
老眼の方にはつらいかもしれませんが、個人的にはこのレベルで読めるなら、こんな便利なデバイスはないという印象です。

これには、本を解体する時間、スキャナにセットする時間(数回)、スキャンした物が問題ないか確認する時間。Kindle用に加工する時間と転送する時間が必要。

解体しながらスキャンするという技もあるが、文庫本程度なら数分。スキャンした物が問題ないかを確認するには、途中のページ番号とPDFファイル内の枚数をチェックするのが手っ取り早く、これは1分前後。
Kindleに加工するのも作業自体は1分程度で、終わるのを待つだけでバッチ作業も可能。
スキャン時間も含めて、慣れれば10分程度で全ての加工が終わる。
1日1時間あれば6冊。10日で60冊。100日で600冊をデジタルデータ化し、本棚がすっきりし、押し入れに空きスペースが出来る。

これをやるのに必要なのは、ある程度の時間と、本を切り刻むという罪悪感を捨てること。
ある程度デジタルライブラリが完成すると、iTunesで聞かなかったようなCDが発掘されるように、押し入れに入れていたら二度と読まないような本が浮かばれるかも。

http://www.vimeo.com/7951168 720p版動画

つづく

Amazon Kindleで日本語表示研究 その3 – 一般的なPDFの表示


http://www.youtube.com/watch?v=UwKqb749Y94

Kindleでは日本語フォントを組み込んだPDFや、画像として保存したPDFなどを表示することで、日本語が表示可能だ。
それでは、一般的なPDF書類はどうだろうか。

一般的なPDF書類はA4サイズで出力されている。米国では国際版(Letter size)というA4より若干小さい書類サイズが一般的だが、基本的にA4サイズくらいが全世界のPDFファイルの標準と考えていい。

これは基本的に紙に印刷したときに読みやすいようにと、フォントサイズやレイアウトなどがデザインされている。
PC上で読む場合にA4縦書きが読みやすいわけではないし、Kindleだって表示領域がA4サイズではないので、そのまま表示しても読みやすいわけではない。

しかし、A4サイズを基準にしたPDFは世の中にあふれているわけで、これが問題なく表示できれば、PDFファイル表示マシンとして活用できる。

KindleでA4 PDFを表示

これが、Kindle 2(国際版、Global Wireless版、International版などともいう)でA4一般的な書類を表示した例である。
画像だけで見ると必要十分な視認性のようにも見えるかもしれないが、実際は文字が薄く表示されているので、完璧とは言えない。
個人的には読めなくはないが、まあ気にしなければ問題ない品質であると言える。
このPDF表示を横に回転させて、半分くらいだけ表示したのが下の画像である。

KindleでA4 PDFを表示

これなら文字サイズは一般的な読書に耐えられるレベルだし、文字も細すぎたり、薄かったりすることはない。
A4サイズを半分くらいずつ表示するので、書類の中央付近にイラストなど画像がある場合、それが分断されてしまう。改ページする際、若干上下方向は重複されて表示されるので、文字が半分切れたりして読めないと言うことはないが、画像が多いPDFだと不便かもしれない。

しかし、この表示から考えられることは、表示領域が大きく、解像度も高いKindle DXなら、一般的なPDFファイルの表示に不満はないだろうということ。
なにしろ、小型サイズのKindleの表示領域はA6サイズ以下であり、普通の紙であってもA4サイズを縮小したら読みにくくなるわけで、Kindleで表示して視認性が上がるわけがない。
この表示領域しかないのに、これだけ読めればとりあえず十分と言える。

つづく

Amazon Kindleで日本語表示研究 その2 – 本のスキャンを考える

KindleではPDFファイルに日本語フォントを埋め込めば、日本語の表示が可能なことはわかった。
将来のアップデートか新モデル、もしくは他の電子ブックリーダーが本体に視認性の高い日本語フォントを組み込み完全対応すれば、フォント埋め込み問題はどうにでもなる。
実際、今でもKindleのファームウェアをハックすれば、日本語の表示が出来る。

しかし、本棚にある本をどうするかという問題はそのまま残る。

文字数の少ない英語の書籍なら、スキャンしてOCRで認識すれば、99%以上の精度で文字として取り込めるだろう。
しかし、日本語の場合は90%行けばいいほうだ。個人的な感覚として95%程度の精度で文字を認識しても、まともに読めない。アルファベット系の言語と同等になるのは当分先だろうから、これは期待できないし、人力で修正するのは青空文庫などなら別で、個人でやるには限界がある。

ということで、日本語の書籍をデジタル化するのに現実的なのは画像として保存することだ。

KindleにPDFで画像化したファイルを表示

何も考えずに、高解像度でスキャンしたものをPDFに出力し、それをKindleで表示したのがこれである。
とりあえず読めるが、はっきり言って視認性は悪い。

Original

オリジナルの画像はこれで、青空文庫のデータを一般的な文庫本風にWordでレイアウトし、画像として出力した物だ。
これはスキャンの状態が非常によい場合という設定だが、これで視認性が悪いと言うことは問題だ。

視認性が悪くなるのは、細い文字をKindleで表示する際薄くなりすぎているからだが、これは白黒の電子ペーパーと、その表示機能などが問題なのだろう。
これを解消するにはデバイスその物の問題もあり簡単にはできない。そこで、画像をKindleの解像度に合わせて出力すれば、視認性も高くなるのではないかと考えた。

一般的な文庫本は300ページとかあるので、自動化しなければならないが、PhotoShopなどのマクロを使うなどやり方はいろいろあるが、現実的ではない。
専用のソフトを作るのが一番いいが、それを実践している人がいた。

No.722というサイトで公開しているChainLPというソフトだ。

このソフトを使えば、各種電子ブックリーダーや携帯端末用に、解像度やガンマ・レベル補正などを最適化したPDFや様々な形式のファイルが出力できる。
ものすごく利便性の高いソフトである。

これを使ってKindle用に出力し、Kindleで表示したのがこれ。

Kindle

Chain LP Amazon Kindle用TEST出力PDF

この表示には問題はないし十分読めるレベルになったが、PCでこのファイルをみると解像度が荒すぎて視認性が悪い。これで十分な方もいるだろうが個人的には不満である。
そこで、Kindleの2倍の解像度で出力したPDFをKindleで表示してみた。

Kindle x2

違いがわかりにくいが、こちらの方が若干ながら視認性は高い。PDFをPCなどで表示しても悪くない品質だ。
問題はファイル容量で、この1ページで500kb程度になる。Kindleに特化すれば140kb程度だ。
この差は大きくて、300ページの文庫本で換算すると42MBと150MBと3倍以上になる。
Kindleの容量は1.5GB程度あるので、150MBでも10冊保存できる。これでも十分だが、Kindleだけで読むことを考えると無駄ではなかろうか。

ということで、オリジナルの高画質版はPC用や将来の高品質な電子書籍用にとっておき、Kindle用をChainLPで作成するのがいいのではないかと考えた。

つづく