よしなしことを、日々徒然に……
※ 2018年以降の記事は、別ブログの方へUPしています ※
新しいブログへは こちら からどうぞ。



 青空文庫倶楽部から
2008年03月03日(Mon) 
落としてきたHTMLを、ずいぶん以前にテキスト整形した十五少年ですが、読み返してみたらいろいろ粗が目について、もっかい改めてダウンロード→整形し直しとかしてみてました。

この十五少年や、以前読んでいた厳窟王などは、かつて「物語倶楽部」という個人運営サイトで公開されていたファイルでして、そのサイトが消えてしまった現在も、愛好者達によって保存されていた救済ファイルが「青空文庫倶楽部」で再配布されているわけです。
よってこれらのテキストは、青空文庫のように複数人による厳密な校正作業を経たものではありません。なので誤字脱字の存在は当然として、ファイルの記述形式も微妙に一定していなかったりするのですよね。ルビのある漢字とない漢字との区切りが半角スペースだったり、一見半角スペースでありながら、テキスト変換すると「?」に化ける何かの文字だったり。「〜」や「―」も、一部字体が微妙なうえテキスト化すると「?」に化けるので、たぶん何かの特殊記号が混じってるんだと思います。 いやもちろん、この膨大な量を個人で入力されたという、そのことは尊敬とそして感謝してあまりある偉業に他なりませんが。
実は前回そのあたりに気付かないまま適当に一括置換していたので、いざ読んでみたら「|」を入れなきゃいけないところに「ゝ」を入れてたりとかしてたんですよね……ははは(苦笑)

で、そこらへんを踏まえつつ、先日作成した外字の「\」や縦書「〜」などを入れ込んで、[ ] 書きされている外字の解説も[# ]という形式に書き替えてやれば、青空子猫で灰色表示にもできるし、よりいっそう読みやすく楽しめるファイルになってくれるわけで。

……一度読んだテキストをなんでそこまでするかというツッコミは置いておいて。
つか、完全に手段(テキスト整形作業)が目的になってるよな……良いんだ、好きなんだこういう作業……(遠い目)

えーちなみに、HTMLをテキスト整形するのにおすすめなソフトはこのあたり。

■HtoX32 HTML→TXT 変換ツール
■tmsCat ファイル結合ツール
 http://win32lab.com/

どちらもマイコンピュータから右クリックで起動できます。
tmsCat はファイル名が「8、9、10」のように一桁と二桁が混じっている場合でも、ちゃんと番号順に結合してくれるオプション付きです。

■Devas
 http://gimite.ddo.jp/gimite/

正規表現が使用できる検索置換ソフト。
たとえば ([ァ-ヶー・あ-ん ]+) と指定すると ( ) でくくられたカタカナと平仮名が検索できるので、それをいったん 《\0》 に置換し、その後 《( を 《 に、 )》 を 》 に置換することで、( )書きのフリガナを《 》書きに変換できるわけです。

んな面倒なことやってられっかーーー!
という方にはこちらがオススメ。

■RubyMate
 http://www2u.biglobe.ne.jp/~shunbook/omocha

( )ルビを《 》ルビに変換したり、青空形式の傍点をルビ変換してくれたり、邪魔な注記を削除してくれたりします。四文字までなら文字列置換にも対応。

私はだいたいこれらのソフトとテキストエディタ TeraPad の空白除去ツールや、行頭に全角スペースを足すツールなどを併用して、テキスト整形をこなしております。

おおざっぱな手順としては、

1.DLしてきたHTMLファイルを HtoX32 でテキスト変換。
2.できたテキストファイルを tmsCat で結合。
3.TeraPad で開き、TpTrimSp ツールを使用して行頭行末の不要な半角スペースを除去。
4.字下げがされていない場合、同じく TpBPlus ツールで行頭に全角スペースを追加。
5.Devas で「全角スペース+各種括弧」を検索、それぞれの括弧のみに置換。
6.さらにファイルとファイルを結合した部分に、たいてい余計な文字列が含まれているので、「TITEL:」「次ページへ」などの文字を手がかりに検索して随時削除してゆく。
7.ファイルの最後にファイルの入手元情報(サイト名、作者名、URL)を記入しておく。

といった感じの流れでしょうか。
慣れると、ルーチンワーク化するので、一作十分とかそこらで終わります。
元のファイルが、規則的な記述で作られているものほど、整形もしやすいですね(段落を変えた際の空ける行数とか、タイトルの記述方法とか)
それこそブログ形式で公開されてるサイトのHTMLとか、見事に記述が規則的なものですから、一度法則を見切ると、検索置換の楽なこと。

……おかげでハードディスクの中に、落として整形したは良いものの、未読のテキストが溜まって行ってたりするわけなんですが……(遠い目)
No.1844 (読書)



<< 2008年03月 >>
Sun Mon Tue Wed Thr Fri Sat
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          

 プロフィール
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。

サーチ :


 最新の記事
 青空文庫倶楽部から

 リンク
 神崎へメール
 私立杜守図書館
 蔵書リスト

 

   

 ブログ内記事検索:
 
 AND OR  


Back to Home...

[管理用] [TOP]
shiromuku(fs6)DIARY version 2.41