テキスト整形に便利な正規表現
2012年07月01日(Sun)
|
|
|
DLしてきた小説の、テキストファイルを整形するのに便利な正規表現をメモ。 以前にも書き留めましたが、追加もあるので改めて。
カタカナ+ひらがな [ァ-ヶーぁ-ん]
全角スペース以外の和文文字 [、-熙]
全角の数字 [0-9]
全角のアルファベット [A-z]
半角和文記号+半角カナ [。-゚]
半角英数字 [a-zA-Z0-9=\/:\.\(\)\~\@\-& ]
( )でくくられた振り仮名を抽出 ([ァ-ヶー・ヽあ-ん ]+)
不要な改行を抽出 [^!?。」』)―…\n]=\.\/]\n
!もしくは?の後に全角スペースが入っていない場合を抽出 [!?][^」。\n)〕]}〉」』】!? ]
ラスト三つは、特に読みにくいテキストを整形するのに便利です。 たとえば、正規表現での検索置換ができるソフトを使用することで、
( )でくくられた振り仮名を抽出 → 両端に 《 》 を追加 → 《( を 《 に、 )》 を 》 に置換、という作業で青空形式ルビに変換
不要な改行を抽出 → 末尾に●を追記 → 「\n●」を削除、で不必要な箇所に入っている改行を削除
!もしくは?の後に全角スペースが入っていない場合を抽出 → 先頭に●を追記 → 「●!」を「! 」に、「●?」を「? 」に置換で全角スペースを追加できる
といった使い方ができます。ちょっと面倒ですが、これをやると読みやすさが段違いに変わるのでオススメ。一連の作業は、慣れれば数分で終わります。
2012/09/12 追記: ようやく、『 \1 〜 \9 』の使い方が判ったので応用できました。
「●●《・・》」という文章を抽出して、「●●[#「●●」に傍点]」という文章に置換する方法。
(..)《・・》で検索 → \1\2\3\4\5\6\7\8\9[#「\1\2\3\4\5\6\7\8\9」に傍点]] に置換。 「・」がつく文字の数に合わせて . や ・ の数を調整して繰り返す。1〜9文字まで対応可能。
|
No.3862
(電脳)
|
|
|
|
この記事のトラックバックURL
|
https://plant.mints.ne.jp/sfs6_diary/sfs6_diary_tb.cgi/201207013862
|
|
|
|
プロフィール |
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。
|
|
|