よしなしことを、日々徒然に……
※ 2018年以降の記事は、別ブログの方へUPしています ※
新しいブログへは こちら からどうぞ。



 テキスト整形に便利な正規表現
2012年07月01日(Sun) 
DLしてきた小説の、テキストファイルを整形するのに便利な正規表現をメモ。
以前にも書き留めましたが、追加もあるので改めて。

カタカナ+ひらがな
 [ァ-ヶーぁ-ん]

全角スペース以外の和文文字
 [、-熙]

全角の数字
 [0-9]

全角のアルファベット
 [A-z]

半角和文記号+半角カナ
 [。-゚]

半角英数字
 [a-zA-Z0-9=\/:\.\(\)\~\@\-& ]

( )でくくられた振り仮名を抽出
 ([ァ-ヶー・ヽあ-ん ]+)

不要な改行を抽出
 [^!?。」』)―…\n]=\.\/]\n

!もしくは?の後に全角スペースが入っていない場合を抽出
 [!?][^」。\n)〕]}〉」』】!? ]

ラスト三つは、特に読みにくいテキストを整形するのに便利です。
たとえば、正規表現での検索置換ができるソフトを使用することで、


( )でくくられた振り仮名を抽出 → 両端に 《 》 を追加 → 《( を 《 に、 )》 を 》 に置換、という作業で青空形式ルビに変換


不要な改行を抽出 → 末尾に●を追記 → 「\n●」を削除、で不必要な箇所に入っている改行を削除


!もしくは?の後に全角スペースが入っていない場合を抽出 → 先頭に●を追記 → 「●!」を「! 」に、「●?」を「? 」に置換で全角スペースを追加できる

といった使い方ができます。ちょっと面倒ですが、これをやると読みやすさが段違いに変わるのでオススメ。一連の作業は、慣れれば数分で終わります。


2012/09/12 追記:
ようやく、『 \1 〜 \9 』の使い方が判ったので応用できました。

「●●《・・》」という文章を抽出して、「●●[#「●●」に傍点]」という文章に置換する方法。

(..)《・・》で検索 → \1\2\3\4\5\6\7\8\9[#「\1\2\3\4\5\6\7\8\9」に傍点]] に置換。
「・」がつく文字の数に合わせて . や ・ の数を調整して繰り返す。1〜9文字まで対応可能。
No.3862 (電脳)

 この記事へのコメントは以下のフォームからどうぞ
Name
E-Mail
URL
感想
2560文字まで

Pass

 
 この記事のトラックバックURL
https://plant.mints.ne.jp/sfs6_diary/sfs6_diary_tb.cgi/201207013862


No. PASS

<< 2012年07月 >>
Sun Mon Tue Wed Thr Fri Sat
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

 プロフィール
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。

サーチ :


 最新の記事
 テキスト整形に便利な正..

 リンク
 神崎へメール
 私立杜守図書館
 蔵書リスト

 

   

 ブログ内記事検索:
 
 AND OR  


Back to Home...

[管理用] [TOP]
shiromuku(fs6)DIARY version 2.41