|
カタカナ抽出 [ァ-ヶー・]+ (「かたかな」で単語登録)
数字・アルファベット抽出 [a-zA-Z0-9=\/:\.\(\)\~\@\-& ]+ (「あるふぁべっと」で単語登録)
「(」で始まりで「)」終わる文字列抽出 (.*?) (「はじまりおわり」で単語登録)
不要な改行抽出 [^!?。」』)―…\n]=\.\/]\n (「かいぎょう」で単語登録)
OCRしたものやダウンロードしてきたテキストを、一括置換で修正するのに便利な正規表現。 たとえば一番目と三番目を組み合わせて ([ァ-ヶー・]+) とすると、カタカナで当て字された振り仮名をいっきに抽出できるので、( )を《 》に変換するのに便利。 もちろん ([あ-んー・]+) とすれば、ひらがなの振り仮名が抽出できます。さらに ([ァ-ヶー・あ-ん ]+) としてやれば両方をいっぺんに置換可能。 四番目は検索されたものを「\0●」で置換したあと、「●\n」を削除してやれば、余計な場所に入っている改行が削除できます。ただし章タイトルなどまで抽出されてしまう可能性があるので、そのあたりは要手動削除。
|
No.319
(電脳)
|
|
|
|
この記事のトラックバックURL
|
https://plant.mints.ne.jp/sfs6_diary/sfs6_diary_tb.cgi/20060303319
|
|
|
|
プロフィール |
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。
|
|
|