よしなしことを、日々徒然に……
※ 2018年以降の記事は、別ブログの方へUPしています ※
新しいブログへは こちら からどうぞ。



 正規表現メモ
2006年03月03日(Fri) 
カタカナ抽出
 [ァ-ヶー・]+ (「かたかな」で単語登録)

数字・アルファベット抽出
 [a-zA-Z0-9=\/:\.\(\)\~\@\-& ]+ (「あるふぁべっと」で単語登録)

「(」で始まりで「)」終わる文字列抽出
 (.*?) (「はじまりおわり」で単語登録)

不要な改行抽出
 [^!?。」』)―…\n]=\.\/]\n (「かいぎょう」で単語登録)

OCRしたものやダウンロードしてきたテキストを、一括置換で修正するのに便利な正規表現。
たとえば一番目と三番目を組み合わせて ([ァ-ヶー・]+) とすると、カタカナで当て字された振り仮名をいっきに抽出できるので、( )を《 》に変換するのに便利。
もちろん ([あ-んー・]+) とすれば、ひらがなの振り仮名が抽出できます。さらに ([ァ-ヶー・あ-ん ]+) としてやれば両方をいっぺんに置換可能。
四番目は検索されたものを「\0●」で置換したあと、「●\n」を削除してやれば、余計な場所に入っている改行が削除できます。ただし章タイトルなどまで抽出されてしまう可能性があるので、そのあたりは要手動削除。
No.319 (電脳)

 この記事へのコメントは以下のフォームからどうぞ
Name
E-Mail
URL
感想
2560文字まで

Pass

 
 この記事のトラックバックURL
http://plant.mints.ne.jp/sfs6_diary/sfs6_diary_tb.cgi/20060303319


No. PASS

<< 2006年03月 >>
Sun Mon Tue Wed Thr Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

 プロフィール
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。

サーチ :



 with Ajax Amazon

 最新の記事
 正規表現メモ

 リンク
 神崎へメール
 私立杜守図書館
 蔵書リスト

 

   

 ブログ内記事検索:
 
 AND OR  


Back to Home...

[管理用] [TOP]
shiromuku(fs6)DIARY version 2.41