よしなしことを、日々徒然に……
※ 2017年以前の記事は こちら になります ※



 ユニコードで正規表現メモ
2025年11月30日(Sun) 
先日スマホにインストールした、テキスト読み上げアプリ「小説を聞こう」の単語登録。
正規表現の指定の仕方が、愛用している一括検索置換ソフト Devas のそれと異なるので、頭を抱えていましたが。
なんとなく判り始めてきたので、忘れないようにメモ。

まず、「ひらがな」で始まり「ひらがな」で終わる「側」という文字を「そば」と読み上げる登録。




続いて「漢字」「々」「カタカナ」「長音」及び「お」以外で始まり、「様」「さ」「ち」という文字以外で終わる「爺」という文字を「ジジイ」と読み上げる登録。




まず大前提として、正規表現指定は塊ずつを、半角丸括弧でくくること。
そしてこれまで除外表現だった [^] が 半角の(?<![]) となっており、文字列の指定はユニコードで。
肯定表現の [] は [] のままなこと

 漢字以外
  これまで → [^一-龠々]
  ユニコード → (?<![\u4E00-\u9FFF])

 ひらがな+長音
  これまで → [ぁ-んー]
  ユニコード → ([\u3040-\u309Fー])

といった感じ。
そしてこれまで \0 〜 \9 などで拾い上げてきていた、置換後に反映される文字列は、$1 〜 $2 で指定。



この $ 指定を必要とするのは、肯定表現の時だけっぽいです。

うむむ、まだまだややこしい……(悩)

■用語集 正規表現|ドキュメント チェッカ - DocChecker
 https://tamasoft.co.jp/DocChecker/hlp/glossary.html

■正規表現|小説を聞こうアプリのユーザ辞書の仕様
 https://shinagawa.app/listen-to-novels/regex-ja/

■小説を聞こう - Web小説の読み上げ - Google Play のアプリ
 https://play.google.com/store/apps/details?
id=app.shinagawa.listentonovels.androidApp

正規表現って、使いこなせればめっちゃ幅が広がるのでしょうが、それでも限界はあるからなあ……<「金」とか「角」とか「主」とか「柄」とか、たとえ平仮名に挟まれていようが、前後の文脈を確認しないと読みが確定できない漢字が多すぎる(−ー;)

同じ「〜の●が」とかでも、剣だと「柄(つか)」で、槍や斧や包丁だと「柄(え)」で、布や性格だと「柄(がら)」になるとか。いいかげんにしろって話ですよねえ……AIさんや、早くそのあたりを学習してください……

……そういや小学生の頃、同級生やら知り合いやらの「角田」さんが、「すみた」「つのだ」「かくた」「かどた」の四人取り揃ってたっけなあ(遠い目)
しかしそこでうっかり「一度あったルビを以降も適用する」みたいなのにチェックを入れちゃったりすると、中華系小説表示した時に「杏(アン)」とか「猫(マオ)」とか「静(ジン)」とかいった、余計な登録を大量に学習しちゃったり、あるいは「異世界(こっち)」なんて当て字を使われちゃったりしてると、以降全ての単語が読み替えられちゃって、それはそれで大変なことになるんですよねえ……(遠い目)


結局いろいろ試したけれど、最終的には「われが」や「わらわ」「それがし」などの特殊一人称は、やっぱり適用作品を選ぶ形にして、ある程度は我慢するしかなさそうです。
それでも「小説を聞こう」は、初期設定でだいぶいろいろ登録してあるからありがたいです(しみじみ)


追記:
「の要」という文字を「のかなめ」と読ませつつ、「の要る」を「のいる」としたり、「の要塞」などの漢字が続く場合は除外する設定メモ。



「の要」の次の文字に括弧類や句読点などの文章区切りに使われそうな記号を指定したうえで、ユニコード五十音表の中から「ら行(\u3089-\308D)」を抜いたものを指定。
肯定表現なので、置換後には $1 を追記。
これで行ける感じっぽいです。
No.4568 (電脳)

 この記事へのコメントは以下のフォームからどうぞ
Name
E-Mail
URL
  ※ https: で始まるURLは、書き込めないことがあります。お手数をおかけしますが、 http: と「s」の字を抜いて入れてみて下さい。
 
本文
2560文字まで

Pass

 
 この記事のトラックバックURL
https://plant.mints.ne.jp/sfs6_diary2018/sfs6_diary_tb.cgi/202511304568


No. PASS

<< 2025年11月 >>
Sun Mon Tue Wed Thr Fri Sat
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            

 プロフィール
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
最近は小物作り(主にタティングレース)などにも没頭しています。

にほんブログ村 ハンドメイドブログ タティングレースへ
にほんブログ村


 最新の記事
 ユニコードで正規表現メ..

 リンク
 神崎へメール
 私立杜守図書館
 蔵書リスト

 

   

 ブログ内記事検索:
 
 AND OR  




Back to Home...

[管理用] [TOP]
shiromuku(fs6)DIARY version 2.41