Simeji 用の辞書の作り方
2013年06月01日(Sat)
|
|
|
バージョンアップに伴いコントロールパネルが消えてくれたおかげで、改めて乗り換えし直した Android 用日本語入力IME、Simeji 。 変換精度は高いわ、単体でポケベル入力や音声入力に対応しているわで、非常に便利です。しかも音声入力は、ちゃんと複数の変換候補から選択できるというありがたさ。
しかしそこはやっぱり携帯電話。というか、長らく使い込んできたPCと比べるのがそもそも間違っているのでしょうが、どうしても変換に物足りないものを感じてしまいます。それに変わった人名とかメルアドとか顔文字とか、個人的によく使う単語は登録しておきたいもの。 もちろん Simeji には単語登録機能もしっかり存在しています。しかしチマチマと一個ずつ登録していくのは非常にめんどくさく。
幸いにも、登録単語辞書の書出し・読込機能があったので、ちょっと試してみました。
※以下の方法を試す場合は、あくまで自己責任でお願いします。
まずは Simeji の設定から「辞書」を選択し、「ユーザー辞書書出し」をタップ。するとSDカード内の「Simeji」フォルダに「shimeji_user_dic.txt」というファイルができます。 開いてみると、
{"EN_KEY":[],"EN_VALUE":[],"JAJP_VALUE":["♪","(^ー^)"],"JAJP_KEY":["おん","かお"]}
といったように、それぞれ登録単語とその読みが、別々に格納されています。 以前は一単語一行のタブ区切りだったようですが、バージョンアップの兼ね合いか何かで変わったのでしょうか? ともあれこれでは、外部からの編集はなかなか難しいところ。 しばし思案して、よさげな方法を思いつきました。 まずパソコン側の ATOK の一括出力で、登録してある単語を txt ファイルに書き出します。
これを開いてみると、
おん ♪ 名詞* かお (^ー^) 名詞*
といったように、「読み」と「単語」と「品詞の種類」がタブで区切られながら、一行ずつ記述されています。これは MS-IME でも、ほぼ似たようなものでしょう。
ここからがポイント。
この txt ファイルを、PCのエクセルで読み込みます。 このとき、「カンマやタブなどの区切り文字によってフィールドごとに区切られたデータ」を選択し、次の画面で「フィールドの区切り文字」の「タブ」にチェックを入れ完了ボタンを押します。
すると、「読み」「単語」「品詞の種類」がそれぞれ別の列に入って読み込まれます。 そこでまず、「品詞の種類」を列ごとすべて削除。 さらに文頭に不要な情報が入っていたら、それも行ごと全部削除し、「読み」と「単語」の二列だけを残します。 そしてA列の「読み」をB列「単語」の下へコピー。
コピーしたらA列は列ごと削除し、A列に移動した元B列だけを、テキスト形式で保存します。
ここからは、正規表現で検索置換が可能かつ、文字と改行コードを指定できるテキストエディタが必要になります。 私は TeraPad を使用しました。
1.\n を ","\n に置換する。
2.文頭に「shimeji_user_dic.txt」の文頭にある {"EN_KEY":[],"EN_VALUE":[],"JAJP_VALUE":[" という文字列をコピーして貼り付け。
3.「単語」と「文字」の間に一行空け、 "],"JAJP_KEY":[" と記述する。
4.最後の行に "]} と記述。
5.「単語」と「文字」の、それぞれ最後の行の文末にある "," を消す。
6.すべての \n を置換機能で削除。
7.文字コードを「UTF-8N」、改行コードを「LF」にし、ファイル名を「shimeji_user_dic.txt」として保存。
以上で辞書ファイルが完成しました。 このファイルを、スマホのSDカード内にある「Simeji」フォルダにコピーします。元々ある「shimeji_user_dic.txt」は、念のため名前を変えるなどして、消さないように取っておきましょう。
あとは Simeji の設定から「辞書」→「ユーザー辞書読込」をタップ。 読み込みが始まればしめたもの。
処理が終了したら、「日本語ユーザー辞書」を確認してみましょう。 無事に単語が登録されていたら、成功ですъ( `ー゚)
私は今回このやり方で、50個ほどの単語を一括登録できました。 なお Simeji の単語登録は1万個までできるようです。
……少々ややこしいと思われるかもしれませんが、やってみたら案外さくっと終わりました。 注意すべきポイントは、くれぐれも「読み」と「単語」の数を狂わせないこと。どちらかをひとつでも消したり、余計な文字などが入ってしまうと、すべての組み合わせがずれることとなります。
今後、また同じ事をする際の覚え書きとして、一応ここに書き留めておきます。
|
No.4818
(電脳)
|
|
|
|
データ入力は好きなんだけどさ
2013年06月01日(Sat)
|
|
|
ふと思いついて Simeji の辞書をいじって遊んでいたら、知人より例によってメッセンジャーを使っての口述筆記ならぬ口述データ入力を頼まれ、さらに還暦祝い兼同期会をするから案内状の叩き台を作ってメール送信してくれとも依頼され、おまけに別の知人からは以前に頼まれていたテキスト入力用の、手書き原稿を手渡しで受け取りました。 ……物事が重なる時は、重なるんだな?
ちなみに入力を頼まれた手記は、そろそろ九十代も半ばになろうというお爺さまが、二十年ほど前に書かれたものだそうで。幸いとても丁寧な字ではっきりと書かれており読みやすかったですが、やはり旧字略字や二の字点が入り乱れ。原稿用紙十枚分をまず一読するのに、赤ペン持って母に質問しまくる結果となりました(苦笑) それでも読めなかった手書き文字さえ判読できれば、古い文章の入力は慣れたものです。 シグ3を前に居間でTVをBGMにしながら、なんとか下入力は終了。 明日にでもリセットされた頭で、誤字脱字変換ミス等をチェックしようと思います。
……今日は読書も、録り溜まった録画の消化も、まったくできなかったよ……(ため息)
|
No.4819
(日常)
|
|
|
|
|
プロフィール |
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。
|
|
|