どちらを使うべきか(悩)
2016年02月14日(Sun)
|
|
|
先日、十一章ぐらいあるうちの二章目あたりまでざっと流し読みした、某なろう小説なんですが。 けっこう面白いからちゃんと読もうかとダウンロード保存してみたのです。
……プレーンテキストファイルで7MB超えてるって(汗)
1MBで厚めの文庫3冊と換算しても、20冊を超える計算なんですが。 完結済の本編だけでも6メガ近い……これ読み始めたら、それこそ他の積読放り出しても何ヶ月かかるだろう……
っていうかね、縦書きビューワで読みやすいように整形するだけで3時間ぐらいかかりました。 特に中国語とかアラビア語とかの記述が、テキスト化するとことごとく ? に文字化けしてしまって、それをなんとか違和感を感じない程度に置き換えたり青空形式で外字記述したりするのにですね、手間取りました。あとこれ、一度プリントアウトしたものをOCRしてるんじゃないんでしょうか。ところどころに形だけ似た別の記号とか、不要な改行が混じっていたりとかしてて……
あと、今回に限らず困るのが、「 〜 」の文字化け問題。 この記事を書こうとして調べてみて、初めて知ったのですが。 なんでも日本語記述における「〜(波ダッシュ U+301C)」と、音声記号としての「〜(全角チルダ U+FF5E)」というのは、別物なのだそうですね?
■波ダッシュ - Wikipedia https://ja.wikipedia.org/wiki/%E6%B3%A2%E3%83%80 %E3%83%83%E3%82%B7%E3%83%A5
本来の日本語としては、波ダッシュの方を使うのが望ましいのでしょうけれど……しかしこの波ダッシュ、よりによって機種依存文字(−ー;) しかも Windows でも対応してないソフトが多々ある状態でして。事実、私がメインで使っているアプリのほとんど(TeraPad・Devas・KMHPDiary)で、波ダッシュが ? に化けてしまいます。 そもそも、Google日本語入力で「から」って入力して変換、さらにそれを再変換してみると……
[全]波ダッシュ と称しながら、実際に出てきてるのは全角チルダ(U+FF5E)だったって……今日の今日まで知りませんでしたよ(汗) 前々からオンライン小説をテキスト保存すると、しばしば「〜」が「?」に化けることが頻発していて、「不特定多数が読むものに機種依存文字使うなよ……」とか思っていたのですが。何の事はない、正規の記述の方が機種依存だったとは。
っていうか、「U+301C」って打って変換した「〜」を再変換してみると、「全角チルダ(U+FF5E)」になってるってどういうこと!?
判らない、何考えてるのかさっぱり判らないよ、Microsoft と Google ……(−ー;)
……ともあれ。 文章を書く場合、いくら形が似ているからといって、異なる文字を使うのはなんだか気持ちが悪い。でも様々な環境で化けないことを優先させたり、入力の手間を考えると(波ダッシュは単語登録しないと出せない)、全角チルダが便利なんですよねえ。
うむむ、悩ましい…… TeraPad も Devas も KMHPDiary も、今さら手放せないし、むしろ機種依存文字を間違って使わないよう事前発見できるという点では、これはこれで便利だしなあ……
っていうか、私個人としては全角チルダを使っても、まあ別に良いんですけれど、要はなろう作品などで正規の波ダッシュを使われているのをテキスト化する時に困るという訳で。 実際、なろうの『縦書きPDF』機能で変換されるPDFでも、同様に文字化けが起きてますし。
さらに同じことは「―(ダッシュ)」でもあるんですよね。 この横棒線、人によって「−(ハイフン)」を使ったり「─(罫線)」や「ー(長音)」を使ったりと、似た形のいろんな記号を使われるのですが……それが機種依存だった場合などに、やはり化けるのですよ。 前後の文脈から推し量ろうにも、「え???!?」と化けて表示されているのが、はたして「え〜〜〜!?」なのか「え―――!?」なのかなんて微妙なニュアンス、判らないじゃないですか。 本文のHTMLで確認しようにも、該当部分を探しだすのも一苦労な上に、うっかり探してる途中で重大なネタバレ食らっちゃったりと、ダメージもあったりして。
……って、だったらDLなんかせずにブラウザでそのまま読めと言われれば、その通りなのですが。 でもネットが繋がらない環境に行ったりすることもあるし、それにオンライン小説はいつ消えるか判らないから、これはというものはやはり手元に残しておきたい訳で。 それに自分も小説や著作権切れテキストを公開している身としては、やはりこういうところは気になるのですよねえ。
ああ、そういえばパソコンを使い始めたばかりの頃、記号の「m3(立法メートル)」とか「リットル」が表示できる機械とできない機械があって、仕事でデータのやり取りするのに困ったりとかしましたっけ……あの頃は機種依存文字とかフォントの種類とか外字がどうのなんて、誰も知らなかったから、本当に困ったものです……(懐)
|
No.7405
(電脳)
|
|
|
|
|
プロフィール |
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。
|
|
|