よしなしことを、日々徒然に……
※ 2018年以降の記事は、別ブログの方へUPしています ※
新しいブログへは こちら からどうぞ。



 どちらを使うべきか(悩)
2016年02月14日(Sun) 
先日、十一章ぐらいあるうちの二章目あたりまでざっと流し読みした、某なろう小説なんですが。
けっこう面白いからちゃんと読もうかとダウンロード保存してみたのです。

……プレーンテキストファイルで7MB超えてるって(汗)

1MBで厚めの文庫3冊と換算しても、20冊を超える計算なんですが。
完結済の本編だけでも6メガ近い……これ読み始めたら、それこそ他の積読放り出しても何ヶ月かかるだろう……

っていうかね、縦書きビューワで読みやすいように整形するだけで3時間ぐらいかかりました。
特に中国語とかアラビア語とかの記述が、テキスト化するとことごとく ? に文字化けしてしまって、それをなんとか違和感を感じない程度に置き換えたり青空形式で外字記述したりするのにですね、手間取りました。あとこれ、一度プリントアウトしたものをOCRしてるんじゃないんでしょうか。ところどころに形だけ似た別の記号とか、不要な改行が混じっていたりとかしてて……

あと、今回に限らず困るのが、「 〜 」の文字化け問題。
この記事を書こうとして調べてみて、初めて知ったのですが。
なんでも日本語記述における「〜(波ダッシュ U+301C)」と、音声記号としての「〜(全角チルダ U+FF5E)」というのは、別物なのだそうですね?

■波ダッシュ - Wikipedia
 https://ja.wikipedia.org/wiki/%E6%B3%A2%E3%83%80
%E3%83%83%E3%82%B7%E3%83%A5

本来の日本語としては、波ダッシュの方を使うのが望ましいのでしょうけれど……しかしこの波ダッシュ、よりによって機種依存文字(−ー;)
しかも Windows でも対応してないソフトが多々ある状態でして。事実、私がメインで使っているアプリのほとんど(TeraPad・Devas・KMHPDiary)で、波ダッシュが ? に化けてしまいます。
そもそも、Google日本語入力で「から」って入力して変換、さらにそれを再変換してみると……



[全]波ダッシュ と称しながら、実際に出てきてるのは全角チルダ(U+FF5E)だったって……今日の今日まで知りませんでしたよ(汗)
前々からオンライン小説をテキスト保存すると、しばしば「〜」が「?」に化けることが頻発していて、「不特定多数が読むものに機種依存文字使うなよ……」とか思っていたのですが。何の事はない、正規の記述の方が機種依存だったとは。

っていうか、「U+301C」って打って変換した「〜」を再変換してみると、「全角チルダ(U+FF5E)」になってるってどういうこと!?



判らない、何考えてるのかさっぱり判らないよ、Microsoft と Google ……(−ー;)

……ともあれ。
文章を書く場合、いくら形が似ているからといって、異なる文字を使うのはなんだか気持ちが悪い。でも様々な環境で化けないことを優先させたり、入力の手間を考えると(波ダッシュは単語登録しないと出せない)、全角チルダが便利なんですよねえ。

うむむ、悩ましい…… TeraPad も Devas も KMHPDiary も、今さら手放せないし、むしろ機種依存文字を間違って使わないよう事前発見できるという点では、これはこれで便利だしなあ……

っていうか、私個人としては全角チルダを使っても、まあ別に良いんですけれど、要はなろう作品などで正規の波ダッシュを使われているのをテキスト化する時に困るという訳で。
実際、なろうの『縦書きPDF』機能で変換されるPDFでも、同様に文字化けが起きてますし。

さらに同じことは「―(ダッシュ)」でもあるんですよね。
この横棒線、人によって「−(ハイフン)」を使ったり「─(罫線)」や「ー(長音)」を使ったりと、似た形のいろんな記号を使われるのですが……それが機種依存だった場合などに、やはり化けるのですよ。
前後の文脈から推し量ろうにも、「え???!?」と化けて表示されているのが、はたして「え〜〜〜!?」なのか「え―――!?」なのかなんて微妙なニュアンス、判らないじゃないですか。
本文のHTMLで確認しようにも、該当部分を探しだすのも一苦労な上に、うっかり探してる途中で重大なネタバレ食らっちゃったりと、ダメージもあったりして。

……って、だったらDLなんかせずにブラウザでそのまま読めと言われれば、その通りなのですが。
でもネットが繋がらない環境に行ったりすることもあるし、それにオンライン小説はいつ消えるか判らないから、これはというものはやはり手元に残しておきたい訳で。
それに自分も小説や著作権切れテキストを公開している身としては、やはりこういうところは気になるのですよねえ。


ああ、そういえばパソコンを使い始めたばかりの頃、記号の「m3(立法メートル)」とか「リットル」が表示できる機械とできない機械があって、仕事でデータのやり取りするのに困ったりとかしましたっけ……あの頃は機種依存文字とかフォントの種類とか外字がどうのなんて、誰も知らなかったから、本当に困ったものです……(懐)
No.7405 (電脳)

 
 この記事へのコメント
 
個人的には  2016/02/14/21:31:49
 機種依存が多い物はUnicodeで一括保存するソフト使ってUnicode使えるエディタで開いて主な化ける文字は置換(マクロ使って複数一括でやってます)で置き換えて最終的には別名でShift-JISで保存ってやってますね。その時点で失われる文字があったら警告してくれますし、そうなったら保存した方開いて「?」を検索して前後の文字で元テキストを検索して化けた文字を調べてマクロに加える……とやってたらそのうちほとんど引っかからなくなりましたね、データが蓄積していくので。うん、何も変わった事は言ってない(爆)。
 しかし置き換えればそれでほとんど済む〜はいいんですけど、直線形は意味がいろいろあるのでそっちの方がめんどくさいです、使い方が人によってまちまちだからハイフン二つ繋がってたら罫線にするとかするとたまにとんでもない事になって。そういうのが多い作者さんには専用マクロ作ってます、表記揺れもある程度直ってべんりです(笑)。
 しかしものすごい顔文字とか使う人増えてきてるし、ネタバレを防ぐならUnicodeで読めるようにするのが一番手っ取り早いのかもしれませんねー、フォント入ってないらしくUnicodeで開いても機種依存系化ける端末で読むことあるから無理だけど。
 あ、ATOKだと「〜」は波ダッシュと表示されます。
 
No.7406
 
神崎真  2016/02/15/00:26:56
ダウンロード自体は、たぶん Unicode でできてると思うんですよ。
YMO!で落としてますし、それをそのまま MHE Novel Viewer で表示させたら、ハングル語も中国の漢字もちゃんと表示されてるんで。ただそのテキストをパソコンに移して、読みやすいよう整形してる間に文字化ける(−ー;)

TeraPad は、対応文字コードに Unicode も UTF-8N も入ってるんですけどね。実際、編集して上書きしたファイルは UTF-8N で保存されてますし。でも中身は化けてる。ってかそもそも、編集モードを UTF-8N にしても、波ダッシュをコピペ → ? と、はなから表示することすらできないし(−ー;)

んーー、 Unicode 対応のテキストエディタっていうと、サクラエディタあたりがオススメなんでしょうかね?



……と、ここまで書いて、ふと気が付きました。
そういえば、Microsoft Word で、いちおう Unicode 文字の表示・編集できたじゃん、と。
そんな訳で、この書き込みを放置した状態で、さらに一時間半。
ダウンロードしたままの状態のファイルも念のため予備として残していたので、改めて TeraPad で文字化けさせてから名前を変えて保存。「?」を検索して元ファイル( Word で開いたらちゃんと表示されました)と比較しつつ、中国語・韓国語・アラビア語の部分だけ Word 別窓で読み込んでコピペしてました(苦笑)<誤字修正や「〜」の置換、「!」「?」後部へのスペース入れや余分な改行の削除などは、やり直す気力がなかったので

うん、何もおかしなことは言ってないですよねww

ただやっぱり、全角半角の変換が簡単にできる TeraPad や、複数ファイルを横断して半角英数字を一括チェックできる Devas は、使い込んでるだけになかなか手放せないんですよねえ。自分でマクロ組むだけの知識もないですし。
ううむ……せめて複数ファイルを一括処理できる、Unicode 対応の検索置換ソフトはないものか……

> 直線形は意味がいろいろあるのでそっちの方がめんどくさいです、使い方が人によってまちまちだからハイフン二つ繋がってたら罫線にするとかするとたまにとんでもない事になって

すっっっっっっごい、わかります!!!
人によっては、使い方の統一すらしていないから、場所によっていろんな横線が混在してて、しっちゃかめっちゃかなんですよね……特にダッシュの代わりに「ー(長音)」使うのだけは、切にやめて欲しいです。あれ見ると途端に読む気が失せる……さりとてそういう方ってしょっちゅう台詞でも「わーーーーい★」とか使ってくるから、機械的に一括処理もできないし。

先日、某テキストエディタの作者さんへ、「〜」が入ってると高確率で自動判別時に文字化けするんですがと質問を出したら、「Shift-JIS はもう古い形式だから UTF-8 に移行した方がいいですよ」ってアドバイスされちゃって。

……おのれ、そうやってみんな高機能な方へどんどん流れていくから、必要のない文字(「繁」が「繁」になってたりする)まで機種依存文字に誤変換してても気付かないんだよ……ッッッ
 
No.7407
 
ソフトに関しては  2016/02/21/19:46:37
 紹介していくと自分の気に入ってるの推したくなるから難しいところですよねー。ちなみになろうに関してはダウンロード以外ほぼMery2でやってますと結局言う(笑)。複数ファイルのある程度の一括処理とかも出来ますよとかもっと具体的に書いたけど自重しました(爆)。たぶんなんか間違ってるかポイントずれたこと言うし。
 「わーーーーい★」は「ーー」を「――」に置換、余りがあったら「―ー」を「――」に置換とかやってますけど、やっぱりそれでも外れるものがあるんですよねー。顔文字入れる人とかも居るし。スルー力を鍛えるのが一番心安らかに読めるけど自分が書く時もやりそうで怖い、ほとんど忘れてるとはいえ書き方マニュアル読んだのに。その辺って読まないのか変わって来てるんでしょうかねぇ? IMEで勝手になった事もあるしなぁ、設定ミスってたんだろうけど。
 TeraPadは表示する時Shift-JISに機種依存文字を個別考慮せず変換して保存する時にそのまま戻すという仕様ではないでしょうか。違うエディタで化けずに表示されるテキストをShift-JISに変換して保存したのを開き直すとTeraPadで表示した時と同じように見えますから。とりあえずUnicode用に補助エディタ導入を検討した方がいいかもしれません。
 Shift-JISが古いってのは歴史と今後目標としている方向を考えると正しいんでしょうけど簡単に対応できるわけじゃないですからねー。今ならマイナンバーであわあわしてる企業の担当者の気持ちが理解できそうです(程度が違う・爆)。
 その二つの字はよっぽど拡大しないと形の差が分からないですよねー(通常サイズだと太くなるので違う意味で分かるが……分からないのもあるのかな?)。個人的仮説として一部は安いAndroid端末とかで執筆して中華フォントで引っかかってるんじゃないかと思うんですけど。Shift-JISの漢字なのがフォントのせいで機種依存ぽく表示されてるのか、本当に機種依存の漢字なのかが見ただけで区別できなくて、しかもそのままアップロード出来て読めてしまう環境で完結してしまったら当人にはわかんないでしょうし。Shift-JISで書いてから貼り付けるなり書いた物をShift-JISにコピペするなりして確認すれば分かるといいたいけど、エディタのデフォルトがUnicodeも最近多いので感覚で使ってて言ってる意味が分からない人もいるんじゃないかと実は思ってます。昔ほどネットの文字化けうるさくいいませんし。案外当人が機種依存文字だと知ったら驚くかもしれません(笑)。高性能というか考えずにすむ方に行ってますねこれ。いい編集とかがついてフォローしてくれるなら書くのに集中できていいのかもしれないけど、何だかなぁ。
 けど拘って使い分けてたらどうしよう?(謎) 無駄かどうかは結局使いこなせるかどうかでしょうからねぇ、紙本だったらその辺に感動することもありますし。どの辺に折り合いを付けるべきなんでしょうかねぇ?
 
No.7418
 
神崎真  2016/02/21/22:50:41
いえいえ充分ですよ!
だいたいの道筋を示していただいたおかげで、なんとか私も事前にマクロで一括置換 → SHIFT-JIS で保存してから TeraPad などで編集、という方法を確立することができました。感謝感謝です <( _ _ )>

あ、Mery2 をお使いですか。
Unicode とマクロに対応かつ、スタンドアロンでレジストリを汚さないとあって、私も今日、試しに入れてみてました。
……ただこの一括置換のマクロがどーーーしても作れず、結局ゴミ箱行きになっちゃいましたが(苦笑)<vbs も js もさっぱり判りませんのです

> スルー力を鍛えるのが一番心安らかに読めるけど自分が書く時もやりそうで怖い

デスヨネー。
たぶん、そんなことこだわらずに脳内変換しろよと言われれば、たぶん反論できない。
でもこだわっちゃうのが性分なんだから、仕方ないですよね。
そして自分がやっちゃうことを防ぐためにもやっぱり、入力した段階ですぐ文字化けして教えてくれる TeraPad は、手放せないなあとか思うのです。もう十年以上使い続けてきて、外部ツールとの連携とかも、完全に自分専用カスタマイズしてますしね……

そう、TeraPad は内部処理を SHIFT-JIS でやってると、どこだかに書いてありました。
Unicode 用補助エディタは、今回ワードで代行できることになりましたけど、今度はワードが SHIFT-JIS に対応しなくなっていきそうで怖い(汗)

Windows95 が発売される前の時代からの変遷を見続けてくると、十年後にどうなってるのかとか、ほんと判りませんもの。ほんのついこの間だって、Word2010 では一太郎文書が開けなくなってて、大慌てで母のXP(サポート切れまで数ヶ月)を使い、昔の小説ファイル、ワード形式に変換しまくる羽目になりましたし。

きっとあと数年で、SHIFT-JIS は駆逐されるんだろうなあ……(遠い目)
その時ちゃんと、スマホやタブレットも対応してくれてれば良いんですけど。ああ、そういう意味では sigmarionIII を使いやめたのも、これはこれで良いタイミングだったのかも< Android で使ってるテキストエディタは UTF-8 に対応している

> 見ただけで区別できなくて、しかもそのままアップロード出来て読めてしまう環境で完結してしまったら当人にはわかんないでしょう

> エディタのデフォルトがUnicodeも最近多いので感覚で使ってて言ってる意味が分からない人もいるんじゃないかと実は思ってます

それ、すっごく多いと思いますよ。
そもそも複数台の閲覧環境を持ってる人のほうが、むしろ少ないと思いますし。自分の環境で普通に読めて書けたら、誰かに指摘されないと ―― いや、指摘されても意味が判らないと思います。
事実私の周りには、自分が何のOSとブラウザ使ってるか、まったく知らない人たくさんいますし。
うちの父に至っては、「で、このファイルどこ(のフォルダ)に保存したの?」「ワードの中」って答えるぐらいですし。
ワードで作って名前つけて保存したデータは、ワードの中に入ってると思ってるんです。これでも20年以上パソコン使って仕事してる人なんですが……いや会計ソフトとかハガキ作成ソフトとかは、保存場所自分で選べないのも多いから、その感覚なのか??
ましてや、機種依存文字とか外字とかフォントの種類なんてもうヽ(´〜`)/

私だって、いろんなマシンやプリンターが混在した職場で、他人様に配布すること前提の書式テンプレート作成を仕事にしてなかったら、たぶんここまで勉強しなかったと思います。
パソコンによって入ってるソフトやフォントが違う = 下手な字やファイル形式を使うと、開けない・読めないって抗議が来るなんて基礎の基礎も、最初は知らなかったんや……(遠い目)

> けど拘って使い分けてたらどうしよう?

……今回私が編集した小説なんて、作者さんがHN自体に機種依存文字使ってらっしゃいますからね。
しかもめっさクォリティ高い&長くて(全部で7MB超)、本編完結済かつ書籍化済。
本文には中国語にハングルにアラビア語にハートマークや16分音符など、文字化け候補がてんこ盛り。めちゃめちゃこだわりがあって、たぶん紙書籍ではそれこそ感動ものなんでしょうが……テキストで読みたい人間にとってはすげえ困ります(泣)
しかもそのせいで変換ミスもするのか、あるいはあれプリントアウトをOCRしたやつなのか、カタカナの「ム」になるべきところが「ㇺ[#小書き片仮名ム、1-6-89 アイヌ語の表記に用いる]」とかになってたりするんですもん。参りましたよ……
折り合いって、ほんとにどこでつけるべきなんでしょうね……?
 
No.7420
 
お疲れ様でした  2016/02/28/21:08:44
 Meryのダウンロード出来るマクロとか自分も理解できないです。記録機能が無かったら自作のも無理だったでしょうねー。
 え、ワードで一太郎って開けなくなってるんですか? ……一太郎(一昨年の・爆)の方でも2003形式までしか保存出来なくなってる(たぶん)。むう、開く方は可能っぽいしxdoc2txtが普通に対応してるようだから考えもしてなかった、ビューアーってワード持ってる人も対象なのかつまり。お役所が書類保存する限りワードがShift-JIS対応しなくなる可能性はないとそこ読んでる時は思ってたけど一太郎は切り捨てられたと思うとこれは確かに笑えない……いやそもそも読み込めるようにしろが無茶なのかもしれないけど一太郎は。そしてワードって標準装備なんだって辺りにも地味にショック受けた。。。
>「ワードの中」
 ああ、マイドキュメントかデスクトップですね(違)。けどまだ検索できる分だけどのフロッピーか分からないよりはマシですよねー……今も外部記憶装置はあるのに当時よりカタログ化とか言わないのって容量増えて入れ替える手間が減ってるからなんだろーか?
 折り合い……本文は今後徐々にUnicode対応していくだろうから更に緩くなるでしょうねぇ、こだわりはまだしも誤変換というか意味が分かればどうでもいい変換が増えるのは嬉しくないなぁ、表記揺れに気づきづらいのも。けど、それ以上に作者名とかタイトルとか商品名とかは出来る限りShift-JIS内で記号使わず納めて下さい特に商業とか委託とか文字コード違うとこに転載する時とか、とものすごい思います。通販サイトで検索しても見つからないと思ったら表記がサイトによって置き換えだったり全角だったりUnicodeだったり同じ記号が白抜きだったり黒塗りだったりタグでそこだけフォント変えてあったり空白だったり(以下略)したせいだった事があって、扱ってないのかと思ったら、大手検索サイトの方で検索したらその店の扱ってるページが引っかかった時にはもう商品命名者売る気が無いのかとマジで思った、いや売りたいから目立たせるためにしたんだろうけど。もうそんな感覚すら古いんでしょうかねぇ? それともネット時代を考えていない付け方が古いんだろーか? やっぱりある程度は許容する方向に行かないと駄目なんでしょうか。けど駆逐だけはしないでhtmlはなんとか変換で済むけどGGIは自力で出来なくてあれとかこれとか全取っ替えになるから。代わり見つけられてないしそもそも既に設置できるかどうか怪しいから。うあ、なんか今違う意味ですげー切実になって来た。。。
 ユニバーサルっていろんな意味で難しいですね。。。
 
No.7434
 
神崎真  2016/02/28/21:46:53
検証作業はハマると熱中しちゃうので楽しくはあるんですが、それでもほんとに疲れました(苦笑)
Office のマクロは、ずーーーーっと昔に仕事でちょっとだけいじったことがあったので、VBEを使うだの標準モジュールだのが記憶に残っている分、いくらかはとっつきやすかったのが幸いでした。

> 一太郎は切り捨てられたと思うとこれは確かに笑えない
> そしてワードって標準装備なんだって辺りにも地味にショック受けた

ワードが標準装備っていうのは、ちょっと言いすぎでしたね(苦笑)
でも今時はパソコン買う時たいてオプションで Office がついてきて、そしてそれを断る人ってあんまりいないんじゃないかと。
……そして昔はそこで、「一太郎・三四郎モデル」と「Word・Excelモデル」を選択できる場合が多かったのに、今は最初から一太郎が入ってるの、めっきり見ないからなあ……<もともとは一太郎・三四郎派だった

そうそう、役所提出書類も、昔は一太郎でしたよねえ。
まだ公共の書類サイズがB版で、一太郎の文字サイズは大中小の三種類しかなく、倍角とかで補ってた時代ww<いつだ
「これで提出して下さい」って渡されたフロッピーのデータを開いてみたら、文字入力するべき場所に罫線が引いてあって、プリントアウトして手で書き込むしかなかった時代ですよwwwwww

> 作者名とかタイトルとか商品名とかは出来る限りShift-JIS内で記号使わず納めて下さい特に商業とか委託とか文字コード違うとこに転載する時とか

すっっっっっごい、同意します。
前述のHNに機種依存文字使ってる作者さんも、書籍化された作品、 Amazon・楽天ともに当たり前のように字が置き換えられてますからね……案の定、元の字の作者名で Amazon 検索すると「一致する商品はありませんでした」って出る(−ー;)<でも書籍表紙の記述は Unicode 文字で印刷されてる
判りやすいところだと、ダイアモンド✡ユカイさんとか、そんな感じですよね。
WEBでは「ダイアモンド☆ユカイ」だったり「ダイアモンド★ユカイ」だったり「ダイアモンド ユカイ」だったり「ダイアモンド・ユカイ」だったり、もうどないせえと!

このCGIだって、一応 Unicode 文字を表示はできるみたいですけど、全部じゃないんですよね。以前何度投稿しても記事が途中から文字化けするのでさんざん頭を悩ませた結果、「都」という文字が旧字体になってたのが原因だったということがあります。点一個あるかないかなんて、そう簡単に気付けるか〜〜〜っっ(><)
CGIの総取替なんて事態になったら、私ももう設置作業できる自信ないですよ。これまで書き溜めたログだって移植できないだろうし、ほんとに困ります。
技術の発達で古いものがいつか切り捨てられていくのはしかたのないことにせよ、それでも文字を増やせと言ってる訳じゃないんですから、なんとかどうにかして欲しいものです……(しょぼん)
 
No.7435

 この記事へのコメントは以下のフォームからどうぞ
Name
E-Mail
URL
感想
2560文字まで

Pass

 
 この記事のトラックバックURL
https://plant.mints.ne.jp/sfs6_diary/sfs6_diary_tb.cgi/201602147405


No. PASS

<< 2016年02月 >>
Sun Mon Tue Wed Thr Fri Sat
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29          

 プロフィール
神崎 真(かんざき まこと)
小説とマンガと電子小物をこよなく愛する、昭和生まれのネットジャンキー。
ちなみに当覚え書きでは、
ゼロさん= W-ZERO3(WS004)
スマホ= 003P(Android端末)
シグ3= SigmarionIII です。

サーチ :


 最新の記事
 どちらを使うべきか(悩..

 リンク
 神崎へメール
 私立杜守図書館
 蔵書リスト

 

   

 ブログ内記事検索:
 
 AND OR  


Back to Home...

[管理用] [TOP]
shiromuku(fs6)DIARY version 2.41