■ 質問はここへ ■

917 にジャンプ
No. 914投稿者: kyoko日付: 2003/05/31 13:14:40
題名 : 英文文字化けの解決方法

こんにちは。

海外でPDFファイルで提供されている小説をQXでテキスト・コピーして読も
うとしたところ、会話のダブルコンマ(?)や省略形の「'」がつく部分が
文字化けします。試しに欧文QXへ張りつけたところ、こちらでは発生しませ
んでした。欧文モードと日本語モードによるものということは分かるものの、
これをどう解決したらいいのかわかりません。

日本語の状態でも文字化けを起こさないようにする方法はあるでしょうか?

ちょっと思いついたのがそのカンマ、ダブルカンマの部分をまず欧文QXで
「"」「 '」に変換してしまうというものですが、原文の逆ダブルカンマ(?)
を置換え窓に入力することが出来ず挫折しました。

文字化けを解消するなにかいい方法があるでしょうか。
もしくはこれはQX特有の問題ではないかと思いますので、場所が違うようで
したらどの辺を調べたら参考になるか教えて頂ければ幸いです。
よろしくお願いします。

No. 917 (914へのコメント)投稿者: かぶねこ HP日付: 2003/05/31 15:53:48
題名 : Re:英文文字化けの解決方法

カーリークォーテーションやアクセント文字、エムダッシュなど、欧文領域の文
字は日本語フォント表示では、その文字が日本語の2バイト文字の前半として解
釈されるので、隣のコードを巻き込んで化けます。ですから、日本語対応処理を
欧文モードでやって、それを日本語モードで開いたほうがいいですね。

いま調べてみたところ、カーリーなダブルクォーテーションと、カーリーなシン
グルクォーテーション(アポストロフィ含む)のコードは、&h93, &h94, &h91,
&h92 のようです。これを日本語にもある &h22 と &h27 に変換すればいいわけ
です。日本語モードでマクロを開いても文字化けしないようにマクロを書くとこ
んなふうになります。これでちょっと試していただけますか。(欧文モードで使
用してください。)

proc main
@MoveFileTop
@@ReplaceStringMulti chr$(&h93), chr$(&h22)
@@ReplaceStringMulti chr$(&h94), chr$(&h22)
@@ReplaceStringMulti chr$(&h91), chr$(&h27)
@@ReplaceStringMulti chr$(&h92), chr$(&h27)
@ReplaceStringMultiExec 1
end proc

No. 919 (917へのコメント)投稿者: kyoko日付: 2003/05/31 17:50:53
題名 : Re^2:英文文字化けの解決方法

かぶねこさん、早速のご教示ありがとうございました。

>カーリークォーテーションやアクセント文字、エムダッシュなど、欧文領域の文
>字は日本語フォント表示では、その文字が日本語の2バイト文字の前半として解
>釈されるので、隣のコードを巻き込んで化けます。ですから、日本語対応処理を
>欧文モードでやって、それを日本語モードで開いたほうがいいですね。

あの髭付きクォーテーション(カンマと混同してすみませんでした)はカーリーと言うの
ですね。
隣のコードを巻き込んで…とのことで、右に来る文字によりあまりの多様な文字化けぶり
に合点が行きました! 実は最初は日本語モードの方で各組み合わせごとに置換を実行し
ていたんですが、きりがないのでこれも途中で挫折していました。色々勉強になります。

マクロ、大変助かりました。早速欧文QXで実行したところ無事変換でき、日本語でもほと
んど綺麗に表示されました!本当にありがとうございます。

実は他に、欧文の「――」(ちょっと長めの中央傍線)部分が右にある文字を巻き込み文
字化けに、「...」が一文字となっている部分が「85」というコントロールコードになっ
てしまっていました。

これに該当する文字コードをかぶねこさんに作成して頂いたマクロに付け加えられればと
思い、それらしい文字コード表が提供されているサイトはないものか「文字コード表」
「欧文」等のキーワードでネット検索したものの、力及ばず見つけられませんでした。

どこかで一覧を確認できるところはあるでしょうか?(Windowsに付いている文字コード
表とはまた違うものですよね…?)
頼ってばかりで恐縮ですが、よろしくお願い致します。m(__)m

No. 920 (919へのコメント)投稿者: かぶねこ HP日付: 2003/05/31 18:09:05
題名 : Re^3:英文文字化けの解決方法

「カーリークォーテーション」という呼び名を知っている人は少ないらしく、
Google 検索するとわたしのページしかヒットしません。(英語だといろいろ出
てきます。)

かつて欧文専門写植屋さんが組んでいた欧文が、このごろは欧文を知らないデザ
イナー兼 DTP 担当みたいなかたがまとめて組んでしまうので、このへんは校正
段階でしょっちゅう「指導」しなければいけないので、たいへんです。

「長めの中央傍線」というのが、エムダッシュです。Em Dash。ハイフン、エヌ
ダッシュ、エムダッシュを区別します。

これは文字コード表でも確認できます。Verdana など欧文フォントを選択し、
「詳細表示」をオンにして、文字セットを「Windows: 欧文」にしてください。
0x97: Em Dash などと表示されます。「...」が1文字なのは &h85 ですね。ど
っちかというと、ピリオドと nonbreaking space を使ったほうがいいんでは、
と思うコードですが……。

@@ReplaceStringMulti chr$(&h97), "--"
@@ReplaceStringMulti chr$(&h85), "..."

などと追加すればいいと思います。

No. 922 (920へのコメント)投稿者: kyoko日付: 2003/05/31 19:57:55
題名 : Re^4:英文文字化けの解決方法

かぶねこさん、追加のマクロ記述を再びありがとうございました。
そのままコピー&ペーストして追加させていただき、こちらも無事変換できました。

>「長めの中央傍線」というのが、エムダッシュです。Em Dash。ハイフン、エヌ
>ダッシュ、エムダッシュを区別します。
これも知りませんでした〜。また勉強になりました。(^^)

>これは文字コード表でも確認できます。Verdana など欧文フォントを選択し、
>「詳細表示」をオンにして、文字セットを「Windows: 欧文」にしてください。
>0x97: Em Dash などと表示されます。
これですが、見たところ「詳細表示」という選択項目がないようです。環境がWIN98というのが原因でしょうか?アクセサリ→システムツール→文字コード表と立ち上げたものですが…。
フォントをVerdanaにしてEm Dashっぽいマスをクリックすると、文字情報らしきところに「キーストローク、Alt+0151」と表示されます。?

No. 926 (922へのコメント)投稿者: かぶねこ HP日付: 2003/06/01 04:15:28
題名 : Re^5:英文文字化けの解決方法

うちの最後の Windows95 マシンが起動しなくなっていました……。で、確認で
きませんでした、が、「文字コード」ツールが Windows 2000 とは違っていたの
は記憶にあります。Windows98 もたぶん Windows95 のほうに近いはず。

ユニコードが絡まないので、Windows98 系のほうがそのあたりがシンプルだった
んです。文字コードは QX の欧文モードのカーソル位置のコードがステータスラ
インに表示されるので、そちらでも確認できます。

Windows 2000 や XP だと、Windows のクリップボードを経由するときに欧文文
字が強制的に日本語フォントにある文字に変換されてしまう現象もあり、わたし
は Windows 2000 に移行した当初はたいへんとまどいました。このへんもますま
す欧文文字の扱いをむずかしくしています。

kyoko さんのところではカーリークォーテーションがそのまま Copy & Paste で
きてるのは、なぜかなあ、などとちょっと思ったのですが、欧文の特殊文字入り
PDF が手元になくてそれがシステムのせいか確認が取れず、このことには触れま
せんでした。でも、この場合、そこも大事なポイントだったようですね。

No. 927 (926へのコメント)投稿者: kyoko日付: 2003/06/01 10:53:55
題名 : Re^6:英文文字化けの解決方法

かぶねこさん

Win95マシン、残念でしたね(^^;。 わざわざ確認しようとして下さってありがとうござい
ます。

>文字コードは QX の欧文モードのカーソル位置のコードがステータスラ
>インに表示されるので、そちらでも確認できます。
ありました〜。4桁の数字の前の二桁を「&h」のあとに付ければいいんですね。これで今
後新たな文字化けが出てきても安心です。(^^)

>Windows 2000 や XP だと、Windows のクリップボードを経由するときに欧文文
>字が強制的に日本語フォントにある文字に変換されてしまう現象もあり、わたし
>は Windows 2000 に移行した当初はたいへんとまどいました。このへんもますま
>す欧文文字の扱いをむずかしくしています。
綺麗に表示された時は、さすが欧文QX!と感動したんですが、環境がラッキーだったんで
すね。実はそろそろXPマシンにしたいと検討中だったんですが、XPではこういうことは出
来なくなってしまうんですか。これはマイナス材料ですね…。

今までは欧文QXを使っていても読む元ファイルがシンプルなテキストだったため、文書関
係のアプリケーションで本物の(?)欧文を表示したのは初めてでした。
とりあえずは日本語モードでの文字化けを解消することに頭が行っていましたが、落ちつ
いて見返すと欧文モードのカーリークォーテーションやエムダッシュは表示が綺麗ですね。
PDAにも転送して読むためファイルサイズを抑えるためにも日本語モード変換は必須なん
ですが、自宅で欧文QXを立ち上げて読める時は原文の表示で読んだ方が気持ちよさそうな
気がしてきました。

ところで今、試しに原文を MS Word へコピー&ペーストしたらどうなるか実験したとこ
ろ、Wordにもカーリークォーテーションやエムダッシュが綺麗にそのままペーストされま
した。そしてそれを全文選択して日本語フォントに替えてみたところ、ちゃんと(勝手に?)
全部日本語フォント対応文字に変換されました。最悪、まずWordで日本語モードに変換し
てからQXに持ってくる手段もあったんですね(汗)。
でもQX内で済ませられたほうが手間がないですし今後応用も利きますから、マクロを教え
て頂いて良かったです。
文字コードのこと等色々勉強になりました。ありがとうございました。(^^)

No. 1772 (914へのコメント)投稿者: tree日付: 2010/09/03 16:22:15管理者削除済 返信
題名 : oxpdf
No. 1773 (914へのコメント)投稿者: 1234日付: 2010/09/13 16:44:37管理者削除済 返信
題名 : PDf変換
No. 1778 (914へのコメント)投稿者: PDF結合日付: 2011/04/07 16:19:00管理者削除済 返信
題名 : PDF結合

ヘッダのみ表示
順番に表示(No. 917 から)


メールアドレスを表示するにはURLの後ろに &m=1f97c49d をつけてください。
ユーザー フォーラム一覧

http://www2k.biglobe.ne.jp/~araken/
http://0ban.com/araken/