■ 質問はここへ ■

1307 にジャンプ
No. 1304投稿者: 野口五郎日付: 2004/09/24 17:10:48
題名 : 行末改行を削除する方法

PDFファイルをテキスト化する際に連続する文の行末に強制的に改行が入って
しまいます。この改行を削除して自然な文になるように整形したいのですが、
QXではどのような方法がありますでしょうか。

恐れ入りますが、ご教示頂きたくお願い申し上げます。


野口五郎

No. 1307 (1304へのコメント)投稿者: かぶねこ HP日付: 2004/09/24 22:24:20
題名 : Re:行末改行を削除する方法

>PDFファイルをテキスト化する際に連続する文の行末に強制的に改行が入って
>しまいます。この改行を削除して自然な文になるように整形したいのですが、
>QXではどのような方法がありますでしょうか。

基本機能の中に「改行を削除」というのがありますが、これはQXで整形、
自動整形した場合のためのもので、現在の「整形位置」の桁数に一致する場所に
改行があった場合に改行を取ります。それ以外のときの改行削除は
文書によって条件もあるので、基本的にユーザーが考えることになっています。

……というのだと慣れないと面倒なので、わたしのサイトに改行を取るための
小さいマクロがありますので、使ってみてください。

http://homepage1.nifty.com/kabuneko/qx/sub/lib_3.htm#delcr

「読む」のリンクで見ていただくとわかりますが、最初のほうに「パラグラフ先頭」
を判断する文字を指定する場所があります。必要でしたらここに追加します。
わからないことがあったら、また質問してください。

マクロを使わなくても、たとえばパラグラフを選択しておいて「置換」で
「\n」を「」に置き換えると改行がなくなります。

置換は「正規表現」というのを使うと高度なこともできるのですが、
改行に対しては使えない(改行単位の内容で正規表現のマッチを計算するため)ので、
改行を取るのに条件が絡む場合はマクロが適しています。

正規表現を使わず二段階で置換、という方法もあります。パラグラフの
先頭に来る文字を単純に特殊な文字列に置き換えておいて、次に改行を
全部削除し、最後に特殊な文字のところを改行とパラグラフ先頭文字に
置換する方法です。が、現在のところ、QXエディタはパラグラフの長さの
制限が半角4000文字なので、QXで使うとわりと頻繁に「4000を超えた」
というエラーで中止されます。でも、マクロのないエディタでも
使えるので、こういうときだけフリーのエディタ(たくさんあって楽しいですよ)
を使うのもいいのでは。

No. 1308 (1307へのコメント)投稿者: 野口五郎日付: 2004/09/25 05:51:09
題名 : Re^2:行末改行を削除する方法

かぶねこ様

ご丁寧なアドバイスを有難う御座いました。

対象はPDFファイルで購入した対訳集なのですが、数字・英文字・かな・漢字
など改行の前も後も最初に来る文字が不規則であり、また改行箇所の文字数も
不規則なため結局手作業で改行を削除するしかないかなと諦めています。
気の遠くなる作業ですが (^^;

PDFファイルをテキスト化する必要はたまにあると思うのですが、なんとか
できるようPDFソフトのメーカーにも考えて欲しいと思います。

頂いたアドバイスは今後の参考に生かしたいと思います。
ありがとうございました。


ヘッダのみ表示
順番に表示(No. 1307 から)


メールアドレスを表示するにはURLの後ろに &m=161aad7c をつけてください。
ユーザー フォーラム一覧

http://www2k.biglobe.ne.jp/~araken/
http://0ban.com/araken/