>PDFファイルをテキスト化する際に連続する文の行末に強制的に改行が入って >しまいます。この改行を削除して自然な文になるように整形したいのですが、 >QXではどのような方法がありますでしょうか。
基本機能の中に「改行を削除」というのがありますが、これはQXで整形、 自動整形した場合のためのもので、現在の「整形位置」の桁数に一致する場所に 改行があった場合に改行を取ります。それ以外のときの改行削除は 文書によって条件もあるので、基本的にユーザーが考えることになっています。
……というのだと慣れないと面倒なので、わたしのサイトに改行を取るための 小さいマクロがありますので、使ってみてください。
http://homepage1.nifty.com/kabuneko/qx/sub/lib_3.htm#delcr
「読む」のリンクで見ていただくとわかりますが、最初のほうに「パラグラフ先頭」 を判断する文字を指定する場所があります。必要でしたらここに追加します。 わからないことがあったら、また質問してください。
マクロを使わなくても、たとえばパラグラフを選択しておいて「置換」で 「\n」を「」に置き換えると改行がなくなります。
置換は「正規表現」というのを使うと高度なこともできるのですが、 改行に対しては使えない(改行単位の内容で正規表現のマッチを計算するため)ので、 改行を取るのに条件が絡む場合はマクロが適しています。
正規表現を使わず二段階で置換、という方法もあります。パラグラフの 先頭に来る文字を単純に特殊な文字列に置き換えておいて、次に改行を 全部削除し、最後に特殊な文字のところを改行とパラグラフ先頭文字に 置換する方法です。が、現在のところ、QXエディタはパラグラフの長さの 制限が半角4000文字なので、QXで使うとわりと頻繁に「4000を超えた」 というエラーで中止されます。でも、マクロのないエディタでも 使えるので、こういうときだけフリーのエディタ(たくさんあって楽しいですよ) を使うのもいいのでは。 |