クラス LineSplitter
java.lang.Object
org.opengion.fukurou.fileexec.LineSplitter
LineSplitter は、1行分のデータを順次分割するクラスです。
ファイルは、『改行』で行分割して、カンマかタブでカラム分割します。 応答ファイルの解析処理を簡素化するため、以下のルール(禁止事項)を定めます。 1.ダブルクオートの中に、ダブルクオート、改行、を含まないこと。 (カンマとスペースは含めることが出来ます。) 2.1行の定義は、『改行』とします。 3.スペース分割時は、複数スペースの場合でも、1つの区切り文字として扱います。 (A B C D → 「A」、「B」、「C」、「D」 に分割されます。) 4.カンマ分割は、ダブルクオート間のカンマは分解しません。 混在した場合でも、最初に見つけた方が優先されます。 5.カンマ分割時は、複数カンマの場合は、それぞれ空文字列に分割されます。 カンマ分割後、それぞれの文字列は、前後スペースを削除(trim)します。 (A, B , , C , D → 「A」、「B」、「」、「C」、「D」 に分割されます。) 6.カラム分解後の、ダブルクオートは、削除します。 ((A, B , , "CC C,C" , D → 「A」、「B」、「」、「CC C,C」、「D」 に分割されます。) 処理手順 1.ファイルより、1行づつ(改行コードで分割)読み込みます。 2.読み込んだ1行について、先頭が、『#』の行はコメント行としてスキップします。 3.先頭から、区切り文字(スペースかカンマかタブ)が見つかるまでを、1カラムとして取得します。 4.その間、ダブルクオートが見つかったら、次のダブルクオートまで、取り込みます。 5.カラム分割された単語の前後スペースと、前後ダブルクオートを削除します。 trim()が先で、ダブルクオートの削除は、後から行います。(ダブルクオート内のtrim()は行いません。) 6.個々のカラムを配列にして返します。 7.これを、ファイルが終了するまで繰り返します。 並行性 このクラスは、staticメソッドのみのユーティリティークラスのため、スレッドに対して、安全です。 また、ファイルの読み取りに関して、FileChannelのtryLockを行っています。
- 変更履歴:
- 1.0.0 (2016/04/28) 新規作成
- 導入されたバージョン:
- JDK1.8,
-
コンストラクタの概要
コンストラクタコンストラクタ説明デフォルトコンストラクター ファイル読み取りのCharsetは、UTF-8になります。LineSplitter
(String chStr, String inClms) Charsetに対応した文字列を指定して、オブジェクトを作成します。LineSplitter
(Charset chObj, String inClms) Charsetを指定して、オブジェクトを作成します。 -
メソッドの概要
-
コンストラクタの詳細
-
LineSplitter
public LineSplitter()デフォルトコンストラクター ファイル読み取りのCharsetは、UTF-8になります。- 関連項目:
-
LineSplitter
Charsetに対応した文字列を指定して、オブジェクトを作成します。- パラメータ:
chStr
- ファイルを読み取るときのCharset文字列inClms
- 外部指定カラム文字列(CSV形式)
-
LineSplitter
Charsetを指定して、オブジェクトを作成します。- パラメータ:
chObj
- ファイルを読み取るときのCharsetオブジェクトinClms
- 外部指定カラム文字列(CSV形式)
-
-
メソッドの詳細
-
getColumns
#NAME が存在すれば、そこから名前配列を返します。 ここでは、オリジナルのカラム列(ゼロ文字列も含む)ではなく、 存在するカラム名だけのカラム列を返します。 外部指定カラムがあれば、そちらを優先します。 無ければ、長さゼロの配列 が返されます。- 戻り値:
- あれば名前配列、無ければ、長さゼロの配列
-
forEach
1行づつ処理を行った結果のトークンをConsumerにセットする繰り返しメソッドです。 1行単位に、Consumer#action が呼ばれます。 セットされるリストは、1行をトークンに分割したリストで、空行の場合は、SKIPします。 また、オリジナルのカラム列がゼロ文字列の場合は、その列データを返しません。 つまり、存在するカラム名だけの値列を返します。 ファイルを順次読み込むため、内部メモリを圧迫しません。- パラメータ:
inPath
- 処理対象のPathオブジェクトaction
- 行を区切り文字で分割した文字列のリストを引数に取るConsumerオブジェクト- 例外:
RuntimeException
- ファイル読み込み時にエラーが発生した場合- 関連項目:
-
split
1行分の分割したトークンのリストを返します。 ファイルの読み込みを、単独または、別に行った場合に、1行データとして、処理できます。 このクラスの特徴である、先頭が、『#』の行は、コメントとみなして、削除します。 1行分をtrim()する処理も、行います。 trim()の結果が、空文字列のみの場合は、空のリストオブジェクトを返します。- パラメータ:
orgLine
- 1行データ(オリジナル)- 戻り値:
- 1行分の分割したトークンのリスト(行末、コメント、trim処理済み)
- 変更履歴:
- 7.2.1.0 (2020/03/13) カラム列がデータより少ない場合の対応
-
cmntCut
先頭文字が、'#' の行を削除した文字列を返します。 このメソッド上で、#NAME があれば、カラム配列を作成します。 カラム配列は、最初の一度のみ、セット可能とします。- パラメータ:
line
- 1行分の文字列(not null)- 戻り値:
- コメント削除後の行
- 例外:
NullPointerException
- 引数lineが、nullの場合。
-