unot
クラス DocSet

java.lang.Object
  |
  +--unot.DocSet

public class DocSet
extends java.lang.Object

文書集合のクラス.

DocSet.java Created: Fri Aug 29 16:15:52 2003


入れ子クラスの概要
 class DocSet.LabelDict
          ラベル文字列 <=> ラベル ID を相互参照するための辞書.
 class DocSet.NodeDict
          ノード 名とノードを対応付けるための辞書.
 class DocSet.OldNodeDict
          ノード ID にノードを対応付けるための辞書.
 
フィールドの概要
static int CATEGORY_NEGATIVE_CATID
           
static java.lang.String CATEGORY_NEGATIVE_STRING
           
static int CATEGORY_POSITIVE_CATID
           
static java.lang.String CATEGORY_POSITIVE_STRING
           
static java.lang.String CATEGORY_STRING
           
private  int curCatId
          現在のカテゴリーID
private  int curDocId
          現在のドキュメントID ( = numberOfDocs)
(パッケージプライベート) static int DATA_READER_TYPE
           
private  boolean DEBUG
           
private  unot.NodeList docList
          読み込まれたドキュメントのルートノードを格納するリスト
private  int freeNodeId
          空いているノードIDの値
private  DocSet.LabelDict labelDict
          ラベルIDをキー,ラベル文字列を値とするマップ
private  DocSet.NodeDict nodeDict
          ノードIDをキー,ノードを値とするマップ
private  int nodeNumOffset
          現在開いているドキュメントのルートノードのノード番号までのオフセット
private  int numberOfLabels
          読み込まれたラベルの数
private  int numberOfNodes
          読み込まれたノードの数
static int READER_CHILD
           
static int READER_PARENT
          パターンの入力手続きを切り替える
static int READER_XML
           
private  java.io.StreamTokenizer st
          クラス内から参照するトークナイザー
static boolean useAdjacencyList
          隣接リスト表現を使うかどうかのフラグ.
static boolean useIndent
          文書集合の出力で段下げをするかどうかのフラグ.
 
コンストラクタの概要
DocSet()
          Creates a new DocSet instance.
 
メソッドの概要
 int getDataSize()
          データのサイズを返す.
 DocSet.LabelDict getLabelDict()
           
 java.lang.String getLabelString(unot.UnotNode node)
          ノードのラベル文字列を返すユティリティ関数.
 DocSet.NodeDict getNodeDict()
           
 int getNumOfCat()
           
 int getNumOfDoc()
           
 java.util.List getOccLists()
          このデータ集合の各ラベルIDごとの出現リスト全体の集まりを返す.
 java.util.List getOccLists(int minSup)
          ラッパー手続き.互換性のため.
 int getOccSize(unot.OccList occList)
          Gets the number of doc/root occurrence.
 java.lang.String lookupLabelById(int id)
          ラベルIDからそのラベル文字列を返す.
static void main(java.lang.String[] args)
          テスト用
 void readFile(java.lang.String filename)
          名称がfilename のファイルを読み込んでデータを更新する.
 void readFiles(java.util.List files)
          ファイル名を要素とするリストから readFile() でドキュメントを読み込む.
 void setIndent(boolean flag)
           
static void useAdjacencyList(boolean bool)
          Describe setAdjacencyListRepl method here.
 void writeFile(java.io.PrintStream out)
          文書集合オブジェクトを,再読み込み可能な形式でファイルに出力する.
private  void writeFileTaverse(unot.UnotNode node, unot.UnotNode parent, unot.LineWriter lineWriter, int depth)
           
 
クラス java.lang.Object から継承したメソッド
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

フィールドの詳細

DEBUG

private boolean DEBUG

CATEGORY_STRING

public static final java.lang.String CATEGORY_STRING
関連項目:
定数フィールド値

CATEGORY_POSITIVE_STRING

public static final java.lang.String CATEGORY_POSITIVE_STRING
関連項目:
定数フィールド値

CATEGORY_NEGATIVE_STRING

public static final java.lang.String CATEGORY_NEGATIVE_STRING
関連項目:
定数フィールド値

CATEGORY_POSITIVE_CATID

public static final int CATEGORY_POSITIVE_CATID
関連項目:
定数フィールド値

CATEGORY_NEGATIVE_CATID

public static final int CATEGORY_NEGATIVE_CATID
関連項目:
定数フィールド値

READER_PARENT

public static final int READER_PARENT
パターンの入力手続きを切り替える

関連項目:
定数フィールド値

READER_CHILD

public static final int READER_CHILD
関連項目:
定数フィールド値

READER_XML

public static final int READER_XML
関連項目:
定数フィールド値

DATA_READER_TYPE

static int DATA_READER_TYPE

useAdjacencyList

public static boolean useAdjacencyList
隣接リスト表現を使うかどうかのフラグ. (現在の実装では,Unot = true, Freqt = false を使っている)


useIndent

public static boolean useIndent
文書集合の出力で段下げをするかどうかのフラグ.


docList

private unot.NodeList docList
読み込まれたドキュメントのルートノードを格納するリスト


nodeDict

private DocSet.NodeDict nodeDict
ノードIDをキー,ノードを値とするマップ


labelDict

private DocSet.LabelDict labelDict
ラベルIDをキー,ラベル文字列を値とするマップ


numberOfNodes

private int numberOfNodes
読み込まれたノードの数


numberOfLabels

private int numberOfLabels
読み込まれたラベルの数


st

private java.io.StreamTokenizer st
クラス内から参照するトークナイザー


nodeNumOffset

private int nodeNumOffset
現在開いているドキュメントのルートノードのノード番号までのオフセット


freeNodeId

private int freeNodeId
空いているノードIDの値


curDocId

private int curDocId
現在のドキュメントID ( = numberOfDocs)


curCatId

private int curCatId
現在のカテゴリーID

コンストラクタの詳細

DocSet

public DocSet()
Creates a new DocSet instance.

メソッドの詳細

getNumOfDoc

public int getNumOfDoc()

getNumOfCat

public int getNumOfCat()

getNodeDict

public DocSet.NodeDict getNodeDict()

getLabelDict

public DocSet.LabelDict getLabelDict()

setIndent

public void setIndent(boolean flag)

readFiles

public void readFiles(java.util.List files)
ファイル名を要素とするリストから readFile() でドキュメントを読み込む. ファイル名として CATEGORY_STRING (= @cat) を与えられた場合,カテゴリー ID をインクリメントする. 同様に,CATEGORY_POSITIVE_STRING (= @pos) を与えられた場合カテゴリーID を CATEGORY_POSITIVE_CATID に, CATEGORY_NEGATIVE_STRING (= @neg) を与えられた場合カテゴリーID を CATEGORY_NEGATIVE_CATID にセットする.

パラメータ:
files - a List value

readFile

public void readFile(java.lang.String filename)
名称がfilename のファイルを読み込んでデータを更新する.

パラメータ:
filename - a String value
関連項目:

getOccLists

public java.util.List getOccLists()
このデータ集合の各ラベルIDごとの出現リスト全体の集まりを返す. この集まりは,各ラベルIDを添え字にもち, 対応するエントリにそのラベルIDをラベルにもつノードのリストをもつ.

戻り値:
a list List of the root occurrence list for all single node patterns.

getOccLists

public java.util.List getOccLists(int minSup)
ラッパー手続き.互換性のため.

パラメータ:
minSup - an int value
戻り値:
an List value

getDataSize

public final int getDataSize()
データのサイズを返す. 入力ドキュメントが複数の場合,ドキュメント数を返し, 入力ドキュメントが単数の場合,ノード数を返す.

戻り値:
an int value

getOccSize

public final int getOccSize(unot.OccList occList)
Gets the number of doc/root occurrence. If the number of traversed documents is only one, returns the number of root occurrence. Otherwise returns the number of document occurrence.

戻り値:
an int value

useAdjacencyList

public static void useAdjacencyList(boolean bool)
Describe setAdjacencyListRepl method here.

パラメータ:
bool - a boolean value

lookupLabelById

public java.lang.String lookupLabelById(int id)
ラベルIDからそのラベル文字列を返す. ラベル文字列は二重引用符で囲まれる.


writeFile

public void writeFile(java.io.PrintStream out)
文書集合オブジェクトを,再読み込み可能な形式でファイルに出力する.


writeFileTaverse

private void writeFileTaverse(unot.UnotNode node,
                              unot.UnotNode parent,
                              unot.LineWriter lineWriter,
                              int depth)
                       throws java.io.IOException
java.io.IOException

getLabelString

public java.lang.String getLabelString(unot.UnotNode node)
ノードのラベル文字列を返すユティリティ関数.


main

public static void main(java.lang.String[] args)
テスト用