検索結果の演算
ここでは,検索プログラム한마루2.0(以下「한마루」とする)を用いて,21世紀世宗計画のコーパス検索結果を「연산」(演算)処理で取捨選択する方法について紹介します.
演算の基本
何をおいても,検索結果が表示されていることが前提となります.コーパスを開いただけの状態では,「연산」(演算)メニューがアクティブになっていません.
演算に際しては検索式を入力し,該当する例に対して「검색」(検索),「제외」(除外),「포함」(包含)という処理を行います.検索式は「文節の検索」や「品詞タグを利用した検索」と同じように入力します.
検索式には「文節の検索」や「品詞タグを利用した検索」と同じ演算子を用いることができますが,範囲を指定する
@
のみ使用できません.
「検索」など処理の内容は以下の通りです.
- 검색(検索)
- 検索結果全体の内容は維持したまま,検索式にヒットする行をハイライトします.
- 제외(除外)
- 検索結果から,検索式にヒットする行を除外します.
- 포함(包含)
- 検索結果から,検索式にヒットする行だけを残します.
上記のうち,「除外」と「包含」は何らの確認もなく,元の検索結果に直接影響を及ぼします.望ましい結果が得られるか,「検索」処理で一度確認してから,「除外」や「包含」の処理を行うのがよいでしょう.
演算の実際
検索結果を得る
まず,検索結果を取得します.ここでは例として,형태분석 말뭉치(形態素解析済みコーパス)のうち,BTAA0001.txt
から連番のBTAA0016.txt
を対象として,以下の検索(形態素検索)を行い動詞가다「行く」の活用形を取得します.
가/VV#
上記の検索により,対象の16ファイルから233文,240個の例が検索されました.
検索結果の処理
次に,上記の検索結果から「検索語の前2文節以内に対格助詞(JKO
)のついた文節がある例」を検索します.
「연산」(演算)メニューから「형태소(의미) 연산」(形態素(意味)演算)を選び,検索式に
#를/JKO|#을/JKO
を入力し,「연산 범위」(演算の範囲)の「이전」(以前:前文脈)に「2」,「이후」(以後:後文脈)に「0」を入力して「검색」(検索)ボタンを押します.
演算範囲は文節の数を入力しますが,「以前」「以後」の両方を開けておくか,両方に「0」を入力すると,検索語を対象とすることになります.
すると,40個の例がヒットし,行の背景色が変わり,元の検索結果の先頭部分に表示されます.
演算のダイアログで,「検索」ではなく「除外」を選択すれば40例が削除された結果が残り,「包含」を選択すれば40例だけが結果として残ります.