連語の検索

ここでは,延世大学(연세대학교)言語情報研究院(언어정보연구원)が公開しているコーパス(연세 말뭉치)のうち,문어 균형 말뭉치(文語均衡コーパス)の使い方,特に「연어(連語)」の検索についてまとめます.

検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.

延世コーパスの概要については연세 말뭉치(延世コーパス)の使い方を参照のこと.以下の記述では,「文節の検索」の内容を既に読んでいることを前提とします.

연어(連語)の検索では,単独の文節内ではなく,2~4までの複数の文節に渡って検索を行います.正規表現は使えますが,字素検索はできません.

検索に先立って

ここでいう「연어(連語)」とは,単に複数の文節のまとまりを指すと考えてください.コロケーションのような,慣用的な語の連続ではありません.

また,文節の検索とは異なり,常に2つの検索語を必要とします.1つ目の検索語を1番目の文節として,そこからn番目の文節を2つ目の検索語とし,それらの組み合わせだけを検索します(nは2~4).検索画面で一番左のドロップダウンリストから「연어」「원시」(または「형태의미」)を選ぶと,さらに「2어절」から「4어절」までの文節数を指定するよう,表示されます.この文節数の指定と,検索する対象の文節との対応は以下のようになります.

文節指定 1文節目 2文節目 3文節目 4文節目
  지역구 사무실에 대학생들이 화염병을
2어절 検索語1 検索語2    
3어절 検索語1   検索語2  
4어절 検索語1     検索語2

気をつけないといけないのは,文節数の指定は出現する範囲を設定するのではなく,指定した場所の文節だけが検索対象となる,という点です.上記の例で見ると,2つの検索ボックスにそれぞれ「지역구」と「사무실에」を入力して検索する際,「2어절」を指定すると検索にマッチしますが,「3어절」や「4어절」を検索するとマッチしません.「3어절」と指定すると,「1文節目から3文節目まで」を検索するのではなく,「1文節目3文節目だけ」を検索するためです.

なお,「文節の検索」でも触れたように,コーパスのデータ入力段階での分かち書きの揺れがあるため,文節数の指定をする際はちょっと注意しましょう.含まれるべき例が検索されていないケースがあり得ます.1

원시(原文コーパス)の検索

検索画面で,一番左のドロップダウンリストから「연어」「원시」を選び,検索する文節数の範囲を選びます.まずは2文節,「2어절」を選びましょう.検索語の入力ボックスが2つ表示されます.左の検索ボックスが1番目の文節を,右側の検索ボックスが2番目の文節を,すなわち1番目の文節にすぐ続く文節を指します.

例として,「나이」と「먹다」が隣り合っている文節の並びを検索してみましょう.

検索例:1番目の文節=나이+0以上の文字(*),2番目の文節=먹+0以上の文字(*)

## 1番目の検索ボックス
나이*
## 2番目の検索ボックス
먹*

結果(一部):

今度は文節数を変えてみます.「연어」「원시」「3어절」としてみましょう.やはり検索語は「나이」「먹」とします.そうすると,今度は以下の1例だけがマッチします.

これだと2文節目も「먹으면」なので,ちょっと違いが分かりにくいかもしれませんが.

|」を使ったOR条件も利用できます.

나이*|밥* # 1番目の検索ボックス
먹* # 2番目の検索ボックス

などといった検索が可能です.

형태의미(形態・意味コーパス)の検索

形態素解析,意味解析がされたコーパスの検索も可能です.検索語の入力は「文節の検索」と同じです.正規表現が使えない点も同様です.

例として,未来連体形語尾-(으)ㄹに続く文節に,指定詞-이다が用いられている文節の連続を検索してみます. 一番左のドロップダウンリストで,「연어」「형태의미」「2어절」を選びます. 次に,検索語にㄹを入力すると,複数の候補が表示されるので,「ㄹ_y3/ETM」を選びます.

その2番目の検索語に이と入力し,「이_y3/VC」を選びましょう.結果の一部を抜き出すと,以下の通りです.

今度は,一番左のドロップダウンリストで,「연어」「형태의미」「3어절」を選びます.検索の内容は上記と同じにしてみます.そうすると,連体形語尾-(으)ㄹを含む文節を1番目として,3番目の文節に指定詞-이다が含まれる例が検索されます.

次に「머리를 맞대다」に当たる表現を検索してみます. 「2어절」で「머리_y1/NNG」「맞대_y0/VV」を検索すると,8例が出てきます.

上記の2例目で,「다시」という副詞が前に使われていますが,「머리를 서로 맞대고」のように,間に副詞の入った例はないでしょうか.それで,今度は文節数を「3어절」にして検索すると,2つ目の検索ボックスに「맞대」と入れても候補が表示されません.これは検索結果がない,ということを指しています.実際,文節の検索(形態・意味コーパス)で「맞대_y0/VV」を検索すると,맞대다に副詞が前接する例は一つもありませんでした.

他に,「-(으)면 ~ -(으)ㄹ수록」などといった表現を検索することも可能です.ただし,語尾の記述が韓国式なので,「-면」と「-으면,「-ㄹ수록」と「-을수록」をそれぞれ検索する必要があります.

  ㄹ수록_y0/EC 을수록_y0/EC
면_y6/EC 17例 2 結果なし
으면_y0/EC 1例 3 7例 4

それぞれの組み合わせによる検索の結果は上記の通りとなりました.基本的には前の用言を後ろでもそのまま使うという結果ですが,「보고 있으면 있을수록」ではない例が出てきました.

終わりに

連語の検索については以上です.次は「어절 내 연접(文節内連接)」の検索をどうぞ.

内容に誤りや不正確な部分があれば,ご教示お願いいたします.

  1. 例えば「2어절」に設定して「웃을」「수」を検索すると,1文節内に「웃을수」と入力されている例は検索されません. 

  2. 하면 할수록, 쳐다보면 볼수록, 살면 살수록, 되면 될수록など 

  3. 보고 있으면 볼수록 

  4. 떨어져 있으면 있을수록, 먹으면 먹을수록, 무거우면 무거울수록, 많으면 많을수록など