東亜日報コーパスの使い方

ここでは,高麗大学(고려대학교)民族文化研究院(민족문화연구원)が開発・公開している検索ツールのうち,동아일보 코퍼스(東亜日報コーパス)を検索できる웹 기반 코퍼스 분석 도구(ウェブベースコーパス分析ツール)(以下「分析ツール」)の利用方法についてまとめます.

検索結果の数や例を提示しますが,本文執筆時点での結果であることをお断りしておきます.

東亜日報コーパスの概要についてはウェブページにあまり情報がなく,東亜日報の記事(2018年8月14日付け)「분석 틀 ‘동아일보 코퍼스’는 1946년이후 기사 260만건-4억어절 분석… 특정 단어 출현빈도-동반등장 단어 추출」を参照してもらうのがよいと思います.

分析ツール自体の使い方は물결21コーパスを検索する「웹 기반 코퍼스 분석 도구(ウェブベースコーパス分析ツール)」とほぼ同じです.なので,具体的な使用方法はコーパス分析ツールの使い方を参照してください.

この文書では,물결21コーパスで使えなかった「単語頻度」に関する機能を紹介します.

単語頻度の分析

気をつけなければいけないのが,基本的に名詞の単語頻度が計算される,ということです.用言の語幹や副詞を入力しても,同音異義語に名詞があれば名詞の,なければ検索結果なし,と処理されます.

また,名詞の場合も同音異義語の区別がされません.意味解析はされていないので,結果の検討に注意してください.

なお,絶対頻度と相対頻度によるグラフ表示が可能ですが,相対頻度は100万語当たりの出現頻度で計算されているそうです(김일환 2019:341)

グラフに表示される頻度数と,実際の検索結果における頻度とが一致しない,というところも注意してください.

単一の検索語

左側のメニューから「단어 빈도 차트(単語頻度チャート)」を選ぶと,検索語を入力する画面が表示されます.例として,大統領選挙の略語である「대선」を入力して検索すると,以下のような結果が表示されます.

donga_chart_example1

グラフを見ると,1990年頃までは例が少ない(1990年の絶対頻度は131,1991年は255)ですが,1992年に急増します.これは1992年12月に第14代大統領選挙があったためですが,それまでは略語の「대선」をあまり使わなかったようです. その後は,大統領選挙の行われる5年ごとに頻度が増大していることが分かります. この傾向は相対頻度で見ても,あまり変わりません.グラフの上にある「상대빈도로 보기(相対頻度で見る)」というボタンを押すと相対頻度によるグラフに変わりますが,2002年は選挙のあった他の年に比べると,かなり少なくなっています.「대선」という単語が使われだしたと見られる1992年と,ほとんど変わりません.どんな理由があるか,より詳しく調べて見る必要があるでしょう.

初期表示としては年ごとの頻度数が表示されますが,グラフの上にある「시기별로 보기(時期別に見る)」というボタンを押すと,1980年代,1990年代など10年ごとの区切りで表示することができます.先ほどの「대선」のグラフですが,これを時期別の表示にして絶対頻度をみると,1990年代に大きく増えて2000年代に頂点に達し,2010年代はやや減少しています.

donga_chart_term_1

しかしこれを相対頻度で見てみると,2000年代,2010年代と続けて使用が増加していることが分かります.

donga_chart_term_2

この理由として,「2010年代」と言っても,コーパスのデータが2014年までしか含まれておらず,10年分揃っている2000年代と比べると,2010年代は全体の文節数が少ない可能性が挙げられます.2000年代には2002年,2007年と2回の大統領選挙があり,選挙1回の2010年代に対し絶対頻度では大きく上回るものの,全体の文節数が少ない2010年代のほうが,相対頻度にすると高くなる,ということなのでしょう.

なお,グラフの項目をクリックすると,その年代の用例を検索した結果が表示されます. 上記の例で,時期別に表示した際の1980年代のポイントをクリックしてみると,用例が表示されます.これは「용례검색기(用例検索器)」で検索する際に,「시기별(時期別)」ドロップダウンリストで「1980년대」を選んだのと同じ結果です.

1980年代における「대선」の用例は,「大統領選挙」はあまり多くありませんが,以下のような例がありました.ざっと見たところ,1987年頃の例が最初のようです.

また,以下のような誤りも見られます.

一番多いのは「대선주조」(大鮮酒造)の用例かもしれません.スポーツチームもあり,企業情報もあり.

単語頻度の分析を利用する場合,上記のように同音異義語が含まれている点に注意しなければなりません.ざっくり傾向を見たい,というときには便利だろうと思われます.

複数の検索語

複数の語を入力して,その趨勢を比較することも可能です.検索語は半角スペースで区切ってください.

ここでは例として「보수(保守)」と「진보(進歩)」の推移を比べてみましょう.「보수 진보」と入力した結果について,相対頻度のグラフを示すと以下の通りです.

'donga_chart_multiple_words

今度のグラフには「N/보수」「N/진보」に加え,「P/진보」という項目がありますが,これは固有名詞としての項目です.

固有名詞の「진보」って何だ,と思うかもしれませんが,「진보민주당」「진보사회당」「진보정의당」など,政党名に含まれるものがマークされています.

それはさておき,朝鮮日報,中央日報とともに「조중동」の一角をなす東亜日報だけに,「보수」の頻度がコンスタントに「진보」を上回っていることが分かります.もちろん,この「보수」には「保守」だけでなく「補修」「報酬」などの同音異義語が含まれていることに注意が必要です.

上記のグラフで注目すべきは,2011年から2012年にかけて,「진보」の相対頻度数が「보수」を上回っているという点です.2012年は20年ぶりに総選挙と大統領選挙が同年に行われる年だったということ,また통합진보당や진보신당,진보정의당など名前に「進歩」のついた政党が活発だったこと,などが理由として挙げられるかもしれません.

なお,1946年も「진보」が「보수」を上回っていますが,政治理念としての「진보」ではなく,「科学技術の進歩」といった意味の使用がほとんどです.

1947年には,政治理念に関する用例が出てきます.

ただし,全ての記事をデータ化しているわけではないので,「これが初出」というのは難しそうです.

終わりに

동아일보 코퍼스(東亜日報コーパス)の利用方法については以上です.こちらも残念ながら,検索結果を手軽に保存,というわけにいきません.それでも,一つのメディアに限定して,半世紀に渡るデータを検索・視覚化できるというのは利用価値が高いと思われます.つづりの違う語の出現様相を比較する,などといった利用もできるでしょう.

参考文献