こんにちは!データサイエンティストの伊達です。
今回は、データマイニング分野におけるトップカンファレンスの一つである KDD 2022 で気になった論文とチュートリアルを紹介します。
- KDD とは
- 論文 (Research Track): Wu et al., Non-stationary A/B Tests
- チュートリアル:Counterfactual Evaluation and Learning for Interactive Systems
- チュートリアル:New Frontiers of Scientific Text Mining: Tasks, Data, and Tools
- まとめ
KDD とは
KDD 2022 (28th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining) とは、データマイニング分野におけるトップカンファレンスの一つで、2022年8月にアメリカのワシントンD.C.で現地開催されました。 今回は3年ぶりのオフライン開催だったようです。 私は今回参加できませんでしたが、次回もオフライン開催だったらぜひ久しぶりに現地参加したいです。
論文投稿は Research Track(研究志向)と Applied Data Science Track(応用志向) に、招待講演もキーノート講演(主にアカデミアの先生方)と Applied Data Science 講演(主に企業在籍の研究者)に分かれており、研究と実応用のどちらにも重きが置かれています。
本記事では、個人的に気になった Research Track の論文を1本、チュートリアルを2つご紹介します。
論文 (Research Track): Wu et al., Non-stationary A/B Tests
背景
- 非定常性:時刻や曜日によって顧客の振る舞いは変化 →「time-of-day(時刻)」効果や「day-of-week(曜日)」効果が生じる
- ブラウザ種別(例:Firefox、Edge、Chrome)等のよく使われる層化変数(strata)は質的変数だが、時刻は量的変数であり、そうした量的変数を層化変数として用いたABテスト手法についてはあまり研究が進んでいない
論文内容
- データの「非定常性」によって、ABテストの検定結果が不適切なものや非効率なものになることを示した
- 本論文では、 標準的なABテストで使用可能な、連続値の層化変数による事後層別(post-stratification)手法を提案
- また、ABテストの実験設定が可変であるようなインフラが使用できる場合に使用可能な手法(time-grouped randomization)を提案
ABテストを数日間や数週間といった限定された期間で実施するのはよくあることだと思うので、時刻や曜日によるデータの振る舞いの変化を考慮したテスト手法は実応用で重要そうです。
ABテストに限らず機械学習モデルの構築でも、学習や評価に使うデータにおいて季節性、時刻効果、曜日効果といった時間による変動要因を抑えて分析に取り組むことは、実データを扱う上でマストではないでしょうか。
チュートリアル:Counterfactual Evaluation and Learning for Interactive Systems
Counterfactual Evaluation and Learning for Interactive Systems (KDD2022 Tutorial)
こちらのチュートリアルでは、off-policy evaluation と off-policy learning (OPL) の基礎、実用上の課題、OSS である Open Bandit Pipeline について紹介されていました。
Off-policy evaluation とは、ある施策(policy)について、その施策とは異なる施策を用いて過去に収集されたデータを基に精度評価をする方法です。この方法は、前節で紹介した論文で扱われているABテスト(online policy evaluation)のように、施策を実システムに載せて直接データを取って評価する方法とは異なるアプローチになります。
Off-policy evaluation を用いることで、オンライン実験を実施することなく大量の施策候補を試すことができる、不適切/低品質な施策候補をオンライン環境に投入することによる悪影響を防ぐことができる、などのメリットがあり、近年その手法改善に関する研究や応用が増えてきているようです。
当日のチュートリアルは、計六部(off-policy evalution と off-policy learning の基礎、bias-variance 制御、off-policy evaluation における近年の進展、off-policy learning に関する手法の紹介、Open Bandit Pipeline の紹介、総括)に分かれており、資料も合計300ページ超と内容盛り沢山なので、興味を持たれた方はぜひ見てみてください。
チュートリアル:New Frontiers of Scientific Text Mining: Tasks, Data, and Tools
New Frontiers of Scientific Text Mining: Tasks, Data, and Tools
科学文書に対するテキストマイニングは、世の中に存在する大量の科学文書から構造化された知識やアイデアなどを抽出するための技術であり、今後の科学研究の促進の大きな助けになることが期待されます。 しかし、それぞれの科学分野に関するドメイン知識の必要性、科学ライティングにおける複雑な文構造、科学知識表現のマルチモーダル性(例:分子の表現方法 → 論文中の化学式 or 分子構造)などにより、特有の困難さを有しています。
このチュートリアルでは、特に生物・医学・化学ドメインにフォーカスして、科学文書に対するテキストマイニングの基礎、固有表現抽出や関係抽出等の技術、実応用例などを紹介しています。 また、チュートリアルの最後では、新型コロナと有機化学分野の実データを用いたデモが行われたようです。
個人的に興味深かった点:
- BioBERT、ChemBERT、ClinicalBERT など、各分野に特化した事前学習済み言語モデルがある
- 分野によって役立つモデルが異なる(例:化学はグラフ構造を持つデータが多いため、グラフニューラルネットワークによる表現学習を活用)
- 科学文書では、分野でよく使われる略語や概念が詳しい説明なしに使われるため、事前学習済み言語モデルとナレッジグラフを併用して文中のエンティティを結合
まとめ
今回は、KDD 2022で個人的に気になった論文とチュートリアルを紹介しました。
採択論文は Research Track・Applied Data Science Track どちらも実応用を見据えた研究がほとんどで、チュートリアルもデータマイニングや機械学習の技術を現実の様々なドメインでどこまで応用されているか、open problem は何か、今後どう解決していけそうか、といった話が多い印象を受けました。
データ分析による事業の実現やバリューアップに日々取り組むデータサイエンティストとして、引き続き KDD の内容はキャッチアップしていきたいと思います。