_2023__前田_Web用研究スライド.pdf

前田直宏山本岳洋カスタマイズ可能な Webページサムネイル生成のためのDOMノード役割推定 3a-6-4 兵庫県立大学情報科学研究科

2 Webページの概要を表したサムネイル Shenwei Liu and Keishi Tajima. Wildthumb: a web
browser supporting efficient task management on wide displays. In Proceedings of the 15th international conference on Intelligent user interfaces, pp. 159–168, 201 ⚫ Webブラウザのタブ管理支援 Jaime Teevan, Edward Cutrell, Danyel Fisher, Steven M Drucker, Gonzalo Ramos, Paul Andr ́e, and Chang Hu. Visual snippets: summarizing web pages for search and revisitation. In Proceedings of the SIGCHI conference on human factors in computing systems, pp. 2023–2032, 200 活用例 ⚫ Web検索支援 [1] [2] [2] [1] など Webページを視覚的に要約 ⚫ ロゴや主要な画像を用いたサムネイル ⚫ Webページのスクリーンショットを縮小したサムネイル Webページの概要を把握することができるなど

3 検索結果欄にサムネイルも表示 Web検索でのサムネイル活用 Diabetes Center – MayoClinic.com diabetes Center ー
diabetes information on type 1 diabetes, prediabetes, gestational diabetes. http://www.mayoclinic.com/health/diabetes/DA99999 ⚫ タイトル、ページ内画像、ロゴを用いたサムネイルを提案 [4] サムネイル例 Woodruff, A., Faulring, A., Rosenholtz, R., Morrsion, J., & Pirolli, P. “Using thumbnails to search the Web”. In Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 198-205),2001. Teevan, J., Cutrell, E., Fisher, D., Drucker, S. M., Ramos, G., André, P., & Hu, C. “Visual snippets summarizing web pages for search and revisitation”. InProceedings of the SIGCHI conference on human factors in computing systems (pp. 2023-2032),2009. ⚫ 1度訪れたサイトへの訪問が容易 ⚫ 探している情報へ素早く到達 [3] [3] [4] ⚫ スクリーンショット＋クエリを強調したサムネイルを提案

4 検索結果欄にサムネイルも表示サムネイル例予め決められた表示項目で構成されている検索内容により表示したい項目が変わるのでは？タイトル、ロゴ、スクリーンショット ⚫ Q&A サイト ⚫
健康情報記事サイトどんな人物が作成したのか他ユーザのコメント、回答数例) Web検索でのサムネイル活用 ⚫ 1度訪れたサイトへの訪問が容易 ⚫ 探している情報へ素早く到達 Diabetes Center – MayoClinic.com diabetes Center ー diabetes information on type 1 diabetes, prediabetes, gestational diabetes. http://www.mayoclinic.com/health/diabetes/DA99999

ユーザがサムネイルをカスタマイズ ✓ いつの記事かを表示したい最新の記事で役立ちそう 5 タイトル日付著者ロゴ
評価数コメント数商品名など… サムネイル表示項目 Web検索でのサムネイル活用

を表示したい 6 タイトル日付著者評価数など… サムネイル表示項目 ✓ 他者からの評価
✓ コメント数議論が活発に行われてそうコメント数商品名ロゴ Web検索でのサムネイル活用ユーザがサムネイルをカスタマイズ

7 研究の大きな目的と本研究で取り組む課題ユーザが表示項目をカスタマイズ可能なサムネイル生成 Webページからカスタマイズに用いる表示項目を取得する研究の大きな目的本研究で取り組む課題サムネイルを構成する表示項目を集める必要

技術的課題：表示項目の推定テキストのみを対象としDOMツリーを用いてノードの役割を推定 body h1 div div Pythonの～インストール 2022年04月11日 span
a TATSUO IKURA DOMツリー Webページ多クラス分類モデルタイトル日付作者名 Webページ中のサムネイル表示項目を推定する多クラス分類器 HTMLを木構造で表現 8 役割

既存の属性分類モデル:LANTERN Softmax Zhou et al. "Learning Transferable Node Representations for
Attribute Extraction from Web Documents." Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining.(pp. 1479-1487), 2022. [5] テキスト XPath Bi-LSTM 本やレストランなどのWebページから属性を推定するモデル ⚫ 店名 ⚫ 住所 ⚫ 電話番号レストラン・・・テキストエンコーダー [5] CNN Bi-LSTM 文字レベル埋込単語レベル埋込テキストエンコーダー LANTERN [5] 9 全結合層

10 既存の属性分類モデル:LANTERN 文字レベル埋込単語レベル埋込 H a y …
Harry テキストエンコーダー DOMノード Webページ Harry Potter Potter P o r … 文字レベル埋込単語レベル埋込 Potter Harry CNN CNN Bi-LSTM 特徴量化 Harry Potter GloVe使用 GloVe使用

11 既存の属性分類モデル:LANTERN LANTERNの手法周囲のテキストノードも特徴量に使用する近くのテキストノードも用いる ⚫ 最も近い距離のノード作者名である可能性が高い Webページ J.K.
Rowling の役割を推定したい body h1 div Harry Potter and the Sorcerer’s ～ by J.K. Rowling 例） DOMツリー分類項目との類似度を計算 by が最も近いテキスト作者、タイトル、日付 … written by

12 既存の属性分類モデル:LANTERN LANTERNの手法ノードの全体的な位置を特徴量に使用する Webページ J.K. Rowling の役割を推定したい body h1
div Harry Potter and the Sorcerer’s ～ by J.K. Rowling 例） DOMツリー１２３深さ優先探索で位置を計算相対位置 = 全ノード数 3 タイトルや作者：上部に存在すると考えられる ⚫ モチベーション

<span class=“class属性値”> “テキスト” </span> HTMLのclass属性を追加 13 ページ中でのノードの役割を表すことが多い提案手法:2種類の特徴量を追加しモデルを拡張 class属性値
＋テキスト Xpath Bi-LSTM ・・・例）日付を表すノード <span class=“published date”> “2023/3/6” </span> テキストエンコーダーテキストエンコーダー

14 提案手法:2種類の特徴量を追加しモデルを拡張見た目情報を追加 ⚫ フォントサイズ ⚫ ノードの縦幅 ⚫ ノードの横幅 ⚫
ブラウザ上での面積投稿日 2020年07月11日 83 37 縦幅 × 横幅 ⚫ フォントサイズが大きい傾向 ⚫ 描画面積が大きい例）タイトル日付 ⚫ フォントサイズが小さめ傾向 ⚫ 描画面積が小さい項目によって見た目に違いがあるのでは？テキスト Xpath Bi-LSTM ・・・＋ … レンダリングし取得全結合層テキストエンコーダー

提案モデル Softmax テキスト Xpath Bi-LSTM ・・・＋ 15 class属性値見た目の情報
全結合層全結合層 Webページ自体の属性を推定する ⚫ タイトル ⚫ 作成日 ⚫ 作者名 Webページ提案手法:2種類の特徴量を追加しモデルを拡張テキストエンコーダーテキストエンコーダー

モデル評価実験 16

拡張したモデルの性能を評価 ✓ StackOverflow ✓ OpenNMT データセットの作成プログラミングQ&A記事を100ページずつ収集 ✓ FindNerd ✓
CodeProject 17 「日付」「作者名」「質問タイトル」 ✓ DevHubby 「回答数」「評価数」それ以外は「その他」正解ラベルの付与 body div div NEW MESSAGE div 評価数その他全500ページの各ノードに分類するラベルを付与全テキストノード数：約160,000ノード 5 month ago

18 その他ノードのフィルタリング「その他」に属するノードが圧倒的に多い不均衡データ定型情報やリンクなどのコンテンツと関係のないテキストが存在している XPathに特定のタグを含むノードをその他ノードとみなし削除モデルの分類精度が低下するフッターヘッダー
他ページへのリンクコピーライトなどコンテンツメニューなどメインコンテンツ HTMLタグタグの役割 button クリックボタン footer フッター header ヘッダー input 入力受け取り nav ナビゲーションリンクヘッダー、フッターなどその他ノード数約80,000ノード約160,000ノード

19 モデルの学習損失関数 𝐸 = − ෍ 𝑖=1 𝑁 ෍
𝑘=1 𝐾 𝒘𝑘 𝑡 𝑘 (𝑖) log 𝑦 𝑘 (𝑖) 重み付き交差エントロピー K : 分類クラス数 N : 分類対象のノード数 w : クラスの重み y : モデルの出力クラスごとの重みを加えることで不均衡データに対処 ⚫ ノードがk番目のクラスに属する ⚫ ノードがk番目のクラスに属さない 𝑡𝑘 = 0 𝑡𝑘 = 1 ⚫ その他ノード ⚫ それ以外のノード 𝒘𝒌 = 1 𝒘𝒌 = 10

20 モデルの学習同じWebサイトでは類似したHTML構造をしている DevHubby StackOverflow CodeProject FindNerd OpenNMT テストデータ訓練データ
4サイトを訓練データ、残りをテストデータとした5分割交差検証を行った ✓ エポック数：50 ✓ 学習率：1.0 × 10−5 ✓ 単語分散表現：GloVe ✓ 最適化手法：Adam

21 評価方法１テキストを含む全ノードを評価 … … … … 回答数その他日付
… … 評価尺度適合率、再現率、F1値、ROC-AUCを計算質問タイトル多クラス分類各クラスごとに

22 評価方法１に対する実験結果 0 0.2 0.4 0.6 0.8 1 1.2 日付
作者質問タイトル回答数評価数その他再現率日付作者質問タイトル回答数評価数その他適合率 0 0.2 0.4 0.6 0.8 1 1.2 LANTERN 拡張モデル適合率と再現率ともに減少した特にその他以外の項目について大きく減少した学習時のその他ノード数が多いため分類精度に偏りが生じた新たに加えた特徴量に過学習している ⚫ 拡張モデルの方が精度が低い ⚫ その他は精度が高い ⚫ 適合率と再現率テキストを含む全ノードを評価

23 評価方法１に対する実験結果 0 0.2 0.4 0.6 0.8 1 1.2 0
0.2 0.4 0.6 0.8 1 1.2 日付作者質問タイトル回答数評価数その他日付作者質問タイトル回答数評価数その他 F1値 ROC-AUC 適合率と再現率が低かったために F1値も低い値になった LANTERN 拡張モデル ⚫ ROC-AUC値 ⚫ F1値新たに2種類の特徴量を加えたことで精度が低下したテキストを含む全ノードを評価 ⚫ One vs Restで計算 ⚫ 全体的に約0.7付近の値を取った

24 評価方法２各クラスについて予測確率が最も高いノードのみを評価不正解評価尺度各クラスごとに適合率を計算評価ページ数正解数(ページ数) ＝適合率
k k = 日付, 作者名, 質問タイトル, 回答数, 評価数 … … 日付の予測確率 0.6 0.8 0.9 0.7 0.6 例）正誤判定このWebページ中の日付を表したノードである可能性が最も高い ⚫ 各クラスについて正誤判定 1つのWebページ中で最も高い確率で日付と予測した1つのノードの正誤を評価する正解 or 全てのクラスについて評価を行う

25 評価方法2に対する実験結果 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
0.8 0.9 日付作者名質問タイトル回答数評価数 LANTERN 拡張モデル特に評価数ノードの適合率が大きく上昇した特に回答数ノードの適合率が大きく低下した一部の項目で精度の向上、低下が見られた適合率 ⚫ 作者名と評価数は適合率が向上 ⚫ それ以外は適合率が低下各クラスについて予測確率が最も高いノードのみを評価

26 実際の出力結果推定項目内容正誤日付 How to check ～
line? 5 month ago 作者 lily.simonis 質問タイトル How to make ～ installed? 回答数 15 1 Answers 評価数 50 出力入力

27 結果に対する考察適合率が上昇した項目適合率が悪化した項目見た目の情報を加えたことで、類似した見た目の特徴を持つノードに過学習してしまった ⚫ 他のノードにはない見た目の特徴を捉えることができたため ⚫ 適合率が向上した「評価数」項目のclass属性値にはlikeや
voteの単語が含まれていた。それ以外にはclass属性値が含まれていないことがあった改善のために ⚫ 使用する見た目の特徴量の選択 ⚫ 学習データの不均衡性に対処する

28 研究のまとめと今後の課題本研究の取り組み表示項目をカスタマイズ可能なサムネイル生成 DOMノードの役割を推定サムネイルの表示項目を抽出十分な精度向上が得られなかった提案手法今後の課題 ➢
大きな目的取り組んだ課題 2種類の特徴量を追加し既存モデルを拡張 ⚫ 使用する特徴量の選択 ⚫ データの不均衡性への対処

_2023__前田_Web用研究スライド.pdf

_2023__前田_Web用研究スライド.pdf

兵庫県立大学山本研究室

More Decks by 兵庫県立大学山本研究室

Featured

Transcript

前田直宏山本岳洋カスタマイズ可能な Webページサムネイル生成のためのDOMノード役割推定 3a-6-4 兵庫県立大学情報科学研究科

2 Webページの概要を表したサムネイル Shenwei Liu and Keishi Tajima. Wildthumb: a web

3 検索結果欄にサムネイルも表示 Web検索でのサムネイル活用 Diabetes Center – MayoClinic.com diabetes Center ー

4 検索結果欄にサムネイルも表示サムネイル例予め決められた表示項目で構成されている検索内容により表示したい項目が変わるのでは？タイトル、ロゴ、スクリーンショット ⚫ Q&A サイト ⚫

ユーザがサムネイルをカスタマイズ ✓ いつの記事かを表示したい最新の記事で役立ちそう 5 タイトル日付著者ロゴ

を表示したい 6 タイトル日付著者評価数など… サムネイル表示項目 ✓ 他者からの評価

技術的課題：表示項目の推定テキストのみを対象としDOMツリーを用いてノードの役割を推定 body h1 div div Pythonの～インストール 2022年04月11日 span

既存の属性分類モデル:LANTERN Softmax Zhou et al. "Learning Transferable Node Representations for

10 既存の属性分類モデル:LANTERN 文字レベル埋込単語レベル埋込 H a y …

11 既存の属性分類モデル:LANTERN LANTERNの手法周囲のテキストノードも特徴量に使用する近くのテキストノードも用いる ⚫ 最も近い距離のノード作者名である可能性が高い Webページ J.K.

12 既存の属性分類モデル:LANTERN LANTERNの手法ノードの全体的な位置を特徴量に使用する Webページ J.K. Rowling の役割を推定したい body h1

<span class=“class属性値”> “テキスト” </span> HTMLのclass属性を追加 13 ページ中でのノードの役割を表すことが多い提案手法:2種類の特徴量を追加しモデルを拡張 class属性値

14 提案手法:2種類の特徴量を追加しモデルを拡張見た目情報を追加 ⚫ フォントサイズ ⚫ ノードの縦幅 ⚫ ノードの横幅 ⚫

提案モデル Softmax テキスト Xpath Bi-LSTM ・・・＋ 15 class属性値見た目の情報

モデル評価実験 16

拡張したモデルの性能を評価 ✓ StackOverflow ✓ OpenNMT データセットの作成プログラミングQ&A記事を100ページずつ収集 ✓ FindNerd ✓

19 モデルの学習損失関数 𝐸 = − ෍ 𝑖=1 𝑁 ෍

20 モデルの学習同じWebサイトでは類似したHTML構造をしている DevHubby StackOverflow CodeProject FindNerd OpenNMT テストデータ訓練データ

21 評価方法１テキストを含む全ノードを評価 … … … … 回答数その他日付

22 評価方法１に対する実験結果 0 0.2 0.4 0.6 0.8 1 1.2 日付

23 評価方法１に対する実験結果 0 0.2 0.4 0.6 0.8 1 1.2 0

24 評価方法２各クラスについて予測確率が最も高いノードのみを評価不正解評価尺度各クラスごとに適合率を計算評価ページ数正解数(ページ数) ＝適合率

25 評価方法2に対する実験結果 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

26 実際の出力結果推定項目内容正誤日付 How to check ～

28 研究のまとめと今後の課題本研究の取り組み表示項目をカスタマイズ可能なサムネイル生成 DOMノードの役割を推定サムネイルの表示項目を抽出十分な精度向上が得られなかった提案手法今後の課題 ➢

_2023__前田_Web用研究スライド.pdf

_2023__前田_Web用研究スライド.pdf

More Decks by 兵庫県立大学 山本研究室

Featured

Transcript

More Decks by 兵庫県立大学山本研究室