Twitterの炎上についての定義を各論文から集めてみた。多分画一なものはないから、まずはそれらを参考に炎上の定義を考えたほうがいいな。

感情分析＋「お前」「不愉快」などの悪意ワード #

「ユーザーに着目したSNS上の攻撃とそのメカニズムに関する分析」 #

タイトル	著者
ユーザーに着目したSNS上の攻撃とそのメカニズムに関する分析	Tomoka Segawa, Kimitaka Asatani, Ichiro Sakata

論文の要約 #

SNSでの攻撃は趣味が近いユーザー同士と、遠いユーザー同士の2つがある。
- 近いユーザー同士は、一部の趣味で起こる場合が多い
  - 全コミュニティのわずか1%で、74%の争いが起きてる。
    - Ribeiroら、Characterizing and detecting hateful users on twitter　より
- 遠いユーザー同士は、政治思想が強い、普段からネガティブな発言をすると、普段関係なくても叩きに行く。
  - たたきに加わる人たちは、普段会話などをしてる間柄。
攻撃的ツイートは、GoogleのBERTで自然言語処理する。
- ひっかけるキーワードは「お前」、「不愉快」など
- Semantic Textual Similarityを求める。手動でラベル付けした攻撃的ツイートを、cos類似度が大きくなるようにBERTのfine tuningできるらしい。
ユーザのフォロー関係のグラフは、Louvain法を使ってクラスタ分けできる。
- そうやって得た各コミュニティでの攻撃件数、被攻撃件数etcを集める。
  - 感情の判断は、ML-Askを使ったみたい。
    - かなり時代進化してきたしここは置き換えられそうね。
結果は、Accuracyは高くないが、数件以上の攻撃的投稿する人に関しては高い。
同一コミュニティ内の攻撃は、必ずしも普段からネガティブな投稿をする人だらけで攻撃してるわけじゃない。
- ロジハラみたいな感じ…？
遠いコミュニティは露出が多いと叩かれる。同一コミュニティはそうでもなかったり。
攻撃者だけを抽出すると、明らかにそれらだけでつるんでいた。
- この攻撃性を強化する研究とか、見ていいよね。(エコーチェンバー)
例えば、宮迫闇営業の時は、2つに分類した攻撃的発信の混合だとわかるね。

オンラインチャットにおける誹謗中傷コメントの発信を未然に防止する機能 #

タイトル	著者
オンラインチャットにおける誹謗中傷コメントの発信を未然に防止する機能	Masaki Ito, Wataru Sunayama

悪意ワードは事前に埋め込む。各ワードごとに、重大さ、というスコアを固定する。

うーん、これ埋め込みでさあ、ある程度学習されることで自動で振れない…? By me.

damage 3: 相手の存在を否定する単語、関係を軽視する単語
死ね　消えろ　邪魔　殺すetc
damage 2: 　相手の人格や容姿を攻撃する単語
ハゲ　ブス　デブ　意地汚いetc
damage 1:　相手を貶める単語
馬鹿　ドジ　雑魚

論文の要約 #

自動で悪口かどうかの判別はできるが、文脈を想定していくのはできない。1回では傷つかないけどやりとりしていくと傷つく場合はある。
(参考)SNSで悪口を含む投稿に取り下げを促す　藤堂悠杜ら、SNS 上の悪口を含む投稿に対する取り下げを促すフィードバック文の自動生成方法の検討
各ワードに重みをつける。各人にHPという概念をつくる。
- 各発信のうち、ヤバワードの重みの和を攻撃力とする。
- 発信のうちの相手からのダメージを軽減するワードもあり、それを防御力とする。攻撃力を相殺する感じ。
- 相手のHPが一定以下になるような発言をしようとした瞬間に、システム介入する感じ。
  - 発信するメッセージに以下の種類のものがある。
    - 共感系　例:今送ろうとしているメッセージに問題がないか、もう一度見直してみてはどうでしょうか？　HP高めの時に
    - デメリット提示系　相手を傷つけるメッセージを送ると、お互いの関係が壊れる可能性がありますよ。　HP低めの時
    - 禁止系　今後のメッセ――ジの送信ができなくなります。　HP瀕死の時
- 一言で言うと遊戯王、ポケモン　なんだお前(驚愕)
結果として、共感系のメッセージを出すのが一番有効みたい。

人間関係と誹謗中傷検出によるオンラインハラスメント対策 #

タイトル	著者
人間関係と誹謗中傷検出によるオンラインハラスメント対策	Tiesong Shang, Juan Zhou, Hideyuki Takada

誹謗中傷に当たる言葉を特定するのは難しい。なぜならtypo、スラングなど文が崩れているから。　←ほんと？？？2023年ならできそう。

研究では、bag-of-opinionモデルというものを使った。要約参照して。

論文の要約 #

メッセージの内容で誹謗中傷であると判断し、加害者と被害者を見つける。
その加害者と被害者中心に、ソーシャルグラフを作る。
- そこで受けてる誹謗中傷と嫌がらせのメッセージが、全体のメッセージに締める総数を計算して、それを重症度とする。
  - これ、1度誹謗中傷受けただけでも辛くないか……？
Baidu Tiebaでやってる。中国の2ch(検閲ゴリゴリついてる)
事前に誹謗中傷を表す単語やパターンを定義して、bag-of-opinionモデルというのを使う。
- (参考文献)　Lizhen Quら、 The Bag-of-Opinions Method for Reviewing Rating Prediction from Sparse Text Patterns
  - 複数語に渡ると予想されるフレーズに点数をつける場合、N-gramにするしかないが、学習に必要なデータは多すぎる。
  - 以下の3つの要素によってOpinionが成る。
    - root word
    - 同じ文で使われた修飾語
    - 1つ以上の否定語
  - コーパスからリッジ回帰(重回帰分析+L2正則化)で、Opinionごとにスコアを振る感じ。
誹謗中傷する人の多くは、誹謗中傷を普段からはしない人。逆にわずか1%の人が10%もの誹謗中傷をしている。という結果も。
- E. Wulczyn, Ex machina: Personal attacks seen at scale
結果はなんか、書いてないんだが……

BERTを用いたSNS上における攻撃的文章訂正システム #

タイトル	著者
BERTを用いたSNS上における攻撃的文章訂正システム	吉田基信、松本和幸、吉田稔、北研二

論文の要約 #

先行研究では、SVMで炎上するorしないを判断して、炎上すると判断した単語を、あらかじめ学習させたword to vecで訂正する。だが、日本語として意味のない文を出しちゃうという問題が。
- 大西真輝ら、ツイート炎上抑制のための包括的システムの構築
提案したシステムは以下の4歩からなる。
- 入力テキストの前処理
  - TweetLというライブラリで正規化を行う。(半角全角の統一　ハッシュタグやメンションの除去など)
  - 攻撃的文章であるかどうかの判定。(学習済のものをfine tuningしておく。データを1600件学習させ400件をテストに使う。スパムメッセージは除外。ラベルとして、安全、攻撃的、スパムの3つをアノテーションする)
  - 攻撃的ならば、単語置き換え　BERTのTransformerの第12層のAttentionの重みが一定以上の場合、(あらかじめ学習させた)置き換えする。
    - また、事前に登録した危険単語の場合、問答無用でBERTで類義語に置き換えする。
  - 元の文章との類似度表示　埋め込みベクトル特有の内積を利用したcos類似度を使う。
実験結果として、安全攻撃的スパムの分類精度自体は76%から63%と高くない。
単語置き換えでも、全く意味が違う文に変換されてしまった。
- 「マーチはＦラン、低学歴だわ」→「マーチは当然、不可能だわ」
精度が足りなかったという結論。理由は
- fine-tuningで使われた1600個の内容が限定的で数が少ない。
- 変換する用語の品詞を考えてない
- そもそもBERTは優等生なので、誹謗中傷事態を学習してない。
- 似てないとされてる文は短文が多い。長文だと前後の文脈から推測できるってやつか？