AIによる類似答案検出の試み 3rd place "meet & create"@HACK.BAR 2025年6月27日 tappuriz
自己紹介 本間利通 大阪経済大学経営学部 教授 1977年生 最近の心境 これまで社会に殺されていない時点で、強者と言ってよいのではなかろうか 本当の危機は40後半からやってくることを感じる日々 どうやって生き延びていけばいいのか、諸々見失い迷走 生成AIを利用したアプリ開発に手を出す
担当科目 経営組織論 履修者数 299名、237名、137名、59名 + ゼミ3学年 + 大学院 平常点評価のため、ほぼ毎回課題を提出させる → 採点辛い 類似答案があることが気になっていた AIに助けてもらいたくなった
2つの類似度検出方法 学生同士の提出課題の参照・盗用の検出を目的とした作業 1.Embedding Open AI text-embedding-3-small 2.Sentence-BERT sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 どっちも単なるコピペ検出ツールよりも高度
類似度の確認 Embedding 組織文化の課題で確認 組織文化 = 共有された価値感 シャインモデル アーティファクト・価値観・基本的前提 課題(400文字) 何らかの組織について具体例を挙げて説明すること Open AI text-embedding-3-smallをAPIで利用 意味ベースでの類似性検出 類似ペア上位20
Open AI_text-embedding-3-small テキスト ベクトル変換 100万トークン 0.02ドル バッチ入力対応
類似度の確認 Sentence-BERT sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 0.8以上を抽出 オフラインで実行可
モデルによる違い? Embeddingが似ていると評価 トヨタの改善文化など、学習文書が多そうなケース 専門用語の多用や知識ベースの一致? S-BERTが似ていると評価 アルバイトを例としつつも、具体性に欠けるケース AI生成による似た構造を検出? S-BERTとEmbeddingが似ていると評価 居酒屋や焼肉屋など個別の体験が似ているケース 文章構造や意味の近さ?
gpt-4o-mini-2024-07-18に全部投げて評価させてみる なんとなく評価してくれる 具体例がないものが低評価 意味不明な高得点もある 採点対対象外が続出 プロンプト次第
誤検出 誤検出もあり得ることは認識しています 現状では、参考程度に眺めることしかできていない 不正検出に傾ける情熱はあんまりないけど、公平感は維持する必要がある 問題意識のほぼ全てがこれ 初期の頃は、「て」「に」「を」「は」だけを変えてきたものもあった もう警戒されてしまっているのか、間抜けな答案がなくなってしまった 検出だけして黙して放置した方が、色々確認できることは多そうだった