AIチャットボットの精度を高めるには、人間が手作業で学習データを整える工程が欠かせない。ところが、その作業を請け負う外注ワーカーたちが、別のAIチャットボットを使って回答を生成し、それをそのまま「人間が書いたデータ」として納品していることが明らかになった。
「みんなやっている」
ある契約ワーカーは「アリス」という仮名でこう語っている。「これは非常に広まっている。私が働いたすべての会社に、AI使用を禁止する明確なガイドラインがあった」。つまり、企業側も問題を認識しているにもかかわらず、実態としてはほとんど歯止めがかかっていない。
バレるのはよほど雑な使い方をした場合だけで、ある程度気をつければ検出をすり抜けられるのが現状だという。アリスは「引っかかるのは、いちばん雑な使い方をした人だけ」と話している。
なぜ手を抜くのか
背景にあるのは、劣悪な労働条件だ。短期契約で予告なく打ち切られるリスクを抱えながら、報酬は低い。別のワーカーは「収入を失うのが怖くて、気づけばAIに頼るほうが楽になっていた」と打ち明ける。アリスもこう指摘する。「質の高いデータがほしいなら、質の高い待遇を用意すべきだ」。
AI学習に使えるクリーンなデータは2010年以降、9カ月ごとに必要量が倍増してきたとされる。人間が書いたテキストの在庫はすでに枯渇しつつあり、企業は大量の外注ワーカーに頼らざるを得ない。しかし安く買い叩けば、ワーカー側もAIで手を抜く。その結果、AIが生成した低品質なテキストが学習データに混入し、モデルの性能を劣化させる。
盗んだデータで作ったAIが、さらに汚れたデータを食う
この構図には二重の皮肉がある。まず、AI企業はもともとクリエイターの著作物を無断で学習データに使い、批判を浴びてきた。そして今度は、自分たちが金を払って作らせた「新しいデータ」までもがAI製のゴミだった。
専門家はこの現象を「AIの共食い」と呼び、大規模言語モデルの安定性を損なうリスクがあると警告している。人間が書いたものを無断で吸い上げ、それでも足りないから人間に書かせようとしたら、その人間もAIを使っていた。学習データの質を担保する仕組みが根本から崩れつつある。