9月1日、海外のテックメディアIEEE Spectrumで「AIがウェブクローリングをめぐる戦いを巻き起こす(AI Has Created a Battle Over Web Crawling)」と題した記事が公開された。この記事では、ジェネレーティブAIの進化とそれに伴うウェブクローリングに関する論争について、AI研究者グループ「Data Provenance Initiative」のリードリサーチャーであるシェイン・ロングプレ(Shayne Longpre)氏へのインタビューを通じて詳しく解説されている。
ジェネレーティブAIとデータ収集の問題
ジェネレーティブAIは、膨大なデータセットを使用して訓練されることで、驚異的なパフォーマンスを発揮するが、そのデータセットの大部分は、私たちが日常的にインターネット上に公開している情報で構成されている。これには、ブログ投稿、ビデオコンテンツ、SNSのコメント、フォーラムへの投稿などが含まれる。しかし、これらのデータを収集するためにはウェブクローリングが不可欠であり、このクローリングのプロセスが現在、大きな論争の的となっている。
ロボット排除プロトコル(robots.txt)とは
ロングプレ氏は、ウェブクローリングを制御するための主な手段として、ロボット排除プロトコル(robots.txt)が広く利用されていると説明している。これは、ウェブサイトがクロールしてよい範囲を機械可読形式で指定するファイルであり、クローラーがこれを参照してクロールの範囲を決定する。しかし、このプロトコルには法的な強制力がなく、あくまでクローラー側の自主的な遵守に依存している。そのため、一部のAI企業がrobots.txtを無視してデータを収集しているとの指摘があり、これが新たな問題となっている。
データ制限の増加とその影響
インタビューでロングプレ氏は、近年、特にジェネレーティブAIの急速な普及に伴い、多くのウェブサイトが自らのデータに対するアクセスを制限し始めていると述べている。ニュースサイトやアーティストのウェブサイトは、ジェネレーティブAIによるデータの無断利用を懸念し、robots.txtを使用してクローラーのアクセスを制限する事例が増えている。
具体的な例として、人気のあるデータセットであるC4に関してロングプレ氏は、2023年から2024年にかけて全体の5%に相当するデータがrobots.txtによってアクセス制限されていることを指摘している。さらに、C4データセット内の上位2,000のウェブサイト、特にニュースサイト、学術サイト、ソーシャルメディアといった高品質なウェブサイトに関しては、25%ものデータが取り消されている。このように、AIモデルが訓練に使用できる高品質なデータの供給が急速に減少していることが、モデルの性能に与える影響についても懸念が広がっている。
法的および倫理的な課題
ロングプレ氏はまた、robots.txtが法的に強制力を持たない一方で、ウェブサイトの利用規約(Terms of Service)は法的に拘束力がある可能性が高いと述べている。しかし、これらは機械が解釈できない形式で書かれているため、クローラーが遵守するのが難しい。このギャップが、AI企業とウェブサイト運営者の間での法的な対立を生んでいる。特に米国においては、公正利用の範囲内でのデータ収集がどの程度認められるかについて、現在進行中のいくつかの訴訟で争点となっている。
合成データの役割とそのリスク
データ制限が進む中で、AI企業は合成データを活用する方向にシフトしている。合成データとは、人工的に生成されたデータであり、現実のデータを模倣して作られる。ロングプレ氏は、これにより現実のデータが不足している領域でもAIモデルの訓練を続けることが可能になると述べている。しかし、合成データにはリスクも伴う。特に、低品質な合成データを使用することでモデルが劣化する「モデル崩壊」が懸念されており、この問題は現在、研究者たちの間で議論されている。
データの未来とAI業界の展望
今後、ウェブサイトによるrobots.txtや利用規約を用いたデータアクセス制限はさらに増加するとロングプレ氏は予想している。これに対して、AI企業は独自のデータ収集パイプラインの強化や、ユーザー生成データへの独占的なアクセス権の確保に向けた動きを強める可能性がある。しかし、これがデータの独占につながり、反トラスト法上の問題を引き起こすリスクも指摘されている。今後のAI業界におけるデータの扱い方は、法律、倫理、技術の交差点での大きな課題となるだろう。
詳細は[AI Has Created a Battle Over Web Crawling]を参照していただきたい。