自動的かつ一般的なバグ再現のための多様な大規模言語モデルの評価

タグ

SoftwareEngneeringPromptTuning

AIBoom

AIDB X

Github

URL

公開日

November 8, 2023

概要

著者リスト

Sungmin Kang, Juyeon Yoon, Nargiz Askarbekkyzy, Shin Yoo

著者所属機関

KAIST

視点

サマリ

バグの自動再現を目指し、Large Language Models（LLMs）を用いた新しい技術「LIBRO」を提案しています。この技術は、LLMsを用いてバグ再現テストを生成し、後処理パイプラインを通じて有望なテストを自動的に識別します。

LLMsの自然言語処理とコード生成における優れた性能を活用し、従来技術では困難だった非クラッシュバグの再現に対応しています。

LIBROは、バグレポートから適切なプロンプトを構築し、バグ再現テスト候補を生成します。生成されたテストは、低品質なテストを自動的にフィルタリングし、残りのテストをテスト実行の特徴に基づいてソートする後処理パイプラインで評価されます。

Defects4Jベンチマークを使用した実験により、LIBROは全バグの約三分の一を再現できることが判明しました。この結果は、比較対象のバグ再現ベースラインを大きく上回ります。さらに、後処理パイプラインは、LIBROが正確なバグ再現結果を得られる可能性が高いケースを成功裏に特定しました。

LIBROが複数のLLMでバグ再現性能を比較し、オープンソースのLLMでも高い性能が得られること、LLMのサイズがバグ再現性能に正の影響を与えること、そして選択とランキング技術がLLMの一般的な特性を捉えていることが議論されています。

LIBROはバグレポートからバグ再現テストを生成するための有望な技術であり、その有効性はDefects4Jベンチマークでの評価によって実証されています。オープンソースLLMでも高い性能が得られ、LLMのサイズがバグ再現性能に正の影響を与えることが確認されました。