自動的かつ一般的なバグ再現のための多様な大規模言語モデルの評価