OpenAI GPT-5 は 83% の精度で o3 を上回り、GGlean のお客様は今すぐにでも活用できます

0
読了時間
OpenAI GPT-5 は 83% の精度で o3 を上回り、GGlean のお客様は今すぐにでも活用できます
Glean Icon - Circular - White
GleanによるAIサマリー
  • GPT-5は、エンタープライズAIタスクにおいて以前のモデル(特にOpenAI o3)を大幅に上回り、より正確で包括的な対応を可能にする幅広い並行ツールの使用と改善されたコンテキスト収集を活用することで、正確性、完全性、および人間のフィードバックとの整合性を高めています。
  • このモデルには、冗長性の調整(ユーザーの好みに基づいて簡潔または詳細に回答できる)や、会話の判断力の向上などの新機能が導入されています。これにより、明確な質問をするタイミングと直接回答する場合のどちらかを判断できるため、ユーザーエクスペリエンスが向上し、多様な企業ニーズへの適応性が向上します。
  • Gleanのプラットフォームにより、顧客はGPT-5を他の主要モデルと同時にすぐに試すことができ、透明性の高いパフォーマンス指標とモデル選択が可能になり、GPT-5は企業データの全コンテキストにわたって推論できるようになり、回答が組織の知識とワークフローに合わせて調整され、根拠のある安全な対応が可能になります。

GPT-5が発売初日にサポートできることを嬉しく思います。これは、企業が自社の状況を十分に理解しているエージェントに評価して導入できるように、最新のAIモデルを迅速にサポートするという当社の継続的な取り組みを反映しています。

GGlean のお客様なら誰でも、エージェントでGPT-5を試して、OpenAI o3、OpenAI GPT-4.1、クロード・ソネット4、メタ・ラマ4、Google Gemini 2.5 Pro、Google Gemini 2.5 Flashなど、サポートされている他のモデルと直接比較できます。ユーザーは、Glean ですでに構築したエンタープライズデータやエージェントのフルコンテキストを使って練習できます。

OpenAIとの継続的な取り組みの一環として、GGlean はGPT-5への早期アクセスを取得し、エンタープライズエージェントAIのユースケースでの評価を行っています。このブログでは、GPT-5がどこで、どのように優れているかについての知識を共有し、企業エージェントにとってGPT-5をどのように評価するかをご紹介します。

GPT-5は、正確性、完全性、および人間のフィードバックとの整合性において、全体的にo3を上回っています

GPT-5は、汎用機能と推論機能を1つのモデルに融合させた最初のモデルです。どのモデルに対してGPT-5を評価すべきかを検討する際、私たちは前世代のOpenAIモデルに注目しました。GPT-4.1は汎用タスク向けに設計され、o3は推論に特化していました。

Glean では、過去の失敗や発見に基づいて適応的に計画を立て、反復するエージェントとアシスタントを構築しています。o3は推論に長けており、フォローアップ検索を行ったり、代替計画を再試行したり、必要に応じてより多くのコンテキストを収集したりする可能性が高くなります。これはまさに、Glean がより複雑な作業を引き受けるのに役立つ一連のスキルです。これが、評価でGPT-5とo3を比較することを選択した理由です。

Glean には25人以上のLLM審査員がおり、幅広い企業業務(情報検索、ライティング、データ分析、コーディングなど)にわたる検索、アシスタント、エージェント製品を継続的に評価しています。また、これらと同じ指標に基づいてLLMを評価し、どのモデルをサポートするか、またお客様がどのようにモデルを組み合わせることができるかを判断するのに役立ちます。

審査員が非常に多いため、Glean独自の本番環境でのo3とGPT-5を比較するために、いくつかの指標を使用しました。ここでは時間の制約から自社のエンタープライズユースケースだけにこだわりましたが、通常は実際の顧客クエリ、合成クエリ、手作業で調整されたクエリで構成される、はるかに大きな評価セットでこれを行います。

これらの指標は、企業がAIに関して本当に気にかけていることに焦点を当てています。

  • 正しさ: 出力は正確ですか、それとも的外れですか?幻覚の結果か、答えへの間違った道をたどったかのどちらかです。
  • 完全性: エージェントはユーザーが求めたことを完全に達成しましたか?これには、メールの作成、Jira チケットの作成、またはユーザーの質問で指定されたすべての側面への返信などがあります。
  • 人間のフィードバックとの連携: 新しい回答は、以前のクエリで受け取った人間のフィードバックとより一致していますか?

以下の主要指標では、GPT-5がO3を上回りました。

注:o3 には冗長性はありませんが、評価では中程度の冗長度レベルが確認されています。

このブログの次のセクションでは、GPT-5 でこれらの指標が改善された理由について詳しく説明します。

GPT-5の幅広いツールの使用は、o3の綿密な計画に勝る

O3とGPT-5の違いをよりよく理解するために、計画ステップの数と実行された検索の数といういくつかの調査指標を調べました。

エージェントプランを見るのと同様に、これらの指標からもわかることは、GPT-5は幅広い可能性を秘めているということです。プロンプトが表示されたら、複数のツールから情報をすばやく収集したり、複数の戦略を並行して試したりします。並列ツール呼び出しは GPT-5 の新機能の 1 つで、使い方もわかっています。

つまり、GPT-5は多くの場合、長い中間ステップを経なくても必要なものを見つけることができます。その結果、エージェントが従う「計画」(実行する一連のアクション)が短くなり、開始から終了までのステップが少なくなります。

対照的に、O3は深く入り込む傾向があります。まず焦点を絞って始めて、あるソースを検索し、特定の文書を掘り下げてから、明確な質問をする、といった一連の推論や行動が続くこともあります。その結果、エージェントはより段階的な調査アプローチをとるため、より多くの計画ステップが必要になります。

パフォーマンスの結果を見ると、GPT-5で採用されている幅広いツール使用アプローチが勝っていることがわかります。これは、効果的なツールの使用が企業におけるエージェントのパフォーマンスの原動力になりつつあり、多くの場合、追加の計画ステップの必要性が減っていることを示唆しています。究極的には、ツールを使ってコンテキストを確認することが王様だということを強調しています。コンテキストは、AI モデルが仕事に取り組むために必要な重要な優位性を与えます。

この動作をプロンプトの例で見てみましょう。

What model do we use for intermediate steps?

O3は最初の企業調査で幻覚を見た。入手可能な情報に基づいて、中間ステップに使用されている1つのモデルを誤って特定した。

GPT-5は、110の情報源を調査して最も関連性の高いコンテキストを探しました。その結果、当社のエージェント推論アーキテクチャには複数のバージョンがあり、お客様はエージェントのモデルを自由に選択できるため、正確で完全な回答が得られることを認識しました。

GPT-5は、いつ助けを求めるべきかを知るのが得意です

GPT-5の優れた点の1つは、いつ質問に直接答えるべきか、いつユーザーのところに戻ってフォローアップの質問をすべきかを判断できることです。

これをプロンプトの例で適用してみましょう。

Draft a message to Tony explaining how agents can improve his productivity giving examples specific to his team.

以下の結果からわかるように、o3は、トニーがエンジニアリング・Glean ンの共同創設者であるトニー・ジェンティルコアに言及していると仮定するといううさぎの穴に落ちました。

しかし実際には、Glean にはトニーが2人います。2人のトニーは、どちらも組織内での役割が異なるため、異なる回答を受け取るはずです。GPT-5は、広範な検索を実行してフォローアップの質問をすることでこれを実現しました。そうすれば、質問に答えるための最善の方法をよりよく理解できました。

Glean AssistantエクスペリエンスとコンシューマーAIチャットボットの両方で、フォローアップの質問が当たり前になっているのを見てきました。今では、必要な情報を、できるときに迅速にユーザーに返すのが妥当なタイミングをモデルで判断し、できない場合にのみ会話を始めることができるようになり、この変化により、あらゆる会話体験の価値が高まります。

GPT-5では冗長性が導入され、初期の評価では実装する予定であることが示されています

おもしろい事実:Glean が最初にアシスタントエクスペリエンスを構築したとき、エンジニアリングチームは可能な限り簡潔にするように明確な指示を出しました。彼らはチャットの質を独自の視点で判断し、余計な手間をかけない(私の言葉ではなく、彼らの言葉)よりも、要点を直接説明することを好みました。その後、この設定を削除しました。これは、アシスタントがタスクと個人の好みの両方に適応する能力を制限していることを認識したためです。

GPT-5から追加された興味深い点の1つは、冗長性(簡潔な応答から平均的な応答、長い応答まで範囲を広げる機能)が導入されたことです。中程度の冗長性を使用しても、プロンプトに完全に応答できます。

製品サポートの質問に対するアシスタントのクエリでこれを見てみましょう。

How can I add Glean to a ServiceNow workspace?

この例では、o3は適切なフォーマットで完全な応答を提供するため、ヘルプセンターの記事に最適です。

さて、もし私がより簡潔な応答を好むエンジニアであれば、GPT-5で低冗長度設定を適用して、完全性を損なうことなく自分の好みを満たすことができます。

私たちはすでに、エンドユーザーのパーソナライゼーションによる冗長性コントロールの活用に取り組んでおり、全体とタスク固有の両方を対象としています。また、エージェントの中間ステップでのトークン出力の削減にも取り組んでいます。乞うご期待!

GPT-5はo3でフォーマットする際の課題を克服します

冗長性は新しいレベルの制御を可能にしますが、GPT-4.1からo3に切り替えたときに見られた欠点、つまり応答品質の低下にも対処します。回答の質とは、アシスタントがどの程度正確で読みやすく、ユーザーに合った回答を提供しているかを総合的に評価したものです。

これは、GPT-4.1がo3よりも応答の構造化においてはるかに優れているためです。これは、汎用モデルと推論モデルを組み合わせた新しいアプローチの利点の1つであり、GPT-5は両方を実現できます。

これは、評価結果のサンプリングだけでなく、実行するメトリックのフォーマットでも確認できました。応答に適用されているフォーマットを見ると、冗長度の高いGPT-5の方が、リストと区切り線をよりうまく利用でき、出力の構造性が高まっていることがわかります。

冗長性を正しく利用することで、o3で失われた応答品質指標の一部を取り戻すことができると期待しています。

重要なすべてのモデルを 1 つのプラットフォームで

まだおわかりにならない方もいらっしゃると思いますが、GPT-5を評価したときに測定したパフォーマンスの向上には本当に興奮しています。お客様は、私たちがこの新しいモデルをサポートしていることを喜ぶはずです。また、GPT-5 をエンタープライズAIの主要なオープンソースモデルや商用モデルと比較し、自分で評価できるはずです。

GPT-5は推論の面で進歩を遂げましたが、すべてのユースケースに最適なモデルはありません。だからこそ、Glean は引き続きお客様にモデルの選択肢を提供し、最新モデルをサポートし、パフォーマンス指標をオープンに共有しています。これらのインサイトを活用して、職場で最も有能なエージェントエクスペリエンスの構築に役立ててください。

GPT-5 が組織の業務遂行にどのように役立つかを確認する準備ができたら、今すぐ GGlean Agents で試してみることができます。

Work AI for All.

デモに申し込む
CTA BG