- エンタープライズAIソリューションでは、正確な意思決定を行うために、さまざまなSaaSアプリケーションから得られる包括的なコンテキストが必要であり、そのためには、適切に設計されたデータコネクタに大きく依存します。
- AIの有効性は、情報の高速かつ一貫性のある正確な取得を可能にするため、フェデレーテッド・フェッチではなくデータのインデックス作成にかかっています。
- 安全で効率的なAI運用のためには、厳格なデータ権限の維持、リアルタイムのデータ更新のインデックス作成、機密情報の保護、ナレッジグラフでのデータの整理が不可欠です。
エンタープライズAIは、ドキュメント管理、チャットと電子メール、プロジェクト管理、コードリポジトリ、顧客関係管理(CRM)、エンタープライズリソースプランニング(ERP)システムなど、多数のSaaSアプリケーションから提供されたコンテキストに依存しています。このコンテキストは意思決定の基礎となり、エージェントが次に取るべきアクションを決定するのに役立ちます。適切なコンテキストにアクセスできるかどうかは、AI ベンダーがデータコネクタをどれだけうまく設計したかにかかっています。そのアーキテクチャによって、何億ものドキュメントまで拡張できるか、リアルタイムのデータを取得できるか、レジリエントで信頼性の高いインデックスを維持できるかが決まります。同様に重要なのは、データコネクタが企業情報へのアクセス方法を定義することです。
AI ベンダーがデータコネクタのサポートを提供し始めるときは、その設計について質問し始めることが不可欠です。これらの質問は、AI主導の意思決定の基盤であるエンタープライズコンテキストをそのまま維持するのに役立ちます。
1。データのインデックスを作成していますか、それともフェデレーテッドフェッチを実行していますか?
質の高い企業向けAIのバックボーンである効果的な検索は、まずインデックス作成から始まります。つまり、データを保存して整理し、迅速かつ正確に検索できるようにすることです。本の最後にある索引を考えてみてください。本全体を読んで情報を探す代わりに、関連するページに直接移動できます。検索インデックスも同じように機能しますが、速度だけでなく、結果を正規化し、スコアを適用し、同義語と略語を一貫して処理することで品質を向上させます。Googleは、このようにして世界中の情報を理解できるようにウェブを構築しました。これは大きな問題でしたが、インターネットデータには標準データモデルとオープンアーキテクチャという利点もありました。これとは対照的に、企業には各ユーザーに許可された異種データがあります。
別のアプローチであるフェデレーテッドフェッチは、検索 API を介してさまざまなソースから直接データを取得します。ただし、API の品質とレイテンシーは大きく異なるため、結果に一貫性がありません。フェデレーションシステムでは、何十ものシステムに並行してクエリを実行し、最も遅い結果が返されるのを待ってから回答を生成します。ソース間で統一された採点システムがないため、多くの場合、単純に結果がまとめられます。LLMのコンテキストウィンドウが限られているため、この問題は深刻化し、AIはコンテキストを正確に理解せずに企業データを非効率的に処理せざるを得なくなり、結果の正確性と関連性が低下します。フェデレーションフェッチでは、どのデータソースをクエリするかをユーザーが正確に把握している必要もあります。フェデレーテッド・フェッチ・システムの特長は、プロバイダが各データ・ソースのユーザー認証を要求する場合です。
Glean では、ほとんどのお客様が1つの質問に回答するために少なくとも3つの異なるソースからデータを引き出していることがわかりました。データは断片化されており、ユーザーは必要な情報がどこに保存されているかを常に把握しているとは限りません。これが、エンタープライズAIにとってインデックス作成が不可欠である理由です。
ベンダーは、セマンティック検索インデックスとレキシカル検索インデックスの両方を使用してデータのインデックスを作成し、最も関連性の高い企業コンテキストにAIを組み込む必要があります。
2。データソースの権限をどのように適用しますか?
各コネクタには独自の権限セットがあるため、AI プロバイダーはデータソースレベルでのきめ細かな権限構造を尊重する必要があります。エンタープライズシステムは次のものを組み合わせて使用します。
- アクセス制御リスト (ACL)
- ディレクトリ構造
- グループ階層
- 個別オーバーライド
- リンク共有設定
- 上記の組み合わせ
- 上記のすべてに対する即時適用が必要な変更をリアルタイムで実施
AIプロバイダーは、不正なデータアクセスを防ぐために、権限をリアルタイムで更新する必要があります。インデックス作成を個々の文書レベルまで管理するエンタープライズコントロールにより、機密データや無関係なデータをナレッジベースから除外することもできます。
コネクタ設計で見過ごされがちな側面は、ユーザーに許可されているものだけが表示されるように、データソース全体でアイデンティティグラフを構築する必要があることです。ユーザー名と電子メールもアプリケーションごとに異なるため、IDグラフ内のエイリアスリンクは重要です。
一部のベンダーは、Wikiや公開Slackチャンネルなど、公開されている企業データのみをインデックスに登録したり、広範で高度な権限のみを適用したりして、この複雑さを回避しています。ただし、セキュリティを確保するためには、エンタープライズAIは実際のアクセス制御のきめ細かさを反映する必要があります。
3。機密データをどのように保護していますか?
企業データを保護するには、権限だけでは不十分です。SaaS スプロールの影響で、多くの組織がデータ保持と施行ポリシーの緩さに苦しんでいます。AIの採用が単一ファイルのアップロードから大規模な企業データ統合にまで拡大するにつれて、企業秘密、顧客データ、財務記録などの機密情報がAIによって生成された応答に漏洩するのを防ぐために、プロバイダーがガバナンスを強化しているかどうかを評価する必要があります。
4。新しいデータはどれくらいの頻度で更新され、AIがアクセスできるようになっていますか?
企業データの価値は急速に低下する可能性があります。AIがリアルタイムのコンテキストに基づいてアクションを実行するエージェントシステムに移行するにつれて、結果を最近のSlackメッセージ、Microsoft Outlookの電子メール、またはZoomミーティングのコンテキストに基づいて行うことがこれまで以上に重要になっています。リアルタイムコネクタは、データ更新を数時間ではなく数分で反映することを期待してください。
データと権限を最新の状態に保つことは、誤解を招きやすい課題です。プロバイダーはデータソースによって設定された API レート制限内で運用しますが、リクエストコストとクォータはさまざまで、サーバーの負荷に応じて動的に変動する可能性があります。複数のクロール戦略をインテリジェントに使用して、API に負荷をかけずにできるだけ多くのデータを取得するプロバイダーが必要です。ただし、これには精巧さと、変化する API 制限への絶え間ない順守が必要です。また、データを安全に保つためには、インデックスを作成するデータの順序に注意深く優先順位を付け、コンテンツよりも権限のインデックスを作成する必要があります。
5。データモデリングの責任者は誰か
評価すべきもう1つの重要な要素は、各データソースをAIシステムで使用できるようにするために必要な労力です。多くのプロバイダーは広範な統合カタログを提供していますが、データモデリングとインデックス作成は顧客に任せています。また、ネイティブのデータコネクタサポートを提供するのではなく、システムインテグレーターとの連携に頼って面倒な作業を行う場合もあります。
すべてのアプリケーションには独自の構造があるため、データモデリングは複雑です。Slack を例にとってみましょう。
- パブリックチャンネルとプライベートチャンネル
- DM、グループメッセージ、スレッド会話
- トップ投稿とメンションの違い
- 添付ファイル、リンク、共有ワークスペース
各要素は相互につながっています。スレッドは元の投稿にリンクされ、Slackメッセージには従来のタイトルがないため、一般的な検索エンジンのランキングに影響する可能性があります。効果的なデータモデリングは、AIがアプリケーションの構造を解釈し、情報をランク付けするのに役立ちます。
ほとんどの企業はすでに構造化分析のデータモデリングに多額の投資を行っています。その取り組みをLLMの非構造化データにまで拡大することはリソースを大量に消費し、アプリケーションが新しい機能を導入するにつれて常に進化しています。これらのSaaSアプリケーションはそれぞれ常に新しい機能を提供し、データモデルを進化させているため、AIプロバイダーは、一度設定したらあとは忘れてしまうアプローチではなく、データモデルを継続的に適応させる必要があります。
6。どのデータをインデックス化していますか?
最も関連性の高い企業情報は、多くの場合、信頼性が高く、最新のもので、パーソナライズされたものです。これらの要因を捉えるには、単にコンテンツをインデックス化するだけでは不十分です。アクティビティデータやユーザーデータには、その情報がどのように、誰によって使用されるかが反映されます。エンタープライズサーチや AI アプリケーションには強力なフィードバックシグナルがないため、幅広いコンテキストが鍵となります。それがなければ、AIは1つの文書の重要性を理解し、学ぶのに苦労します。
どのコンテンツがインデックスに登録されているかを理解することも重要です。多くの場合、データソースのコンテンツや機能のほんの一部しかサポートされていないため、包括的な洞察を提供するAIの能力は限られています。インデックス作成の深さと幅を評価することで、エンタープライズAIは関連する結果に必要なすべてのコンテキストを把握できます。
長年の歴史を持つ企業にとって、インテリジェントなインデックス作成はコスト効率の鍵です。過去 1 年間のみにインデックスを作成するなど、厳格な時間ベースの制限を設定すると、価値の高い信頼できるデータを除外できます。より効果的なアプローチは、何をインデックス化するかを決定する動的アルゴリズムを使用し、継続的なアクティビティと関連性に基づいて適応し、不必要なストレージコストを回避しながらAIが最も貴重なデータを処理できるようにすることです。
7。ナレッジグラフでデータを整理していますか?
コンテンツ、アクティビティ、人物データのインデックス作成は、最初の一歩に過ぎません。エンタープライズ AI データコネクタの真の差別化要因はナレッジグラフです。
エンタープライズナレッジとは、テキストを処理することだけではありません。情報がどのように使用され、誰がそれに依存し、その全体的な影響を理解することが重要です。同じ組織内であっても、用語の意味は異なる場合があります。たとえば、「POC」はエンジニアリングでは「概念実証」を意味し、営業では「窓口」を意味する場合があります。ナレッジグラフはこの構造を提供し、知識を実用的なものにし、より良い意思決定を促進するために必要なコンテキストをAIに提供します。
ナレッジグラフの構築は複雑で、企業データを融合させてからふるいにかけ、文書、メッセージ、クエリの概念を特定して理解する必要があります。コンセプトは複数の名前で呼ばれることが多いため、このプロセスではテキストを一致させるだけでは不十分です。
8。インデックスはどこに保存されていますか?
コネクターの数が増えるにつれて、企業のナレッジベース全体が効果的にインデックス化され、データのほぼレプリカが作成されるようになります。これにより、データの保存場所と保存方法に関する重要な考慮事項が生じます。データが分離された VPC に格納されるクラウドプレムデプロイモデルでは、従来のマルチテナント型 SaaS 環境と比較して、制御とセキュリティが強化されます。
ストレージ以外にも、企業データの LLM への転送を保護することも同様に重要です。LLMプロバイダーと契約を結び、データ保持をゼロにし、企業データに関するトレーニングを行わないようにすることで、企業データがLLMに誤って漏洩することを回避できます。
9。コネクタインフラストラクチャはどのように拡張されますか?
コネクタのエンタープライズエコシステム全体でデータをクロールしてインデックス化するには、水平に分散されたクロールインフラストラクチャが必要です。データソースごとに必要な作業量は異なります。たとえば、Slack メッセージは Google Drive のファイルよりもサイズがはるかに小さくなります。また、プレーン・テキスト・ファイルの方が、前処理が必要な PDF よりも索引付けが容易です。データの複雑さだけでなく、API クォータには課題があります。これらのクォータはデータ量に比例してスケーリングされないため、クロールインフラストラクチャにボトルネックが生じ、データのインデックス作成速度が制限されます。
この課題は小規模なチームには現れませんが、何億ものドキュメントを管理するユーザー数が 10,000 ~ 100,000 のユーザーを抱える企業では顕著です。エンタープライズ規模のデータを処理するには、API の制約を乗り越えながら効率と独立したスケーリングを最適化するインデックス作成アプローチが必要です。
最終的な考え
データコネクタは、エンタープライズ AI の品質とセキュリティに直接影響します。コンテンツ、アクティビティ、ユーザーのインデックス作成、権限の適用、およびリアルタイム更新を備えたコネクタの強固な基盤により、AI エージェントは自動意思決定をインテリジェントに行うために必要なコンテキストを得ることができます。このような難しい質問をすることで、エンタープライズ対応のコネクタフレームワークを構築することの複雑さをベンダーが本当に理解しているかどうかを判断できます。将来のコネクタサポートについて彼らの言葉だけを信じるのではなく、彼らがどのように実装および保守を計画しているかを詳しく調べてください。そうすることで、データが AI エージェントにどのように役立つのか、そして最終的には組織内の AI の未来について、情報に基づいた意思決定を行うことができます。




.webp)

