AWS Summit 2024


生成AIアプリケーションはデータが差別化要因になる

過去の旅行歴やウェブ閲覧履歴を使うことで意味のある旅行提案ができる 自社のブランドガイドラインを使うことで意味のある広告生成ができる slackや内部ガイドを使うことで意味のある社内チャットbotができる

既存の基盤モデルを使う vs 新しい基盤モデルの学習 どっちがいい? →とりあえず既存の基盤モデルを使うのがいい 一般的なユースケース 基盤モデルは色々あるので自分で試して選んでいく必要はある

基盤モデルのカスタマイズ方法(下に行くほどコストがかかる)

プロンプトエンジニアリング プロンプトのテンプレーティング

RAG(検索拡張生成) 既存のモデルに自社のドメイン固有のデータを加える 基盤モデルの回答にS3にあるpdfや画像など非構造化データを使う ベクトルデータストアを使って関連する情報を検索、プロンプトを拡張してLLMにリクエスト ベクトルDBには最新のデータが入っている必要がある(社内規定とか、更新されるよね) ここはバッチやストリーミング処理で更新していく必要がある 検索側とデータ側の2軸で考える必要がある

Fine tuning 基盤モデルをいじる S3にあるラベル付きデータを使って例えばllama3をファインチューニングして、特定タスクを解くためのカスタマイズしたモデルを使う

継続的な事前トレーニング 例えば投資会社であれば、常に財務情報を入れて継続的にトレーニングしていく必要がある ラベルをつけずに学習させる アーキテクチャはRAGに似ているが、プロンプト拡張ではなくモデル自体を更新していくイメージ

スクラッチで独自モデルの構築 より特化させたいならこれ

これらをどう構築する?→Bedrock

  • 複数の基盤モデル
  • ファインチューニング
  • RAG(フルマネージドネイティブサポート)
    • ベクトルDBにES, Redis, Pinecone, Autora, Mongoなどをサポート