【AI】信オンAIを考える-④RAG (検索拡張生成) 

読み物
読み物

RAG(Retrieval-Augmented Generation)の運用にはコストがかかりますが、設計次第で低コスト運用も可能です。コスト要因を整理しながら、安価に運用する方法を考えてみます。


RAGのコスト要因

① 検索エンジン(Retrieval)

RAGの「検索」部分は、外部データベースを使うため、以下のコストが発生します。

方法コスト要因参考価格
Elasticsearch / OpenSearchクラウドのホスティング費用(AWS, GCPなど)数千円~(月額)
PostgreSQL(pgvector)データベースのストレージ+検索処理数百円~(月額)
FAISS(ローカル運用)CPU/GPUの負荷(クラウド不要)0円(自前サーバー)

→ コストを抑えるには?

  • クラウドを使わず、FAISS(Facebook AI Similarity Search)をローカル運用すると無料で済む
  • 小規模なら SQLite + pgvector で動かすことも可能

② LLM(Large Language Model:生成AI)

RAGの「生成」部分は、質問内容に応じて回答を作るため、LLMのAPIコストがかかります。

LLMコスト参考価格(API課金)
OpenAI GPT-4 Turbo従量課金(API)約$0.01 / 1Kトークン
Mistral 7B(ローカル)自前サーバー運用0円(要GPU)
Llama 3(ローカル)自前サーバー運用0円(要GPU)

→ コストを抑えるには?

  • クラウドLLM(GPT-4)を使う場合
    • 1日1000クエリ程度なら月$10~30で済む(最適化次第)
    • 長い回答を避けることでトークン削減
  • ローカル運用なら無料(Mistral, Llamaを使う)

③ サーバーコスト

AIを運用するにはサーバー代が必要。

方法コスト
クラウド(AWS/GCP)月$10~50
VPS(レンタルサーバー)月1000円~
自宅PC(ローカル運用)0円(電気代のみ)

→ コストを抑えるには?

  • 低負荷なら**VPS(月1000円)**でもOK
  • 個人利用なら**ローカル運用(無料)**が最安

低コスト運用の実現策

運用方式コスト目安具体的な構成
無料運用0円FAISS + Llama/Mistral(ローカル)
低コスト運用月1000円~3000円VPS + FAISS + GPT-4(API)
高性能運用月5000円~クラウドLLM + OpenSearch

おすすめの方法「ローカルで動かせるRAG(FAISS + Llama 3)」なら完全無料
「検索部分はローカル、LLMだけGPT-4 API」にすれば月1000円程度
負荷が増えたらVPS or クラウドを検討


次のステップ

  1. 運用方法を決める
    • ローカル運用 or クラウド利用(予算を考慮)
  2. 試作モデルを作る
    • FAISSでデータ検索 → GPTで回答 など
  3. コスト試算をしながら最適化

この方針なら、「信オン専用の質問AI」をほぼ無料 or 低コストで運用できるよ!

メール通知
Notify of
guest
0 Comments
Inline Feedbacks
View all comments