LLM/Mistralへのプログラム・アクセスの調査記録

Xにポスト
Facebookにシェア
はてなにブックマーク
リンクをコピー

カテゴリ一覧＞ AI＞

更新日 2025-06-25

Mistral モデルの導入手順

導入する Mistral のモデルとして「TheBloke/Mistral-7B-Instruct-v0.2-GGUF」を採用。

また、プログラムでアクセスする方法として「llama.cpp (llama-cpp-python)」ライブラリを採用。

補足1：実行フレームワークについて

Mistral 社がホストしているモデルであれば、公式 SDK の「mistralai」が提供されている
ローカル環境向けには公式 SDK「mistral_inference」が提供されている。
※ Mistral-7B-Instruct-v0.3 モデルのページには mistral_inference の利用推奨を明記
ただし、CPU 環境では NVIDIA ドライバ未検出等のエラーが発生し動作しない
Transformes による実行がモデルのページに記述されておりデファクトであった模様
前述の Gemma のサンプルコードでモデル名を Mistral のモデルに変更すれば論理的には動作するはず
※ 非力なCPU環境では起動中にプロセスの強制 kill により停止
軽量ライブラリの llama.cpp と量子化済みのモデルであれば CPU 環境でも動作

補足2：Mistral モデルについて

小規模な汎用モデルとして Mistral 7B (Base / Instruct) が Hugging Face に公開されている
Mistral-7B-Instruct の最新版は v0.3 だが、サイズが 15GB～程ある
量子化済みのモデルは v0.2 ベースで、Q4_K_M であればサイズは 4GB 程度

インストール手順

1. システム準備

sudo apt update && sudo apt upgrade -y
sudu apt install -y python3-venv python3-pip

2. 仮想環境準備

# 作業ディレクトリ作成
mkdir ~/hiprojects/mistral
cd ~/hiprojects/mistral

# 仮想環境作成
python3 -m venv venv
source venv/bin/activate

# パッケージのインストール
pip3 install llama-cpp-python fastapi uvicorn

3. 推論モデルのダウンロード

# カレントディレクトリの models 配下にダウンロード
wget https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf -P ./models/

ディレクトリサイズを確認して 4GB 程度であれば成功。

$ du -sh ./models
4.1G    ./models

4. 推論プログラムの作成

FastAPI に post エンドポイントを設定し、受け取った文字列を llama.cpp のライブラリで処理するサンプルコード。

# main.py

from fastapi import FastAPI, Request
from pydantic import BaseModel
from llama_cpp import Llama

# FastAPI の起動
app = FastAPI()

# ダウンロードしたファイルの格納先
MODEL_PATH = "./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf"

# llama のインスタンス生成
llm = Llama(
  model_path=MODEL_PATH,
  n_ctx=2048,
  n_threads=1,
  verbose=False
)

class ChatInput(BaseModel):
  message: str

# エンドポイントの登録
@app.post("/api/v1/chat")
def chat(input: ChatInput):
  # プロンプトを生成
  prompt = f"[INST]{input.message}[/INST]"

  # 推論実行
  output = llm(
    prompt,
    max_tokens=128,
    temperature=0.7,
    stop=["</s>"],
    echo=False
  )

  # 推論結果の返却
  return { "response": output["choices"][0]["text"] }

5. 推論プログラムの起動／動作確認

uvicorn main:app --host 0.0.0.0 --port 8082

–host 0.0.0.0 の指定により WSL2 上のすべてのインターフェースを公開。ローカルでの確認であれば curl 等で http://localhost:8082/api/v1/chat にアクセスし応答を確認。

# Windows 11 の curl.exe の例
curl.exe -X POST http://localhost:8082/api/v1/chat -H "Content-Type: application/json" -d "{\"message\":\"こんにちは。調子はいかがですか\"}"

正常に動作すれば AI からの応答が得られます。日本語向けにチューニングされていないため文脈はおかしなところ多数。

{"response":" 私は英語言語でrespondしています。そのため、あなたの言葉を直接理解することはできません。しかし、「こんにちは」は「こんにちは、はじめまして」や「こんにちは、いつもお疲れ様です」などと翻訳されることが多いです。「はじめまして」は「お名前を知らず、お会計な"}

inoue55

Recommendation

社会人インターン制度とは？

About

社会人インターン制度とは、
未経験の方がエンジニアになることを目的とした当社独自のインターン制度です。

社会人インターン制度とは、
未経験の方がエンジニアになることを目的とした
当社独自のインターン制度です。

社会人インターン4つのメリット

プロのエンジニアと一緒にスキルを磨ける

実務経験豊富なエンジニアが、質問対応やコードレビューを実施。
正しい学習プロセスで実力をつけられます。

開発現場を再現した教材で学べる

実際の開発現場をもとにした教材を使用。
相互レビューを通じ、多角的な視点でコード品質を高められます。

業務に必要なタスク処理能力が習得できる

設計理解や成果物基準を意識したタスク処理を習得。
複雑なシステムを理解し、効率的に対応する力を磨きます。

幅広い技術と設計スキルを学べる

インフラ構築やコンサル技法など、プログラミングだけでなく実務で求められる幅
広いスキルを習得できます。

インターンの詳しい流れを見る

インターン受講者の声

Voice

プロに支えられながら一歩ずつ成長を実感

未経験からの挑戦でしたが、プロのエンジニアがすぐ近くで指導してくれたおかげで、実務レベルのコーディングスキルを身に着けられました。分からない部分はすぐ質問でき、自分のコードも丁寧にレビューしてもらえました。インターン中は実務の開発現場を模した教材を使うため、まるで本当にプロジェクトに参加しているような感覚で学べました。将来のエンジニアキャリアを具体的にイメージできて良かったです。

A.Kさん / 20代 / 男性 / 正社員希望

開発の基礎から複雑なシステムへの対応力までを取得

複雑なシステムの設計や構造を理解する力を学べるのが、このインターンの大きな特徴です。実務に即したタスクを経験することで、単なるプログラミングスキル以上のものを身に着けられました。インターン生同士で相互レビューを行う機会もあり、多角的な視点で自分の課題を確認できたのは大きな成長につながったと思います。これからも開発の現場で生かせるスキルを磨いていきたいです。

M.Yさん / 20代 / 女性 / 契約社員希望

幅広い技術を学べる実践的なインターン

インターン中はAWSを使ったインフラ構築やサーバ設定、自動テストの実装など、幅広い技術を体系的に学ぶことができました。特に設計や要件定義からシステムの構築に至るまでのプロセスは、実務での価値を強く実感しました。プログラミングだけでなく、設計やコンサルティング能力まで磨けるのは、このインターンの大きな魅力だと思います。自分のスキルの幅を広げられる絶好の機会でした。

T.Rさん / 30代 / 男性 / 業務委託希望