MTEBで埋め込みモデルを評価する：実践ガイド7 min read

MTEBで埋め込みモデルを評価する：実践ガイド

Sarah Chen

@sarah_embeddings

EN→

✦この記事はEmbeddingsで翻訳されました · EN →

埋め込みモデルを選ぶ時、何を基準にするか。MTEBはその答えを出すために設計された包括的なベンチマークだ。

MTEBとは

Massive Text Embedding Benchmarkの略。HuggingFaceがホストするリーダーボードで、56タスク・112言語にわたるモデルの性能を比較できる。タスクカテゴリはClassification、Clustering、Retrieval、Semantic Textual Similarityなど7種類。

用途別の読み方

セマンティック検索を作りたいなら、RetrievalスコアとRerankingスコアを優先して見る。分類タスクには向かないモデルが検索では強い場合がある。

pythonoriginal preserved

from mteb import MTEB
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("intfloat/multilingual-e5-large") evaluation = MTEB(tasks=["NFCorpus", "SCIDOCS"]) results = evaluation.run(model, output_folder="results") ```

多言語モデルの注意点

MTEBの多言語タスク（MIRACL等）のスコアが英語タスクと大きく異なるモデルがある。日本語・韓国語を含むユースケースでは必ず多言語タスクのスコアを確認する。

現時点のおすすめ

コスト優先：multilingual-e5-large（OSS、1536次元）。精度優先：Gemini Embedding 2（クロスリンガルに特に強い）。バランス：Cohere Embed v3（多言語、128次元から選択可）。