Y
e.
embeddings.socialMTEBで埋め込みモデルを評価する:実践ガイド
S
Sarah Chen
@sarah_embeddings
EN→
✦この記事はEmbeddingsで翻訳されました · EN →
埋め込みモデルを選ぶ時、何を基準にするか。MTEBはその答えを出すために設計された包括的なベンチマークだ。
MTEBとは
Massive Text Embedding Benchmarkの略。HuggingFaceがホストするリーダーボードで、56タスク・112言語にわたるモデルの性能を比較できる。タスクカテゴリはClassification、Clustering、Retrieval、Semantic Textual Similarityなど7種類。
用途別の読み方
セマンティック検索を作りたいなら、RetrievalスコアとRerankingスコアを優先して見る。分類タスクには向かないモデルが検索では強い場合がある。
pythonoriginal preserved
from mteb import MTEB
from sentence_transformers import SentenceTransformermodel = SentenceTransformer("intfloat/multilingual-e5-large") evaluation = MTEB(tasks=["NFCorpus", "SCIDOCS"]) results = evaluation.run(model, output_folder="results") ```
多言語モデルの注意点
MTEBの多言語タスク(MIRACL等)のスコアが英語タスクと大きく異なるモデルがある。日本語・韓国語を含むユースケースでは必ず多言語タスクのスコアを確認する。
現時点のおすすめ
コスト優先:multilingual-e5-large(OSS、1536次元)。精度優先:Gemini Embedding 2(クロスリンガルに特に強い)。バランス:Cohere Embed v3(多言語、128次元から選択可)。