ジャストシステムが2000年~2005年頃に販売開始した製品にConceptBaseというのがありました。
一言で言えば、類似文書検索システムです。ある文書と良く似た内容の文書を社内の文書ライブラリーから探して来るとか、FAQシステムとして、何かの不具合の解決方法を書いた文書を探すとか、そういうためのものでした。
その基礎になっている技術は、マハラノビスの汎距離と言って、ある文書の中の名詞系の語彙だけを抜き出し、それらの語彙に対して一種の分類を行い、分類の種類を一つの座標軸にし、単語の出現回数によって多数のベクトルを持った多次元ベクトル空間を作り、その重心を取ります。類似文書とはつまりその重心同士の距離が短いということになります。
これって実は今話題の生成AIのEmbeddingと呼ばれる技術そのものです。ただConceptBaseの頃は名詞系の語彙だけで多次元ベクトル空間を作りましたけど、今はトークンと呼ばれていますけど、名詞系以外の形態素も含めて分類情報を与えているのだと思います。
ちなみにChatGPT4にマハラノビスの距離とEmbeddingが関係あるか聞いてみました。回答はやはりその通りでした。
Q: 生成AIのEmbeddingは、マハラノビス距離と関連がありますか?
A: ChatGPT
はい、マハラノビス距離と生成AIのembeddingには関連があります。マハラノビス距離は、特徴空間において、データの分布を考慮して2つの点またはデータセット間の距離を測定する方法を提供します。生成モデルのembeddingは、高次元データを低次元空間にマッピングし、データ間の関係を捉える役割を果たします。
具体的には、生成モデルが学習する過程で、データの内部構造やデータ間の関係を学習し、これらの情報を低次元のembedding空間にエンコードします。マハラノビス距離を利用することで、この低次元空間においてデータ点間の相対的な距離をより適切に計算し、クラスタリングや異常検知、類似度計算など多くのタスクを効果的に行える可能性があります。マハラノビス距離は、特にデータの分布が正規である場合や共分散行列が利用可能な状況で有用です。
ちなみにこのマハラノビス距離は、品質保証の分野でも、田口メソッドと組み合わせたマハラノビス・タグチ法として、機械などの運用中に起こりうる不具合の時期を予測する技術としても使われています。