向量搜尋概念
向量搜尋是新增至 Cassandra 5.0 的新功能。這是一種在大型資料集中尋找相關內容的強大技術,特別適用於 AI 應用程式。向量搜尋也會使用 儲存附加索引 (SAI),利用後者功能的新模組化。向量搜尋是驗證 SAI 可擴充性的第一個實例。
儲存在資料庫中的資料很有用,但資料的內容對應用程式至關重要。應用程式中的 機器學習 使用者可以獲得產品推薦、比對類似圖片,以及許多其他功能。機器學習模型是一個可以從先前未見的資料集中找出模式或做出決定的程式。為了在應用程式中提供機器學習模型的動力,向量搜尋會對儲存的資料庫資料進行相似性比較,以找出資料中可能未明確定義的關聯性。
在機器學習模型中進行相似性比較的一個關鍵是能夠儲存 嵌入式 向量,也就是表示特定物件或實體相似性的浮點數陣列。向量搜尋為高可用性 Apache Cassandra 資料庫帶來此功能。
向量搜尋的基礎在於嵌入,這是文本或影像的精簡表示,以浮點數的高維度向量表示。對於文本處理,嵌入是透過將文本輸入機器學習模型而產生。這些模型通常使用神經網路將輸入轉換成固定長度的向量。當單字表示為高維度向量時,目標是排列這些向量,讓相似的單字在向量空間中距離較近,而相異的單字距離較遠。以這種方式建立向量稱為保留語意或結構相似性。嵌入擷取文本的語意意義,進而讓查詢能依賴對文本更細緻的理解,而不是傳統的基於術語的方法。
大型語言模型 (LLM) 會為資料產生脈絡嵌入,並針對查詢最佳化嵌入。像 LLM 產生的訓練嵌入可用於自然語言處理 (NLP) 任務,例如文本分類、情緒分析和機器翻譯。您幾乎可以嵌入任何類型的資料,並透過向量搜尋取得良好的結果。隨著模型持續改善,結果品質也會持續提升。
儲存附加索引 (SAI)
SAI 是一項必要的功能,可為資料庫提供無與倫比的 I/O 吞吐量,以使用向量搜尋以及其他搜尋索引。SAI 是高度可擴充且全球分佈的索引,可將欄位層級索引新增至任何向量資料類型欄位。
SAI 提供最豐富的索引功能,同時索引查詢和內容(大型輸入包括文件、單字和影像等項目)以擷取語意。
如需瞭解 SAI 的更多資訊,請參閱儲存附加索引文件。
您無法在不刪除並重建索引的情況下變更索引設定。 |
建議先建立索引,再載入資料。此方法可避免在載入資料時同時建立索引。
新的向量 CQL 資料類型
已新增一個新的向量資料類型至 CQL 以支援向量搜尋。它旨在儲存和擷取嵌入向量。