DataStax 詞彙表
C
基數
欄位中唯一值的數量。例如,每個員工唯一的 ID 號碼欄位具有高基數,而員工郵遞區號欄位具有低基數,因為多個員工可以具有相同的郵遞區號。
具有低基數欄位的索引可以提升讀取效能,因為索引顯著小於欄位。高基數欄位的索引可能會降低效能。如果您的應用程式需要在高基數欄位上進行搜尋,則最佳的選擇是物化檢視。
叢集欄位
在表格定義中,叢集欄位是複合主鍵定義的一部分。請注意,叢集欄位不能是第一個欄位,因為該位置是保留給分割鍵。欄位在單一分割中的多個列中進行叢集。叢集順序由複合主鍵定義中欄位的順序決定。
合併策略
將多個網路訊息合併到單一封包的策略,用於與同一個資料中心 (intra-DC) 或不同資料中心 (inter-DC) 中的節點建立外連 TCP 連線。合併策略會提供一個包含待處理訊息的封鎖佇列和一個要傳送訊息的輸出集合。
欄位家族
列的容器,類似於關係系統中的表格。在 CQL 3 中稱為表格。
壓縮
合併SSTable、捨棄墓碑並重新產生 SSTable 索引的程序。可用的壓縮策略包括
複合主鍵
由分區金鑰組成(用於確定儲存資料的節點)以及一個或多個其他 欄(用於確定叢集)。
E
EBNF
EBNF(擴充 Backus-Naur 範式)語法表達一種上下文無關文法,用於正式描述一種語言。EBNF 在其前身 BNF(Backus-Naur 範式)的基礎上進行了擴充,允許在展開中使用其他運算符。語法(鐵路)圖形化地描繪了 EBNF 文法。
嵌入
機器學習中的一種數學技術,其中複雜的高維數據表示為低維空間中的點。創建嵌入的過程保留了原始數據的相關屬性,例如距離和相似性,從而實現更輕鬆的計算處理。例如,自然語言處理 (NLP) 中具有相似含義的詞彙可以在縮小的空間中彼此靠近,從而便於在機器學習模型中使用它們。
最終一致性
數據庫最大程度地提高了可用性和分區容錯能力。數據庫通過在讀取操作期間更新所有副本並定期檢查和更新未直接訪問的任何副本,來確保最終數據一致性。更新和檢查可確保任何查詢始終返回結果集的最新版本,並且任何給定行的所有副本最終會完全彼此一致。
H
HDD
硬碟驅動器 (HDD) 或旋轉磁碟是一種數據儲存裝置,用於使用一個或多個快速旋轉的剛性磁碟儲存和檢索數位資訊。與SSD比較。
L
分層壓縮策略 (LCS)
此壓縮策略會建立大小固定且相對較小的 SSTable,並將其分組到不同的層級中。在每個層級中,SSTable 保證不會重疊。每個層級(L0、L1、L2 等)的大小是前一層級的十倍。隨著 SSTable 持續壓縮到越來越大的層級,較高層級的磁碟 I/O 會比較低層級的更均勻且可預測。在每個層級中,列鍵會合併到下一層級中不重疊的 SSTable 中。此程序會改善讀取效能,因為資料庫可以判斷每個層級中哪些 SSTable 要檢查列鍵資料是否存在。
P
分區摘要
分區索引 的子集。預設會抽樣 128 個分區金鑰中的 1 個。
分區器
將資料分佈到整個叢集。分區器的類型包括 Murmur3Partitioner(預設)、RandomPartitioner 和 OrderPreservingPartitioner。
無法解析 modules/ROOT/pages/glossary.adoc 中的 include 指令 - include::ROOT:partial$persistent-volume.adoc[]
無法解析 modules/ROOT/pages/glossary.adoc 中的 include 指令 - include::ROOT:partial$persistent-volume-claim.adoc[]
主鍵
分區金鑰。一或多個欄位,用來唯一識別 表格 中的一列。
R
複製因子 (RF)
整個叢集的複本總數,簡稱為 RF。複製因子為 1 表示叢集內每列只有一個副本。如果包含該列的節點發生故障,則無法擷取該列。複製因子為 2 表示每列有兩個副本,且每個副本都在不同的節點上。所有複本都同樣重要;沒有主複本或主要複本。
複製群組
請參閱 資料中心。
列快取
用於提升讀取密集操作效能的資料庫元件。列快取會在非堆疊記憶體中儲存從本機 SSTable 最近讀取的列。每個本機讀取操作會將其結果集儲存在列快取中,並將其傳送至協調器節點。下一次讀取會先檢查列快取。如果所需的資料存在,資料庫會立即傳回資料。此初始讀取可節省在 Bloom 篩選器、分割鍵快取、分割摘要、分割索引和 SSTable 中的進一步搜尋。
資料庫使用 LRU (最近最少使用) 驅逐演算法,以確保列快取會更新為最常存取的列。列快取的大小可以在 cassandra.yaml 檔案中設定。
S
種子
種子或種子節點用於引導加入叢集的新節點的八卦程序。種子節點不提供其他功能,且不是叢集的單一故障點。
無法解析 modules/ROOT/pages/glossary.adoc 中的 include 指令 - include::ROOT:partial$segment.adoc[]
可序列化一致性
請參閱 可線性化一致性。
SizeTieredCompactionStrategy (STCS)
預設壓縮策略。此策略會在磁碟上有許多大小相似的 SSTable 時觸發次要壓縮,由表格子屬性 min_threshold 設定。次要壓縮不會涉及鍵空間中的所有表格。另請參閱相關 CQL 文件中的STCS 壓縮子屬性。
SSD
固態硬碟 (SSD) 是一種固態儲存裝置,使用整合電路來持續儲存資料。與 HDD 相較。
串流
一個在叢集中處理節點之間資料交換的元件。它是 SSTable 檔案的一部分。
範例包括
-
在啟動新節點時,新節點會使用串流從現有節點取得資料。
-
在執行 nodetool repair 時,節點會使用串流交換不同步的資料。
-
在從備份大量載入資料時,sstableloader 會使用串流來完成任務。
強一致性
當資料庫讀取資料時,它會在傳回結果之前執行 讀取修復。
T
TimeWindowCompactionStrategy (TWCS)
此壓縮策略會根據一系列時間視窗壓縮 SSTable。在目前的時間視窗中,SSTable 會壓縮成一個或多個 SSTable。在目前的時間視窗結束時,所有 SSTable 會壓縮成一個較大的 SSTable。壓縮程序會在下一時間視窗的開始重複。每個 TWCS 時間視窗都包含指定範圍內的資料,並包含不同數量的資料。
令牌
環上取決於分區器的元素。決定節點在環上的位置和它負責的資料部分。Murmur3Partitioner(預設)的範圍為 -263 到 +263。RandomPartitioner 的範圍為 0 到 2127-1。
可調整一致性
資料庫確保任何給定列的所有複製品 最終會完全一致。對於需要立即且完全一致性的情況,可以調整資料庫以提供指定作業、資料中心或叢集的 100% 一致性。資料庫無法調整為所有資料和作業完成一致性。
U
UnifiedCompactionStrategy (UCS)
此壓縮策略會根據一系列時間視窗壓縮 SSTable。在目前的時間視窗中,SSTable 會壓縮成一個或多個 SSTable。在目前的時間視窗結束時,所有 SSTable 會壓縮成一個較大的 SSTable。壓縮程序會在下一時間視窗的開始重複。每個 TWCS 時間視窗都包含指定範圍內的資料,並包含不同數量的資料。
涵蓋分層、階層和時間窗壓縮策略的應用,包括在壓縮層級不同層級中分層和階層的組合。此壓縮可以以類似於 [STCS](其中 w = T4 符合 STCS 的預設臨界值 4)、LCS(其中 w = L10 以符合 LCS 的預設扇出係數 10)的模式運作,並且在與大型階層扇出係數(例如 w = T20)搭配使用時,也能夠很好地處理時間序列工作負載。讀取密集型工作負載,特別是無法從布隆過濾器或時間順序中受益的工作負載(即廣泛分區非時間序列)最適合分層配置。寫入密集型、時間序列或鍵值工作負載最適合階層配置。
X、Y、Z
殭屍
刪除後在資料庫表格中重新出現的行或儲存格。如果節點長時間停機,然後在未修復的情況下還原,則可能會發生這種情況。
已刪除的資料不會從資料庫表格中刪除;它會標記為 墓碑,直到壓縮。在一個節點上建立的墓碑必須傳播到包含已刪除資料的節點。如果其中一個節點在此之前發生故障,則該節點可能無法收到最新的墓碑。如果節點在重新上線之前未修復,則資料庫會找到未標記墓碑的項目,並將其作為新資料傳播到其他節點。
為避免此問題,請在將任何已還原的節點重新加入其叢集之前,對其執行 nodetool repair。