相信大家看完前五篇的文章後,對Data and AI領域已有初步的了解!接著要帶大家了解資料加上維度的概念,一起看下去吧
目前為止,您已經可以大致區分出不同類型的資料。接下來,我們將從維度 (Dimensions) 的角度來談一談資料。首先,從幾何學來理解維度的概念,當涉及到二維(2-D)和三維(3-D)物體時,維度非常容易理解。例如,畫在紙上的圓形、方形或三角形存在有“寬度”與“高度”這兩個維度。如果是球體、立方體或三角錐體時,便會有“寬度”、“高度”與“深度”這三個維度。
對人類來說,將物體四維視覺化並不是一個困難的任務。在上圖中,有一個四維的例子,從一個顯示 X、Y 和 Z 平面的三維圖形開始,然後加入顏色來代表第四維度。在現實世界中,第四維通常會被稱為時間維度。因此,當一個盒子從一個人手中扔到另一個人手中時,這個盒子存在有四個維度,包括盒子的長度、寬度和高度,以及盒子在空中飛行的時間。
要如何用圖形表示第五維、第六維甚至是更高的維度呢?假設您的資料儲存在一個有四列或更多列的表格中,您可以將每一列都視為資料的不同維度。想像四維以上的資料可能是什麼樣子並不難,但試圖在所有維度中找出資料樣態 (Patterns) 或相互關係 (Correlations) 則變得非常困難。
簡而言之,擁有越多個維度會讓解決問題的難度成倍增加。您的資料若維度越多,您必須檢查更多的資料組合,以便在所有可能的維度組合中找出資料樣態。這也是為什麼線性代數 (Linear Algebra)、機率 (Probability) 和微積分 (Calculus) 成為相當重要的工具。因此,在您嘗試將資料用於人工智慧(AI)、機器學習(ML)和深度學習(DL)之前,消除任何不需要的資料維度是個不錯的主意。