0%
回數據與人工智慧

AI 入門:05半結構化資料

解決方案顧問 王慶祥 (Mike Wang)
2024/2/1 (四)
由上篇介紹的非結構化資料後,緊接著要為大家介紹半結構化資料,那麼現在就請跟著我們的腳步,一起了解其中的知識吧

半結構化資料是什麼?

半結構化資料是一種類似於結構化資料但沒有嚴格結構限制的資料形式,它並沒有像試算表和關聯式資料庫所使用的正式結構,但仍然具備一些組織化的結構特性,例如語意標籤 (Semantic Tags) 和層次結構 (Hierarchies)。相較於非結構化資料,半結構化資料更容易讀取和分析。

AI-28-Course-05

半結構化資料常見的一個例子是超文本標記語言(HTML)程式碼,它可以使用一定的結構方式來表達網頁內容。其他形式的半結構化資料包括:

電子郵件訊息 (Email messages):是一種透過網際網路技術進行數位資訊傳遞與交換的方式,讓寄件人能夠將訊息發送給一個或多個收件人。基本的電子郵件訊息包含“寄件人”、“收件人”、“主題”與“訊息本文”等屬性,而現今的電子郵件訊息內容已經能夠包含各種多媒體格式的數位內容。

CSV 文檔 (Comma Separated Value files):是一種以純文字格式儲存表格資料的文件。類似於試算表,資料由代表“行 (Rows)”的記錄所組成,每一筆記錄則由“列 (Columns)”值組成,列值之間則以逗號作為分隔符號。這種資料格式非常簡單,易於產生和處理,因此廣泛用於不同軟體之間的資料交換與儲存。

XML 文檔 (Extensible Markup Language documents):是一種標記式語言 (Markup language),它依循 HTML 的發展經驗,定義了一套基於標記與層次結構等嚴謹規則的資料描述語言,主要用於將資料編碼為人類和機器均可以閱讀的資料格式。XML 與 HTML 有些相似之處,但 XML 更加通用,並且可以描述不同類型的資料。此外,XML 也具備易於建立與修改、易於解析和處理、以及易於擴展和客製等特點。

SON 文檔 (JavaScript Object Notation objects):是一種基於 JavaScript 程式語言所發展出的格式,用於資料交換。其內容由屬性和值所組成,這種資料結構設計具有易於人類閱讀和機器處理的優勢。

NoSQL 資料庫:是一種不同於關聯式資料庫的資料建模結構,它提供了不同的資料儲存與檢索機制。一般而言,NoSQL 資料庫根據資料儲存的特性和用途可分為以下四種類型:

Key-Value 資料庫:是一種與關聯式資料表不同的資料儲存結構。相較於關聯式資料庫需要事先定義綱要 (Schema),Key-Value 資料庫以“鍵-值”對應的方式來儲存資料。常見的 Key-Value 資料庫包含 Google BigTable、Hadoop HBase 與 Apache Cassandra 等。

In-memory 資料庫:是一種 NoSQL 資料庫,主要特點在於將資料儲存在記憶體中,以提升資料的讀取效率和速度。常見的 In-memory 資料庫包括 Memcached 和 Redis 等。這些資料庫通常被應用於需要高效處理大量數據的場景,以便大幅提升系統的性能和效率。

Document 資料庫:是一種 NoSQL 資料庫,它以文檔的方式儲存資料。與傳統的關聯式資料庫不同,Document 資料庫並不需要固定的資料結構,因此能夠更靈活地應對資料的變化。常見的 Document 資料庫包括 CouchDB 和 MongoDB 等。

Graph 資料庫:是一種使用圖學結構來儲存資料的 NoSQL 資料庫,它能夠有效地描述資料結點 (Nodes) 和關聯 (Relationships) 之間的複雜網路圖架構。Graph 資料庫能夠充分利用資料之間的相關性,進行更為複雜的查詢和分析,最簡單的例子就是 Facebook 中用來描述使用者之間的交友關聯。常見的 Graph 資料庫包含 Neo4j 等。

值得一提的是,現今時代的資料很少是完全沒有結構定義的,或是沒有與之相關聯的中繼資料定義。也就是說,即使被歸類為非結構化的資料,在技術上也可以被認定為半結構化的資料。因此,有些人認為非結構化資料和半結構化資料之間的區別是沒有意義的。

想了解更多,歡迎追蹤北祥科技服務的粉專喔~

robot
您好!有什麼能為您服務的嗎?
嗨寶