ER Model

1.1 資料與資訊

資料

在我們生活周遭中,資料無所不在的。例如,電視節目與廣告、網頁、書籍雜誌、音樂圖畫等,都是由資料所形成。以人類智能,可容易擷取、辨識、記憶與聯想。但對電腦世界而言,卻是很困難的事。因為在數位世界裡,只有"0"跟"1"兩種狀態,稱之為位元(bit)。若要讓電腦也能呈現實體資訊,則需動些手腳了。

一個位元能夠代表某一事實(fact)的兩個狀態。例如說,門的「開」跟「關」;答案的「是」或「否」。其中一個狀態用0來代表,另一個就是用1來代表。

若有兩個位元時,就可用代表具有四種狀態的某一個事實。也兩個位元就會有下列組合:00(=0),01(=1),10(=2),11(=3)。以數學式來表示,一個位元具備有21 = 2個狀態,兩個位元則有22 = 4個狀態。所以,當有n個字元時,就具備2n 個狀態。當然,n值越大所能代表的狀態就越多。相對地,所要付出的成本也比較多。

假設n = 8時,28 = 256,代表某件事有256個狀態可代表。這些狀態,純就數學而言,只是從0~255的一堆數字而已,應用範圍並不大。因此,聰明的人類,就把這0~255個數字分別給予指定的文數字或符號,稱之為ASCII碼。也就是把八個位元合成一個單位,稱之為位元組(Byte)。

一個Byte可以從000000002 ~ 111111112 (數字右下方的值代表進位值,在此為二進制)。例如說,A這個字,在ASCII碼中十進制是65,十六進制為41。電腦數位世界裡的二進制是用0100 0001來代表。經由這樣子的對應,數位世界的0與1,就充斥在我們周遭。所看到的文數字、符號,甚至是圖形、影像、聲音,都可以用"0"與"1"來組合而成。也就是說,我們所處世界,早已是數位時代了。

資訊

我們已知利用位元組來代表某個事實的狀態。所謂事實,就是人類生活周遭所能理解的某件事情(event)。資料的意義,會隨著依附的事實,做出不同解釋。有些還會賦予適當的單位,提供更明確的資料定義。例如,160只是單純數字,能代表人的身高,桌子的長度,這應用於計量型的資料。也有可能人數、水果個數,屬應用於計數型資料。也有可能用於文字型資料,如郵遞區號、房間編號等。
藉由數學運算,將資料進一步加工,會得到另一個資料。這些資料經由某種特殊目的運算後所得,可稱之為資訊。這些資訊可協助決策判斷之用,亦可經過學習或聯想過程,得到新的資訊或者知識。所謂智者,就是不斷學習累積知識,面對未知挑戰時,做出正確反應。
從知識角度可知,資訊是具有不同層級表現,分別為「事實」、「資料」、「資訊」、「知識」、「智慧」。針對這些層級再詳細說明。

(1) 事實

在我們日常生活周遭,到處充滿既存事實。這些事實,有些是天然的,有些是人為的,更有些是抽象觀念。他們存在與否,我們無法控制,但其存在價值,卻由我們決定。例如身高、體重、距離、姓名、座號、血型、長度、高度、重量等,都是一種既存事實。至於要不要採用(存在價值),由我們決定。
先提供說明,從資料庫的角度,事實稱之為屬性,或欄位名稱。建立資料庫的目的,就是在於收集所關心的事實及其所呈現的內容(data)。

(2) 資料

資料是事實的當時所呈現的狀態。我們可以把事實想像成一個函數,當我們輸入x會得到一個y,這就是資料。
從資料庫角度,資料是最基本單位。其定義為「資訊所呈現的最原始內容」。最簡單說法是「代表某一事實的文字或數字」(Data are the raw material from which information is derived)。例如,某位學生身高是160公分,身高是一個Fact,160是他的Data,公分是此Data的物理單位。
同一個資料內容,搭配不同事實,具有不同意義。例如,160公分,可指人的身高,也可指桌子長度。大部分的事實,所能呈現的資料內容,是具有限制性稱之為定義域。例如血型這個事實,所能呈現的資料內容,不外乎A、B、AB、O型。當然,為了確保「資訊」的完整性,會把資料的定義域予以擴大。血型可能就會多了一項稱之為"其他"的資料內容。或者在更專業應用時,其定義域可能高達23種血型種類。

(3) 資訊

資訊是把一群資料,經過有目的處理後之結果。當然,處理代表著成本,所以,當然要有助於決策執行才有意義。他的定義是「是將資料經過分析、處理、表達的結果,並有助於決策程序」(Information is what results form the thoughtful analysis, manipulation, and presentation of data in a form that will enhance the decision-making process)。
例如,收集台北市某個班級所有學生的身高資料。經過有目的處理,如「平均值」的計算,則可以得知此班級之平均身高。收集同一年級各班級之身高平均之後,則可以得知哪一邊比較高或比較矮。若再配合其他資訊的收集,如家長收入,或居住地,我們就可進一步得知,身高與其他因子間相關性,進而採取某些決策步驟。
資訊具有特定性、時間性等問題。也就是說,在特定問題,且在那個時間點上,才會得到此資訊。可能過一陣子,所得結果就不一樣了。例如,收集平均身高這個資訊,在格一陣子來收集資料並處理之,其結果可能就不同了。

(4) 知識

知識是經由學習,將資訊內化成自己的經驗,並可再應用於下一個決策點上。例如,得知某一個班級的平均身高後這個資訊之後,無須浪費時間與成本,不用一班班的量測身高也大致可以猜的出來,同一年級另一個班級的平均身高。雖然不是很準確,但是還不至於太離譜。
資訊是死的,知識是活的。資訊要被使用,才具有價值。知識是利用許多資訊,產生新的知識。而且相同的資訊,對不同的人會產生不同的知識結果。

(5) 智慧

當我們累積足夠知識基礎後,我們就具備「分析、判斷、創造、思考」的能力。除可讓決策更精確外,更可預測趨勢。而且透過聯想能力,可舉一反三,見微知著。不要說電腦了,人也是不容易達到的。

資訊處理模式

資訊是處理資料之所得,那是如何處理呢?簡單的說,他包含了四個主要元素,分別是:輸入(Input)、處理(Process)、儲存(Store)、輸出(Output)。這是設計資訊系統最基本的概念圖。 資料處理元素

但要注意,電腦資料處理有句名言「垃圾進垃圾出」(Garbage In Garbage Out,GIGO)。如果輸入錯誤資料,產生出來的結果,當然不能指望是正確的。這句話是強調輸入資料正確性之重要。。
關於輸入、輸出在此就不多贅言。而且,隨著資訊技術進步,此變化非常大。寫了,也容易變成過時的東西。僅就處理與儲存兩部分加以說明。

(1) 處理

電腦處理資料的能力非常的多,在此僅提出幾個常見的處理方式。。

  1. 轉換(Conversion):把資料內容從某種形式轉換成另外一種形式。例如,男轉成1;女轉成0。
  2. 合併(Merging):將兩筆或以上符合條件的資料內容,合併成同一份資料。
  3. 排序(Sorting):依據原則,如數字大小、筆畫數等,對一堆資料進行重新整理的動作。
  4. 新增、讀取、更新、刪除(Create, Retrieve, Update, Delete):針對儲存的資料,進行新增一筆資料、讀取符合條件之多筆資料,更新一筆或以上的資料內容,刪除一筆或以上的資料內容。
  5. 運算(Manipulating):利用一些數學或統計的技術,對資料進行計算。有最大、最小、平均、筆數、標準差、變異數等。
  6. 彙總(Summarizing):依據某事實相同資料欄位為群組條件,,再取相關欄位進行運算動作。

(2) 儲存

就硬體而言,當然是指電腦周邊設備。但就資料角度,是代表此資料是以什麼樣的形式來存放。有些是文字檔,可以用記事本來讀取。而這個文字檔的內容,可能是非結構化的。也有可能是結構化。結構化資料,各欄位間可以空白、跳位或者是逗點隔開。若是用逗點隔開,我們還給他一個特殊的名稱,就CSV檔(Comma Separated Values)。這時候,就可以匯入EXCEL。當然,EXCEL也會有自己的檔案格式。 另外,對大型資訊系統而言,儲存成檔案格式在搜尋效能上是不好的。一般都採用資料庫系統。 所以,我們就可以這麼說了,資料庫管理系統是協助我們儲存資料用的,我們開發資訊系統實際上是要完成輸入、輸出與處理的部份。