Ủng hộ tôi
Thông tin là dữ liệu lưu trữ, truyền đi, hay nhận được mà giải quyết tính không chắc chắn trong một ngữ cảnh cụ thể. (Trong Xác suất - Thống kê, tính không chắc chắn còn được gọi là độ bất định hay độ đo khả năng có thể xảy ra của sự kiện (hay còn gọi là biến cố). Nếu một biến cố không bao giờ xảy ra thì xác suất của nó bằng 0, ngược lại, nếu một biến cố chắc chắn xảy ra thì xác suất của nó bằng 1. Đại lượng xác suất có giá trị trong đoạn [0,1]).
Lấy một tình huống đơn giản: bạn cần biết đội tuyển nào thắng trong trận bán kết tối qua giữa Việt Nam và Indonesia, ngay lập tức bạn mở trình duyệt Web lên và nhận được một bản tỉ số có hiện Việt Nam 1 : 0 Indonesia trên màn hình. Dĩ nhiên với những gì vừa quan sát bạn có thể biết ngay được đội tuyển nào thắng trong trận bán kết tối qua giữa Việt Nam và Indonesia. Như vậy dữ liệu ở đây là “Vietnam 1 : 0 Indonesia”, dữ liệu này giải quyết tính không chắc chắn là “đội tuyển nào thắng” trong ngữ cảnh “trận bán kết tối qua”.
Thông tin là một khái niệm trừu tượng, tồn tại khách quan, làm tăng tri thức của con người. Nếu một thông tin không đem lại tri thức thì thông tin này không có giá trị. Chẳng hạn, bạn đã biết kết quả của trận bán kết tối qua, và một lúc sau bạn lại nghe được một người bạn của bạn kể về kết quả của trận bán kết tối qua thì thông tin mà bạn nhận được từ trình duyệt Web đem lại tri thức cho bạn - thông tin có giá trị, còn thông tin mà bạn vừa nghe được từ người bạn của bạn không đem lại tri thức cho bạn - thông tin không có giá trị. Ngược lại, nếu bạn nghe được kết quả từ người bạn của bạn trước thì đây là thông tin có giá trị, còn thông tin nhận được từ trình duyệt Web không có giá trị.
Để hiểu rõ hơn về mối quan hệ giữa thông tin và dữ liệu, cùng xem xét ví dụ điển hình sau: bạn nhận được một số dữ liệu về việc chọn ra 1 con số ngẫu nhiên từ 0 tới 9 (tổng cộng có 10 con số) như sau:
A: Số chẵn.
B: Số nguyên tố.
C: Số chia hết cho 4.
D: Số lớn nhất.
Vậy, dữ liệu nào (A, B, C hay D) mang nhiều thông tin nhất? Dữ liệu nào mang ít thông tin nhất?
Đầu tiên chúng ta cần xác định rõ đâu là dữ liệu và đâu là ngữ cảnh biểu diễn thông tin? Trong trường hợp hợp này, ngữ cảnh chính là 10 con số tự nhiên (từ 0 tới 9) và 4 dữ liệu là: Dữ liệu A biểu diễn thông tin số chẵn, dữ liệu B biểu diễn thông tin số nguyên tố, dữ liệu C biểu diễn thông tin số chia hết cho 4, và dữ liệu D biểu diễn thông tin số lớn nhất.
Tiếp theo chúng ta cần xác định lượng thông tin mà mỗi dữ liệu biểu diễn. Để xác định được điều này, chúng ta cần xác định nội dung của mỗi dữ liệu. Với kiến thức mà chúng ta đã trải qua từ những năm Trung học Phổ thông thì bạn dễ dàng biết được:
Dữ liệu A gồm: 0, 2, 4, 6, 8.
Dữ liệu B gồm: 2, 3, 5, 7.
Dữ liệu C gồm: 0, 4, 8.
Dữ liệu D gồm: 9.
Khả năng để chọn được số chẵn là 5/10, khả năng chọn được số nguyên tố là 4/10, khả năng chọn được số chia hết cho 4 là 3/10 và khả năng chọn được số lớn nhất là 1/10. Theo đó, tính không chắc chắn của việc chọn được số số chẵn là thấp nhất và tính không chắc chắn của việc chọn được số lớn nhất là cao nhất. Như vậy, để chọn được số chẵn thì bạn cần ít thông tin nhất và để chọn được số lớn nhất chúng ta cần nhiều thông tin nhất.
Dữ liệu là thể hiện của thông tin dưới dạng các tín hiệu vật lý. Thông tin chứa đựng ý nghĩa (tri thức), còn dữ liệu là các dữ kiện không có cấu trúc và không có ý nghĩa rõ ràng nếu nó không được tổ chức và xử lý.
Nếu tinh ý thì dễ dàng nhận thấy rằng, trong ví dụ vừa đi qua thì các số 0, 2, 4, 6 và 8 là 5 dữ kiện của dữ liệu A. Dữ liệu B có 4 dữ kiện là các số 2, 3, 5 và 7. Dữ liệu C có 3 dữ kiện là các số 0, 4 và 8. Dữ liệu D thì chỉ gồm duy nhất 1 dữ kiện là số 9.
Cùng một thông tin, có thể được biểu diễn bằng những dữ liệu khác nhau. Chẳng hạn, cần biểu diễn thông tin một đơn vị, trong hệ thống số thập phân ta dùng ký hiệu 1, còn trong hệ đếm La Mã ta dùng ký hiệu I. Mỗi dữ liệu lại có thể biểu diễn nhiều thông tin khác nhau. Cùng là ký hiệu I, trong ngữ cảnh văn phạm tiếng Anh thì có nghĩa là đại từ nhân xưng ngôi thứ nhất - tôi, còn trong toán học lại là chữ số La Mã có giá trị là 1. Điều này lý giải mối quan hệ: thông tin = dữ liệu + ngữ cảnh.
Trong khái niệm thông tin có chứa khái niệm về dữ liệu và chúng ta vừa tìm hiểu về khái niệm dữ liệu. Trong khái niệm dữ liệu có thêm một khái niệm mới là tín hiệu, vì thế chúng ta sẽ tiếp tục tìm hiểu khái niệm về tín hiệu.
Tín hiệu được định nghĩa như là bất kỳ đại lượng vật lý nào thay đổi theo thời gian, không gian. Từ mối quan hệ giữa thông tin, dữ liệu và tín hiệu, chúng ta có thể kết luận rằng: tín hiệu là đại lượng mang thông tin - một phát biểu mà chúng ta luôn luôn gặp trong các cuốn sách viết về Xử lý Tín hiệu hay các cuốn sách viết về Lý thuyết Thông tin mà các bạn đều sẽ có cơ hội học sau này. Như vậy, việc thao tác với thông tin chính là thao tác với tín hiệu.
Mỗi tín hiệu có thể dùng để biểu diễn nhiều thông tin khác nhau. Ví dụ tín hiệu mời bạn bè đi ăn tối có thể mang thông tin là người mời vừa được nhận lương, hoặc có thể mang thông tin là người mời muốn làm quen, hoặc cũng có thể mang thông tin là người mời vừa được thăng chức, ....
Tín hiệu có thể chia ra thành 2 loại:
Tín hiệu liên tục: Tín hiệu có giá trị thay đổi liên tục theo thời gian
Tín hiệu rời rạc: Tín hiệu đã được lấy mẫu, nghĩa là tín hiệu có giá trị thay đổi rời rạc theo một khoảng thời gian xác định trước. Khoảng thời gian này được gọi là chu kỳ lấy mẫu. Tín hiệu rời rạc sau khi được lượng tử hóa được gọi là tín hiệu số. Lượng tử hóa là quá trình mã hóa để lưu trữ thông tin.
Trong hướng dẫn này, chúng ta chỉ đề cập tới tín hiệu số. Các tín hiệu số này chỉ mang các giá trị 0 và 1 nên hoàn toàn phù hợp với việc lưu trữ, xử lý và truyền thông tin trong các hệ thống điện toán kỹ thuật số dựa trên hệ thống số nhị phân mà chúng ta đang tìm hiểu.
Để có thể thao tác, lưu trữ, truyền thông tin, đầu tiên cần phải định lượng thông tin, nói cách khác là chúng ta cần đo thông tin. Việc định lượng thông tin giống như việc xác định khối lượng của hàng hóa (nặng bao nhiêu kg), chiều dài của hàng hóa (dài bao nhiêu m), ...
Đơn vị của thông tin là bit, cũng như độ dài có đơn vị là mét và thời gian có đơn vị là giây. Bit là viết tắt của binary digit, nghĩa là ký số nhị phân. Mỗi ký số nhị phân chỉ có 2 giá trị: 0 và 1. Tất nhiên, việc chúng ta biết được lượng thông tin theo bit không có nghĩa là chúng ta biết ý nghĩa hay nội dung của thông tin (tri thức mà thông tin mang lại). Trong phạm vi tài liệu này chúng ta sẽ không đề cập đến ý nghĩa hay nội dung của thông tin, chúng ta chỉ đề cập đến lượng thông tin ngoại trừ được chỉ rõ.
Ngoài đơn vị đo độ dài tiêu chuẩn là mét (m) chúng ta còn sử dụng kilo mét (km) trong trường hợp độ dài cần đo quá lớn hay centi mét (cm) trong trường hợp độ dài cần đo quá nhỏ. Đơn vị đo thông tin cũng thế, khi lượng thông tin quá lớn thì chúng ta có thể sử dụng một số đơn vị đo thông tin như sau:
Byte (B): 1 B = 8 b
Kilo Byte (KB): 1 KB = 1024 B
Mega Byte (MB): 1 MB = 1024 KB
Giga Byte (GB): 1 GB = 1024 MB
Tera Byte (TB): 1 TB = 1024 GB
Giả sử chúng ta đối mặt với N lựa chọn, và chúng ta nhận được dữ liệu giúp chúng ta thu hẹp xuống M lựa chọn. Xác suất mà dữ liệu có thể nhận được là M/N, vì thế lượng thông tin mà chúng ta có thể nhận được sẽ tính theo công thức 1.1.
Công thức 1.1: Định lượng thông tin
Ví dụ, thông tin nhận được từ việc tung đồng xu có N = 2, M = 1 là log2(2/1) = 1 bit. Một ví dụ khác, thông tin nhận được từ việc gieo 2 con xúc xắc có N = 36, M = 1 là log2(36/1) = 5.17 bit. Trong ví dụ thứ 2, mặc dù lượng thông tin nhận được là 5.17 bit nhưng thực tế chúng ta chỉ có thể sử dụng số bit là một số nguyên để lưu trữ thông tin, vì thế để đảm bảo định lượng và lưu trữ đủ thông tin thì chúng ta cần 6 bit.
Cùng quay lại với ví dụ điển hình về việc chọn ra 1 con số ngẫu nhiên trong 10 con số mà chúng ta đã cùng tìm hiểu trong phần đầu của Phụ lục B. Chúng ta đã dùng phương pháp liệt kê các dữ kiện để xác định được dữ liệu nào mang nhiều thông tin nhất. Hãy cùng sử dụng mô hình toán học mà Shannon đã phát triển để kiểm chứng lại kết luận của chúng ta:
Lượng thông tin được mang bởi dữ liệu A: log2(10/5) = 1
Lượng thông tin được mang bởi dữ liệu B: log2(10/4) = 1.32
Lượng thông tin được mang bởi dữ liệu C: log2(10/3) = 1.74
Lượng thông tin được mang bởi dữ liệu D: log2(10/1) = 3.33
Như vậy, kết quả tính toán theo phương trình đo thông tin của trùng khớp với kết quả của chúng ta đó là dữ liệu D mang nhiều thông tin nhất.
Xem bài giảng về định lượng thông tin tại video: https://youtu.be/hkB9xbpJSOg