Floating-point và Fixed-point

Post date: Jul 5, 2011 12:45:26 PM

Giới thiệu

Để biểu diễn 1 số thực trên máy tính, số thực thường được ước lượng dưới dạng:

M x A^E

M: (Mantissa) phần định trị
E: (Exponent) phần hệ số mũ
A: cơ số mũ (2, 10, 16)

Ví dụ: 2.45 = 245 x 10^-2 = 0.245 x 10¹

Có 2 phương pháp chính để biểu diễn số thực là Floating Point và Fixed Point. Sự khác biệt giữa floating và fixed là ở thành phần E. Với floating point, E là 1 đại lượng biến thiên, còn với fixed, E là 1 hằng cho trước.

Giá trị A thường là 2 (thường dùng cho fixed point) , 10 (thường dùng cho Floating Point), và 16 (ít dùng).

Floating point

Được chuẩn hóa IEEE-754-1985 (phiên bản mới nhất IEEE-754-2008).

Floating point được biểu dưới dưới dạng nhị phân:

V = M x 2^E

Single Precision (Kiểu float):

F: fraction, đại diện cho phần giá trị của số thực
S = 0, V dương; S = -1,V âm
Exponent được tính bằng hệ cơ số 2
Exponent = E + bias => E = Exponent – bias
Do có nhiều cách biểu diễn 1 số dưới dạng số mũ. IEEE-754 qui định M luôn ở dạng 1.F
Thành phần fraction được tính bởi công thức:
- f = SUM (F[i].2^(i-n)), với i = 0..(n-1)

Các giá trị đặc biệt

Ví dụ: V = 10.245 = 1.0245 x10¹ = 1.2806250.2³

Fraction calculation

Ta có,

S = 0
F = 01000111110101110000101
exponent = 3 + 127 = 130 = 10000010

Vậy, giá trị của V biểu diễn dưới dạng binary: 0 [10000010] [01000111110101110000101]

Double Precision

Đại diện bởi kiểu double.
Nhìn chung Double Precision tương tự Single precision, tuy nhiên có sự mở rộng phạm vi biểu diễn số

Nhận xét

Ưu điểm:
- Số floating point cho phép sấp xĩ 1 số thực với độ chính xác cao
- Phạm vi biểu diễn số thực lớn
Nhược điểm
- Phức tạp trong việc xử lý, dẫn đến hạn chế về tốc độ.

Fixed point

Một cách biểu diễn số thực , nhưng sử dụng dạng thức số nguyên. Một số thực được biểu diễn:

V = M x 2^-E

Với fixed point , ký tự Q thường dùng để định nghĩa thay cho E. Số fixed point Q16, tương đương với E = 16. Giá trị E là không đổi khi biểu diễn 1 số. Để chuyển đổi E, ta dùng công thức chuyển đổi hệ số. Ví dụ :

Để chuyển 1 số từ Q16 sang Q4: Q4 = Q16 >>(16-4)
Để chuyển 1 số từ Q4 sang Q16: Q16 = Q4 <<(16-4)

Biểu diễn dưới dạng nhị phân 1 số fixed Point – 32bits, Q16

M = Sum(F[i]. 2^i), với i = 0...30
S : bit dấu. S = 0, số dương. S = 1, số âm

Số Fixed Point có thể được biểu diễn bởi kiểu int 32 bits. Với việc sử dụng số nguyên, fixed point cho phép xử lý nhanh các phép toán trên trường số thực.

Một số phép toán thông dụng trên số Fixed Point

Các phép toán sau sử dụng Q16

Phép chuyển đổi từ số nguyên sang số Fixed Point:

Fixed_Num = int_num<<k_QFactor

Phép chuyển đổi từ số thực float sang số Fixed Point:

Fixed_Num = ((int)((float_num)*(float)(1<<k_QFactor)))

Phép chuyển đổi từ số fixedPoint sang số nguyên:

Int_num = Fixed_Num>>k_QFactor

Phép chuyển đổi từ số Fixed Point sang số thực:

float_num = ((int)Fixed_Num>>k_QFactor) + (float)((int)Fixed_Num&k_QMask)/(1<<k_QFactor)

Cộng 2 số fixed point: P = P1 + P2
Trừ 2 số fixed point: P = P1 – P2
Nhân 2 số Fixed Point: P = (P1 * P2) >> k_QFactor
Chia 2 số Fixed Point: P = (P1 / (P2 >> k_QFactor))

Với các phép toán khác, xem Computer Arithmetic Algorithms (2nd edition) – Israel Koren.

Page updated

Google Sites

Report abuse