Dữ Liệu Số Lượng Lớn ... Dũng Anh

Dữ Liệu Số Lượng Lớn Là Gì?

Năm hết Tết đến, lại thêm một cơ hội để đánh giá những thành quả mà con nguời đã đạt được và chuẩn bị tinh thần để đối phó với những gì sẽ xảy ra trong năm mới.

Trên phương diện truyền thông đại chúng như Internet và Youtube, những năm tháng vừa qua nổi lên chuyện ồn ào trong lãnh vực khoa học kỹ thuật là chuyện "big data", tạm dịch là “dữ liệu số lượng lớn”. Hmmm … big data là gì mà sao ồn ào thế nhỉ? Có ảnh hưởng gì đến đời sống mọi nguời không mà sao có quá nhiều người, nhiều công ty quan tâm? ([1]).

Big data (BD) bao gồm các dữ liệu mà người và máy đã và đang tạo ra. Những dữ liệu này được tích lũy dưới đủ mọi hình dạng như in trên giấy hay trên các trang mạng bằng chữ hay số, hoặc dưới hình thức khác như âm thanh (Audio), hình ảnh, hay Videos. Big data cũng bao gồm các dữ liệu từ những gì đang di chuyển như điện thoại di động và các hệ thống mạng cảm ứng đo đạc môi trường xung quanh, hay những dữ liệu được tạo ra và sử dụng trong nhiều ngành chuyên môn như Kỹ Thuật Sinh Học (Biotechnology) hay Khoa Học Không Gian.

Thật vậy, hiện nay số lượng dữ liệu được sản xuất và lưu trữ đang theo định luật Moore, trước đây đã được áp dụng cho bộ phận xử lý computers (microprocessors). Định luật Moore tiên đoán rằng máy computer cứ mỗi hai năm, sau sửa lại là 18 tháng, số lượng transitors cài đặt trong bộ phận xử lý có thể tăng gấp đôi, làm computers càng ngày càng tính toán nhanh hơn. Định luật Moore từ khi được áp dụng cho BD đã gia tăng nhanh hơn gấp đôi sau mỗi hai năm. Đến năm 2011, số lượng dữ liệu lưu trữ trên toàn thế giới được ước đoán là 1.8 zettabytes (1.8 x 1021 bytes), tương đương với 200 tỷ cuốn phim chất lượng cao dài 2 tiếng ([2], [3]). Bắc Mỹ gồm Hoa Kỳ và Canada lưu trữ số lượng lớn nhất với trên 3500 đơn vị lưu trữ. Kế tiếp là toàn thể Âu Châu với trên 2000 đơn vị, Japan trên 400, China trên 250, và toàn thể các nước Châu Á Thái Bình Dương khác trên 300 ([4]).

Một lý do tại sao số lượng dữ liệu đủ loại đã và đang được lưu trữ ngày càng nhiều hơn là vì ngày nay con người có khả năng tạo ra nhiều dữ liệu mới hơn. Ví dụ như biết bao các trang mạng (web pages), trang mạng xã hội như Facebook và Twitter, blogs, diễn đàn… đã xuất hiện với cả tỷ người tham gia và cũng đã sản xuất ra biết bao nhiêu tài liệu, tin tức, bài viết, ý kiến, tin nhắn… Rồi thêm không biết bao nhiêu là Videos, hình ảnh, phim ảnh, âm thanh như các bài hát tràn lan trên Youtube và Fickr.

Một lý do khác là vì máy móc ngày nay cũng sản xuất ra biết bao nhiêu là dữ liệu, mà số dữ liệu này cũng chứa các thông tin hữu ích. Ví dụ như điện thoại di động thông minh hay hệ thống định vị tòan cầu (GPS) ngày càng nhiều và chỉ có chiều hướng tăng chứ không giảm. Những dụng cụ này phát ra tín hiệu gởi về trung tâm dữ liệu cho biết vị trí địa điểm hiện đang ở đâu. Ngoài ra còn có kỹ thuật thẻ RFID (Radio-Frequency Identification) gắn trên hàng hóa cũng phát ra tín hiệu cho biết vị trí của hàng hóa. Rồi dữ liệu mạng computer tự tạo ra, khi người dùng xài computers thăm các trang mạng trên Internet. Thêm vào đó các vật di chuyển như xe hơi, máy bay cũng tạo ra vô số dữ kiện vì được gắn thêm bộ phận xử lý computers và dụng cụ lưu trữ dữ liệu.

Một lý do khác nữa là những dữ liệu xưa nay không được lưu trữ trong computers nhưng dưới sức ép phải làm việc hiệu quả hơn, những dữ liệu này sẽ lần lượt được lưu trữ trên computers. Ví dụ cụ thể là Hoa Kỳ và Canada là những nước với công nghệ khoa học kỹ thuật cao, nhưng đến năm 2011 mới tiến hành lưu trữ hồ sơ của các bệnh nhân trên máy computers mà trước đây chỉ lưu trữ trên giấy. Dưới sức ép của nhu cầu điện tử hóa tất cả mọi hoạt động, nhất là trong các công ty và cơ quan công quyền, số lượng dữ liệu được đưa lên computers để lưu trữ và xử lý sẽ tiếp tục gia tăng.

Ngoài ra vì khoa học kỹ thuật về computers tiến triển quá nhiều, quá nhanh và giá cả của các thiết bị lưu trữ dữ liệu ngày càng rẻ hơn, do đó nhiều người và nhiều tổ chức có thể mua được computers để lưu trữ dữ liệu nhiều hơn ([5]).

Nói chung dữ liệu được lưu trữ ngày một gia tăng do kỹ thuật computers ngày càng tiến bộ hơn và với mục đích duy nhất là có thể tìm được những thông tin hữu ích trong tương lai trong số những dữ liệu được lưu trữ này. Nếu con người muốn xử lý được khối dữ liệu lưu trữ khổng lồ này một cách hữu hiệu thì phải nhờ tới chuyên viên với chuyên môn thích hợp, computers với hardware và software thích hợp. Tuy nhiên với số lượng BD ngày càng nhiều nên nhu cầu về chuyên viên và computers ngày càng cao. Đây có lẽ là lý do tại sao BD trở nên ồn ào thời gian gần đây, vì nó có thể mở ra một kỹ nghệ mới với những ứng dụng mới để phục vụ con người.

Chế tạo hardware và viết được những software điều hành thích hợp nhằm giải quyết vấn đề BD bao gồm việc chế tạo các máy computers và dụng cụ để lưu trữ, tìm tòi thông tin và trao đổi dữ liệu giữa các hệ thống mạng với nhau.

Hiện nay trong hardware chủ yếu là việc chế tạo các hệ thống nhiều máy để xử lý song song dữ liệu trong từng máy, ví dụ như Hadoop clusters. Xử lý song song là vấn đề then chốt trong việc xử lý BD. Xử lý một video với hình ảnh ba chiều khi dùng một máy không có chức năng song song có thể tốn nhiều giờ hay hơn trong khi chỉ vài phút là đã hoàn tất với xử lý song song. Tuy nhiên xử lý song song lại đòi hỏi hàng loạt những kỹ thuật liên hệ mới như lập trình song song. Kỹ thuật hiện nay chỉ tập trung lập trình theo thứ tự thẳng hàng.

Những phương pháp và những software giải quyết trực tiếp mục đích của BD có thể được chia thành hai loại. Thứ nhất là cách quản trị hữu hiệu số lượng BD, mà cách quản lý thông thường với cơ sở dữ liệu (database) như Oracle không còn thích hợp. Một cơ sở dữ liệu được thiết kế với mục đích lưu trữ BD đủ loại thì sẽ thích hợp hơn. Kế đến là việc dùng và mở rộng những phương pháp trong Statistics và Data Mining/Machine Learning, để có thể tìm những thông tin có giá trị cao trong núi các dữ liệu được lưu trữ. Hai ngành này chủ yếu tìm thông tin từ dữ liệu và có rất nhiều trùng lập, với Statistics chủ yếu nhằm giải thích dữ kiện qua mô hình (models), Data Mining chủ yếu tìm sự liên hệ giữa các dữ kiện (correlation), ([6], [7], [8]).

Trong thời gian tới, có thể những hardware và software góp phần xử lý và tìm những thông tin hữu ích trong BD sẽ được phát triển mạnh mẽ hơn. Nhu cầu về chuyên viên trong lãnh vực này có thể sẽ tăng cao hơn.

Dữ Liệu Mạng Xã Hội

Mạng xã hội (Social Media Networks) xuất hiện trong những năm gần đây. Bây giờ đang trở thành một biểu tượng của thời đại kỹ thuật số (digital), khi mà đại đa số công dân mạng tham gia và tạo ra một khối lượng dữ liệu khổng lồ. Mạng xã hội hiện nay là một sự kiện nóng bỏng nhất trên thế giới web với ước chừng 1.5 tỷ người tham dự, với 82% công dân mạng trên 15 tuổi. Bình quân cứ 5 phút sử dụng trên mạng thì hết 1 phút người dùng (users) lại vào các trang mạng xã hội ([9], [10]).

Từ những chương trình “chat” nói chuyện giữa hai người xuất hiện từ hạ bán thập niên 90s, kỹ thuật computers đã liên tục được phát triển cộng thêm sự sáng tạo của con người nên những trang mạng xã hội ngày nay đã ra đời. Ở đây người tham dự có thể kết bạn hay lập nhóm trao đổi tin tức đủ loại thật giả, và cũng có thể quảng cáo hay chỉ trích đủ loại sản phẩm hay lý thuyết do con người tạo ra.

Mạng xã hội lớn nhất ngày nay là Facebook có khoảng 790 triệu thành viên, tạo một sân chơi mà các thành viên có thể kết bạn hay trao đổi tin tức đủ loại. Mạng xã hội lớn thứ hai là Twitter, khoảng 170 triệu thành viên của mạng có thể viết những bài viết ngắn cho những người quan tâm (microblogging). Mạng xã hội lớn thứ ba là LinkedIn, dành cho các chuyên viên trao đổi tin tức về nghề nghiệp và có chừng 95 triệu thành viên. Công ty Google chuyên về tìm kiếm gần đây cũng tham gia thị trường này với mạng xã hội Google+, hiện đứng thứ tư với khoảng 67 triệu thành viên. Mạng xã hội lâu đời hơn là MySpace, vì kỹ thuật không được hoàn thiện đã tụt xuống hạng 5 với 61 triệu thành viên ([11]). Ngoài ra còn vô số những mạng xã hội nhỏ hơn và những trang blogs phục vụ những thị trường đặc biệt như Getsatisfaction.com chuyên về sản phẩm hàng hóa, như Mixi phục vụ thị trường Japan.

Sự nhiệt tình tham gia vào các trang xã hội của các công dân mạng đã góp phần tạo nên những đại công ty chỉ trong một khoảng thời gian rất ngắn. Facebook hiện vẫn là một công ty tư nhân được thành lập năm 2004 với tổng doanh thu là 2 tỷ cho năm 2010 và 4.7 tỷ cho năm 2011, trong đó doanh thu từ quảng cáo là 3.8 tỷ.Trong năm 2011, Facebook dẫn đầu về doanh thu quảng cáo, hơn Yahoo đứng hạng hai, và Google hạng ba, điều này đã chứng tỏ sức thu hút nóng bỏng của các mạng xã hội. Hơn nữa Facebook có thể ra IPO ở thị trường chứng khoán năm tới, 2012, với trị giá công ty ước tính trên 100 tỷ, lớn gấp hai đại công ty HP có giá trị chỉ khoảng 51 tỷ, và lớn hơn đại công ty Cisco lâu đời hơn với giá trị khoảng 98 tỷ. Với Facebook trị giá trên 100 tỷ, và với khoảng 790 triệu thành viên, như vậy tính trung bình thì mỗi thành viên khi tham gia Facebook cho đông vui đã đóng góp khoảng trên $120 vào tổng giá trị của công ty ([12], [13]).

Sở dĩ mạng xã hội thành công vì chỉ có nơi đây tiếng nói của cá nhân mới vang xa đến bạn bè khắp nới trên thế giới. Những phương tiện truyền thông báo chí truyền hình của công ty hay tập thể chỉ thể hiện ý muốn của một tập thể đó. Nhưng với mạng xã hội, một cá nhân có thể theo dõi những tin tức do bạn bè đem lại, không ít thì nhiều cũng phù hợp với quan điểm của mình. Nơi đây mỗi cá nhân có thể duy trì sự liên lạc với bạn bè và quen thêm bạn mới. Cá nhân cũng có thể quyết định là có nên tiết lộ những gì riêng tư của mình hay không để mọi người cùng thông cảm hay ngưỡng mộ. Mỗi cá nhân cũng có thể gây ảnh hưởng lên những người khác qua những những phát biểu và ý kiến riêng của mình. Và cũng có thể dùng mạng xã hội để quảng cáo cho một dự án kinh doanh hay cho công ty của mình một cách ít tốn kém nhất ([14]).

Với sự gia tăng khổng lồ của số người dùng mạng xã hội, các công ty, các tổ chức và chính quyền các nước cũng tham gia vào các trang mạng xã hội để theo dõi và tạo ảnh hưởng. Các công ty tìm cách gần gũi hơn với các khách hàng hiện hữu cũng như khách hàng tiềm năng để tạo ra một bộ mặt thân thiện, sẵn sàng giúp đỡ và giải đáp thắc mắc. Các công ty có thể theo dõi ý kiến khách hàng và theo dõi những gì liên hệ đến đối thủ cạnh tranh của mình để kịp thời ứng phó. Ngoài ra cũng có thể theo dõi các khuynh hướng mới để cải tiến công ty và tìm cách tiếp thị mới ([15]).

Các tổ chức có thể dùng trang mạng xã hội để gây ảnh hưởng. Năm 2011 được coi là năm của trang mạng xã hội vì qua phương tiện thông tin đại chúng này dân chúng ở nhiều nước Bắc Phi đã cùng nhau đứng lên lật đổ các chế độ không được lòng dân ([16]). Các quốc gia cũng đã có những phản ứng khác nhau trước sự hình thành của nền thông tin mạng xã hội. China lo sợ nên đã cấm đoán sự hoạt động của các trang mạng lớn như Facebook, Twitter, Google+, Youtube ([17]). Tương tự như việc China đã từng bế quan tỏa cảng ở thế kỷ 18 để ngăn chặn sự ảnh hưởng của phương Tây. Đối với Hoa Kỳ, mạng xã hội là nơi tất cả các cá nhân bạn cũng như thù cũng có thể lên tiếng nói. Thực tế này đã được chấp nhận và chính phủ đã khuyến khích các cơ quan thích hợp tham gia các trang mạng này để gây ảnh hưởng ([18]).

Với một số lượng người và tổ chức lên tới 1.5 tỷ đơn vị tham gia mạng xã hội với các ý đồ khác nhau, sự tham gia đông đảo này để nói về mình, để kết bạn, để phát biểu đã dẫn đến việc hình thành một khối lượng dữ liệu khổng lồ. Như thế có rất nhiều người muốn biết trong khối lượng dữ liệu đó gồm có những thông tin gì, có lợi ích gì cho mục đích riêng của mình hay không và sẵn sàng chi trả để sàng lọc được những thông tin đó. Vì thế vô số các công ty và dịch vụ Data Mining chuyên tìm kiếm thông tin trong mạng xã hội ra đời.

Các công ty ngoài phần trực tiếp tham gia mạng xã hội cũng muốn tìm kiếm thông tin trong dữ liệu thu thập được từ các trang mạng cho mục đích tiếp thị ([19]). Đây có thể là nhu cầu lớn nhất và có lợi nhuận nhiều nhất trong số những nhu cầu tìm kiếm thông tin từ mạng xã hội. Các công ty đa số muốn tìm kiếm khách hàng nên muốn theo dõi ý kiến của khách hàng, theo dõi đối thủ và theo dõi các khuynh hướng xã hội liên hệ đến công ty. Các tổ chức như chính phủ Hoa Kỳ cũng muốn tìm kiếm từ dữ liệu mạng xã hội những cá nhân hay tập thể có ảnh hưởng hay những khuynh hướng xã hội đang thành hình. Từ đó có thể có những biện pháp thích hợp như hoạch định chính sách hay cho mục tiêu an ninh quốc phòng.

Với nhiều tổ chức ngày đêm truy tìm thông tin trên mạng xã hội hay trên Internet, vấn đề riêng tư cá nhân đã và đang được đặt ra cho các trang xã hội nói riêng và cho thông tin trên mạng nói chung. Nhiều tranh cãi đã xảy ra nhưng cuối cùng mỗi cá nhân tốt hơn hết là phải chịu trách nhiệm về những thông tin mình đưa lên mạng. Khi sử dụng một trang mạng nào đó người dùng phải nhấn nút chấp nhận những thông tin dù là của mình, sẽ không còn là của mình nữa mà là thuộc về tài sản của công ty. Như Facebook, nếu ra IPO giá trị của công ty là trên 100 tỷ, trong đó dữ liệu thu thập được từ các thành viên sẽ là một phần rất lớn. Facebook có thể cho nhiều công ty hay tổ chức thuê những dữ liệu này để tìm kiếm thông tin trong đó.

Nhu cầu tìm kiếm thông tin trong dữ liệu từ các trang mạng xã hội có thể là rất lớn nhưng những kỹ thuật trợ giúp trong việc tìm kiếm thông tin này vẫn chưa được hoàn thiện. Điều này có thể thấy là có rất nhiều software trên thị trường đã được sản xuất để giải quyết các vấn đề khác nhau. Một số là bán, một số cho không (free) và dĩ nhiên software cho không thường hay có vấn đề trục trặc kỹ thuật. Mới đây cơ quan DARPA của chính phủ Hoa Kỳ, nơi phát minh ra Internet, tuyên bố sẽ tài trợ 42 triệu cho công ty hay tổ chức nào có thể nghiên cứu và tìm kiếm các thông tin hữu ích từ các trang mạng xã hội cho mục đích quốc phòng ([20]). Danh sách những software và dịch vụ tìm kiếm thông tin từ các trang mạng xã hội có thể tìm ở ([21], [22]).

Trong thời đại kỹ thuật số thì những dữ liệu thu thập từ các trang mạng xã hội chỉ là một loại dữ liệu, dù là dữ liệu khổng lồ. Có rất nhiều loại dữ liệu được thu thập từ các dịch vụ liên hệ đến mạng có thể được dùng để kiếm ra tiền. Dữ liệu từ Video trong Youtube hay hình ảnh trong Flickr, ví dụ nhiều khi cũng cần phải được phân loại sắp xếp một cách tự động. Chẳng hạn như việc loại bỏ các Videos hay hình ảnh có nội dung người lớn hay bạo lực (violence). Những phương pháp Data Mining trong Computer Vision (chuyên xử lý hình ảnh 2 hay 3 chiều) có thể được sử dụng cho mục đích này.

Dữ liệu thu thập từ điện thoại di động thông minh sẽ cho công ty điện thoại biết vị trí người sử dụng điện thoại. Dữ liệu này có thể cho thuê với mục đích tiếp thị để các công ty có thể viết software trên điện thoại, để quảng cáo các dịch vụ gần vị trí người dùng, hoặc để báo cáo tình hình lưu lượng xe cộ v.v… ([4]). Các dữ liệu được tạo ra khi người dùng vào các trang điện tử hay mua bán online cũng đã được thường xuyên thu thập. Vô số các software Data Mining đã được viết ra để tìm tòi và phân tích đủ loại dữ liệu từ trên các loại mạng. Một vài software thu thập dữ liệu trên mạng có thể tìm thấy ở ([23], [24]).

Dữ Liệu Tài Chánh

BD cũng bao gồm các dữ liệu từ các lãnh vực như tài chánh, kinh tế, hay khoa học về sức khỏe (Health Science) mà bây giờ mới có thể được cho vào computers để có thể xử lý nhanh chóng. Một trường hợp cụ thể đề cập trong phần này là những bản báo cáo kế toán tài chánh mà các công ty cổ phần và công ty tài chánh như ngân hàng phải nộp cho chính phủ Hoa Kỳ mỗi ba tháng.

Các công ty cổ phần trên thị trường chứng khoán phải nộp bản báo cáo kế toán tài chánh cho chính phủ để được công bố công khai, để công chúng quốc nội và quốc ngoại có thể dựa vào đó mà quyết định mua bán hay đầu tư cổ phiếu. Chính phủ cũng thu thập dữ liệu từ các bản báo cáo này để soạn thảo và công bố các chỉ số kinh tế để các kinh tế gia và công chúng có thể lượng định tình hình và hoạch định chính sách kinh tế hay đầu tư kinh doanh. Các bản báo cáo phải minh bạch chứa nhiều thông tin hữu ích và là nền tảng cho một thị trường chứng khoán lành mạnh. Thị trường chứng khoán của Hoa Kỳ từ nhiều thập niên qua được coi là hữu hiệu bậc nhất, các công ty khắp nơi trên thế giới đều muốn gây vốn trên thị trường này và công chúng vẫn đầu tư nườm nượp vào cố phiếu của các công ty đăng ký tại đây.

Cho tới những năm gần đây những bản báo cáo kế toán tài chánh tuy là cơ sở cho nhiều quyết định kinh tế và đầu tư vẫn còn được viết dưới dạng văn viết tự do, và những bản báo cáo hàng năm rất dài, hơn 100 trang. Người dùng phải tự đọc để tìm những thông tin hữu ích, những con số, những chi tiết trong các bản báo cáo này. Nếu muốn lưu trữ trong computers người dùng phải phải tự đánh máy và lưu trữ những thông tin dưới một dạng nào đó để computers có thể đọc và tính toán được. Lưu trữ các báo cáo dưới dạng văn viết mà computers không đọc và xử lý được là một phương pháp không hiệu quả khi mà computers ngày càng được chế tạo tinh vi để xử lý thông tin thay người.

Nhưng kỹ thuật software đã có nhiều tiến bộ, đặc biệt là sự hình thành của ngôn ngữ XML (Extensible Markup Language) dùng để truyền dữ liệu. Một ngôn ngữ gọi là XBRL (Extensible Business Reporting Language) đã ra đời dựa trên XML, hiện được dùng tại Hoa Kỳ và đang lan dần khắp nơi trên thế giới. XBRL giúp các công ty có thể soạn những bản báo cáo dưới dạng mà computers có thể đọc và xử lý thông tin được. Từ năm 2009 cho đến hết năm 2011 là thời hạn cuối cùng các công ty ở Hoa Kỳ phải nộp báo cáo tài chánh dưới dạng XBRL. Kỹ nghệ software đang tích cực hoạt động để có thể xử lý được báo cáo dưới dạng này đem lại thông tin hữu ích cho người dùng một cách nhanh chóng và hữu hiệu ([25],[26]).

Sự hình thành của XBRL có nguồn gốc từ khi computers đựợc sử dụng để truyền tải dữ liệu buôn bán giữa các công ty với nhau từ đầu thập niên 90s. Thời kỳ đó việc truyền tải dữ liệu được gọi là EDI (Electronic Data Interchange) và dữ liệu có thể được truyền tải trên các mạng riêng dưới một dạng mà computers có thể xử lý được. Khi Internet trở thành phổ biến với các trang mạng viết bằng ngôn ngữ HTML xuất hiện khắp nơi, ngôn ngữ XML cũng hơi tương tự như HTML ra đời, dùng để truyền tải dữ liệu giữa các computers bằng mạng Internet ([27]). XBRL xuất hiện khoảng tiền bán thâp niên 00s, thực ra là XML nhưng dùng trong việc soạn thảo các báo cáo tài chánh, và vì là XML nên có thể truyền tải các bản báo cáo này giữa các computers trên mạng Internet. Với XBRL, những khái niệm và tính toán kế toán được định nghĩa, cụ thể là hiện nay nền kế toán Hoa Kỳ có khoảng chừng 18000 khái niệm kế toán căn bản được định nghĩa.

Một công ty ở Hoa Kỳ ngoài việc nộp báo cáo kế toán tài chánh, hàng năm phải nộp rất nhiều bản báo cáo khác cho nhiều cơ quan chính phủ bằng văn bản tự do như text hay Word hay pdf. Chính phủ cần các loại báo cáo này để thu lượm thông tin để tính toán và công bố các chỉ số kinh tế quốc gia.

Một công ty lớn trung bình cần tới 22 người làm việc toàn thời gian cho việc soạn thảo và nộp báo cáo, và các bộ phận phải nộp báo cáo bao gồm bộ phận tuyển dụng, bộ phận tài chánh, bộ phận tư pháp v.v... Các bản báo cáo nhiều khi trùng lập, mâu thuẫn và khi nộp cho chính phủ thì không thể được tự động đối chiếu bằng computers vì dưới dạng khác nhau và computers không đọc được. Cách làm việc này không hiệu quả vì không thể tổng hợp tất cả các báo cáo nộp cho tất cả các cơ quan thành một bản báo cáo đầy đủ, thống nhất của một công ty. Hiện nay đang có đề nghị dùng ngôn ngữ như XBRL để thống nhất việc nộp báo cáo cho các cơ quan chính phủ. Với XBRL, các báo cáo được nộp sẽ thống nhất để computers có thể đọc và xử lý các bản báo cáo này. Việc sử dụng và tìm tòi thông tin từ các bản báo cáo như vậy sẽ nhanh chóng và hiệu quả hơn. ([28]).

Một loại dữ liệu khác nữa có thể được soạn dưới dạng XBRL là các thông tin về các hoạt động quan trọng của các công ty mà các công ty phải công bố trên các phương tiện truyền thông. Ví dụ như hoạt động chia tiền lời (dividends), hay thu mua công ty khác (acquisitions), hay làm đối tác với công ty khác (partnerships), các công ty cổ phần phải công bố các hoạt động này trên các phương tiện truyền thông. Theo luật lệ hiện nay, có khoảng 40 loại thông tin mà một công ty cổ phần phải công bố cho các nhà đầu tư biết để họ có thể có quyết định mua bán cổ phiếu một cách thích hợp.

Tuy nhiên những thông tin này dù được lưu trữ hay công bố trên báo chí vẫn là dưới dạng văn viết tự do mà computers không đọc và xử lý được. Hiện nay đang có những đề nghị soạn thảo thông tin này dưới dạng XBRL để computers có thể xử lý hữu hiệu. Dù chỉ có 40 loại thông tin, nhưng một công ty có thể có nhiều công bố về một loại thông tin, và phải gởi đến nhiều cơ quan chức năng khác nhau. Tổng số công bố cần lưu trữ trong một năm được ước đoán là 4.5 triệu, một số lượng lớn nếu chỉ ở dạng văn viết tự do thì có rất ít hữu dụng ([29]).

Như đã trình bày, dùng XBRL để soạn thảo các báo cáo và các công bố về hoạt động của các công ty sẽ đem một số lượng lớn dữ liệu về kinh tế tài chánh vào computers. Số lượng dữ liệu này có thể được sử dụng để tìm ra những thông tin quan trọng khác giúp cho các nhà kinh tế và đầu tư có quyết định phù hợp. Ngoài ra cũng có những nghiên cứu tìm cách ghi lại tất cả các hoạt động của một công ty vào computers, để có thể tìm ra phương pháp giúp công ty hoạt động hữu hiệu hơn ([30],[31]). Đến khi nào thành công, số lượng dữ liệu thu thập càng lớn hơn nữa.

Dữ Liệu Y Tế

Mặc dù là cường quốc kinh tế số một trên thế giới và tiến bộ bậc nhất về khoa học kỹ thuật, Hoa Kỳ có hệ thống y tế chăm sóc sức khỏe không được hiệu quả so với nhiều quốc gia phát triển nhưng chi phí lại mắc nhất thế giới. Tổng chi phí về y tế Hoa Kỳ chi tiêu năm 1980 là 9.2% tổng sản lượng quốc gia (GDP), năm 2009 là 17.6%, năm 2019 ước tính là 19.7%, gia tăng hơn 100% tính từ năm 1980. Như năm 2008, Hoa Kỳ chi tiêu 16% GDP trong khi Pháp 11.2%, Đức 10.5%, Canada 10.4%, Úc 9%, Anh 8.7%, Korea 6.5%. Năm 2011, ước tính chi tiêu y tế từng đầu người là 8666 dollars với lợi tức hàng năm là 48,665 dollars và 25% thuế lợi tức, thì chi tiêu trung bình về y tế ở Hoa Kỳ mỗi đầu người là 8,666/(48,665x.75) = 25% của lợi tức sau khi trừ thuế, một con số quá lớn. Chi phí tuy rất cao nhưng tỷ lệ trẻ em chết khi sinh ra cao hơn tất cả nước phát triển và tuổi thọ dân Hoa Kỳ trung bình đứng hạng 50 trên thế giới ([32], [33]).

Nền y tế của Hoa Kỳ do tư nhân đảm nhiệm nhưng lại có chi phí tính trên đầu người lớn hơn chi phí của nền y tế tại các nước phát triển khác do chính phủ đảm nhiệm. Điều này trái với quan niệm thông thường là tư nhân quản lý tốt hơn nhà nước. Nhiều đời chính phủ Hoa Kỳ từ thời tống thống Clinton, Bush, rồi hiện nay Obama đều muốn cải tố y tế nhưng đã gặp nhiều khó khăn. Hiện nay cải tổ y tế tại Hoa Kỳ tập trung vào việc đưa tin học vào quản trị y tế để tối ưu hóa hoạt động và cắt giảm chi phí. Canada hiện nay cũng song hành với Hoa Kỳ trong việc đưa tin học vào quản trị y tế. Có lẽ các quốc gia khác trong tương lai cũng sẽ làm việc này ([34],[35]).

Cụ thể của việc đưa tin học vào quản trị y tế là việc xây dựng một hệ thống mạng computers để chia sẻ dữ liệu về bệnh nhân giữa tất cả các dịch vụ liên quan đến y tế, như bác sĩ, bệnh viện, các công ty phục vụ y tế (health providers), các công ty bảo hiểm, nhà thuốc tây v.v... Mục đích chính của mạng lưới computers này là nhằm tối ưu hóa viêc chẩn đoán và chữa bệnh và các lợi ích khác để nền kỹ nghệ y tế có thể hoạt động hữu hiệu và ít tốn kém hơn. Một khi hệ thống mạng computers đi vào hoạt động, dữ liệu đủ loại về y tế sẽ lưu chuyển khắp nơi tạo ra một nhu cầu lớn về quản trị và tìm thông tin trong khối dữ liệu này ([36],[37]).

Điểm đầu tiên để xây dựng một mạng lưới y tế toàn quốc là phải lưu trữ hồ sơ các bệnh nhân trên computers. Dù là một cường quốc kinh tế và kỹ thuật, đại đa số các cơ sở khám bệnh tại Hoa Kỳ hoặc là vẫn còn giữ hồ sơ bệnh nhân trên giấy tờ, hoặc trên các hệ thống computers không nối kết với bên ngoài. Chỉ có hệ thống computers dùng để tính tiền các công ty bảo hiểm là hiện đại tối tân. Hồ sơ bệnh nhân khi được lưu trữ trên computers và có thể tải truyền trên các hệ thống mạng được gọi là hồ sơ sức khỏe điện tử (Electronic Health Records hay EHR). Có ba lý do giải thích tại sao các trung tâm khám bệnh hoặc vẫn còn lưu trữ hồ sơ trên giấy tờ hoặc các hệ thống computers không kết nối với bên ngoài ([38]).

Lý do thứ nhất là các trung tâm khám bệnh hay bác sĩ hiện nay được trả tiền theo tiêu chuẩn khám-nhiều-thu-phí-nhiều (fee-for-services), nên không có động cơ đầu tư mua sắm hệ thống computers tốn kém. Và lại tốn thời giờ sử dụng vì nhiều hệ thống computers cũng khó dùng, nhất là cảm thấy không có lợi lộc gì trong việc chia sẻ hồ sơ bệnh nhân với các trung tâm khám bệnh hay bệnh viện khác. Theo một ước tính thì năm 2005 có 23.9% bác sĩ sử dụng hồ sơ điện tử (EHR), năm 2009 là 48.3%, và năm 2010 đạt được 50%. Nhưng cũng có thống kê khác của chính phủ năm 2008 chỉ có 17% bác sĩ khám bệnh sử dụng EHR ([39],[40]).

Lý do thứ hai là các hệ thống computers sử dụng ở các trung tâm khám bệnh được thiết lập chủ yếu là giữ hồ sơ bệnh nhân dưới dạng đơn giản để tính tiền các công ty bảo hiểm và để theo dõi mua bán thuốc cho bệnh nhân. Những hệ thống computers này không nhằm cải tiến cách chẩn đoán bệnh hay tìm những phương thức chữa trị tối ưu cho bệnh nhân và không chia sẻ hồ sơ bệnh nhân với bên ngoài.

Lý do thứ ba là vấn đề bảo vệ sự riêng tư hồ sơ bệnh lý của bệnh nhân. Đạo luật HIPAA (Health Insurance Portability and Accountability Act) năm 1996 và vô số các đạo luật ở các tiểu bang khác nhau đã tạo ra một hệ thống pháp lý chặt chẽ, ngăn cấm sự chia sẻ hay tiết lộ hồ sơ bệnh lý của bệnh nhân cho những người không có nhiệm vụ trực tiếp. Tuy nhiên những tiến bộ của kỹ thuật computers ngày nay như mã hóa (encryption) có thể được dùng để bảo vệ danh tính của bệnh nhân, những đạo luật này đã trở nên lỗi thời. Hiện đang có thảo luận về việc sửa đổi các đạo luật này cho phù hợp với hoàn cảnh kỹ thuật hiện tại.

Để thúc đẩy nền kỹ nghệ y tế mau chóng tiến tới việc xây dựng một hệ thống mạng y tế điện tử và để chia sẻ hồ sơ bệnh nhân trên toàn quốc, chính phủ Obama năm 2009 đã ký đạo luật HITECH chuẩn chi 20 tỷ trong vòng 5 năm. Mục đích là để thúc đẩy các bác sĩ và các trung tâm khám bệnh cài đặt hệ thống computers để lưu trữ hồ sơ bệnh nhân. Các bác sĩ nếu thiết lập được hệ thống này trước năm 2014 sẽ được một khoảng tiền thưởng có thể lên tới 44,000 dollars. Còn nếu không thiết lập trước năm 2016 thì sẽ bị phạt bằng cách bị trừ tiền kiếm được từ chương trình Medicare. Tương tự, các trung tâm khám bệnh có thể được thưởng 63,750 dollars trong 5 năm. Hiện nay có nhiều công ty cung cấp các hệ thống computers để lưu trữ hồ sơ bệnh nhân.

Các cơ quan chính phủ liên hệ, ngoài việc thúc đẩy xây dựng hệ thống computers, hiện tài trợ một số nghiên cứu làm sao có thể sử dụng được các hồ sơ điện tử EHR một cách hữu hiệu. Ví dụ như có nghiên cứu lo về việc làm sao bảo mật danh tính bệnh nhân khi chia sẻ dữ liệu giữa các hệ thống computers. Hay có nghiên cứu làm sao từ các hồ sơ điện tử của mọi người, so sánh để tìm ra những cách chẩn đoán hay chữa trị tối ưu cho các loại bệnh lý.

Để xây dựng mạng lưới y tế toàn quốc, ngoài việc đẩy mạnh việc lưu trữ hồ sơ bệnh nhân trên hệ thống computers và kết nối các hệ thống này thành một mạng, việc quan trọng nữa là làm sao để các computers có thể đọc được hồ sơ bệnh nhân từ các hệ thống computers khác nhau. Về việc này, ngôn ngữ computer XML chuyên để truyền tải dữ liệu đã đựợc đề nghị sử dụng, và kinh nghiệm xây dựng ngôn ngữ XBRL có thể được học hỏi. Tuy nhiên, XBRL đã được xây dựng và thử nghiệm trong suốt thập niên 00s, cho nên việc xây dựng được một ngôn ngữ tương tự để có thể dùng được trong kỹ nghệ y tế chắc cũng phải mất nhiều năm nữa ([38], [41], [42]).

Để có thể sử dụng hồ sơ bệnh lý điện tử của bệnh nhân một cách hữu hiệu hơn, một cách thức thu lệ phí khác cần phải được đề nghị. Một cách là bác sĩ chỉ được trả tiền sau khi đã trao đổi hồ sơ bệnh nhân và tham khảo với các bác sĩ khác hay các trung tâm y tế về chẩn bệnh và chữa bệnh. Một cách khác là sát nhập bệnh viện và các bác sĩ thành những tổ chức lớn, trong đó các bác sĩ phải hợp tác trao đổi hồ sơ bệnh lý điện tử để chẩn bệnh và chữa bệnh theo cách tối ưu nhất. Cũng còn phải mất nhiều thời gian trước khi nền y tế Hoa Kỳ đồng ý chọn được một cách thu lệ phí thích hợp, để có thể khuyến khích các bác sĩ sử dụng hệ thống computers một cách hữu hiệu và để cắt giảm chi phí ([38]).

Với tình hình cải tổ y tế như hiện tại, số lượng dữ liệu được lưu trữ và truyền tải trên mạng lưới y tế sẽ gia tăng từ từ. Sau những khó khăn về chính sách, luật lệ, và quyết định, là những khó khăn về kỹ thuật bao gồm việc làm sao quản trị và sử dụng được khối dữ liệu này một cách có hiệu quả.

Kỹ Nghệ Hỗ Trợ

BD có thể được tạo ra từ nhiều nguồn khác nhau với các mục đích khác nhau. Như từ các trang mạng xã hội, BD là các thông tin mà các thành viên tự nguyện chia sẻ trên các diễn đàn. Như từ báo cáo tài chánh hay hồ sơ sức khỏe bệnh nhân, BD là các thông tin về tài chánh của các công ty và là thông tin về bệnh lý của các cá nhân. BD trong đại đa số các trường hợp có thể chứa đựng những thông tin rất hữu ích mà rất nhiều người và nhiều tổ chức muốn biết muốn tìm tòi.

Và như vậy một đội quân gồm nhiều các chuyên gia, các công ty lâu đời hay chỉ mới thành lập, và các hệ thống computer hardware và software tối tân hiện đại, đã và đang ngày đêm chăm chỉ làm việc và sáng tạo để tạo ra các sản phẩm và dịch vụ phục vụ cho nhu cầu tìm kiếm thông tin này ([43], [45]).

BD hiện nay số lượng rất lớn và rất đa dạng, những hardware và software để xứ lý dữ liệu thông thường không thể đáp ứng nổi nhu cầu xử lý nhanh chóng và hữu hiệu khối dữ liệu này. Một hạ tầng cơ sở gồm những hardware và software đã và đang được chế tạo để đưa vào xử lý và quản trị khối lượng BD này ([44]).

Các đại công ty tin học hay kỹ thuật liên hệ đều có mặt trong sự bùng nổ của BD. Oracle tung ra thị trường những hardware và software cho việc lưu trữ và xử lý dữ liệu. Microsoft từ lâu hoạt động trong lãnh vực tìm kiếm dữ liệu trên mạng với dụng cụ Bing cũng đang bổ túc dòng sản phẩm của mình với những dụng cụ xử lý BD. IBM ngoài các software xử lý BD, hiện nay đã tuyên bố chi 100 triệu dollars vào việc nghiên cứu để có thể chế tạo các software chuyên việc phân tích và tìm thông tin hữu ích từ BD ([46]). Công ty lớn nào có tên tuổi mà liên hệ đến computers đều cố gắng chế tạo sản phẩm nhằm thỏa mãn nhu cầu sử dụng BD đang gia tăng.

BD thu thập ngày nay rất mới mẻ và đa dạng nên tùy theo từng lãnh vực, những sản phẩm sử dụng số dữ liệu này sẽ rất khác nhau. Tùy theo sự sáng tạo, các công ty hoặc hiện hữu lâu đời hoặc mới thành lập sẽ đem đến cho người sử dụng những sản phẩm với những chức năng và phẩm chất khác nhau. Có những công ty mới thành lập đã tìm được nguồn vốn, chế tạo các sản phẩm software chuyên về phân tích tìm thông tin ([48]) hay trình bày dữ liệu bằng đồ họa để dễ hình dung (visual presentation of data) ([49]). Trong lãnh vực báo cáo tài chánh với XBRL, nền kỹ nghệ hỗ trợ (ecosystem) còn non trẻ, tuy nhiên cũng đã có những ý tưởng ứng dụng mới và những công ty mới ([50], [51]). Trong lãnh vực mạng y tế toàn quốc, một số đại công ty đã tham dự để chế tạo sản phẩm ([52], [53]) nhưng vì mạng y tế chỉ đang được thành hình, một nền kỹ nghệ hỗ trợ vẫn còn ở dạng phôi thai và đang được chú ý nâng đỡ ([38]).

Để xử lý BD của thời đại ngày nay, một đội quân chuyên viên trong ít nhất ba lãnh vực chuyên môn cần phải hợp tác. Chuyên môn thứ nhất là tin học, chuyên về xây dựng cơ sở hạ tầng, gồm hardware và software và mạng computers (networks). Chuyên môn thứ hai là lãnh vực mà dữ liệu được thu thập và áp dụng. Ví dụ như về báo cáo tài chánh thì chuyên môn là kế toán, về y tế thì chuyên môn là kiến thức y học. Chuyên môn thứ ba là khả năng phân tích tìm thông tin trong dữ liệu, gọi là khoa học về dữ liệu (data science). Thuờng thuờng chuyên môn thứ ba bao gồm Statistics và Data Mining và rộng hơn nữa là thông minh nhân tạo. Hiện nay theo ước tính tại Hoa Kỳ thì nhu cầu cần thêm từ 140 đến 190 ngàn chuyên viên về data science. Đến năm 2018 sẽ cần thêm 1.5 triệu chuyên viên có khả năng về data science và quản trị BD ([45],[43]).

Kết Luận

Bài viết này đã điểm sơ qua tại sao có sự hiện hữu của dữ liệu với số lượng lớn, những lợi ích và sản phẩm có thể có được từ số dữ liệu này, những kỹ thuật và những chuyên môn liên hệ. Tùy theo dữ liệu trong từng lãnh vực, như mạng xã hội, tài chánh đầu tư, y tế, điện thoại di động… những kỹ thuật và chuyên môn cần thiết để xử lý và phân tích dữ liệu không ít thì nhiều sẽ khác nhau, sẽ cho ra các sản phẩm cũng như tạo ra các lợi ích khác nhau. BD, người viết bài này tin rằng, đang tạo ra một nền kỹ nghệ mới, kỹ nghệ tạo ra những dụng cụ và phương pháp mới để sử dụng số lượng dữ liệu mới và đồng thời tạo ra các sản phẩm, dịch vụ mới. Chúng ta có quyền hy vọng, từng ngày qua, cuộc sống sẽ thuận tiện hơn với sự xuất hiện ngày càng nhiều hơn của các sản phẩm đến từ BD.

Dũng Anh

Ghi Nhận

Cám ơn một số bạn đã giúp hiệu đính bài viết này thêm phần rõ ràng hơn

Tham Khảo

Dữ Liệu Số Lượng Lớn

[1] Big Data

http://www.youtube.com/watch?v=uPBeHJhGftc

[2] Faster than Moore’s law? 1.8 zettabytes of data created in 2011

http://www.digitaljournal.com/article/308479

[3] The 2011 Digital Universe Study: Extracting Value from Chaos

http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm

[4] Big Data: The next frontier for innovation, competition, and productivity

http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

[5] Building data startups: Fast, big, and focused, Aug 2011

http://radar.oreilly.com/print/2011/08/building-data-startups.html

[6] What is Data Mining?

http://www.youtube.com/watch?v=R-sGvh6tI04&feature=related

[7] Machine Learning – Overview and Applications

http://www.youtube.com/watch?v=yDLKJtOVx5c

[8] Data Mining

http://www.youtube.com/watch?v=nCMHoqctwVA&NR=1&feature=endscreen

Dữ Liệu Mạng Xã Hội

[9] Social Media Revolution 2012

http://www.youtube.com/watch?v=dA5Fn_Q10Tk&feature=related

[10] Social Networking Is The Most Popular Online Activity

http://www.thenewage.co.za/38836-1021-53-Social_networking_is_the_most_popular_online_activity

[11] ComScore: Google+ Grows Worldwide Users From 65 Million In October To 67 Million In November

http://techcrunch.com/2011/12/22/googlesplus/

[12] Facebook Revenue will reach $4.27 billion, Emarketer says

http://www.bloomberg.com/news/2011-09-20/facebook-revenue-will-reach-4-27-billion-emarketer-says-1-.html

[13] Banks Face Off For Facebook IPO

http://online.wsj.com/article/SB10001424052970203686204577116823321665502.html

[14] 5 Ways Social Media is Changing our Daily Lives

http://mashable.com/2009/10/16/social-media-changing-lives/

[15] 4 Ways Social Media is Changing Business

http://mashable.com/2009/09/22/social-media-business/

[16] 2011: Năm của các mạng lưới truyền thông xã hội

http://www.voanews.com/vietnamese/blogs/quoc/nam-cua-truyen-thong-xa-hoi-12-28-2011-136

[17] List of websites blocked in the People's Republic of China

http://en.wikipedia.org/wiki/List_of_websites_blocked_in_the_People's_Republic_of_China

[18] How to Use Social Media Strategically in the Federal Government

http://www.howcast.com/videos/241178-How-To-Use-Social-Media-Strategically-in-the-Federal-Government/

[19] 2011 Social Media Marketing Industry Report

http://www.socialmediaexaminer.com/SocialMediaMarketingReport2011.pdf

[20] Pentagon to monitor social networking sites for threats

http://www.guardian.co.uk/world/2011/aug/03/pentagon-monitor-social-networking-threats

[21] The Best Free Social Media Tracking Tools You Should Know About

http://thenextweb.com/socialmedia/2011/02/18/social-media-tools/

[22] Social Media Free Tool – Top Ten Free Tools for Social Media Marketing

http://www.youtube.com/watch?v=nlFVEljViWg

[23] ContextMiner Beta 3 Tutorial (query a topic from many sources such as Web, Twitter, youtube)

http://www.youtube.com/watch?v=9URLGr-TWD0

[24] Web scraping the easy way

http://www.youtube.com/watch?v=aoN2tzYEgTw&feature=related

Dữ Liệu Tài Chánh

[25] XBRL in plain English

http://www.youtube.com/watch?v=4uTrB1gQ-xM&feature=related

[26] XBRL Fact Sheet

http://xbrl.us/Learn/Pages/FactSheet.aspx

[27] From EDI to XML and UDDI: A Brief History of Web Services

http://www.informationweek.com/news/6506480

[28] Better Data for Better Decisions: Standards to improve Corporate Government Reporting

http://xbrl.us/Learn/Documents/BetterReporting.pdf

[29] A Business Case to Improve Corporate Actions Communications

http://www.swift.com/dsp/resources/documents/case_study_ca.pdf

[30] Business Process Model and Notation

http://en.wikipedia.org/wiki/Business_Process_Model_and_Notation

[31] Enterpise Modelling

http://stl.mie.utoronto.ca/publications/modelling.pdf

Dữ Liệu Y Tế

[32] Healthcare Costs 101

http://www.chcf.org/~/media/MEDIA%20LIBRARY%20Files/PDF/H/PDF%20HealthCareCosts11.pdf

[33] Healthcare in US

http://en.wikipedia.org/wiki/Health_care_in_the_United_States

[34] Charting a new course

http://www.cbsnews.com/stories/2009/09/13/sunday/main5306927.shtml

[35] The pan-Canadian EHR: The Plan

http://www.youtube.com/watch?v=3SYtv5jh4tQ

[36] Introduction to Health Information Exchange in Colorado

http://www.youtube.com/watch?v=9iO8NaVt6Sw&feature=related

[37] Can big data fix healthcare?

http://www.forbes.com/sites/colinhill/2011/11/17/can-big-data-fix-healthcare/

[38] Report to the President, Realizing the full potential of health information technology to improve healthcare

http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-health-it-report.pdf

[39] Are More Doctors Adopting EHRs?

http://www.nuesoft.com/blog/are-more-doctors-adopting-ehrs/

[40] How to Make Electronic Medical Records a Reality

http://www.nytimes.com/2009/03/01/business/01unbox.html

[41] Federal Health Information Technology Strategic Plan 2011-2015

http://www.nj.gov/njhit/document_files/Federal_Health_Information_Technology_Strategic_Plan_2011-2015.pdf

[42] Microsoft’s Mundie: Big data could cure US healthcare

http://gigaom.com/cloud/microsofts-mundie-big-data-could-cure-us-healthcare/

Kỹ Nghệ Hổ Trợ

[43] The Power of Big Data

http://www.emc.com/microsites/bigdata/index.htm

[44] Oracle: Big Data for the Enterprise

http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf

[45] Big Data and the Future of Software and Services

http://sandhill.com/article/big-data-and-the-future-of-software-and-services/

[46] IBM to Invest $100 Million for Big-data Analysis Research

http://www.pcworld.com/businesscenter/article/228334/ibm_to_invest_100_million_for_bigdata_analysis_research.html

[47] Microsoft Big Data Solution

http://www.microsoft.com/sqlserver/en/us/solutions-technologies/business-intelligence/big-data-solution.aspx

[48] Mu Sigma Lands Big Money For Big Data

http://blogs.wsj.com/venturecapital/2011/12/28/mu-sigma-lands-big-money-for-big-data/

[49] Big Data Start-Up Platfora Lands $5.7 Million From Andreessen Horowitz

http://allthingsd.com/20110908/big-data-start-up-platfora-lands-5-7-million-from-andreessen-horowitz/

[50] XBRL: Towards a diverse ecosystem

http://www.xbrl.org/2010TechDiscussion/2010TechDiscussion.pdf

[51] Calcbench Looks to Help Budget-Minded Analysts Crunch Financial Data

http://www.xconomy.com/boston/2011/11/08/calcbench-looks-to-help-budget-minded-analysts-crunch-financial-data/

[52] Microsoft, GE Join Forces to Create Health Care Software

http://www.nationaljournal.com/healthcare/microsoft-ge-join-forces-to-create-health-care-software-20111208

[53] GE Health Information Exchange (HIE) a secure, standards-based infrastructure

http://www.youtube.com/watch?v=XKwFpMUIV1s&feature=related

**** Hình ảnh minh họa từ internet