3D HORIZONT360

3C Concept&Context&Criticism

Hic sunt dracones: Nothing is more practical than a good theory!What is real about virtual reality?  There is nothing virtual about immersion! Budućnost VR je negde između utopistične i apokaliptične krajnosti konvergencije virtualnosti i stvarnosti!?The first step: 3D social spaces and storyliving...Metauniverzum je kolekcija međusobno povezanih iskustvenih 3D virtuelnih svetova u kojem se ljudi širom sveta socijalizuju u realnom vremenu i na taj način formiraju održivu ekonomiju koja povezuje digitalni i fizički svet.
We describe milestones in cutting-edge methods, review a broad range of existing works, and provide insights into their historical development routes :-)

Virtual reality, augmented reality, and our current reality



 It is time to move on:  To reproduce, or to reconstruct, that is the question!?Take great care when hijacking the senses that you have trusted all of your life!  In the future everyone will be real for 15 minutes?Izvor našeg kompletnog znanja je naša percepcija?  The network becomes our sixth sense!?Sve će biti u VR, i svi ćemo biti VR - vidimo se tamo:  
  1.  social VR spaces 
  2. storytelling->storyliving in residential communities 
  3.  digital twin for human (physical/intelligent/social identity, personality, autonomy, ego, uniqueness)

Razlika između stvarnosti i fikcije je u tome što je fikciji neophodna uverljivost:Percepcija stvarnosti je stvarnija od same stvarnosti!?Gde prestaje realnost i počinje Sofijin svet?  Mi smo samo priče koje pričamo sebi:-)Gde prestaje iluzija slike i nastaje imersija?  Virtualna stvarnost je paradoks, kontradikcija u terminima koja opisuje prostor mogućnosti ili ograničenja formiran čulnim iluzijama:-)"To be is to be perceived" [George Berkeley]"Everything you can imagine is real" [Pablo Picasso]
The Human Brain cannot distinguish between Reality and Fiction.  It accept it what you tell it to believe. If you do not "Mind" your Mind, you would not to be able to manage your Behavior.Our retina contains 70% of all sensory cells of all sensory organs!
TeleportationDo not need to transmit our physical bodies.. All needed is to have multi-sensory information transmitted from: Place B to Place A (contrary to current thinking:)
Quantum theory of media (Everything becomes media:-)Classic view: 
  • absolute space (media is best enjoyed when the consumer is resting in one place:-)
  • absolute time (content offered at predetermined times according to programmer’s schedule:-)
  • one platform (dedicated devices for individual applications:-)
  • passivity rules (no effort required to view:-)
  • portability emerges but is bulky or delivers inferior experience (personalization is limited)
Modern view:
  • no absolute space (media will be enjoyed in any place the consumer desires; portability and mobility are key )
  • no absolute time (media will be enjoyed at any time, on demand, according to the user’s schedule)
  • multiple platform (converged devices enable multiple media applications)
  • interactivity rules ( consumer is part of the experience)
  • programming done by the consumer (content increasingly accessed on demand with customized playlists and experience)

Visual communicationVisual communication is an area of study that investigates the transmission of ideas and information through visual forms and symbols. On a deeper level, it also looks at the cognitive and affective processes that affect the way we perceive (or sense) visual stimuli. Seeing is one thing and perceiving is another! The former has to do with the objective realities of sight, while the latter has to do with the transmission of culture and meaning. 
  • Content and Form.  Visual communication involves the interaction of content and form. Content is the tangible essence of a work: the stories, ideas, and information that we exchange with others. Form is the manner in which content is designed, packaged, and delivered for consumption. Content relates to what we want to say, while form has to do with how we choose to express it or communicate it. Content and form are complementary components of a visual design. Both are required for success.
  • Aesthetics.  We make perceptual judgments about visual beauty every day. While content, function, and usability are important, our affinity for things is greatly affected by our perceptions of outward beauty or appearance. This is true for the physical objects we eat, wear, drive, live in, or otherwise enjoy; as well as for artistic works or media products that we interact with visually. Our aesthetic sensibilities vary widely depending on many factors including context and place.
Elements of designDesign is the strategic arrangement of visual elements within a two-dimensional space to form a unified and holistic impression. Sometimes, the word composition is used as an alternative way of describing the same process. The elements of design are the fundamental building blocks of visual content. This section focuses on eight elements of design that are common to all forms of visual communication: space (2D/3D, positive/negative), dot, line (straight/curved), shape (organic/synthetic), form (lighting), texture, pattern, and color (hue, saturation, brightness).Principles of designThe principles of design are formal rules and concepts for optimizing the arrangement and presentation of two-dimensional visual elements. The 12 general principles covered in this section fall into the broad categories of unity,  emphasis, and  perceptual forces. 
  • Principles of unity (proximity, alignment, similarity, repetition) can be thought of as the perceptual glue that holds a design together and maintains a sense of visual harmony. 
  • Principles of emphasis (value-contrast, color-contrast, depth of field, proportion) address the need for maintaining a visual focal point. They also relate to the way  designers designate the importance or weight of the subject matter. Emphasis is often used to communicate to the viewer the relative importance of visual objects or information in a design. 
  • Principles of perceptual force (balance, continuation-vectors, figure-ground, psychological closure) help us to understand some of the psychological processes that affect the way we interact with visual content within a frame. 

Spatial computingWith the advent of consumer virtual reality VR, augmented reality AR, and mixed reality MR, companies use spatial computing in reference to the practice of using physical actions (head and body movements, gestures, speech) as inputs for interactive digital media systems, with perceived 3D physical space as the canvas for video, audio, and haptic outputs. It is also tied to the concept of digital twins (DT)Spatial somputing is an umbrella term encompassing all the technologies which enable humans or robots to move through real or virtual worlds. Spatial Computing not only includes the AR/VR/MR trilogy , but also AI, automated vehicles, sensor technology and computer vision (CV). Each of these elements factor represents the next logical step in the evolution of humankind’s interaction with technology. The core technologies which will pave the way for spatial computing are optics and displays, wireless and communications, control mechanisms (voice, eyes and hands), sensors and mapping, computing architectures and artificial intelligence (decision systems). The seven visions: 
  • transportation automates
  • virtual worlds appear
  • augmented manufacturing
  • robot consumers
  • virtual healthcare
  • virtual trading and banking
  • real-time learning

Machine in space and space in the machineSpatial computing is human interaction with a machine in which the machine retains and manipulates referents to real objects and spaces. It is an essential component for making our machines fuller partners in our work and play. Spatial computing differs from related fields such as 3D modeling and digital design in that it requires the forms and spaces it deals with to pre-exist and have real-world valence. It is not enough that the screen be used to represent a virtual space—it must be meaningfully related to an actual place.We have arrived at a critical point in the history of the machine in space. Engineers are rapidly banishing the last moving parts from consumer electronics, allowing the machines to shrink into near invisibility. Bulky CRTs are yielding to flat panels, allowing us to embed them into the surfaces we use daily and to free up valuable “real estate” on our desks. The businesses of computer vision and graphics have pushed our abilities to recover spatial information from the world at large and represent it recognizably to the eye. The long-standing divide between the idealized spaces of computer science and the heavy, cluttered spaces of real-world engineering are wider than ever, polarizing research around the world. Now that computation’s denial of physicality has gone about as far as it can, it is time for a reclamation of space as a computational medium.Spatial computing proposes a tight linkage of the space in the machine (the space of digital representation) and the machine in space (physical presence). The starkness of the divide owes something to the fundamental differences of the media but a great deal also to social and historical construction. In order to understand our present dilemma it is necessary to examine a history of computation in physical space. Networked spaceThe advent of the Internet considerably complicated the relationship of computation to space. Suddenly connections made inside the machine had the potential actually to span half the globe. Every screen became a portal onto the same shared, parallel world.Denial of spaceThe Internet is not the only agent of spatial denial in computer science. The dream of escaping the imperfect and unpredictable real world is the engineer’s heaven. It is a denial of heaviness, friction, death, and decay. The memory spaces of computer science are the site of huge projects in idealized engineering—where programmers construct machines of astonishing complexity in the absence of gravity and corrosion.Problems with realismSomething that tends to go unchallenged is the realism of virtual spaces. The increasing power of processors and graphics cards enables more and more accurate modeling of the physics of light and the mathematics of surfaces.Problems with interactivityWhere the problems of realism are problems of space in the machine, the problems with “interactivity” are problems of the machine in space.
What makes us human?Human beings are classified as Homo sapiens, which in Latin means knowing man. Modern Homo sapiens are believed to have appeared a little over 300,000 years ago. The distinction between Homo sapiens and what came before has to do with the relatively sophisticated use of tools―tools that were used to survive more efficiently and with which humans gained control of their surroundings. Tools were also used by early humans to make art on cave walls and carve statuettes of female fertility goddesses. The tools served as augmenting devices―augmenting humans' chances of survival and also of expression.With modern humans, this augmentation can take the form of education, which in turn is used to gain knowledge. With knowledge, our chances of survival should be better. In many ways, our Prime Directive is to know how to better survive and how to better express ourselves by willfully creating and using tools for those purposes. It is a dual directive, for it cannot be proven that one gives rise to the other, but rather both are mutually beneficial. And it is for both very practical and expressive reasons that tools have continued to be created from the time of early man to today. An example of a human being's ingenuity that traverses both the practical and the expressive are the iterative inventions of the writing "pen and paper" combination. This combination tool, which goes back millennia, started out with cave walls, some form of patchworked dried grasses, as well as stone, serving as the "paper" and natural dye and sturdy reed, as well as a stone or metal chisel, serving as the "pen." "Pen and paper" has been used to record both business andlegal matters, as well as nonfictional and fictional narrative, and poetry, as well as visual art, such as paintings, when the "pen" is conceived as pigments. With the advent of the typewriter, there was even more of a separation between the practical and textually expressive and the visually expressive. A machine, the typewriter, was then replaced by the word processor and then the computer. And here we are these days utilizing our computers and their smaller counterparts―the smartphone. Computers did not only replace typewriters; they are also in the process of causing people to question the continued existence of physical books and newspapers, as well as movie theaters.Our Prime Directive to know how to better survive and how to better express ourselves now has a new channel - Spatial Computing. With Spatial Computing, the uses of the technologies of Virtual Reality, Augmented Reality, and Artificial Intelligence eclipse those of the computer we know today. In the near future, we will no longer have to use a physical computer to do our work and browse the internet. And we will be able to do so much more with the three-dimensionality of Spatial Computing and speech recognition software. It turns out that our need to better express ourselves appears to include a need to experience a replicated reality. Replicating of reality in the forms of paintings, fiction, and films, as well as other forms, has existed as long as human beings have had the need to express the conditions of both their individual and social existence in an effort to better understand themselves. Experiencing a replicated reality also turns out to be a very good way to achieve a new skill and to get knowledge in general. Spatial Computing is the next generation of imaging that is able to replicate reality, allowing the movement from two-dimensional imaging to three-dimensional. With three-dimensional imaging, the replication of reality is able to be more closely related to the reality it is trying to represent.Human beings seem to get satisfaction out of presenting and experiencing narratives that have the appearance of being real. An example of this is a movie. It is difficult to say exactly why we get such pleasure out of viewing a "good" movie. Perhaps it is empathy, but the question still remains why empathizing with movie characters that appear to be real should make us feel good, much less entertained. With Spatial Computing, the visuals are even more true-to-life and we are able to move through them (Virtual Reality) or incorporate and manipulate non-real objects into our real world (Augmented Reality). Artificial Intelligence adds another layer to the existing reality by organizing previously unconnected data into meaningful systems that could then be utilized in Spatial Computing to feed our Prime Directive needs. How human?Given that Spatial Computing is in its relative infancy, those boundaries need to be identified.It does not escape us that in the process of creating and using technologies to aid and entertain, human beings can become slaves to those very technologies, which have the effect of dehumanizing them. Another passage to dehumanization is the effort to reduce too easily to data the characteristics of human individuals and human life for the sole purpose of commerce, rendering humans down to basic tools of utility. When human beings overly view themselves and others as consumption machines and the content of their lives as data points, they become estranged from themselves. An inherent contradiction is that this kind of rationalization is in itself very human. The key to avoid estrangement is to be balanced between our actual human needs and human wants. We have it in our power to manage that balance when it comes to Spatial Computing. Before we can do so, we need to have a good understanding of Spatial Computing technologies, which can only come out of experiencing them.
Two shifts in digital mediaDigital media is highly susceptible to fashionable preoccupations with the latest technological innovation, and the past decade is no exception. 
  • Attention has shifted from wireless and streaming to cloud computing and crowd sourcing as the new and latest developments that characterise the medium. 
  • Critical commentary has also shifted gear, from seeing the Internet as a new dawn of creative freedom, to seeing the Internet as a system of exploitation and control.
The question of what is and is not digital media remains open and ongoing. We still think there is a degree of interchangeability as well as distinction between the terms new media and digital media
  • The term new media arose in the 1990s in order to emphasise and define a range of cultural and artistic uses of screen and computer based media, which were distinct from older analogue media forms, such as photography or film as well as to distinguish an emergent group of practitioners working across a range of artistic, media and social contexts. The term new media placed greater emphasis upon creative use than upon technology. The term emerged as a preferred term for a range of media practices that employed computer-based digital technologies. New media also emerged as a key institutional term in education and cultural policy and led to degree titles, research centres and independent organisations. This made new media an academic and intellectual subject as well as a practice. 
  • Electronic media also has a bearing upon our use of the term digital media. Electronic media privileges the power source of a group of related technologies as its defining feature. Electronic media groups together all those media that are dependent upon and structured through the science and technology of electrical transmission. At this general level electronic media is also an historical term for grouping together a characteristic element of electronic communication, which developed from the late nineteenth century and includes the media of telegraphy, telephone, radio, television and computing. Electronic media can be considered as a transparent transmission system for the content of previous human communication media, the medium itself being considered a neutral carrying system for sound and image. Marshall McLuhan generalises this understanding to the idea that the content of any medium is always another medium, that is to say that the content of writing was speech and that speech was the content of telegraphy. 
  • Convergence refers technical to the drawing together of previously discrete analogue technologies in digital form such that functions and tasks previously carried out by different media technologies are now functions of one machine. This is true of both the production of media, in digital image compositing and editing for example, and the distribution of media, where online services can deliver radio, television and print media. Convergence also refers to the bringing together and overlapping of media practices, where knowledge, skills and understanding of different analogue media practice are brought together in digital hypermedia and multimedia.
  • While the term digital media, emphasised a technological definition of practice, it has come to be the generally accepted term to describe the technical environment of computer based communication. Digital media accounts for the fact that the majority of media is now produced using digital hard and software as well as providing the platforms for networked communication.
  • Currently, networked media, online media, and social media have come to the fore as specific extensions of digital media. 

Digital media historiesA history of digital media will have to include a number of different strands of the historical development of art and media, their technologies, institutions and cultural forms. Initially such a history will involve something of the development of computing, electronics, robotics, optics, telecommunications, broadcasting, theatre, art, photography, film, literature, music and popular cultural pastimes. Such a list is daunting since it threatens to involve a history of every cultural means of expression and communication. The overriding reason why digital media needs such a multi-layered history is because of the hybrid nature of both the technologies and cultural practices gathered under the umbrella title. There is, as yet, no single, unified medium of digital media, in which technologies and cultural forms have been integrated, although computing is now the common factor. The current state of the practices of digital media are such that technically they still use a combination of digital and analogue means within a number of continuous cultural forms, which have converged in computing. Equally there is no single, or unified cultural idea of what digital media is; what knowledge and experience it deals with or the contexts in which it is applied.At present any history of digital media will need to account for the diverse developments that are constituted as digital media. A digital media history is better understood as a provisional and relational process of enquiry, because, while a unified and linear history can provide compelling stories of technological advancement or cultural continuity, they reduce and narrow our conceptual understanding of the current possibilities and purposes of what might turn out to be one new medium, or several forms within media.There are three broad strands of a potential digital media history, which are touched upon here; histories of material technologies; histories of telecommunication systems and histories of cultural and media practices. Put more generally, a digital media history requires an overview of the development of technological apparatuses, the ways in which they have been socially organised for communication purposes, and the cultural forms of communication they have been used for. In addition to historical accounts of machines, systems and products we also need to consider the social and cultural contexts in which such developments takes place and the intellectual models within which histories are constructed. But how is such a history to be constructed?TelevisionBy the middle of the twentieth century much of the early experimentation with sound recording and transmission had settled into the patterns we now recognise as the telephone, radio and the record player. All of which were based upon different material, analogue technologies, each with their own commercial, industrial and institutional organisation. Now we face a new moment in which the recording and transmission of image and sound is converged in a common digital code of transmission and storage. While the technical code of image and sound is common in the digital, the cultural codes remain distinct, which is why, the institutions of radio, photography and music recording remain separate. However, it is also important to recognise that radio, music and photography all have an online pres ence and image and sound are major constituent elements of online and interactive media.The historical development of television is also instructive when considering the rapidly and highly compressed development of the Internet and the World Wide Web. Technically the Internet originated through the selective and particular interests of scientific groups and military related government initiatives in the early 1960s. The actual relationships between technologies and their social uses is, as the example of television suggests, extremely complex. A full understanding of the development of television, needs to take account of an historical period of social reconstruction and change after a continental war. Post-war social and economic change created a new consumer society centred upon the domestic home. As the term, consumer durables, was coined to define a new set of mass produced products, such as radios cameras and television sets, which were in effect technologies of communication. The important social fact about the use of these post-war communication technologies was that they were consumed privately in the home, by a family unit that was more insular and less extended than previous family organisation. Television thus represented a highly centralised form of communication directed towards the isolated consumer, whereas theatre and cinema in the pre-war period had been popular social entertainments. The larger point here is that television developed in response to a new social organisation of which it performed a shaping role. The habits and patterns of consumption and use established by television are now being worked through the shaping of the popular consumption of digital media.The internet era that emerged in the 2010s represents a further shift in the way that television services are delivered to audiences that, once again, challenges normative definitions of television as a medium. Increased broadband access, ownership of smartphones and tablets, and roll-out of internet-connected television sets create the conditions for the development of online TV in a number of ways. Higher levels of broadband access enable the internet to become a ubiquitous part of everyday life. However, for online TV it is the development and uptake of superfast broadband, as well as 4G for out-of-home access, that is particularly significant because it facilitates the streaming and downloading of audiovisual content that takes up large amounts of bandwidth. Broadband access (and superfast broadband and 4G in particular) is, therefore, a crucial driver in the development of online TV.
Digital media, film and languageFilm as a medium of expression and communication consists of both a particular set of related  apparatuses, cameras, lighting systems, sound recording equipment and editing, as well as a body of  shared cultural knowledge about how to construct images and sounds and put them together in ways that make sense in particular cultural contexts. The knowledge about film apparatus and how to use them to make meaning is reproduced in a variety of contexts, through publishing, education and the production companies that train and pass on the know-how of film-making. Film has developed a range of distinct forms each with their own rules or conventions that vary from culture to culture.Film theory has striven to reveal the underlying rules, both cultural and technical, of film language and meaning. In this endeavour film theory has produced a number of distinct analytical positions that highlight key different perspectives of the cultural experience of cinema. Film theory focuses upon four interrelated but distinct aspects of the development and use of film as a medium from the producer to the receiver. These fours aspects can be defined as; intentions and role of the film maker (auteur theory); types and styles of film (realism, genre, textual and structuralist theory); the cultural context in which film is produced and received (intertextuality, postcolonialism, feminist and queer theory); and the ways in which an individual is socio-psychologically positioned to experience the film (spectator theory, psycho - analysis, post-structuralist, post-modernist theory). The application of digital technologies, in compositing and editing moving images, also means that part of the emerging language in which digital media is being understood and framed also now relates to new ways of understanding film and hence is included in film studies. This is part of the phenomena of media convergence in which the application of digital technologies to analogue film is changing first and foremost the distribution forms of film. One of the noticeable effects of digital distribution is that cinema is less separated from other media platforms. The installation of digital television and the scaling up of the domestic screen will make ‘home cinema’ an established cultural experience. Further technical developments in broadband signalling will shortly complete the convergence of the computer and television as a new platform for home entertainment in which subscription or payas- you-go based film-on-demand services will be the norm.Digital technology has shifted the boundary between film and television at the level of distribution and reception of the product of film as well as changed the nature of film production. The digital recording of the moving image can simulate most of the technical and aesthetic qualities of film. At this stage, rather as we have already seen with digital photography, the major film industries are adopting digital recording equipment and formats as standard. Digital technology has been used in the offline editing of film for a long time now and the shooting and editing in digital format makes the entire process seamless. The other major and more visible effect of digital technology in film post-production is in special effects (SFX). Special effects consists of enhancing exceptional effects of the behaviour of objects in time and space, which normally cannot be seen or witnessed, such as explosions, earth quakes, death defying leaps, etc. Such effects can be staged as live-action in front of the camera, or by treating the film after it has been shot in post-production, through montage and animation of other filmed material. Digital technology provides for the seamless layering and compositing of live action and animation in ways that produce a new photo-realist hybrid. Directors can now render a unified and credible moving image of any imagined world conjured-up by writers. Another way of putting this is to say that computer generated image (CGI) software programs merge material generated from external sources with animated material produced by computer algorithms.Computer modelling and rendering of objects and spaces that can be given photorealistic behaviours and properties also changes/extends the established language of film making that evolved from the codes and conventions of the movement of the film camera and its implied point-of-view. In the virtual space created by vectoral graphics the space and objects can be ‘seen’ from any position, defying the laws of physics that apply to the movement of objects in the real world or the positions and movements of the human body. In film, science fiction and cartoons have previously exploited and deployed special effects that allow characters in film to defy gravity or travel across time. But CGI also brings forward the possibility of endlessly changing the position of the audience in relationship to space, objects and actions within space, by putting them in an all-seeing point-of-view relative to the position of the virtual camera. It is a computer algorithm that determines the position and angle of view, rather than the lens and frame of a real camera located in real space. The same is true of virtual lighting in CGI. The filmic image is produced by reflected light from either the sun or artificial lights or both. Lighting is part of the language of film, producing particular effects of place and space related to the natural world and of mental states. Lighting objects in a computer rendered world follows the logic of lighting codes derived from previous film convention if it wishes to reproduce a given aesthetic style or look, but it can also assign different light values to different objects within the same scenes as well as lighting a scene from virtual positions.
Continuously-evolving real and virtual experienceOn the surface, the concept of reality is easy to understand. The world around us is all we see, all we feel in a given space. Reality is simply what exists.However, with the proliferation of smart devices, and 5G, the premise of reality has changed from constant, predictable surroundings to a continuously-evolving real and virtual experience. Of course, we see and feel the physical reality, which is only part of the story. Physical reality is balanced by immersive/extended reality (XR), adding and creating new experiences. Immersive realities have three principal types:
  • Virtual reality (VR) – An entirely simulated environment that lets the user feel immersed in a digital-only world.
  • Augmented reality (AR) –The enhancement of the physical environment by adding digital images and experiences. Users frequently experience AR through smartphone cameras.
  • Mixed reality (MR) –The interaction between physical and digital objects. MR uses the strengths and benefits of both AR and VR to optimize user experience.

The intersection of the virtual and physical worlds can change humanity for the better. The following reviews each type of XR and outlines the roles played by the relevant signal chain components that enable this transformative technology.
  • Immersive Tech Frames of Reference.  It is worth defining the frames of reference of immersive tech to understand the signal chain and how relevant processing elements help deliver the experience.
  • Physical Reality.  The world around us provides feedback to set the guardrails of what the user can expect.
  • Virtual Reality (VR).  Virtual reality provides its operator with a fully immersive experience, simulating as many of the five senses as possible.
  • Augmented Reality (AR).  AR adds virtual elements to the physical realm to enhance what users see and add functionality or features.
  • Mixed Reality (MR).  MR makes it possible to have an interaction of the two instead of the digital elements simply overlaying the physical ones.

GesturesEven before the spoken word, humans used and understood gestures to convey information. 

SCENA 2022Q4 

Nova proširena digitalna stvarnost  [D.A.M]Neophodno je odgovoriti na tri osnovna pitanja konvergencije virtuelnosti i stvarnosti:1.  Koliko je naša stvarnost virtuelna?       O faktorima imerzivnog doživljaja...2.  Koja su ograničenja ljudskih čula?        O zahtevima i ostvarenom doživljaju...3.  Koje tehnologije su danas dostupne?   O istraživanju i razvoju... 
Digitalna slika stvarnostiNaša slika stvarnosti je konstrukcija senzorskih obrazaca, aktivacionih potencijala i kognitivnih mehanizama. Percepcija, mišljenje, intuicija i osećanja su komplementarne psihološke funkcije naše ličnosti. Stvarnost je i virtuelna u izvesnoj meri, konstituisana i oblikovana našim predhodnim iskustvima, konceptualnim procenama, ikoničkim modelima i kulturom, emocionalnim očekivanjima. Svako od nas vidi zapravo svoju sopstvenu verziju stvarnosti kao rezultat neprestanog aktivnog odnosa prema okruženju i kontinuiranog obnavljanja internog modela. Ljudi nisu pasivni primaoci informacija i nadražaja koji dolaze iz spoljašnje sredine, već se sve što dolazi spolja propuštamo kroz prizmu naših čula. Ono što vidimo uvek je proizvod opažanja, očekivanja, tumačenja i iskustva. Samo je naš utisak da svakodnevne kontakte sa okruženjem obavljamo trenutno i bez napora, refleksno, rutinski. Ne postoji osećaj ogromne količine procesiranja kompleksnih senzorskih signala koje je neophodno za neprekinutu percepciju. Naše okruženje je relativno stalno i stabilno, ustaljene konstelacije scene i forme objekata. Cilj opažanja je da konstantno stabilizuje našu interpretaciju okruženja i održava nas lucidnim, i konstruiše interni model 3D prostora u kome su naše akcije uspešne u uslovima ograničenih resursa. U virtuelnom svetu, okružuje nas tehnološka imerzija koja omogućava iskustva novih stvarnosti, neviđenih i nedoživljenih do sada. Cilj je ispunjenost, realnost i/ili uverljivost. Dominantne vrste imerzije u ovom trenutku su prostorna, taktilna, strategijska i narativna, a neophodno je uključiti i društvenu imerziju. Prva generacija tehnologije ravnih 2D slika ne sadrži stvarne 3D efekte, samo pojedine naznake. Tradicionalni 3D filmski i TV efekti zasnivaju se samo na binokularnoj (horizontalnoj) paralaksi. Ultimativni holografski ekrani reprodukuju sve 3D naznake za objekte tako što rekonstruišu kompletan svetlosni talasni front. Međutim, tehnološke osnove holografije nisu trenutno dovoljno razvijene, tako da se u sledećoj dekadi razvija tehnologija 2D matrice mikro-objektiva (lenslet) za ograničenu rekonstrukciju 3D talasnog fronta. U inženjerskoj verziji, stvarni svet i virtuelni (VR) predstavljaju krajnje tačke XR continuuma (eXtended Reality) u kojem se tehnologije naglašene (AR) i kombinovane (MR) stvarnosti dopunjavaju i omogućavaju različite konstrukcije fizičkog i digitalnog okruženja DR (digital reality). AR (augmented reality) modifikuje perceptivni prostor, dokumentuje okruženje virtuelnim slojevima, ohrabruje razumevanje realne scene i prema tome, naglašava percepciju. MR (mixed reality) kreira kombinovano okruženje koje omogućava geometrijsku i fizičku interakciju virtuelnih i realnih objekata, naglašava razumevanje i vidljivost. VR (virtual reality) je generičko okruženje koje preovladava čula posmatrača i omogućava novu interakciju u realnom vremenu. VR je naša potraga za imersijom - nova stvarnost. AR je alat za upotrebu - naglašena proširena stvarnostNovi digitalni modeli zasnivaju se na multi-modalnim imerzivnim iskustvima (IMEx). Kvalitet ostvarene perceptualne vernosti, prirodnost interakcija, sposobnost našeg učešća i kontrole, zavise od složenosti primenjenih tehnologija koje se kontinuirano razvijaju i poboljšavaju. Ključni faktor širokog prihvatanja 3DoF/6DoF sistema je uskladiti ciljeve kreatora digitalnog modela sa odgovarajućom kombinacijom tehnologija i omogućiti korisniku najbolje iskustvo u okviru postavljenih zahteva. Prva faza AR istraživanja i razvoja 80ih je eksperimentalno definisanje koncepta i zahtevanih tehnologija. U drugoj fazi do sredine 90ih sprovedena su osnovna istraživanja tehnologija praćenja, projekcije i ulaznih uređaja. U fazi do 2007. razvijani su alati i aplikacije, studije upotrebljivosti i projektovanja. Od 2016. godine pojavljuju se komercijalne aplikacije u oblasti gejminga, medicine, mobilnih aplikacija, marketinga, obrazovanja... Danas su dostupne raznovrsne tehnologije proširenih realnosti (XR) ali u obliku fragmentiranih delova u različitim sektorima. Značajno je podići znanje o generičkim gradivnim elementima i pokrenuti raspravu o tome kako krenuti napred. Neophodni su definicija i taksonomija imerzije, novi softverski radni okviri i objektivna metrika kvaliteta krajnjeg iskustva koje korisnici percipiraju [D.A.M]
Digital senses and digital reality
  • well explored (sight, hearing)
  • emerging (touch, taste&smell)

6G cognitive noiseNew 6G services must meet four criteria: cognitive and physical safety, stringent privacy safeguards; and use authenticity techniques. 
  • By cognitive safety we mean safeguarding against the mental fatigue created by over-exposure to multiple digital stimuli. So the network’s owner needs to consider the impact of the experience on the users’ cognitive load. 6G services must ensure cognitive ‘noise’ is carefully balanced so that users don’t feel burned out by frequent use of multiple devices. 
  • While technology is being trialed to avert nausea, until it is fixed it’s something developers must be aware of. There are also the physical safety aspects of bumping into or tripping over objects in the real world when immersed in a digital environment. Many headsets use sensors to warn users, but until this technology is perfected, accidents will continue.
  • People will want major assurances over the questions over authenticity, given that virtual avatars and personas have made the public aware of even more sinister developments such as deep fakes of both people and environments.

Fundamentals of all the realitiesThis section introduces the different “realities”: virtual, augmented, (deliberately) diminished, mixed, mediated, multimediated, and phenomenological.
  • VR (virtual reality) replaces the real world with a simulated experience (a “virtual” world). 
  • AR (augmented reality) allows the real world to be experienced while at the same time, adding to it, a virtual world.
  • MR (mixed reality) provides blends that interpolate between real and virtual worlds in various proportions, along a “virtuality” axis, and extrapolate to an “X-axis” defined by “X-Reality” (eXtended reality). 
  • Mediated reality goes a step further by mixing/blending and also modifying reality, including, for example, deliberate diminishing of reality (e.g., a computerized welding helmet that darkens bright subject matter while lightening dark subject matter). This modifying of reality introduces a second axis called “mediality.” Mediated reality is useful as a seeing aid (e.g.,modifying reality to make it easier to understand) and for psychology experiments like upside-down eyeglasses experiment. 
  • Multimediated reality (All R) is a multidimensional multisensory mediated reality that includes not just interactive multimedia-based “reality” for our five senses but also includes additional senses (like sensory sonar, sensory radar, etc.), as well as our human actions/actuators. These extra senses are mapped to our human senses using synthetic synesthesia. This allows us to directly experience real (but otherwise invisible) phenomena, such as wave propagation and wave interference patterns, so that we can see radio waves and sound waves and how they interact with objects and each other, i.e., phenomenological reality. Moreover, multimediated reality considers not just multiple axes in addition to the X-Reality axis but also that the origin of the axes exists at zero sensory stimuli.

3D perception3D perception is crucial for understanding the real world. It offers many benefits and new capabilities over 2D across diverse applications, from XR and autonomous driving to IoT, camera, and mobile. 3D perception with machine learning is creating the new state of the art (SOTA) in areas, such as depth estimation, object detection, and neural scene representation. Making these SOTA neural networks feasible for real-world deployment on mobile devices constrained by power, thermal, and performance has been a challenge. AI Research has developed not only novel AI techniques for 3D perception but also full-stack AI optimizations to enable real-world deployments and energy-efficient solutions. We explore the latest research that is enabling efficient 3D perception while maintaining neural network model accuracy.
An inside-out version of our worldIt seems that there is a specific misconception that lingers: The idea that mirrors flip things from left to right. Usual examples are done by holding a book, a newspaper, or any other piece of writing to the mirror, and seeing the text reversed back. We are talking about flat mirrors here. Things get a bit more complex when we talk about concave or convex mirrors, but the principles are the same. The alleged "flip" from left to right or right to left is an illusion, our brain jumping to the wrong conclusion. If flat mirrors were truly flipping things left to right, we should be wondering why they are not flipping up to down. The truth is, they are not changing in any specific direction. Mirrors actually create an inside-out version of our world. If you think of a glove specific to the left hand, it won’t fit on the right. But if you can turn it inside out, it would. That is what the laws of optics do when it comes to flat mirrors.If you look at an object, you can imagine light as moving in straight lines between your eyes and the object. When light encounters a mirror, it reflects depending on the angle at which it hits the mirror. That’s how it can see behind the paper. But looking straight at the mirror is like looking at a perfect mask of you that has been flipped inside out. The right-hand side of the mask needs to be facing the right-hand side of your body.You might wonder why text is flipped, and the reason is similar. By trying to look at the text in the mirror, we have flipped the page. If we can see through the page by writing with a marker on a thin sheet, we would see the writing in the same way, both through the page and in the mirror.For something so common, mirrors are really weird contraptions that have some pretty hardcore physics underlying their incredible properties. This is Gaskins’s key insight: a presentation’s message is inevitably diluted when its production is outsourced. In the early ’80s, he meant that literally. The first two versions of PowerPoint were created to help executives produce their own overhead transparencies and 35-millimeter slides. In 2010, Microsoft announced that PowerPoint was installed on more than a billion computers worldwide. At this scale, PowerPoint’s impact on how the world communicates has been immeasurable.
Next slide, please: A brief history of the corporate presentationThe sound of slides clacking is deafening. Before PowerPoint, and long before digital projectors, 35-millimeter film slides were king. Bigger, clearer, and less expensive to produce than 16-millimeter film, and more colorful and higher-resolution than video, slides were the only medium for the kinds of high-impact presentations.The Hotel Regina is an Art Nouveau marvel overlooking the Tuileries Garden and the Louvre. But on this day in 1992, its Old World meeting rooms have been retrofitted with advanced video technology. The color projector in the back of the room, the size of a small refrigerator, cost upwards of $100,000 and takes an hour to warm up. Bob Gaskins’s 1984 proposal for PowerPoint, written when he was VP of product development at the Sunnyvale startup Forethought, is a manifesto in bullet points. It outlines the slumbering, largely-hidden-from-view $3.5 billion business presentation industry and its enormous need for clear, effective slides. It lists technology trends—laser printers, color graphics, “WYSIWYG” software—that point to an emerging desktop presentation market. It’s a stunningly prescient document throughout. But Gaskins italicized only one bullet point in the whole thing.
Immersive video technologiesImaging technologies enable humankind to capture and store the visual information from real world scenes. Although traditionally images have been stored on physical media (photographic film), with the advent of digital image processing, we can capture, store, compress, and transmit images and videos digitally and in real time. This enabled telepresence by delivering the visual information to distant locations. The term telepresence refers to the “sense of being physically present at a remote location through interaction with the system’s human interface”, a phenomenon that a human operator develops. The term presence is also coined for “being there” for other virtual environments, as well as immersion, for “concentration to the virtual environment instead of real world”. Immersion is considered as one of the factors which are necessary for presence. Therefore the technologies which try to provide a virtual presence are called immersive imaging technologies.The state-of-the-art immersive video technologies extend the visual sensation, augment the viewer’s “presence,” and provide the viewer with a higher degree of freedom (DoF) than what traditional displays offer. The traditional imaging systems record the scene from only a single viewpoint selected by the content creator, which provides essentially zero DoF, as the viewer does not have any freedom over the viewpoint selection. Instead, the immersive imaging systems can provide more than three DoF.What makes a video immersive?To answer this question, we need to understand how immersion and other related terms are defined in the scientific literature by the cognition and virtual reality experts. The subsection that follows focuses on description and discussion of these definitions. We then define what immersion means in the context of immersive video, and we discuss which aspects are important to make a video immersive. In the next subsection, we also discuss how immersive video technologies relate to extended reality concepts.The concepts of presence and immersion are discussed in great detail by many scholars, including the ones working on human cognition, robotics, and virtual reality. In this section, we will describe the mainly used four terms that are relevant for the scope: 
  • Telepresence. The term was coined as a response to the needs of the robotics community. The term describes the relationship between the human operator and the environment in which a remote machine is located, where the human operator would get a “sense of being physically present at a remote location through interaction with the system’s human interface”. The term was then adopted by the virtual reality community as well.
  • Presence. The term initially referring to the “experience in natural surroundings,” whereas telepresence was used for the experience in mediated environments. In time, this distinction based on mediation of the environment was viewed unnecessary, and the term presence started to be used for both natural and mediated environments. It is defined as “being there” or “perceptual illusion of nonmediation” (i.e., as if the virtual environment was “real”). As one of the loaded terms among others, presence can have many different lenses to look from. It is identified six different viewpoints and aspects that define and affect presence. Immersion is described as one of these aspects. Presence is considered an essential element for immersive technologies.
  • Embodiment.  Since it is used in virtual reality terminology, the term embodiment seems related to presence and immersion concepts. Nevertheless, the term embodiment relates to an avatar that represents the users’ body in a virtual environment. This avatar can be either a photorealistic one or not. If the users of a virtual environment (or a virtual reality application) “embodies” the virtual avatar they are given, they can use the body for physical and social needs in the said virtual environment and do not experience any discomfort during their activities. Currently, most of the applications for the considered immersive video modalities do not employ a virtual avatar, and there is little need to consider embodiment in most of the applications.
  • Immersion.  The term immersion comes from the English word “immerse,” meaning “to become completely involved in something” or “to put something or someone completely under the surface of a liquid”. One of the earliest descriptions in the virtual reality literature describes it as “a term that refers to the degree to which a virtual environment submerges the perceptual system of the user in computer-generated stimuli”. This is similar to covering over (or blocking) the users’ senses (both physical and psychological; discussed more in the next subsection) with the virtual environment or virtual reality application. It is also mentioned that immersion can be measured; physical immersion can be measured by identifying number of senses that are covered by the environment and psychological immersion needs to be reported by the user.
ImmersionImmersion can be perceptual (i.e., physical or sensory) or psychological. The sensory immersion is achieved by “shutting off ” as many senses as possible, including sight (with head-mounted displays), hearing (with audio), touch (with haptics), smell and taste (with olfactory devices). On the other hand, psychological immersion can happen on the cognition level if the user is involved with the material enough and feels lost in the environment. Since immersion has both physical and psychological aspects, any number of interesting activities can achieve user immersion, including daydreaming, reading a book, and cinema (i.e., traditional video). Nevertheless, in this book, we only consider the video technologies that attempt at both physical and psychological immersion. That is, the users should see a different (or augmented) visual and feel present in the prepared environment.We identified two aspects that are crucial in defining the immersive video technologies:
  • It is hard to define realism in one way since it is our brains that define what “real” is. It is argued that there are two types of realism: social realism and perceptual realism. Social realism is the type of realism that focuses on the conceptual relationships in the environment, especially between people or agents. Therefore a video game can be compelling or feel “real” to players, even though the avatars or objects in the game do not look as they do in real life. Perceptual realism, on the other hand, focuses on recreating the actual 3D world with highest fidelity, and the perceptual realism for visuals is sometimes called photorealism. Since the users can believe the environment is “real” with social realism, we understand and acknowledge that photorealism (or perceptual realism) is not necessary for immersion in video technologies. Nevertheless, since realism is a very important part of video technologies, the immersive video modalities in this book put a much heavier focus on perceptual realism.
  • Interactivity, is also key in how video technologies become immersive. It is argued that interaction is a crucial element in perceiving a technological system as a social agent instead of hardware [4], which can be very important in achieving immersion. Recent immersive imaging systems enable and promote interaction in a far greater degree than traditional video, and this is also supported by new lightweight wearables, haptics controllers, and headsets. Furthermore, the low latency between users, which come with increased connection speeds, promotes much smoother user-to-user interaction.

The challenge of three to six degrees of freedomWe want to understand that new beast of 2.5D immersive video at a high level of abstraction, and interestingly, it sometimes revives old ideas published already 30 to 50 years ago. This may look surprising, but mathematically many things were already known for a long time, some of them even back to the mid-nineteenth century! In fact, what really has evolved this last decennium is the technology that can capture and render even higher resolution images than before, as well as all the computing power that has been harnessed to make all required calculations in realtime, thus providing stunning experiences. We are not pretending that mathematically or conceptually nothing has progressed in half a century, but for sure, it is the tremendous evolution in technology that has brought virtual reality (VR) to the level of quality we witness today. We will gradually build this 2.5D immersive video story by comparing it with 3D graphics, point clouds and the well-known 360 videos. 
  • Complementary to 2D video, 3D graphics requires very explicit geometric information for synthesizing the stereoscopic image pair that is presented to the viewer. This geometric information can be a 3D model of the scene (here a house) or a point cloud representing the shape and texture of a person (bottom-centre), or even a textured 3D mesh that we will study further in the textbook. With this geometry and texture information, any viewpoint to the scene can be synthesized, like in a 3D video game. The images presented to the viewer will change according to the head and body pose changes, covering 6 degrees of freedom (6DoF) capabilities: three head rotations and three body (and head) translations.
  • 360 videos are just 2D videos that are presented to the viewer; they do not contain any geometric information such as the shape of objects or their depth. This highly simplifies the roll-out of 360 video technology, which is probably the reason for its popularity . . . but be careful in using 360 videos in a VR headset: they will make you easily sick because what you see does not move in  correspondence to your own body and head lateral movements. In fact, only the head’s rotational movements are considered for changing the images presented to the viewer, not the lateral body movements. 360 videos therefore only present 3 degrees of freedom (3DoF) capabilities.

Alternativna stvarnostMetaverzum označava imerzivno, interaktivno i dinamično virtuelno okruženje u realnom vremenu, kome pristupamo  kroz AR/VR i haptičke tehnologije. Okupljamo se radi posla i zabave u metaverzumu, koji u osnovi deluje kao alternativna stvarnost. Metaverzum nije aplikacija, omogućava i kontekst u kojem aplikacije mogu da rade. Postoji samo jedan metaverzum, iako ne nužno predstavlja globalno ujedinjen ili integrisani prostor. Najverovatnije će se sastojati od mnoštva odvojenih podprostora, međusobno povezanih upotrebom globalnih otvorenih standarda i dostupnih svima – slično principima koji upravljaju internetom i web lokacijama.Da bi bio prihvaćen kao alternativna stvarnost, neophodno  je da metaverse spoji multimedijalne tokove i podatke u realnom vremenu sa uređaja interneta objekata IoT sa virtuelnim digitalnim blizancima DT mašina, vozila ili pametnih gradova, ljudskih avatara i inteligentnih agenata zasnovanih na veštačkoj inteligenciji AI. Neophodna je i povratna sprega za upravljanje mašinama u stvarnom svetu, ekonomski sistem za stvarno ili virtuelno vlasništvo, licenciranje i obračun troškova, kao i robustan, bezbedan i osnovni komunikacioni protokol koji čuva privatnost.Danas posmatramo video na ekranima na fizičkim lokacijama, doživljavamo – sami ili zajedno – sadržaj koji se prikazuje onako kako su to zamislili producenti. Metaverzum projektuje sadržaj na virtuelni ekran. Posmatramo sadržaj sa drugim ljudima u istom virtuelnom prostoru. Postepeno omogućava da se doživi isti sadržaj, postanete istinski deo publike i da konačno stupite u interakciju, kada glumci budu unapređeni inteligentnim agentima. Neophodan je prelazak sa 2D ili pseudo-3D kodovanje sadržaja na objektno zasnovano 3D snimanju scene, kodovanju, kompozitu i renderovanju. Neophodna je RGB produkcija, ali i oblaka tačaka PC i mapa dubine DM, 3D objekti zasnovani na poligonima ili 3D vokselima, do potpuno montiranih dinamičkih objekata povezanih sa inteligentnim agentima. Za razmena svih ovih informacija među kreatorima sadržaja, neophodni su globalno prihvaćeni standardi za kodovanje zasnovani na objektima, povezani sa sistemom distribuiranog digitalnog vlasništva, licenciranja i upravljanja digitalnim pravima.Kombinacija različitih vrsta mreža i mrežnih elemenata u višeslojnu infrastrukturu – kombinovanje unicast, emitovanja/multicast i lokalne pametne Edge data centre upotrebom AI funkcionalnosti – obezbediće jedinstven skup alata za drastično poboljšanu održivost budućnosti metaverzuma. Značajan je razvoj višeslojne infrastrukture čiji trošak može biti održiv ako je podeljen između onih koji grade metaverzum, telekomunikacionih operatera i krajnjih korisnika. 
AI in the creative industriesOver recent years, one of the most rapidly advancing scientific techniques for practical purposes has been Artificial Intelligence (AI). AI techniques enable machines to perform tasks that typically require some degree of human-like intelligence.  AI embodies a set of codes, techniques, algorithms and data that enables a computer system to develop and emulate human-like behaviour and hence make decisions similar to (or in some cases, better than) humans. The potential of AI (or its developers) to win awards for its original creations in competition with human creatives is also limited, based on contemporary technologies. We therefore conclude that, in the context of creative industries, maximum benefit from AI will be derived where its focus is human-centric—where it is designed to augment, rather than replace, human creativity. Processes associated with the creative sector demand significantly different levels of innovation and skill sets compared to routine behaviours. While AI accomplishments rely heavily on conformity of data, creativity often exploits the human imagination to drive original ideas which may not follow general rules. Basically, creatives have a lifetime of experiences to build on, enabling them to think ‘outside of the box’. Creativity is defined as ‘the ability to produce original and unusual ideas, or to make something new or imaginative’. Creative tasks generally require some degree of original thinking, extensive experience and an understanding of the audience, while production tasks are, in general, more repetitive or predictable, making them more amenable to being performed by machines. To date, AI technologies have produced mixed results when used for generating original creative works. Applications of AI in the creative industries have dramatically increased in the last five years. There have been many studies over several decades into the possibility of applying AI in the creative sector. One of the limitations in the past was the readiness of the technology itself, and another was the belief that AI could attempt to replicate human creative behaviour. AI has increasingly (and often mistakenly) been associated with human creativity and artistic practice. As it has demonstrated abilities to ‘see’, ‘hear’, ‘speak’, ‘move’, and ‘write’, it has been applied in domains and applications including: audio, image and video analysis, gaming, journalism, script writing, filmmaking, social media analysis and marketing.  We divide AI creative applications into five major categories: content creation, information analysis, content enhancement and post production workflows, information extraction and enhancement, and data compression. However, it should be noted that many applications exploit several categories in combination. 
  • content creation is a fundamental activity of artists and designers (script and movie generation, journalism and text generation, music generation, image generation, animation, VR/AR/MR, deepfakes, content and captions)
  • information analysis (text categorization, sdvertisements and film analysis, content retrieval, recommendation services, intelligent assistants)
  • content enhancement and post production workflows (contrast enhancement, colorization, upscaling imagery, restoration, inpainting, visual special effects VFX)
  • information extraction and enhancement (segmentation, recognition, salient object detection, tracking, image fusion, 3D reconstruction and rendering, data compression)
Research into, and development of, AI-based solutions continue apace. Future challenges are 
  • ethical issues, fakes and bias
  • the human in the loop.

Feel the MusicThe creation of imaginary worlds has been the focus of philosophical discourse and artistic practice for millennia. Humans have long evolved to use media and imagination to express their inner worlds outwardly via artistic practice. As a fundamental factor of fantasy world-building, the imagination can produce novel objects, virtual sensations, and unique stories related to previously unlived experiences. The expression of the imagination often takes a narrative form that applies some medium to facilitate communication, for example, books, statues, music, or paintings. These virtual realities are expressed and communicated via multiple multimedia immersive technologies, stimulating modern audiences via their combined Aristotelian senses (smell, sight, touch, taste, and hearing). Incorporating interactive graphic, auditory, and haptic narrative elements in extended reality (XR) permits artists to express their imaginative intentions with visceral accuracy. However, these technologies are constantly in flux, and the precise role of multimodality has yet to be fully explored. Thus, this contribution to Feeling the Future— Haptic Audio explores the potential of novel multimodal technology to communicate artistic expression via an immersive virtual reality (VR) volumetric music video. We compare user experiences of our affordable volumetric video (VV) production to more expensive commercial VR music videos. Our research also inspects audio–tactile interactions in the auditory experience of immersive music videos, where both auditory and haptic channels receive vibrations during the imaginative virtual performance. This multimodal interaction is then analyzed from the audience’s perspective to capture the user’s experiences and examine the impact of this form of haptic feedback in practice via applied human–computer interaction (HCI) evaluation practices. Our results demonstrate the application of haptics in contemporary music consumption practices, discussing how they affect audience experiences regarding functionality, usability, and the perceived quality of a musical performance.The “ecosystem” of which a musical performance is delivered comprises four parts: (1)the instrument, (2) the performer, (3) the audience, and (4) the performance environment. In this context, we seek to explore the role of audio-related haptic feedback in audience experiences of a volumetric music video experience presented via VR technology. Our hypotheses are as such:
  •  Haptic feedback, as vibrotactile stimuli, can enhance factors of user experience in virtual reality volumetric music video experiences.
  •  Haptic feedback, as vibrotactile stimuli, can influence subjective evaluations of the contributing aspects of presence experiences in virtual reality volumetric music video experiences.

Immersive experiences and intelligent insightsDeveloping emotional intelligence and empathy can only be challenging with real-life experiences. VR can create immersive scenarios that simulate emotional situations, enabling coachees to navigate and respond appropriately to different emotional cues. This combination of VR and AI facilitates the development of emotional intelligence by offering opportunities to practice and refine empathetic responses in a controlled environment.
Immersive virtual environments and presencePsychologically, virtual realities are presented as 3D immersive virtual environments (IVEs), digitally providing sensory stimuli that encapsulate the user’s senses and creating the perception that the IVE is genuine and not synthetic. IVEs have been used for years to convey virtual realities via CAVE and HMD systems. Today, VR technology can be used as an erudite psychological platform for cultural heritage, theatre performance, teaching, and empathy building.The most common concepts in discussions about virtual realities are immersion, presence, co-presence, flow, and simulation realism
  • Immersion is “the degree of involvement with a game”. Immersion is also a deep engagement when people “enter a make-believe world”. While some research points to experiencing virtual engagement or disassociation from reality in virtual worlds, others consider immersion as a substitution for reality by virtuality and becoming part of the virtual experience. Immersion also includes a lack of awareness of time and the physical world, feeling present within a virtual world, and a sense of real-world dissociation. While broad, these definitions of immersion are universally applicable to VR technology. Moreover, it should also be noted that measures of immersion target the technology and not the user’s experience of the IVE.
  • Factors of presence, on the other hand, can be classified as subjective experiences . As an aspect of immersion, presence can indicate if a “state of deep involvement with technology” has been achieved. Therefore, presence can be defined as a “state of consciousness, the (psychological) sense of being in the virtual environment”. Whether directly or indirectly, immersion is required to induce presence. 
  • Furthermore, the social aspect of a virtual experience, as co-presence, is also a factor for consideration and a state of “flow.” 
  • Flow describes the feeling of full engagement and enjoyment of an activity and is strongly linked to feeling present and increased task performance in IVEs. 
  • VR is driven to pursue simulation realism. The conscious sense of presence is modeled by presenting bodily actions as possible actions in the IVE and suppressing incompatible sensory input. However, a digital representation does not require perfect rendering to be perceived as physically accurate. Furthermore, objective and subjective realism does not always balance when an audience experiences esthetic art practices. 
In creative media practices, the connection between presence and visual esthetics isrelatively unknown and could be assessed from an immersive arts perspective on realism as an art movement. The relationship between IVEs and esthetics may imply other consequences, as esthetics is associated with pleasure and positive emotions . Therefore, assessing the feeling of presence in VR experiences as immersive technologies may induce satisfaction and positive affect. As such, presence measures can be effectively applied in user experience studies for evaluating different artistic virtual realities when presented in IVEs without relying on visual realism for immersion.Using haptics in VR experiences can help increase feelings of perceived presence , and the effect of haptics on the presence of virtual objects has also been observed. Moreover, multimodal IVEs, consisting of video, audio, and haptic feedback, have impacted user expectations and satisfaction levels of professional and conventional users. Therefore, evaluating a haptic experience’s design can be taken from an audience, performer/composer, instrument designer, and manufacturer perspective . The goal of each stakeholder is different, and their means of assessment vary accordingly. In the presented works, we look to capture audiences’ experiences when experiencing musical haptics within an IVE.
Multimodal stimuliAt the heart of any live musical performance are the visual spectacle and the spatial aural experience. In addition, we can also experience supporting haptic stimuli that relate directly to the musical performance as vibrations. Finally, we use the visual senses to correlate the musician’s movements with the music performed for the audience. Within VR, we can manipulate the audience to feel present in a virtual world and present imaginative, interactive narratives to immerse the user in a multimodal musical experience.Volumetric Video (VV) is a media format representing 3D content captured and reconstructed from the real world by cameras and other sensors similarly commonly used in computer graphics. VV enables the visualization of such content with full six degrees of freedom (6DoF). Over the last decades, VV has seen interest from researchers in computer vision, computer graphics, multimedia, and related fields, often
  • under other terms such as free viewpoint video (FVV), 3D video, and others. However, the commercial application has been limited to a few special effects and game design cases. Recent years have seen significant interest in VV, including research, industry, and media streaming standardization. On the one hand, this reinvigoration is driven by the maturation of VV content creation technology, which has reached acceptable quality today for various commercial applications. On the other hand, current interest in extended reality (XR) also drives the importance of VV because VV facilitates bringing real people into immersive XR experiences. Traditionally, VV content creation starts with synchronized multiview video capture in a specifically designed studio.
  • Spatial Sound.  The success of a VR experience relies on effectively replacing real-world sensory feedback with a virtual representation. Since sounds convey multiple types of information, such as emotional expression, localization information, and environmental cues, auditory feedback is an essential component in the perception of an IVE. The purpose of auditory feedback in immersive media is to replace the existing sounds and the acoustic response of the environment with virtual ones. Furthermore, presence, immersion, and interaction are essential for a successful experience in VR development. The more accurate or plausible the auditory representation, the higher the sense of presence, immersion, and place illusion is felt by users. Spatial audio, often referred to as immersive audio, is any audio production technique that allows rendering sounds with the necessary perceptual properties to be perceived as having a distinct direction and distance from the user. Sound localization lets us recognize a sound source’s presence, distribution, and interaction. It is defined as the collection of perceptual characteristics of audio signals that allow the auditory system to determine a sound source’s specific distance and angular position using a combination of amplitude, monoaural cues, interaural level differences (ILDs), and inter-aural time differences (ITDs). Sound auralization is crucial for creating a plausible auditory scene and increasing the user’s spatial perception and the VR environment’s overall immersiveness. Utilizing a range of acoustic phenomena, such as early reflections and reverberation, allows us to produce a realistic auditory response and helps place audio sources in the virtual space.
  • Haptics.  The sense of touch in humans is often categorized as cutaneous, kinesthetic and proprioceptive, or haptic perception. Haptic perception is achieved through actively exploring surfaces and objects using the forces experienced during contact with mechanical stimuli, including pressure and vibration. In human physiology and psychology, haptic stimuli and their perception by the brain relate to the actions of the somatosensory system and the sensory gathering of force and tactile information immediately affecting a person, all highlighting the existence of corresponding external stimuli sources. Contact with haptic stimuli is usually made via the skin, explicitly stimulating cutaneous receptors in the dermis, epidermis, and ligament tissue. Cutaneous receptors are found in the skin for touch, and proprioceptors are located in the muscles for kinesthetic and proprioceptive awareness. Cutaneous receptors include mechanoreceptors (pressure or distortion), nociceptors (pain), and thermoreceptors (temperature). Mechanoreceptors need to be stimulated to experience the touch of a vibration. In physics, vibrations are a mechanical phenomenon whereby oscillations occur around an equilibrium point . On the one hand, sound is a vibration that spreads as an acoustic wave via some medium and stimulates the auditory system. On the other, for haptics, the perception of vibration is a measure of vibration as cutaneous stimuli, and this somatosensory information then allows humans to explore their immediate world. For perception to be achieved, direct physical contact is often required; this is not the case for auditory perception. The radiated sound can also stimulate the surface of the human body. Airborne vibrations, such as sound, can also be perceived by the skin if they are of sufficient amplitude to displace the receptors under the skin, as is often experienced in live concerts. When an acoustic or digital musical instrument produces a sound, that sound is created by some vibrating element of the instrument’s design or an amplified speaker. Therefore, haptics and music can be innately connected through multimodal vibration, where the biological systems of the somatosensory and auditory systems are engaged simultaneously. The combination of haptic and auditory stimuli can be multimodal and experienced by a performer and audience alike, creating new practices that can be mixed and analyzed in multiple contemporary use-case scenarios. The musician and the audience are reached by vibration through the air and solid media, for example, the floor or the seats of a concert space or stage. However, in the case of the audience, vibrotactile and audio stimuli are experienced passively, as no physical contact is made between the instrument and listener. Still, studies have reported that music-related vibrations generally improve the listeners’ music experience, and it is the audience experiences that we choose to observe. 
  • VR Performance.  The permeation of XR technologies into the hands of creative artists has provoked varied and innovative technological employments toward esthetic ends. The arrival of these technologies has been proposed by several theorists and critics as analogous to the advent of film technologies at the beginning of the 20th century, which (arguably) gave rise to the wealthiest epoch of modern, avant-garde, inventive art in the 20th century. Even within the more focused subcategory of the performing arts, there is a plethora of creative techniques, styles, and strategies, as well as opinions and views on the most effective solutions, for harnessing these technologies and captivating audiences. To date, VR (as a subsection of the totality of platforms offered on the spectrum of XR technologies) has enjoyed the most significant level of investigation by performing artists. Even within the more focused purview of VR performance, several taxonomies still have to be negotiated, for example, live versus prerecorded material and the creative techniques employed. It is suitable to focus the discussion on VR performance content created using VV, yet even within this narrowed category, there are varying techniques: those that purely use computer vision and those that include the use of depth camera data. Focusing specifically on offline VV content generated purely through the computer vision techniques outlined above, it is essential to note that, in the context of the presented research, there is currently no possibility of generating a live (real-time) representation of a 3D character. Leaving aside consumer bandwidth, the postproduction processes are currently too slow and memory-intensive; however, as processing capabilities increase and algorithms and pipelines become more refined, it is possible that, in the next few years, the latency between capture and representation may be reduced to less than a minute, which is not that far off the latency associated with straightforward video webcasting. 

Basics of XR Human perception of real objects is based on five basic senses: sight, hearing, touch, smell, and taste. If a virtual object can deliver the same synthesized senses as a real object, it seems that the virtual object does exist. The virtual content is created using digital technologies, which is also called digital reality. Based on the format and the percentage of virtual content, we can divide XR into different categories:
  • Reality: The surrounding environments and objects are real.
  • Augmented Reality (AR): The surrounding environments are real but enriched with virtual augmenta- tions. The reality is the physical world that we observe without any virtual content. AR overlays a virtual layer on top of reality. Use cases are sports, automotive, real estate and tourism
  • Mixed Reality (MR): A mixture of real and virtual content which includes Augmented Reality (AR) and Augmented Virtuality (AV). MR is a broad concept encompassing all the technologies that mix real and virtual environments, including AR. AR and MR are used interchangeably in the literature due to the lack of a clear boundary. In this paper, we consider MR as an advanced version of AR since MR allows users to interact with virtual content, while AR only augments virtual content on top of the real environment. Use cases are computing platform, healthcare, 3D design.
  • Virtual Reality (VR): The surrounding environments  are fully virtual. Use cases are personal movie theater, sports, gaming. 

Note that, in AR, users can see virtual objects or information in real environments, whereas in AV, users can see real objects in virtual environments. The Mixed Reality (MR) includes AR and AV. In MR, the user can interact with virtual objects. In other words, MR has richer and more interactive virtual content than AR. AR, MR, and VR share some common features and requirements, which are en compassed by XR.
Technical XR parameters that are related to wireless communications and networking are field-of-view (FoV), pixels per degree (PPD), video frame resolution, refresh rate, data rate, latency. Entry-level XR is lower than 1.0 Gbps data rate. However, ultimate XR requires much higher data rates up to 20 Gbps and latency less than 8 ms. 
Metaverzum bioskopski koncept Metaverzum konceptualno sadrži ideju interakcije u realnom vremenu, kako jedni sa drugima tako i sa sadržajem, za posao, zabavu, obrazovanje, zadovoljstvo, u potpunosti unutar digitalnog univerzuma formiranog kao mreža međusobno povezanih imersivnih virtuelnih svetova. Još jednostavnije, kada je u pitanju zabava, metaverzum predstavlja logičan sledeći korak u evoluciji i praktičnoj upotrebi bioskopskih koncepata virtuelne stvarnosti za zabavu, podignut na novi i uzbudljiv nivo.Postoji više slojeva u smislu onoga što je moguće unutar koncepta, počevši od fokusa na posao i preuzimanja imerzivnih metoda, alata i ideja koji se koriste za zabavu i širenja u praktičnu upotrebu za svakodnevne zadatke i interakcije. I svakako da ideja obuhvata nove virtuelne metode za saradnju, uključujući i kreiranje sadržaja. Metaverzum je logičan sledeći korak u industrijskom istraživanju ideje imerzije.Ako proučavamo sadržaj u poslednjih 50 do 60 godina, skoro sve što smo tehnološki uradili usmereno je da privučemo gledaoca sve bliže i bliže sadržaju. Nastojali smo da sadržaj učinimo imerzivnijim, bilo tako što smo ekrane dizajnirali zaista velikim, projekcijom boljeg kvaliteta, realističnijim bojama, stereoskopijom, digitalnim okružujućim zvukom, prostornim imerzivnim zvukom, pa čak i fizičkim pomeranjem sedišta gledaoca. Drugim rečima, uvek smo se trudili da publiku uvučemo u sadržaj onoliko koliko je to dozvoljavalo praćenje u bioskopskom stilu. Sada dolazi VR, i to je prva prilika u kojoj nam sama tehnologija omogućava da bukvalno uronimo gledaoca u sadržaj tako što blokiramo stvarni svet i stvaramo virtuelni svet koji privlači pažnju dva njihova primarna čula — video i zvuk . Dakle, metaverzum je u suštini sledeći korak onoga što nazivamo Cinematic VR – radite stvari u stvarnom svetu dok gledate i doživljavate šta se dešava u virtuelnom svetu, obično noseći naočare i slušalice. Stvarajući virtuelne svetove i omogućavajući upotrebu avatara da bi ušli u njih i stupili u interakciju sa avatarima drugih ljudi, metaverzum nam dozvoljava da preduzmemo sledeće korake.Postoji bioskop, regularna televizija, digitalni striming OTT, a sada postoji i imerzija – VR ili metaverzum. Bioskop uključuje gledanje u zajednici; televizija je porodično gledanje bez ograničenja, pošto to obično radimo u svom domu; OTT/striming je individualno kontinuirano gledanje, a sada postoji i četvrto – privlačno individualno gledanje, ali sa ekstenzivnim imerzivnim kvalitetima. Postoji određena vrsta uticaja koji nijedno od prva tri ne može da pruži—podstiče osećaj uranjanja u potpunosti.Postoji više vrsta imerzije: tehničko uranjanje (npr. kao da ste uronjeni u bazen), kognitivno uranjanje (naš um je uronjen). Filmski stvaraoci decenijama koriste kognitivno uranjanje kako bi stvorili uticajniji sadržaj. Prvo, postoji prostorno uranjanje, posmatrate film ili sliku i osećate kao da ste deo vizuelnog sadržaja koji vidite. Postoji i vremensko uranjanje, gde se osećate kao da ste zapravo deo priče koju konzumirate. Sadržaj sa snažnim temporalnim fokusom raspolaže najvećim uticajem kada su u pitanju obrti ili iznenadne promene u pričama koje ne očekujete, jer je naš um bukvalno deo onoga što se dešava. Postoji i prostorno-vremensko uranjanje, što je i jedno i drugo. I konačno, postoji emocionalno uranjanje, gde se javljaju snažne emocionalne reakciju na ono što posmatramo. Imerzivni sadržaj u metaverzumu u suštini obuhvata sve ove vrste uranjanja sa ciljem ih da utiču na naš um što je više moguće.
The novel Metaverse The current Metaverse is based on the social values of Generation Z that online ego is no different from offine ones. Therefore, since the proportion of social activities and contents grows, it differs from the previous Metaverse, and a new denition is needed for the present. The novel Metaverse differs from the earlier Metaverse in three ways. 
  • First, the rapid development of deep learning dramatically improves the accuracy of vision and language recognition, and the development of generative models enables a more immersive environment and natural movement. The processing time and complexity were reduced using multimodal models as E2E (end-to-end) solutions with a multimodal pre-trained model. 
  • Second, Metaverse previously served based on PC access and had low consistency due to time and space constraints, but now it is possible to easily access the Metaverse anytime, anywhere due to the mobile devices that can connect to the Internet at all times. There are 50 million games in Roblox and the accumulated monthly usage time is 3 billion hours. People consums more time than social network services (e.g., TikTok, YouTube). It has a virtuous cycle ecosystem in which the inow and income of producers increase as users and usage time increase while serving various contents, and thus sales of digital advertisements increase. 
  • Lastly, the current Metaverse differs from the previous one because the program coding can be done in the Metaverse world, and it is more bonded to real life with virtual currency. Metaverse expands with various social meanings (e.g., fashion, event, game, education, and ofce) based on immersive interaction. Cryptocurrencies (e.g., Dime) serve as an economic bridge between the Metaverse and the real world, giving people deeper social meaning.

Economics ofWeb3 and the Metaverse The Metaverse refers to a shared vision among technology entrepreneurs of a threedimensional virtual world, an embodied internet with humans and the physical world in it. In the Metaverse, avatars, i.e., humans’ alter egos, engage in social and economic interactions. The technology that bridges virtual and physical realities is Extended Reality (XR), which combines Augmented, Virtual, and Mixed Reality (AR, VR, and MR) technologies. As such, the Metaverse is thought to expand the domain of human activity by overcoming spatial, temporal, and resource-related constraints imposed by nature.The terms “Metaverse” and “avatar” have their etymological origins in the 1992 science fiction novel “Snow Crash” by Neal Stephenson. However, the Metaverse’s historic antecedents trace longer back to Sensorama, an immersive multi-sensory theater that was conceptualized in 1955; Maze War, a shooter video game that pioneered the representation of players as avatars in 1974; and Multi-User Dungeon (MUD), the first multi-user real-time virtual world created in 1976. The closest existing analogue to the Metaverse is Second Life, which is a three-dimensional virtual world with user-generated content in which users can communicate, participate in multi-user activities, and trade. A crucial difference is, however, that users cannot export their digital identities, experiences, and possessions from Second Life to another virtual world.The Metaverse refers to a shared vision among technology entrepreneurs of a threedimensional virtual world, an embodied internet with humans and the physical world in it. As such, the Metaverse is thought to expand the domain of human activity by overcoming spatial, temporal, and resource-related constraints imposed by nature. The technological infrastructure of the Metaverse, i.e., Web3, consists of blockchain technology, smart contracts, and Non-Fungible Tokens (NFTs), which reduce transaction and agency costs, and enable trustless social and economic interactions thanks to decentralized consensus mechanisms. The emerging Metaverse may give rise to new products and services, new job profiles, and new business models. The Metaverse describes the shared vision among technology entrepreneurs of “a massively scaled and interoperable network of real-time rendered 3D virtual worlds which can be experienced synchronously and persistently by an effectively unlimited number of users, and with continuity of data, such as identity, history, entitlements, objects, communications and payments” . The economic ecosystem that is being built around the Metaverse vision is substantial.Entrepreneurship in the Metaverse is soaring. The market for Metaverse products is already substantial, and the market growth rates have dramatically increased recently.  In particular, we have highlighted the role of relative market power between incumbents and startups, which will ultimately determine whether there will be an “open” Metaverse (i.e., a Metaverse that reflectsWeb3 and is owned and operated in a decentralized, public way) or a “closed” Metaverse (i.e., a Metaverse that is privately owned and operated by a few technology giants).
Metaverse vs. AR/VRDespite the considerable research relating to Metaverse, primarily focus on social meaning, and little attention has focused on technologies for the Metaverse. The Metaverse differs from augmented reality (AR) and virtual reality (VR) in three ways. 
  • First, while VR-related studies focus on a physical approach and rendering, Metaverse
  • has a strong aspect as a service with more sustainable content and social meaning. 
  • Second, the Metaverse does not necessarily use AR and VR technologies. Even if the platform does not support VR and AR, it can be a Metaverse application. 
  • Lastly, the Metaverse has a scalable environment that can accommodate many people is essential to reinforce social meaning.
The large-scale Metaverse implementation required three components: 
  • hardware improvements (e.g., GPU memory, 5G); 
  • the development of the recognition and expression model that leverages the parallelism of the hardware; 
  • the availability of content that people immerse in and participate in.

Perception of timeJust what your brain does to interpret a simple stimulus like that is incredible. The visual and auditory information arrive at your eyes and ears at different speeds, and then are processed by your brain at different speeds. Your brain waits for the slowest bit of stimulus to be processed, then reorders the neural inputs correctly, and lets you experience them together, as a simultaneous event—about half a second after what actually happened. We think we’re perceiving the world directly and immediately, buteverything we experience is this carefully edited, tape-delayed reconstruction :-)
O razmeri i proporcijiProportion describes the relationship between the dimensions of different elements and an overall composition. Proportion is said to be harmonious when a correct relationship exists between the elements with respect to size or quantity. Scale refers to an artwork's size and how parts of a composition relate to each other. An important guideline in creating any deliverable, scale is often the secret ingredient that destroys or refines a project. Plan and design for scale from the start. Don't attempt to scale without fully validating that your initiative is appropriate in a new context and addresses a priority need. 
Why is the picture a rectangle if the camera's lens is a circle?A camera's lens resembles the human eye in many ways. Despite the circular nature of the eye, you cannot see everything in a circle. Although lenses can have a variety of shapes, such as rectangles, these forms do not concentrate light as well. This is why a variety of objects, including the eye, magnifying glasses, and other items, are circular rather than square or rectangular.
A round camera lens itself doesn't directly produce a rectangular picture. It's the combination of the lens and the camera sensor that determines the shape of the final image. This phenomenon is a result of how cameras have evolved to capture and present images in a practical and visually appealing manner.While a camera lens is indeed circular, the image sensor inside the camera is typically rectangular. The lens gathers light from the scene and focuses it onto the image sensor. The sensor consists of millions of light-sensitive elements or pixels that are arranged in a grid pattern. These pixels collectively capture the intensity of light that falls on them.The camera lens projects a circular image onto the rectangular image sensor. Light rays from various points in the scene pass through the lens and converge onto the sensor. However, the circular projection of the lens is constrained by the rectangular boundary of the sensor.The central portion of the circular lens projection is the most accurate and focused, while the outer edges tend to exhibit distortion and reduced clarity. To capture the sharpest and most accurate representation of the scene, photographers use the central part of the lens's projection, which naturally fits within the rectangular sensor area.The choice of a rectangular image sensor is closely tied to the aspect ratio of the final photograph. An aspect ratio is the ratio of an image's width to its height. Common aspect ratios include 3:2 and 4:3. These ratios closely resemble the dimensions of traditional print sizes, such as 4x6 inches or 8x10 inches. The rectangular sensor's aspect ratio matches these print sizes, which allows easy and efficient printing without cropping.Rectangular images are more visually pleasing to the human eye and align with how we perceive the world. Horizontal and vertical lines are dominant in most scenes, and rectangular images naturally accommodate these lines. Additionally, the rectangular format allows for composition techniques such as the rule of thirds, which guides photographers to place key elements along imaginary lines that divide the frame into thirds both horizontally and vertically.The transition from film to digital photography retained the rectangular format due to familiarity and practicality. Film cameras also had rectangular film frames, and digital cameras inherited this design to ensure a smooth transition for photographers.While the initial projection from the lens is circular, the rectangular frame of the sensor crops this circular projection. Photographers can further adjust the composition by cropping the captured image during post-processing. This ability to crop while maintaining high resolution and detail is another advantage of the rectangular image sensor.
VR scene exploration: Dynamic models of visual attention (fixation and saccade directions tendencies)During visual tasks, we rely on peripheral information to explore our environment and on foveal information to analyse a region of interest in details. Studying the deployment of visual attention across our entire field of view is important for an understanding of visual perception past regular screen monitors, toward more natural everyday tasks, and visual attention modelling applications dedicated to omnidirectional contents (360° stimuli). It is only recently, with the advent of new virtual reality technologies, that research has started to focus on omnidirectional visual stimuli.It is important to consider the role the head plays in everyday life. Head movements could be classified into two categories: compensatory and synergistic. Compensatory movements stabilise gaze on a target while a scene is in motion. The vestibulo-ocular response will stabilize our gaze during short head motions most notably while we walk. It is based on a fast neural network allowing eye muscles to respond to vestibular signal with a low latency (≈16 ms. The vestibular system becomes less accurate during longer head movements; it is then superseded by the optokinetic response. It is slower to activate (≈75 ms) because it is induced visually by the scene moving on the retina. In practice, this will translate to fixations during which head and eyes are in movements while the combined gaze is stable on a stimulus. The second type of head movements is said to be synergistic. Whereas the fixation field is defined as the area of the field of view where we are most likely to fixate only with our eyes, the practical field of fixation describes where our gaze is most likely to fall next using our head and eyes. Head movements extend the field of view: saccades can be planned toward regions outside of it. There is a preference for short eye rotations completed by head movements. The head accompanies the eyes, even during small gaze saccades. By visuo-motor biases, we designate behavioral tendencies of fixation and saccade as measured through head, eye and the combined gaze. Mobile eye-tracking is used to study vision during natural tasks. Observation of complex scenes is modulated by phases of local and global scanning during which visual attention is directed toward behaviours of exploration of the scene and fine analysis of regions of interest respectively. Another way to see this dichotomy is as ambient and focal visual phases. During ambient phases, attention would be directed toward the content of the peripheral field of view to build a representation of the scene or to find new regions of interest to redirect gaze to; this is exploratory in essence. In contrast, during focal phases attention would be directed toward the fine analysis of central information to analyse one region of the scene in particular. Ambient phases are most notably measured at scene onset; they may serve to build a representation of the scene’s contentScene exploration is characterised by short fixations followed by long saccades, whereas an analysis of a region of interest is set apart by long fixations and short saccades. Ambient and focal processing is to be compared with the time-course of bottom-up and top-down processing of natural scenes. Visual attention appears to be guided by bottom-up processes immediately at scene onset, before transitioning to top-down processing for a short time, the rest of the viewing activity sees both processes interflow. Recent virtual reality (VR) studies hint at the possibility that the head and the eyes could be controlled differently when exploring visual scenes. One key difference is the observation that viewers started trials with long fixations and short saccades. Head generally contributes to scene viewing by extending the fieldof fixation with horizontal and forward movements to scan the scene. In contrast eye movements seemedto account for finer exploration and analysis of the VR displays’ content.
Time perception plasticityThe ChronoPilot project focuses on the different dimensions of time perception in individuals and groups of humans, as well as in hybrid systems consisting of humans and machines, such as software agents and robots. The project's goal is to create a time modulation toolkit and prototype technology capable of improving both the quality and the process of decision-making by extending/compressing human subjective time adaptively, whenever required. Exploring novel methods in cognitive science and applying mediated-reality technologies such as virtual/augmented reality (VR/AR) and body sensors to different human sensory channels, the ChronoPilot team will develop innovative solutions to control time perception plasticity.Although time can be measured objectively, human time perception is remarkably subjective and influenced by cognitive states, individual motivations, and social factors. This malleability of perceived time can be evidenced, for instance, in stressful situations where one might experience a lack of time, while one might lose track of time in more relaxing circumstances. Based on fundamental knowledge from psychology and cognitive science, the ChronoPilot project aims at developing a prototype technology driven by artificial intelligence to extend or compress human subjective time adaptively and whenever required. Mediated-reality approaches, such as virtual and augmented reality, have enormous potential for presenting the users with visual, auditory, and haptic stimulation patterns that directly or indirectly influence their subjective time and which are difficult to reproduce in the real world. Going beyond individual settings, ChronoPilot will also investigate how to coordinate time plasticity in collaborative environments where one group member's actions may affect other members' perception. Different scenarios, where humans alone or humans and robots have to collaborate in realistic and virtual environments, will validate the planned research.Psychology of time perceptionThe book presents a historical perspective on the field of timing and time perception from psychophysical and cognitive perspectives as well as scalar timing theory.Felt time: The psychology of how we perceive time Integration of various bodily processes and sensations as a function of time (e.g., heart beat, respiration, digestion, pain, temperature, emotion, etc.) forms our felt time.Time perception during walking in virtual environmentsWhile differences in the estimation of distances, speed, spatial relations etc. between virtual reality (VR) environments and the real world have been observed in many different experiments, the estimation of time in immersive virtual environments (IVEs) has not been considered. So far it is unknown whether or not systematic time contraction or expansion occur in IVEs. Experimental studies of time perception in the field of psychology have shown that estimates of stimulus durations do not always match their veridical time intervals, and can be affected by a variety of different factors. Since the absolute time cannot be directly measured at any given moment, the brain is often assumed to estimate time based on internal biological or psychological events, or external signals. Exogenous cues from the local environment have been found to have an effect on endogenous biological clocks. It is possible that differences in exogenous time cues between the real world and IVEs have an effect on internal human time perception. In particular, system latency is known to change the perception of sensory synchronicity and can degrade the perceptual stability of the environment.Space and time are interdependent phenomena not only in physics, but also in human perception. Tau effect id the phenomenon that the variation of the time between spatial events can affect judgments of their spatial layout. Kappa effect denotes the phenomenon that the variation of the spatial layout of events can affect judgments of their temporal layout. 
Kraj istorije i poslednji digitalni format?Digitalna video tehnologija razvija se serijski u vremenskim ciklusima od 1980. godine na način da su tehnički standardi proaktivni, a IKT tržište (CE elektronski uređaji masovne potrošnje, AV telekomunikacije, TV emiteri) prihvata tehničke specifikacije sa izvesnim zakašnjenjem. Godina 2019. je označila završetak 4. ciklusa poboljšanja tehničkih specifikacija i kvaliteta DTV slike, tako da 8K UltraHD HDR&WCG format i pridruženi MPEG-VVC 1000:1 video kodek predstavljaju poslednji format koji je implementiran u najnovijim uređajima na tržištu. Dalji razvoj nakon 2020. godine zasnivaće se na paradigmi 3D imersivnih komunikacija pokrenutom video ekranima visoke vernosti rekonstrukcije, Internet konekcijama reda 10Gbps na optičkim kablovima i 5. generaciji mobilnih multimedijalnih komunikacija. Granice kao da su nestale i razvoj novih proizvoda i usluga na tržištu zavisiće samo od dostupnih imersivnih standarda - prve verzije MPEG-I tehničkih specifikacija najavljene su u prvoj polovini 2020. godine [D.A.M] 
Revolucija imersivnih tehnologijaVirtuelna stvarnost nastavlja da uklanja granice između fizičkog i digitalnog i zauvek će promeniti naš život.  Tehnologije proširene stvarnosti - koje uključuju virtuelnu stvarnost, proširenu stvarnost i mešovitu stvarnost - već dugo plene javnu maštu, ali tek treba da postanu konvencionalne.  Tehnologije proširene stvarnosti ubrzano se poboljšavaju i postaju dostupnije, što ukazuje na to da bi uskoro mogle postati deo svakodnevnog života.  Dugoročno gledano, imersivne tehnologije mogu otvoriti „svet ogledala“ - digitalnu „mapu“ sloja koja leži iznad fizičkog sveta i omogućava nam interakciju tehnologijama zasnovanim na Internetu neprimetnije nego ikad.Imersive tehnologija omogućava digitalni sloj iskustva iznad svakodnevne stvarnosti, menjajući način na koji komuniciramo sa svim. Kako će izgledati ta budućnost, niko ne pretpostavlja. Ali imersivna tehnologija je sigurno u porastu. Prvi funkcionalni AR uređaj projektovan je 1968. godine u obliku slušalica kroz koje su gledaoci mogli da posmatraju osnovne oblike i strukture unutar okruženja jedne prostorije u kojoj se nalaze. Osamdesete su donele interaktivne VR sisteme sa zaštitnim naočarima i rukavicama, poput radne stanice za okruženje virtuelnog interfejsa, koja omogućava astronautima kontrolu robota iz daljine pomoću pokreta ruku i prstiju.  Ista tehnologija dovela je do novih XR uređaja u industriji igara,  ali tokom 1980ih i 1990ih, ovi bleštavi proizvodi nisu uspeli da se prodaju zato što je tehnologija bila previše nezgrapna i skupa.  U 2012. godini industrija igara je zabeležila uspešniji rad sa okružujućom tehnologijom kada se pojavio Oculus VR. Za razliku od prethodnih slušalica, model je omgućio vidno polje od 90 stepeni, povoljnu cenu i za obradu snage se oslanjao na lični računar.  2015. godine donele su talas novih VR proizvoda od kompanija kao što su Soni, Valve i HTC. Najnovija evolucija tržišta odnosila se na samostalne bežične VR slušalice kojima nije potreban računar.  All kretanje je dugogodišnji problem u VR igrama. Svakako, neki napredni sistemi uključuju uređaje slične traci na kojima se krećete kroz virtuelni svet hodajući, trčeći ili naginjući svoje težište. Uprkos preprekama, čini se verovatnim da će XR industrija kontinuirano - iako nespretno - nastaviti da unapređuje ove tehnologije, povezujući ih sa više aspekata našeg ličnog i profesionalnog života.Za AR, jedna od ključnih prepreka je precizno podešavanje tehnologije kako bi se osiguralo da je virtuelni sadržaj koji vidite kroz, recimo, par pametnih naočara, optički u skladu sa fizičkim objektima i prostorima. Još jedna široka tehnološka nadogradnja XR tehnologije, posebno AR, verovatno je 5G, što će povećati brzinu prenosa bežičnih podataka preko mreža.  Najveća transformacija koju će nam XR tehnologija verovatno doneti je veza visoke vernosti sa „svetom ogledala“.  Svet ogledala je u suštini 1: 1 digitalna mapa našeg sveta, stvorena fuzijom svih podataka prikupljenih satelitskim slikama, kamerama i drugim tehnikama modelovanja. Postoji sada u sirovom obliku. Na primer, ako su vam potrebna uputstva na ulici, možete otvoriti Google Maps AR, usmerite kameru u određenom smeru i ekran će vam usmeravati do cilja.  Ali svet ogledala će verovatno postati daleko sofisticiraniji od toga.  Kroz ogledalo AR uređaja, spoljni je moguće transformisati na bilo koji način.  Naravno, ova budućnost sadrži i nedostatke zabrinjavajućih aspekata, počevši od privatnosti, zagađenja od virtuelnih reklama i psiholoških posledica stvaranja tako imersivnog okruženja na koje je trenutno nemoguće odgovoriti. Ali uprkos svim neizvesnostima, danas se grade temelji sveta ogledala.
Immersive videoIt is high time to demystify virtual reality and immersive video technology. Immersive video is something in-between 2D video and three-dimensional (3D) graphics. Immersive video also sometimes referred to as 2.5D video. The ideal solution for immersive video is rather to take the best of the two worlds of 2D video and 3D graphics, that is to provide photo-realistic rendering using mainly 2D images but add some geometrical information to enable the 6DoF free navigation movements. In this process, we will see that we lose the ability to edit the content or grasp objects in the scene, but that is perfectly OK for a vast majority of applications where someone wants to see the 3D scene from any viewpoint, without interacting with it. This is exactly what immersive or 2.5D video provides; nothing more, nothing less . . . but the technology that can make that work needs a smart mixture of 2D and 3D technology. We want to understand that new beast of 2.5D immersive video at a high level of abstraction, and interestingly, it sometimes revives old ideas published already 30 to 50 years ago. This may look surprising, but mathematically many things were already known for a long time, some of them even back to the mid-nineteenth century! In fact, what really has evolved this last decennium is the technology that can capture and render even higher resolution images than before, as well as all the computing power that has been harnessed to make all required calculations in realtime, thus providing stunning experiences. Immersive video is all about support free viewpoint video (within a certain extend), like in virtual reality (VR), but without interacting with the objects and without the need for changing the scene’s look and feel. Of course, if one would like to touch the objects, move them in the scene, change the light sources, . . . technologically, all this can be done, but at what cost? The cost of a full 3D graphics format, which – after all – might give deceiving visual impressions, in quality and/or interactivity speed, or even the hardware cost of the compute platform that can support all these things together? So, let us keep it simple and reveal the minimum number of ingredients for 2.5D video. 
Nevidljive realnosti

A history of tastePrehistorians must use the archaeological record as their primary source of evidence. They must sift through physical remains left by people thousands of years ago. In fact, archaeologists spend much of theirtime rooting around in ancient garbage for the remains of peoples’ food and items of material culture. Through finding food remains, it is possible to demonstrate what people ate and, through the discovery of such items as hearths, ovens, cooking pots and serving vessels, it may be possible to shed light upon how food was prepared and consumed. However, trying to understand why people chose to eat what they did, and whether they enjoyed it, is a far from simple matter. Archaeologists must use many lines of evidence in order to address an issue as complicated as taste. These include the study of material culture, food residues, structural evidence, environmental context, ethnographic analogies, art, medical knowledge andthe remains of humans themselves. In the classical world taste changed from the ceremonial but simple roasted meat of the Homeric era to the complex aesthetic of Greek Sicily and Imperial Rome.Greek cuisine and taste of the Classical and Hellenistic age are decribed by Athenaeus . However, ‘Learned Diners’ shows no concerns with crop failures, farmers’ worries, the poverty of the soil or the never-ceasing wars that must often have devastated the countryside. Their interest is firmly centred on the good life and its constituents, fancy food, wine and women, flower garlands and perfumes worn by the diners, party games, dances and the paraphernalia pertaining to all these. Athenaeus is indeed an expert on the literature of cuisine and taste; one needs to have patience, however, to extract the information, for his discussions are long-winded and the dialogues of the literati that connect the multitude of quotations from ancient writers reveal a worse than second-rate writer. The Romans succeeded in building their great empire and in maintaining it for centuries because they were pragmatic and willing to learn from anyone able to provide them with useful knowledge.  Romans developed an enthusiastic interest in good food and good wine, and as the empire expanded they put much thought and effort into the technology required to produce these. The incorporation of culinary ideas from the Mediterranean to Central Asia and the Indian Subcontinent would create a zone of mutual exchange, including China and Europe.The famous medieval passion for spices is set in a context of shared enthusiasm over several cultures and eras, with a consistent, longterm taste for sharp, complex and fragrant sensations.In the period between roughly 1500 and 1800 Europe first continued and eventually broke with ancient and medieval traditions of humoral theories of balance and highly spiced food in favour of greater emphasis on primary ingredients and the adaptation of the diverse products resulting from the New World resources. On the birth of the consumer age, the cases in nineteenth- and twentieth-century  show the transformations brought about by new methods of transporting and preserving food, the choices introduced by better crop yields, industrialization and rising living standards, and the upheaval created by the growth of cities and the reduction in the number of people involved in agriculture. The contemporary situation is characterized by ambiguous advantages of choice.
6G network with a 6th senseSensing is fundamental to being a human, but while our senses are powerful, they are limited to our immediate vicinities. We must be present to sense temperature, pressure, weight or other physical parameters. We must be within a few hundred feet of the sound source to hear, and at best we can see only large objects a few hundred meters away. If we, however, give our networks the ability to sense, then our awareness is no longer limited to our surroundings. The network becomes our sixth sense.In this network, radio signals transmitted by base stations and user devices don’t just carry data. Those wireless propagation channels also become a source of situational information. The network can compare received signals reflected off objects against their original transmissions to gather information about those objects. Those received signals can tell us not just about the presence of an object, but it can determine its type and shape, its relative location and velocity, and even its material properties.As wireless communication networks are ubiquitous, a mirror or digital twin of the physical world can be created using network sensing. By interacting with this digital twin, we could extend our senses to every point the network touches. We could avoid traffic accidents by sensing unseen cars driving around a corner. We could interact directly with machines and robots remotely, seeing what they see, hearing what they hear, while directing their actions through simple hand gestures captured by the network. The new applications for this kind of network sixth sense are limited only by our imaginations.The quest to augment our sensing with machines is as old as history. Think about the mouse trap – it senses the presence of a mouse when you are not there. Or the telescope that augments your vision to see the stars. More recently, the internet of things hosts billions of networked sensing devices that can extend the reach of the human senses far beyond their biological limits.A new world of sixth-sense applicationsThis sensing network would open the door for a plethora of new services. In outdoor environments, the network could detect the location, speed and trajectory of all vehicles and pedestrians in an area, issuing warnings if any of their paths are about to intersect. Or the network could simply search the block for empty parking spots.At work or at home, the network could detect if a vulnerable person has fallen and even “hear” their heartbeat, alerting emergency responders about possible trauma. Factories could use network sensing to allow humans and industrial robots to work side-by-side on the shop floor in perfect safety. End consumers could communicate with gestures to appliances, devices and robotic assistants, while those same visual cues could be used to communicate with the network itself. Virtual reality would greatly benefit as complicated input rigs would no longer be required to manipulate the digital world. The network would detect the motion of a hand or a leg – or even an eyelid – transmitting those cues to the VR simulation.In many cases, network sensing would be used to complement other sensing technologies. Camera and network sensing data could be fused together to detect objects in smoke, fog, dust and darkness. Network sensing could also be used in places where, for privacy reasons, cameras aren’t allowed. RF sensing is less intrusive than video surveillance as radio signals already permeate our surroundings. For that same reason, network sensing is also perfectly safe. Network sensing won’t inundate the world with new radio waves. It will simply measure the properties of the signals already being used to transmit data across the network.Finally, these radio sensors would transform how we optimize the communication network. A network more aware of its surroundings can anticipate factors that could lead to degradation of performance or interruption of service. For instance, the network could sense an arriving truck intersecting with a beam’s path. It could then send out new beams and or change transmit points to ensure service isn’t affected.A new mobile revolutionCreating this sixth sense will require more than just network-as-a-sensor technology. A myriad of other systems from AI/ML to digital twinning to new software and knowledge systems will be needed to interpret what the networks see and build the applications and services that will act upon that data. Sensing is also just one of the big transformations we anticipate in the move to 6G networks.
Spatial storytellingIn view of the growing interest in narratives and narratology with regards to virtual reality products and game design, this paper recognizes interactive digital storytelling as a vibrant immersive media example that carries the potential to address, and shape up a cohesive framework, on the concepts of immersion. In this paper, we will focus on Spatial Storytelling to examine the narrative technique in conjunction with Spatial Presence, a commonly accepted subtype of Presence.The consequential challenges posed by such immersive and interactive new media have resulted in an abundance of theory surrounding the terms Immersion and Presence. This has produced numerous notable frameworks over the years that have been successful in shaping the discourse landscape of new media applications and our evolving sense of self. However these frameworks are many, incoherent and consensus scarce. This is effectively due to the interdisciplinarity and multi-dimensionality of Presence research. Apropos to media technologies, Spatial Presence has emerged as the most relevant subtype of Presence. This interest has yielded a more concentrated evaluation of Spatial Presence as a “psychological” “state of consciousness” defined as “the subjective experience of a user or onlooker to be physically located in a mediated space” even though one is not. From a media-psychological standpoint there are two aspects involved: first, a simulated spatial environment where one feels located; and second, for that mediated environment to offer perceivable options for activity. In effect, most Spatial Presence models view Immersion as a “sensation of being enveloped” by such media-based environments. It is refined to the “features that give rise to Presence” by stating that, “presence is conceptualized as the experiential counterpart of immersion”. While Spatial Presence has drawn interdisciplinary interest, immersion has mostly been treated as a system characteristic, i.e., the input properties of the mediated technology to provide stimuli (vividness) and afford action (interactivity). Immersion as technology or immersion as the experience of being enveloped by technology is addressed from an empirical viewpoint, in that, it enables researchers to quantify these otherwise subjective mediated experiences. This localizes immersion to a system’s sensorimotor contingency, i.e. to map and match the user’s proprioception; and the range of information it affords the senses (visual, haptic, aural, etc.). Thus making it possible to study immersion as an objectively and technically measurable property of the system. Its evaluations are based on the influence factors of: user, characteristics and mindset ofthe subject; system, technical specifications and the assigned task structure; and context, which comprises of the physical setting and service factors in use. It is worth noting that QoE evaluations of immersive media remain fairly limited, which makes it an opportune subject for exploration. Such unilateral frameworks have reinforced positivist models that favor data-oriented approaches to perception and representation in these media forms. As a system property, immersion is thus reducible to a degree of correspondence — higher fidelity of display and tracking yields greater level of immersion — enabling a “productionist metaphysics” largely responsible for a preoccupation with low-mimetic realism or skeuomorphs; often confused with believability. While calls for interdisciplinarity vis-à-vis immersive and interactive media have existed for sometime now, it is the increasing, and more active, intersectionality of hard science and digital humanities that has offered a shift. Works that discuss immersive and interactive new media draw from fields as diverse as art, narratology, ludology, social anthropology, phenomenology, and psychology to name a few . There is a significant rise in the number ofresearch and commercial projects in virtual reality and gaming sectors turning to low-tech features, such as involved narrative and social participation, to enhance the immersive qualities of their applications and products. Considering this, Interactive Digital Storytelling, or Interactive Narrative Design, propositions a method that approaches the same problem of QoE in immersive media through providing agency to the user. As co-authors and co-creators, users can influence plots and characters. This agency for content-generation allows them to interactively indulge in making meaningful decisions in order to advance these non-linear narratives. Succinctly put, the goal of interactive narrative design is creating meaningful participatory story experiences using interactive systems. In reference to the previously discussed QoE framework, we can see here that content (creation/generation/edition) emerges as an influence factor in determining quality of experience. Such design methods allow for an appreciably flexible immersive media forms capable of integrating various emerging technologies, popularly artificial intelligence and virtual reality. The cultivation of this position is owed to earlier works at the crossroads of narratology (study of narratives and socio-cultural narrative structures), ludology (study of game play and design) and HCI(human-computer-interaction). It is identified four essential properties found in computer-based narrative media; procedural (computational), participatory (interactive), spatial (experiential) and encyclopedic (database). These features illustrate a system’s behavioral capacity to issue cause-and-effect sequences inresponse to an engaged participant from a vast pool of indexed information. This offers close comparison to the plausibility illusion, strong advocates of immersion as system property, who note that believability has to be achieved through congruity to real-life in order for immersive experiences to evoke presence. Consequently, it can be reasoned that computer-based narrative media, described above, can attain better congruence given their larger access to immersion. This, including system immersion, refers to, but is not limited by, the following: absorption & engagement , strategic and tactical immersion, imaginativeimmersion, challenge-based immersion, ludic immersion, and narrative immersion.Looking back at the previously mentioned two aspects (simulated environment and possibility to act) considered vital for Spatial Presence, the approach taken by Interactive Digital Storytelling is found to be consistent across quite a few frameworks . In that, it is a media experience, which utilizes a storytelling engine (system) offering action possibilities (interactivity) to intentionally influence the narrative (immersive) experience. Unlike Spatial Presence models where an immersive experience is predominantly interpreted inside a simulated spatiality, it is narrative, which pursues that role here. Appropriately, narrative is not to be treated as a binary categorization of stories non-stories. Instead, it is the potential for ‘storiness’ that is valuable. By shifting focus onto space, Spatial Storytelling turn to the narrative potential of locations and places in our everyday life. It is space, marked with disparate anchors of locations and places, each carrying meaning, temporal significance and past memories, which serves as the backdrop against which our individual life stories unfold. The same space also works as a force field simultaneously accumulating formal, psychological and ideological histories, discourses, and economies over time — “to any one aspect of which it cannot be reduced, from any one of which it cannot be removed” .In conclusion,  notes that Spatial Storytelling presents promising theoretical interstices, which can help in the development of a more cohesive models for immersion and presence. It creates an opportunity for technicians, designers, narrators and theorists to contribute inside a diverse team. It identifies some immediate research directions for pushing forward interdisciplinary research on immersion. With the burgeoning growth of immersive media products, dominated by gaming apps, providing entertainment material for a content-craving consumer market. It is imperative that the excitement doesn't deflate like it did in the early 90’s following similar anticipation. A cautious course should be approaching content with similar vigor as that shown to technology development. New media applications offer an exciting new paradigm that requires to be explored in its own right. Passive content that shows little consideration to the interactivity of the media run the risk of undermining its potential. Spatial Storytelling provides that agency to the user inside immersive media through required attention to content generation and manipulation done in a meaningful way resonating believable narrative behavior of our daily lives.Time and SpaceIn spatial theory, space is defined as the “physical setting in which everything occurs”. Whereas, place is, “the outcome of the social process of valuing space; a product of the imaginary, of desire, and the primary means by which we articulate with space and transform it into a humanized landscape.” While time and space have been long recognized as the criteria for studying everyday life. Western social theories have been favorably modeled around time, dispassionately assuming compliance from space. This position of dominance is most obvious when one considers the separation of history from geography. Recent cross-disciplinary.  discussions have invited contributions from disciplines like politics, geography, archaeology and narratology among other, which are fundamental, but have been previously absent, in framing discourses and informing our conceptualization of space. Returning to our earlier discussion on immersion and presence, one can observe similar tendencies in immersive media, particularly immersive virtual environments (IVE), in their “reenactment of Cartesian ontology” . This can be also evidenced in most Spatial Presence models that treat space as an a priori given; a Cartesian box. These are not self-acquired position rather cultural values inculcated through traditions of Western technosciences. The conceptualization of space as a container is an attractive proposition for its ease of offering a completeness to its elusive nature [64]; a problem, which Einstein, dubbed aptly as the “problem of space”. This ontic position, which assumes the world (space) to be present-to-hand, finds a challenge in Heideggerian phenomenology contending that space is learnt — one learns it — through involvement. Space is an “artifact”, which we constantly innovate and mold through our active participation. By being in space we create space, our agency is consumed by the continuous production of space. Space is not a mere container nor an a priori. It is “an experiential environment whose qualia and character are produced through behavior, ritual, and human activity, space becomes place in a non-mystical but inflected manner that does not map directly onto standard metrics”.Body and SpaceActivity, our immediate involvement, also finds a bodily interpretation in theories of embodied cognition. That space allows for action and movement, performed through the body as a tool, over a temporal cycle of time — making narrative. Space is experienced through the body. We can observe this in terms of spatial literacy; if you compare spatial descriptions like north, south, vertical, horizontal, etc. to more experience-based descriptions such as lying down, in front of, straight up, etc. we’d see more people understanding the latter set to the former. This is because humans, from their childhood, develop through a bodily experience of space, which helps them in learning and understanding space (spatial literacy). Earlier affordances, as furnished action possibilities, were discussed, which is a core concept for embodied psychology models. It has also used in fields ranging from industrial design to interface and interaction (UX) design. To address a common contemporary misinterpretation, it is vital not to confuse affordances with mere things that one do inside an environmental (natural or artificial).  
Capturing emotion distribution for multimedia emotion taggingMultimedia collections usually induce multiple emotions in audiences. The data distribution of multiple emotions can be leveraged to facilitate the learning process of emotion tagging, yet has not been thoroughly explored. To address this, we propose adversarial learning to fully capture emotion distributions for emotion tagging of multimedia data. The proposed multimedia emotion tagging approach includes an emotion classifier and a discriminator. The emotion classifier predicts emotion labels of multimedia data from their content. The discriminator distinguishes the predicted emotion labels from the ground truth labels. The emotion classifier and the discriminator are trained simultaneously in competition with each other.
Konvergencija digitalnog, fizičkog i personalnog domenaSa razvojem 6G komunikacija očekuje se približavanje potpuno povezanom svetu, gde je fizički svet detaljno predstavljen u digitalnom domenu, gde se može analizirati i delovati. Mreža obezbe]uje konekcije između domena pomoću uređaja ugrađenih svuda, kao i infrastrukturu i inteligenciju digitalnog domena. Ljudi su postavljeni usred ovog sajber-fizičkog kontinuuma, sa našim telima kao i našom inteligencijom. Tri klase interakcija su omogućene konvergencijom domena:
  • Imersivna potpuna komunikacija.  Ljudi mogu proširiti svoja čula kroz digitalni domen. Vizuelne/prostorne, taktilne/haptičke i druge senzorne podatke visoke rezolucije treba razmenjivati sa velikom propusnošću i malom latencijom kako bi se stvorio utisak da ste negde drugde. Da bi se to postiglo, potrebne su veze velike propusne moći sa determinističkom latencijom sa-kraja-na-kraj koje su povezane sa novim uređajima.
  • Blizanački sistemi između domena.  Senzori i pokretači čvrsto sinhronizuju domene kako bi postigli digitalne blizance gradova, fabrika, čak i naših tela. Ovo će omogućiti bogato rudarenje podataka i visoko efikasnu kontrolu, ali integritet i sigurnost podataka moraju biti osigurani.
  • Povezana inteligencija.  Mreža će služiti kao ključna infrastruktura koja omogućava veze velokog kapaciteta sa niskim kašnjenjem sa-kraja-na-kraj i bezbednu računarsku funkcionalnost dostupnu širom mreže. Pouzdane AI funkcije mogu da rade u mreži i na mreži. Virtuelni prikazi osoba i fizičkih uređaja mogu međusobno razmenjivati informacije u digitalnom domenu, što podrazumeva novi način identifikacije virtuelnih prezentacija.
  • Spoznaja.  Nije dovoljno predstavljati ljude kao fizičke objekte u digitalnom domenu. Takođe je značajno biti svestan njihovih namera, želja i raspoloženja. Na primer, postojeći način da saznate šta ljudi žele je upotreba alata za prepoznavanje glasa pomoću AI. Spoznaja dovodi sve ove senzorske unose zajedno sa znanjem o preferencijama, ranijim izborima i, na primer, raspoloženju osobe.

Svest i iluzijaPitanja o svesti su neophodna u naučnim istraživanjima i svakodnevnom životu.  Svest nije iluzija, poput opažajne iluzije, ni halucinacija. Umesto toga mora da je nešto drugo.Svest se odnosi na subjektivna iskustva. To je subjektivni čin doživljaja, koji se ne može opisati (sam) takozvanim objektivnim podacima iz trećeg lica. Sve je u percepciji, od senzacije na niskom nivou do percepcije i prepoznavanja na visokom nivou. Novija koncepcija je da svest može nastati u našem mozgu u smislu neuronske aktivnosti. Međutim, problem postoji li svest stvarno ili je iluzija ostaje nerešen. U smislu filozofije i logike, svest bi se takođe mogla oceniti kao neophodan preduslov za percepciju. Svest postoji, jer smo logički primorani da je pretpostavimo; u suprotnom, ne bismo imali osnova da istražujemo predmete spoljašnjeg sveta uz pomoć čula i uma. Osim ovog pukog 'epistemološkog dokaza', jedan od glavnih problema sa svešću je činjenica da sama svest ne izgleda kao normalan objekt koji se može opaziti - očima, ušima i rukama - iako ima trajnu vezu u spoljašnjem okruženju.Pretpostavimo prvo da svest nije ništa drugo do halucinacija. Halucinacija je nerealno perceptivno iskustvo koje nije rezultat stimulacije organa čula, već rezultat halucinogenog stanja našeg uma. Sa halucinacijama, nema (pravog) senzornog ulaza, on je konstruisan interno (odozgo-nadole). Ali, ako se svesno iskustvo ne zasniva na senzornom ulazu, već samo na neuronskim korelatima, onda se ovo gledište može dovesti u pitanje. Da li svest nastaje (samo) iz neuronske aktivnosti ili obrnuto, ili verovanje u svesno iskustvo dovodi do neuronske aktivnosti kao reakcije na halucinaciju? Skoro svaka osoba koja je u stanju da komunicira, navodi da je svesna svojih percepcija, misli i osećanja. Ova činjenica se ne podudara sa definicijom halucinacije, koja obično pretpostavlja da samo mala manjina ljudi pati od opažanja nečega što nije stvarno. Ova činjenica se prilično uklapa u tradicionalnu i uticajnu teoriju istine: teoriju konsenzusa. Osnovna je pretpostavka da se nešto, što percipira ogromna većina čovečanstva - uključujući i naučnike - posmatra kao postojeće i stoga stvarno. Dakle, svest može biti iluzija. Zaista postoji nešto fizičko što se može pogrešno protumačiti na mnogo mogućih načina. Neuronska aktivnost koju prati iskustvo svesti može biti osnova za to. Ali, način na koji opažamo i doživljavamo svest i sebe međusobno je individualno različit, iako su fizički stimulusi identični, na primer, percepcija i emocionalna procena melodije. Druga polazna tačka za naše razumevanje je bliži pogled na vizuelne iluzije. Većina ljudi bi tvrdila da svoje okruženje doživljavaju potpuno (holistički) i vrlo jasno, odnosno unutrašnju reprezentaciju. Ovaj subjektivni doživljaj unutrašnjeg filma može se dokazati kao netačan kroz objektivnu demonstraciju zasnovanu na nekim primerima, poput slepila na promene. Dakle, svesna percepcija se zaista razlikuje od onoga što zaista postoji. Naše unutrašnje predstave često su pogrešne, pa je potpuna predstava naše lične stvarnosti u najboljem slučaju iluzija. Sindromi bi u ovom kontekstu mogli poslužiti kao primer. Jedna hronična degeneracija vizuelnog sistema dovodi do pogrešnog shvatanja ili percepcije nekog nepostojećeg sadržaj, ali pacijent u većini slučajeva zna da su neke njene percepcije drugačije u stvarnosti ili odsutne. Stoga je pacijent svestan ovih iluzija i pseudo-halucinacija. Ali, može se postaviti pitanje može li zdrava osoba steći takvu svest o svojoj vizuelnoj percepciji, uvek znajući kada je prevarena, a kada ne. Takozvana iluzija vodopada primer je da znanje o dubljim neuronskim događajima i iskustvo čine iluziju da postaju pseudo-iluzija: ne možemo izbeći da vidimo kako voda teče nagore. Ova logika, međutim, ne funkcioniše za primer sindroma slepila na promene.Do ovog trenutka, neuronska moždana aktivnost može biti pogrešno protumačen stimulans koji je potreban za definisanje svesti kao iluzije. Takođe smo pretpostavili da u nsšem mozgu postoji nešto poput svesti, ali ne onako kako to subjektivno percipiramo. Diskutabilna je tačka da li ova pretpostavka ispunjava kriterijume iluzije: 'Uopšteno govoreći, iluzije nastaju fiziološkim i/ili psihološkim procesima koji u svesti daju fenomenolška svojstva objekta ili scene koja se primetno razlikuju od njihovih fizičkih ili činjeničnih svojstava'. Ako je svest iluzija, ona može biti generisana psihološkim procesima. Ali, za ovo nam je potreban fizički objekat ili scena koja se može pogrešno protumačiti. Sve u svemu, može se postaviti pitanje da li svest može biti iluzija jer opšte definicije iluzija sadrže neke kriterijume koje svest ne ispunjava.Kako to da bez obzira da li je svest iluzija ili halucinacija, možemo tako jasno govoriti o ovoj temi i razmišljati o njoj? Način na koji detaljno opisujemo svoja iskustva može biti i definitivno je potpuno različit među ljudima, ali svi smo upoznati sa subjektivnim iskustvom i svi imamo naivno razumevanje šta je svest (neverbalno i intuitivno). Kao što smo ukratko pokazali, svest ispunjava neke karakteristike i iluzije i halucinacije. Osećaj svesti drugi dele kao iluziju, ali iznutra stvaraju poput halucinacija. Svest nije lažno tumačenje fizičkog ili psihološkog sadržaja, kao što je slučaj sa iluzijom, i delimo je sa drugima za razliku od halucinacija.
Objekti koje opažamoHiljade predmeta okupiraju vizuelni svet u kojem živimo. Procenjuje se da prepoznajemo 30 000 kategorija objekata početnog nivoa. Nedavni  rezultati računarskog vida ukazuju na impresivne rezultate otkrivanje i prepoznavanje kategorija objekata. Analogija govorne i jezičke zajednice ukazuje da se performanse dramatično povećavaju kada se stavi na raspolaganje veći broj obeleženih podataka u fazi treninga računarskog algoritma.
Percepcija emocijaPrvo su predstavljeni psihološki modeli emocija, tačnije estetskih emocija. Estetske emocije takođe se mogu analizirati iz sociološke perspektive. Zatim, vrste emocionalnih procesa kao odgovor na multimediju su opisani, a posebno izazvane emocije. Konačno, uvedeni su diskretni i dimenzionalni prikazi emocija.
Decenijama istraživanja vođenih od strane psihologa zainteresovanih za razumevanje emocija, dolaze do tri osnovna teorijska pristupa: osnovni, procenjivački i psihološki konstruktivni. 
  • Osnovni modeli emocija pretpostavljaju da skup emocija automatski pokreću predmeti i situacije svuda u svetu.
  • Modeli procene pretpostavljaju da su emocije pokrenute interpretacijom stimulusnih događaja i stoga se mogu smatrati detektorima relevantnosti. 
  • Psihološki konstruktivni modeli pretpostavljaju da se emocije mogu razložiti na primitive koji su takođe uključeni u druga mentalna stanja. Modeli pretpostavljaju da se emocija pojavljuje kada se nečije unutrašnje stanje svesno razume u odnosu na događaj. 
Sva tri pristupa ističu da su emocije izgrađene od univerzalnih osnovnih bioloških ili psiholoških komponenti. Međutim, psihološki konstrukcionistički i procenjivački modeli razlikuju se od osnovnih modela utoliko što pretpostavljaju da socijalni kontekst situacije i/ili kulturne razlike utiču na doživljavanje emocija. I psihološki konstrukcionistički modeli i modeli procene smatraju emocije činom osmišljavanja. Međutim, analiza značenja se razlikuje za oba pristupa. Psihološki konstruktivni modeli pretpostavljaju da se emocija javlja kada se razume čovekovo unutrašnje stanje. Kod modela ocenjivanja emocije su namerna stanja stvorena procenom originalnog stimulusa, a ne unutrašnjim stanjem tela. Ova analiza značenja utiče samo na unutrašnje stanje.Emocije su modelirane nezavisno od značaja podsticaja koji ih je izazvao. Podsticaj može biti ili prirodni fenomen, ponašanje drugih ljudi ili životinja, ili čak sopstveno ponašanje. 
Estetska emocija je emocionalni odgovor na umetničko delo (slike, slike, ali i pesme, filmovi ...) koji se mogu opisati satri karakteristike:
  • osobe su uključene u stanje intenzivne pažnje i snažno su usredsređene na određeni predmet.
  • gledalac procenjuje estetske objekte kao delove virtuelne stvarnosti i konačno, ima snažan osećaj jedinstva sa objektom estetske procene.
  • estetske emocije nisu usmerene ka zadovoljavanju telesnih potreba.

Postoje tri vrste emocionalnih procesa kao odgovor na multimediju: indukcija emocija, emocionalna infekcija i simpatija saosećanja. 
  • Indukovane emocije su emocije koje gledaoci osećaju kao odgovor na multimedijalni sadržaj s obzirom na njihove ciljeve i vrednosti. 
  • U procesu emocionalne infekcije, na gledaoca utiče izražena emocija multimedijalnog sadržaja, ne razumejući detaljno kako je možda razvijen emocionalni izraz multimedijalnog sadržaja (neophodno je  razlikovati ovaj proces od percepcije emocija, koja se odnosi na percepciju emocija izraženih multimedijalnim sadržajem bez izazivanja afektivnih odgovora kod gledalaca).
  • Empatična simpatija se javlja kada na gledaoce situacija ili događaj ne utiču direktno, već slede korake ocenjivanja koji vode ka emociji koju doživljavaju likovi u multimedijalnom sadržaju.

Konačno, emocije, kako su gore definisane, moraju se razlikovati od ostalih afektivnih fenomena kao što su osećanja ili raspoloženja. Osećaj je subjektivno iskustvo emocionalne epizode, dok raspoloženja difuzno utiču na stanja uglavnom niskog intenziteta, mogu trajati satima ili čak danima i često nisu jasno povezana sa događajem ili određenim ocenama.
U literaturi su predloženi različiti prikazi emocija.
  • Pristup kategoričkih emocija je vrlo prirodan, jer seže do porekla jezika i pojave reči i izraza koji predstavljaju jasno odvojena stanja. Predložene su mnoge diskretne kategorizacije emocija, poput šest osnovnih univerzalnih emocija, osam biološki inspirisanih emocija (bes, strah, tuga, gađenje, iznenađenje, iščekivanje, poverenje i radost). U slučaju da se poveća broj klasa, pojavljuju se nejasnoće zbog jezičkih poteškoća ili ličnog tumačenja.
  • Dimenzionalni pristupi su takođe predloženi za modelovanje emocija kao tačaka u kontinuiranom n-dimenzionalnom prostoru. Najpoznatiji je prostor valencije-uzbuđenja-dominacije, poznat i kao prostor zadovoljstva-uzbuđenja-dominacije (PAD). U ovom prostoru svaki subjektivni osećaj može se opisati svojim položajem u 3D prostoru formiranom dimenzijama valencije, uzbuđenosti i dominacije. Valentnost se kreće od negativne (tužne, razočarane) do pozitivne (radosne, ushićene), dok se uzbuđenje može kretati od neaktivne (umorne, zamišljene) do aktivne (uznemirene, besne), a dominacija od dominirane (dosadno, tužno) za kontrolu (uzbuđeno, oduševljeno).

Sudar fizičkog i digitalnog svetaIdeja da je percepciju moguće izmeniti nije ništa novo. Tokom vekova umetnici, pronalazači i mađioničari stvarali su ponekad intrigantne iluzije koje zavaravaju ljudsko oko - i um. Prva proširena stvarnost se najverovatnije pojavila u obliku pećinskih crteža i petroglifa. Vekovima kasnije, grafičari su počeli da eksperimentišu sa optičkim iluzijama. Na primer, 1870. godine nemački fiziolog Ludimar Hermann nacrtao je belu mrežu na crnoj pozadini. Dok se oči pojedinca skeniraju kroz ilustraciju, tačke preseka - u osnovi tačke - menjaju se napred-nazad iz bele u sivu. Dvadesetih godina 20. veka, M. C. Escher, grafičar iz Holandije, počeo je da crta slike koje dostavljaju fizičke nemogućnosti, poput vode koja se kreće uzbrdo. Njegova umetnost je i danas popularna. Mnogi drugi su shvatili da mozak može biti prevaren da poveruje u stvari - ili da ih vidi - koje nisu tamo ili nemaju nužno logičan smisao. Pravi stimulus i senzorni unos mogu izgledati jednako uverljivo kao i stvarnost - ili promeniti način na koji vidimo stvarnost. Već 1830-ih izumitelji su počeli eksperimentisati sa stereoskopima koji su koristili optiku i ogledala zajedno sa parom sočiva kako bi se dobio 3D prikaz predmeta. Početkom devetnaestog veka umetnici su počeli da stvaraju panorame od 360 stepeni koje su stvorile realnije virtuelno senzorno iskustvo za razne scene, uključujući bitke, pejzaže i poznate znamenitosti. 1822. godine dvojica francuskih umetnika, Louis Daguerre i Charles Marie Bouton, predstavili su dioramu. Originalne kreacije koristile su materijal naslikan sa obe strane ekrana ili pozadine. Kada bi se osvetljenje promenilo sa prednje na zadnju ili bočnu stranu, prizor bi se pojavio izmenjen. Na primer, dnevna scena bi postala noćna.Sledeće, zamišljene naočare proizvele su potpuno čulno iskustvo, uključujući vid, zvuk, miris i ukus. Tokom sledećih decenija, tehnologija je znatno napredovala. Ipak, tek od uvođenja digitalnog računarstva pojam proširene stvarnosti (XR) pojavio se na način na koji danas o njemu razmišljamo. Istraživači su nastavili da razvijaju napredniju digitalnu tehnologiju koja je dovela do sofisticiranijih AR i VR sistema i podsistema. Slušalice su se počele smanjivati i pretvarati u naočare, a dizajneri i inženjeri počeli su da integrišu niz komponenata u AR i VR sisteme. Uključivali su dugmad, dodirne table, prepoznavanje govora, prepoznavanje pokreta i druge kontrole, uključujući praćenje očiju. Računski sistemi - koji se sastoje od različitih digitalnih komponenti i softvera - isporučuju uverljive slike, zvuk, osećaj i drug senzorne elemente koji menjaju način na koji doživljavamo postojeće fizičke stvari (proširena stvarnost - AR) ili stvaramo potpuno zamišljene, ali realne prividne svetove (virtuelne stvarnost - VR). U svakom slučaju, tehnologije proširene stvarnosti omogućavaju nam da stupimo dalje, usuđujemo se reći, ograničenja fizičkog sveta i istražujemo mesta koja je samo mašta mogla ići u prošlosti. Danas AR i VR, zajedno sa mešovitom stvarnošću (MR), koja istovremeno kombinuje elemente fizičkog sveta sa virtuelnim iliproširene karakteristike, pojavljuju se na svim vrstama mesta i situacija. Postoje u filmovima, na igračḱim konzolama, na pametnim telefonima, u automobilima i na naočarima i displejima postavljenim na glavu (HMD). Transformišu svet oko nas jednim klikom, dodirom ili pogledom. Konvergencija digitalnih tehnologija, zajedno sa izuzetnim napretkom u računarskoj snazi i veštačkoj inteligenciji (AI), isporučuje AR i VR na novu i često neistraženu teritoriju. Aplikacije za pametne telefone koriste kameru i AR za prepoznavanje fizičkih stvari i prikazivanje imena, nalepnica i drugih relevantnih informacija na ekranu. Bave se prevođenjem jezika u realnom vremenu. Pokazuju kako na čoveku izgleda šminka ili odeća. Moguće je šta više videti kako etikete vina oživljavaju uz animirani prikaz ili pokazuju kako će soba izgledati sa određenim komadom nameštaja ili drugom šemom boja.U isto vreme, VR se pojavljuje u igrama, istraživačkim laboratorijama i industrijskim postavkama koje koriste slušalice, audio ulaze, haptične rukavice i druge senzorne alate za generisanje ultra-realističnih senzacija. Tokom naredne decenije i kasnije, sistemi menjaju nebrojene zadatke, procese i industrije. Takođe śe dramatično menjaju interakcije između ljudi upotrebom teleprisutnosti. Prvi izraz odnosi se na sisteme koji omogućavaju ljudima da se osećaju prisutno kada su fizički odvojeni. Poslednja reč se vrti oko koncepta da osoba može biti na mestu odvojenom od svog fizičkog prisustva.XR tehnologiju je moguće pronaći u mnogim oblicima i formama. Virtuelna stvarnost može inkorporirati prostore koji nisu imersivni, poput okolnih LCD panela, gde se stimulišu samo pojedina korisnikova čula; polu-uronjeni prostori, poput simulatora leta, koji kombinuju fizičke i virtuelne elemente u prostoriji; i potpuno uronjene simulacije koje blokiraju fizički svet. Nije iznenađujuće što ovo drugo daje daleko realnije i zanimljivije iskustvo - ali takođe zahteva i sofisticirani hardver i softver za stvaranje senzornog iskustva visoke rezolucije. Imersivni VR obično uključuje displej na glavi i druge ulazne i izlazne uređaje, poput haptičnih rukavica.Prvi istinski imersivni virtuelni prostor predstavljao je CAVE (Cave Automatic Virtual Environment, 1992) koji je pružio daleko realističnije VR iskustvo, uključujući holodek koji je omogućavao pojedincima da vide svoja tela u prostoriji. Ne bi trebalo da čudi da igranje igara pokreće mnoga dostignuća u računarstvu i digitalnoj tehnologiji. Štaviše, monetizuje koncepte i pokreće ih u poslovni svet. Shodno tome, računarske i video igre koje sadrže XR ubrzale su se tokom 1990-2000.Za stvaranje ultra-realističnog i izuzetno korisnog XR iskustva potrebno je više od hardvera, softvera i senzora. Zahteva više od neverovatne grafike i kreativnih ideja. Neophodno je povezati različite tehnologije i koordinirati uređaje i podatke. Za proširenu stvarnost, to znači upravljanje tokovima podataka u realnom vremenu putem mobilnih uređaja i računarskog oblaka - i primenu analitike velikih podataka i drugih alata bez ikakvog kašnjenja. Za virtuelnu stvarnost je neophodno osmisliti i izgraditi praktične i lagane sisteme koji se mogu nositi na telu. Oculus je promenio VR jednačinu prikazujući laganu platformu koja je bila i praktična i održiva. Nastavlja se evolucija XR do manjeg i kompaktnijeg - a opet i dalje moćnog sistema. 
Imersivna komunikacija u 3. dobu medijaKomunikacija je, poput same atmosfere, sveprisutna i značajna za ljude, a razvojem novih tehnologija, poput sveprisutne mreže, velikih podataka, 3D štampe, virtuelne stvarnosti i veštačke inteligencije, postalo je gotovo nemoguće živeti bez komunikacije.  Uz to, sredstva komunikacije su se nemerljivo promenila.  Nova istraživačka paradigma uključuje nova obeležja i faktore komunikacije i novi teorijski okvir „imersivna komunikacija“.  Komunikacija je danas više od dvosmerne masovne komunikacije „drugog medijskog doba“, postala je sveprisutna, obuzimajuća komunikacija u „trećem medijskom dobu“.  Neophodna je nova definicija i rasprava o karakteristikama, strukturi informacija i modelima imersivne  komunikacije.Smatramo da komunikacija postaje sveprisutnija i sveprisutna; sve smo bliže integrisani s medijima i prepoznajemo da novi način komunikacije uveliko menja naš način života.  Čini se da se vraćamo izvornom stanju ljudskog postojanja, idući u krug od kraja do početne tačke.  Prešli smo od direktnih informacija licem-u-lice i emocionalne komunikacije između pojedinaca, preko korištenja medija kao komunikacijskog interfejsa, do nevidljivog i interfejsa koje nestaje, a sada se vraćamo na izvorno polazište direktne komunikacije [D.A.M] 
Perceptualni inženjeringVR se može posmatrati kao problem inženjerske percepcije, koji zahteva dizajn, razvoj i isporuku perceptivne iluzije veštačkom stimulacijom ljudskih čula. Svako ljudsko čulo je sposobno za takve iluzije; u slučaju vida su nam poznate mnoge optičke iluzije. Budući da VR direktno utiče na ljudsko telo i čak narušava njegove uobičajene funkcije, presudno je razumeti ljudsku fiziologiju, neuronauku i percepciju i kako oni reaguju na VR tehnologiju. Nastoji se utvrditi kriterijumi zasnovani na percepciji i fiziologiji koji obuhvataju važne kvalitete kao što su efikasnost zadatka, udobnost i prisustvo. Kriterijumi se upotrebljavaju za vođenje tehničkih specifikacija VR sisteme. Tipični izazovi su pomeranje tačke gledišta, prikazivanje artefakata, metode prikazivanja, mehanizmi interakcije, distribuirano računarstvo i ograničenja bežične komunikacije. Inženjering percepcije uključuje napredni inženjering VR sistema i blisku integraciju ljudskih razmatranja na niskom nivou, koji se u osnovi dobijaju obrnutim inženjeringom (nismo sami inženjerirali). Na osnovu trenutnih akademskih oblasti, zahteva se visoko interdisciplinarni pristup; međutim, jednog dana bi se mogli pojaviti inženjeri percepcije, koji su posebno obučeni u metodologijama zasnovanim na nauci o percepciji. Dalje se napreduje sličnim putem kao postojeća inženjerska polja. Građevinarstvo, mašinstvo i elektrotehnika potiču iz fizike. Hemijsko i biološko inženjerstvo potiču iz hemije, odnosno biologije. Slično tome, inženjer percepcije proizilazi iz perceptivne psihologije i srodnih oblasti fiziologije, medicine i neuronauke, istovremeno gradeći na postojećim inženjerskim principima [D.A.M] 
Detekcija bio-signala i naših emocijaAI-emotion prepoznavanje i analiza (mikro) izraza lica, emocionalnih (mikro) pokreta i netipičnih emocija je direktno povezano sa razumevanjem emocija i mogu olakšati obrazovanje, psihoterapiju, usluge na daljinu i autonomnu vožnju, da pomenem samo neke.  Analiza mikro-izraza lica značajna je za razumevanje skrivenih ili potisnutih emocija, a AU jedinice za akciju lica najmanji je element pokreta lica. Analiza i prepoznavanje pokreta tela i mikro-pokreta su takođe presudne za prepoznavanje emocionalnog statusa. Višekanalna fuzija informacija istražena je u kompletnom sistemu za razumevanje emocija.Daljinska merenja fizioloških signala nose neizmeran potencijal za brojne primene u daljinskoj zdravstvenoj nezi. Pomoću napredne tehnologije računarskog vida i mašinskog učenja stručnjaci  traže rešenja za međusobno povezane izazove. U praksi se multimodalna fuzija može odvijati na različitim nivoima. Uključuje fuziju na nivou senzora, tj. podatke snimljene sa više senzora (RGB, NIR, dubinske ili 4D kamere, bio-senzori), fuziju na nivou obeležja (različite tragove obeležja kao što su dubina i tekstura, višestruke projekcije lica) a takođe i fuziju na nivou odluke (kolaboraciona klasifikacija i glasanje paralelnih modula). 
Kolektivni urbani interfejsiDizajn interfejsa uz pomoć veštačke inteligencije (AI) stvara mogućnosti za kokreiranje imersivnog interfejsa usmerenog na korisnika u urbanim sredinama. Predviđaju se imersivni urbani interfejsi u našem svakodnevnom okruženju spajanjem teorijskih pozadina Edge AI i imersivne tehnologije u radnom okviru hibridne inteligencije.Naše urbano okruženje se već dugo smatra korisničkim interfejsom. Digitalne i mobilne tehnologije neprestano modifikuju način na koji se urbani život oblikuje i kako građani doživljavaju naše digitalno posredovano okruženje. Danas je imersivna tehnologija poput proširene stvarnosti (AR) dodatno zamaglila kontinuum stvarnosti i virtuelnosti, gde su se digitalni sadržaji preklapali sa fizičkim okruženjem.Najnoviji kontekstualni okviri namenjeni upravljanju AR interfejsima pokušavaju da prikažu AR sadržaje uzimajući u obzir nevažna područja fizičke pozadine i kognitivno opterećenje korisnika. Međutim, algoritamski pristupi poseduju tendenciju da prekinu načine prikaza sadržaja na osnovu definicija dizajnera, što može završiti dizajnom usmerenom na dizajnera.Pored toga, 2D GUI na radnoj površini i ekranima osetljivim na dodir zahtevaju dugotrajnu i skupu proveru korisnika kako bi se otkrile performanse dizajna i nedostaci. Uporedivo, dizajniranje i testiranje takvih imersivnih interfejsa u urbanom postavlja nam važno filozofsko pitanje: kako postići korisnički usredsređeni imersivni urbani sistem uporebljavajući veštačku inteligenciju (AI). Radni okvir primene imersivnog urbanog područja sa dizajnom uz pomoć AI na ivičnim (edge) računarskim uređajima.Uzimajući u obzir da AR aplikacije sa širokim propusnim opsegom uključuju bogate medije, QoE korisnika je veoma osetljiv na kašnjenje (<20 ms), posebno za široku upotrebu u prenatrpanim urbanim oblastima. Primena AI sistema na arhitekturi oblaka zahteva distalnu komunikaciju između krajnjih korisnika uređaja (npr. pametnih telefona) i servera u oblaku, uvodeći dodatni saobraćaj podataka kao i značajnu mrežnu latenciju.Alternativno, razmeštanje AI sistema u lokalizovanim regionima (Edge) omogućava skalabilne, ali u stvarnom vremenu usluge, pored efikasnije i štedljive energije od cloud servera. Uticaj problema sa kašnjenjem na performanse korisnika proučavan je u HCI zajednica ukazujući na značaj okruženja sa malim kašnjenjem za interakciju korisnika sa digitalnim uređajima i aplikacijama.Najnoviji pristup zasniva se na hibridnoj inteligenciji (HI), npr. masovne (crowd-powered) i veštačke neuronske mreže (ANN), koji automatizuje postupke dizajniranja interfejsa za mobilne aplikacije na pametnim telefonima, uzimajući u obzir različita kvantitativna i kvalitativna pitanja dizajna, poput korisničke dostupnosti i estetike. U HI pristupima, masovne (crowd-powered) arhitekture prikupljaju nestručna mišljenja o dizajnu interfejsa od gomile korisnika, dok veštačka neuronska mreža upotrebljavaju korisnička mišljenja za ukazivanje na probleme u dizajnu. HI pristupi se poklapaju sa konceptima procene u domenu urbanog računarstva, u kojima se iskustvena evaluacija urbanih interaktivnih tehnologija može primeniti u celom gradu dok nijedan istraživač nije direktno uključen u proces.
  • Radni okvir uz pomoć AI u lokalnom urbanom prostoru upravljaće EdgeCache&Interference&Training-om kako bi kontinuirano procesirao digitalni video format AR kamere prenetim iz brze mreže i odgovarajućim dizajnerskim naznakam usmerenim ka korisnika iz crowd-powered arhitekture.
  • Presudno je dizajnirati podsticaje koji motivišu građane da se uključe u bazu podataka crowd-powered projekta. Prikupljanje podataka za urbani prostor prvenstveno se fokusira na ciljeve unapređenja imersivnog korisničkog iskustva i sinhronizacije sa gradom kao interfejsom usmerenim na korisnika.
  • AR interfejsi evoluiraju od 2D apps do interakcije zasnovane na stvarnosti (RBI). Stoga bi se trebalo posebno pozabaviti pitanjima upotrebljivosti u urbanim sredinama. Pomoću HI pristupa, umesto sa jedinstvenim dizajnerskim heurističkim rešenjima, problemi se mogu rešavati na mogućnostima korisnički definisanih interfejsa u okviru gradskog radnog okvira koji se može skalirati.

3D WebSpatial Web uklanja granicu između digitalnog sadržaja i fizičkih objekata koje danas poznajemo. Nazivamo ga prostornim zato što digitalna informacija postoji u prostoru, integrisana i neodvojiva od fizičkog sveta. Izraz prostorni upućuje na to kako naš interfejs omogućuje webu koji se proteže izvan ekrana da integriše i ugradi prostorni sadržaj i interakcije, što je olakšano distribuiranim računanjem, decentraliziranim podacima, sveprisutnom inteligencijom i doslednim ambijentom, edge računarstvom.Prostorni sloj interakcije sadrži interfejse sledeće generacije koji omogućavaju interakciju sa kontekstualnim informacijama u realnom vremenu na intuitivan način senzorksi pokrenutu geolokacijskim, computer vision, glasom, pokretima ili biometrijskim komandama. Sloj digitalnih informacija je kreiran senzorskim i digitalnim mapiranjem fizičkog okruženja i formiranjem digitalnih twin svakog objekta na svakom mestu. Fizički sloj je poznato okruženje koje percipiramo sa pet čula. Vizija se ostvaruje rastom i konvergencijom tehnologija AR/VR za interakciju, naprednog 5G umrežavanja, distribuiranog računarstva i nestruktuiriranih decentralizovanih informacija, IoT uređaja i senzora, kao i veštačke inteligencije / mašinskog učenja (AI/ML). Prvi korak je augmentacija procesa, drugi korak je optimizacija kros-funkcionalnosti, i konačno unifikacija kroz konvergenciju tehnologija i ekosistema. 3D Web opisuje okruženje jezikom na kojem nam svet govori - geometrijom. Prostorni web omogućuje nam upotrebu digitalno posredovanog univerzalnog jezika u kojem sve informacije mogu postati prostorne. Omogućuje da se trenutne informacije na webu postave prostorno i kontekstualno na objekte i na lokacije, na kojima možemo na najprirodniji i intuitivniji način komunicirati s informacijama, samo gledajući, govoreći, gestikulirajući ili čak razmišljajući. Ali to takođe omogućuje Webu da bude fizičkiji kako se senzori i robotika ugrađuju u naše okruženje i na predmete oko nas. Čini naš svijet pametnijim jer dodaje inteligenciju i kontekst bilo kojem mestu, bilo kojem predmetu i svakoj osobi s kojom se susretnemo, a omogućava da naši međusobni odnosi i nova mreža budu pouzdaniji, sigurniji i brži decentralizacijom i distribucija računanja i arhiviranja podataka. Omogućuje ubrzanje i poboljšanje, uvećanje i poboljšanje svakog aspekta našeg postojanja - našeg obrazovanja, kreativnosti, zdravlja, poslovanja, pravnog sistema, politike i ekologije. Prostorni web raspolaže potencijalom da nas premesti sa pretežno egocentričnog i etnocentričnog fokusa na one svetski centrične koji su celovitiji, pravedniji i inkluzivniji [D.A.M] 
Novi model svetaNačin na koji modelujemo svoj svet, načini na koje ga delimo, sočiva kroz koje gledamo, nisu se iz temelja promenili hiljadama godina. Model koji je civilizacija koristila za razmenu informacija tokom vremena uglavnom je putem reči na stranici - knjiga.Stranica se s vremenom puno razvijala, postajala je lakša i jednostavnije prenosiva. Ono što je započelo kao kamena ili glinena pločica, postalo je svitak papirusa pre nego što se povezao u kodeks. Kasnije ih je zamenio pergament od životinjske kože koji je jasnije nalikovao stranicama, što je konačno dovelo do stvaranja moderne uvezane knjige na papiru. Štamparija - koja se često smatra najvećim izumom čovečanstva nakon vatre - omogućila je publikovanje u masovnim razmerama. Mašina je  popularizovala metodu kopiranja nečega pomoću mehaničke prese koja bi na kraju mogla koristiti plastiku, polimere, pa čak i metale za štampanje kopija različitih proizvoda koje danas koristimo. Gotovo sve komponente naših proizvoda su od pronalska štamparskog stroja u osnovi "otisnute" kao kopije različitih "listova" koji su sastavljeni ili "povezani". Gotovo je sve proizvedeno poput knjige. Danas izrađujemo gotovo sve proizvode koristeći tehnike masovne produkcije koje su prvi put izumljene za masovnu proizvodnju knjiga. Pokretni slog štamparskog stroja, prvo pokretan rukom, zatim parom, a zatim električnom energijom, započeo je industrijsko doba i njegovu evoluciju od mehanizacije do elektrifikacije i do informatizacije. Usput je rođena digitalizacija reči i brojeva u kombinaciji s pisaćim strojem, kalkulatorom, mikroprocesorom i modernim računarom.World Wide Web globalna je digitalna biblioteka. Hipertekst koristi za povezivanje stranica web stranica (knjiga) u knjižnici. WWW uistinu je jedan od naših najvećih i najneverojatnijih modernih izuma, ali takođe je i doslovno izdanak štampane knjige. HTML ili jezik za označavanje hiperteksta, dominantni jezik za uređivanje sadržaja web stranica, je kombinacija dve apstrakcije ispisa - hiperteksta i onoga što se naziva mark-up jezik. Ovi jezici su u upotrebi vekovima. Ideja i terminologija evoluirali su od obeležavanja papirnatih rukopisa s upustvima za reviziju urednika, tradicionalno napisanih plavom olovkom na rukopisima autora. Vekovima su taj zadatak radili vešti tipografi poznati kao markeri, koji su označavali tekst kako bi naznačili koji font, stil i veličina se primenjuje na svaki deo pre nego što rukopis predaju u produkciju. Pisana reč i njezine dosledne teme reči, stranice i formati objavljivanja dominiraju dizajnerskom arhitekturom World Wide Weba, ističući ideju da način na koji danas delimo digitalne informacije ostaje dominiran modelom knjige. Model je ključ za kulturnu i naučnu evoluciju čovečanstva, ali u najboljem slučaju to su simboličke 2D informacije o svetu, zarobljene na stranicama, postavljene iza staklene ploče. Apstrakcijski sloj. To nije sam svet. Nije dizajniran za povezivanje ljudi, mesta i stvari u stvarnom svetu i nije dizajniran da uključuje aktivnosti u fizičkom domenu, tj. da deluje prostorno. Vreme je da razvijemo naš model sveta od modela "knjige" do novog modela - samog sveta.Mi smo prostorna bića i živimo u prostornoj stvarnosti. Naša se biologija razvijala milijardama godina u prostornom okruženju. Naša vizija, sluh, spoznaja i pokreti bili su razvijeni u kontekstu toga što smo prostorna bića koja zauzimaju prostornu stvarnost. Doživljavamo tri prostorne dimenzije (šest smerova) plus vreme, a sve ono što doživljavamo kao „stvarnost“ sadrži te dimenzije. Moglo bi se tvrditi da je dominantna tema tokom ljudske istorije bio naš impuls i želja da kontrolišemo svoje okruženje. Vodite ga rukama, pretvorite u našu volju i pretvorite u stvari koje smatramo korisnima i smislenima.Kako bi proširili našu kontrolu nad stvarnošću, ljudi stvaraju tehnologiju. Najranija poznata tehnologija bila je "poluga" koju su naši drevni preci koristili za vađenje termita iz humka u zemlji. Ovim su štapićem povećali doseg izvan svojih fizičkih ograničenja kako bi dobili pristup bogatom izvoru proteina. Tehnologija povećava i proširuje mogućnosti ljudskog tela i uma. Od najprimitivnijih alata za kopanje do najnaprednije robotike, od najranijih abakusa do vrhunske veštačke inteligencije, naše su tehnologije eksponencijalno povećale našu sposobnost vršenja kontrole nad prostorom, vremenom i materijom.Digitalizacija je jednostavno najnovija tehnologija u dugom nizu, izmišljena kako bi povećala našu kontrolu nad stvarnošću. Omogućuje nam prevođenje „spoljašnjeg stanja stvarnosti“ u digitalne informacije, što nam omogućuje upotrebu računara za njihovo uređivanje, manipulaciju, deljenje i poboljšanje, promenu ili ažuriranje konteksta i stvaranje vrednijih. Razvoj digitalizacije započeo je brojevima, zatim slovima, napredujući kroz slike, zvuk i video. U svakom su slučaju njihova proizvodnja, uređivanje, distribucija i deljenje postajali sve lakši i efektivniji, a time i vredniji. Spacijalizacija je tehnologija koja izvanredne blagodeti i mogućnosti digitalizacije proširuje na svaki aspekt fizičkog sveta u kojem živimo otključavajući pritom vredne nove proizvode, usluge i poslovne modele. To je zato što prostorno računanje, poput osobnog i mobilnog računara pre njega, poseduje retku sposobnost da se istovremeno koristi svim sektorima društva - potrošačkom, javnom, privatnom i obrazovnom sektoru. Sa svakom generacijom nove računarske tehnologije, međusobno povezivanje čoveka i računara kontinuirano se razvijalo kako bi postajalo sve prirodnije i intuitivnije. Za ranu interakciju s računarima bili su potrebni visoko obučeni tehničari; ovih dana prosečni mališan nema problema s interakcijom sa ekranom osetljivim na dodir pametnog telefona ili direktnim obraćanjem glasovnim asistentima. Ne prelazimo na VR i AR samo zato što su zabavna nova tehnologija, već zato što je naš vid binokularan s percepcijom dubine, a to su jedini interfejsi koji odgovaraju našoj biologiji. Postaju sve korisniji, omogućujući nam sve efektivnije interakcije u svetu vođene biologijom ljudskog uma i nervnog sistema. Naše mrežnice sadrže zapanjujućih 150 miliona svetlosno osetljivih štapića i konusa. Neuroni posvećeni vizualnoj obradi u našem mozgu zauzimaju blizu 30% korteksa u poređenju sa 8% za dodir i 3% za sluh.Ali ovo je samo deo priče. Ljudi reaguju i obrađuju vizuelne podatke bolje od bilo koje druge vrste podataka. Neke statistike sugerišu da mozak obrađuje slike 60.000 puta brže od teksta i da je 90% informacija koje mozak obrađuje vizuelne. Istina je da je 30% mozga posvećeno vizuelnom sistemu. Vizuelne uzorke prepoznajemo vrlo brzo i možemo reagovati puno brže nego na reči i brojeve. Prostorni interfejsi su neophodni u eksploziji podataka. To je jedan primer novog modela tipa "svet", a ne "knjiga".Porast prostornog računarstva označava bitan sledeći korak u evoluciji naših računarskih sistema i naglašava značaj prostornog weba u tekućoj evoluciji interakcija računara i čoveka. U periodu od 2020. do 2030., mobilne tehnologije 5G proširuju se globalno, dajući nam globalnu mobilnu mrežu koja omogućava prostorna iskustva s malim kašnjenjem. Širenje 5G mrežne tehnologije u kombinaciji sa sve manjim troškovima i sve većim kvalitetom tehnologija prostornih interfejsa podstiču globalno usvajanje prostornog interfejsa ne samo zato što je uzbudljivije - već zato što je biološki određeno [D.A.M]
Geometrija vizuelnih prostoraPercepcija vizuelnog prostora neizbežno je složena i subjektivna. Ljudski vizuelni sistem binokularne anatomije evoluirao je kako bi se iskoristila prednost središnjeg (fovealnog) oblika frontalnog pogleda i periferne jedinice niske oštrine. Ljudski crtež prostora koji ga okružuje nije projekcija u strogom optičkom ili matematičkom smislu, to je sastav delom zamišljenog vizuelnog prostora zasnovanog na prethodnom znanju o prostoru, sećanju, procenjenoj perifernoj formi i obojen umetničkom procenom. Mnoga pitanja o perspektivnoj prirodi vizuelnog prostora još uvek nisu dobila odgovor. Samo relativno mali podskup istraživača prostornih percepcija je pokušao opisati geometriju vizuelnog prostora u celini. Geometrija fizičkog prostora koji nas okružuje je euklidovska. Percipirane dubine, dužine, površi, volumeni, uglovi, brzine i ubrzanja se transformišu iz njihovih fizičkih vrednosti. Međutim, matematička perceptualna transformacija tog prostora ostaje nepoznata. Predloženi su različiti modeli transformacije perspektive. Umetnici i arhitekti prvi su otkrili principe linearne perspektive (LP) i stotinama godina su u njima bili strogo uvežbani. Uprkos jednostavnosti i snazi ovih geometrijskih principa i garantovanoj objektivnoj vernosti koju nude prikazivanju 3D prostora, umetnici ih ograničeno primjenjuju. Umesto toga, favorizovali su različite oblike prirodne perspektive (NP) koja naglašava veću zakrivljenost, posebno na periferiji vida, i uglavnom povećavaju područja scena koja su u središnjem fokusu. Pojam vizuelni prostor odnosi se na percipiranu veličinu, udaljenost i oblik objekata u vidnom polju. Poznato je da vizuelni prostor ne odgovara 3D euklidskoj geometriji koja opisuje fizički prostor. Helmholtz je bio prvi koji je naučno istražio fenomene percipiranih zakrivljenosti, središnjeg uvećanja i periferne kompresije vidnog polja koje su umetnici drugdje zabežili. Fenomen 'fokusnog uvećavanja' objekata koji se nalaze u direktnoj fiksaciji otkriven je početkom 20. veka. Međutim, desetine godina istraživanja nisu dale uopšteni dogovor o tome kako je vizuelni prostor geometrijski strukturiran, ili uopšte, ima li uopšte konzistentnu geometrijsku strukturu. Luneburg je predložio model vizuelnog prostora koji je u osnovi bio hiperbolički u strukturi. Heelan je također tvrdio da je vizuelni prostor hiperbolično zakrivljen, te je koristio primere iz umetnosti, uključujući delo van Gogha. Naknadni eksperimenti nisu uspeli u potpunosti podržati hiperboličku geometriju za vizuelni prostor, ali postignut je konsenzus da je ne-euklidska. Osnovni problem s kojim se još uvek suočava naukaje onaj koji je prepoznao Luneburg, a to je 'uspostavljanje metrike za mnoštvo vizuelnih senzacija'. Koenderink i van Doorn su među onima koji se suprotstavljaju postojanju univerzalne metrike za vizuelni prostor. Umesto toga, oni govore o geometriji vizuelnih prostora, koja se razlikuju zavisno od konteksta u kojem se opažaju znakovi. Činjenica da još nije utvrđena koherentna globalna metrika za vizuelni prostor je delom i posledica što eksperimentalni podaci zavise o retkim merenjima koja su izvršena u neprirodnim uslovima gledanja.Vizualni doživljaj se sastoji ne samo od prostornih osobina, već i od atributa 'teksture', poput promena u oštrini vidnog polja i 'dvostrukog vida' efekta binokularnog vida. Doprinose proceni udaljenosti i dubine na sceni. Oštrina vida varira s ekscentričnošću, pri čemu se najveća rezolucija podudara s fovealnim područjem mrežnice i brzo pada prema periferiji. Iako udžbenici karakteriziraju pojavu vizualne periferije kao 'mutnu', to nije slučaj. Niža oštrina u odnosu na središnji vid verovatno je posledica načina na koji je neuronska aktivnost u recepcijskim poljima združena u većim regijama ekscentričnošću, a ne rezultat defokusiranja. Isto tako, fenomen fiziološke 'dvostrukog vida', odavno je prepoznat kao osnovno obiležje prirodnog vida i presudan je za percepciju dubine. Uprkos tome, njegov potencijal da funkcioniše kao jedan od takozvanih 'monokularnih dubinskih naznaka', koji koristimo da procenimo dubinu iz slike, simulirajući je u 2D slikama, neznatno je iskorišćen.Istraživanja su usmerena na mapiranje geometrijske strukture binokularnog vidnog polja za određenu tačku fiksacije, uključujući binokularni disparitet i efekte skaliranja zbog dubine. Mape vizuelnog prostora definišemo kao 2D prikaz ili prikaz 3D scene koji se što bliže podudara s načinom percepcije te scene. Metoda mapiranja vizuelnog prostora uopšteno uključuje definisanje tačke fiksacije u vizuelnom svetu, a zatim vizuelno merenje opaženih veličina, oblika i položaja svih objekata u prostoru u odnosu na tačku fiksacije. Kritično, ovaj postupak se sprovodi bez pomicanja očiju od mesta fiksacije prilikom snimanja perifernih područja vidnog polja. Na taj se način može snimiti struktura celokupnog vizualnog polja i vidni prostor. Važno je takođe napomenuti da dok je fotografija, kao i kod svih standardnih linearnih perspektivnih projekcija, monokularna, informacije snimljene kroz upravo opisani umetnički postupak koriste binokularne informacije. Postiže se ili spajanjem dve odvojene dvogledne slike u jedinstvenu 'složenu' sliku, ili oponašanjem efekata fiziološke 'dvostrukog vida'.Dve vrste perspektive, linearna (LP) i prirodna (nelinearna NP), značajne su za ljudski vid. Linearna perspektiva rezultat je projekcije 3D sveta na ravnu površinu. Široko se primenjuje na crtežima i slikama kako bi stvorila iluzija dubine. Prirodna perspektiva aspekt je naše vizuelne percepcije 3D sveta - vizuelnog prostora. Literatura o linearnoj perspektivi je opsežna dok je literatura o prirodnoj perspektivi oskudna. Linearna perspektiva (LP) geometrijska je metoda modelovanja ponašanja svetlosti dok se prostire kroz mali otvor u barijeri koja se projektuje na (podrazumevano) ravnu površinu. Svetlosni zraci se prostiru ravnim linijama dok otvor blende dopušta samo relativno malom broju svih raspoloživih zraka u okruženju da dopru na projektivnu ravan. U slučaju camera obscura ili pinhole camera, rezultat je obrnuta slika na ploči za registrovanje svetla. Linearna perspektivna geometrija opisuje mapiranje upotrebom konstruktivnih linija koje konvergiraju na jednoj nestajućoj tački (vanishing point), u slučaju perspektive s jednom tačkom, i jednostavne matematike za određivanje umanjenja objekata dok se spuštaju u slikovni prostor. Mnogi su pisci od tada tvrdili da je linearna perspektiva jedini ispravan način prikazivanja vizuelnog prostora, jer će, pravilno raspoređena i gledana, linearna perspektivna slika predstavlj jednom oku identične uzorke svetla onom koji stiže iz stvarne scene koja je prikazana. Iako se tvrdi da je LP jedini objektivno tačan način prikazivanja scene, ne zahvata efikasno široke uglove gledanja, jer se predmeti sve više "istežu" ekscentričnošću kako se povećava ugao gledanja (efekt vidljiv na fotografijama snimljenim sa objektivom širokog ugla). Prema tome, veći deo binokularnog vidnog polja, koje se prostire oko 180 stepeni vodoravno i 130 stepeni vertikalno, iseca se uobičajeno kroz oblik prozora linearne perspektive, čime se isključuje veliki deo perifernog polja, uključujući pogled koji imamo na naša tela u toj regiji. Osim toga, da bismo pravilno prikazali linearnu perspektivnu sliku potrebno je locirati oko u tačnoj tački projekcije ispred slike, jer se na toj lokaciji projekcija slike s scene podudara s projekcijom mrežnice u oku. Nažalost, za većinu slika, posebno onih sa širokougaonim prikazima, ta je tačka nepraktično blizu površine slike, pa se na rubovima pojavljuju "ispruženo" ili "iskrivljeno". LP zanemaruje činjenicu da posmatramo s dva, pokretna oka ili smanjenje prividne veličine predmeta dok se povlače u ravni vertikalnoj na osu vida. Suočeni s tim ograničenjima, umetnici su retko strogo primjenjivali zakone linearne perspektive i tražili su druge metode prikazivanja sveta koji se čini prirodnijim, odnosno, bliže onome kako se može očekivati ​​od prirodnog vizuelnog iskustva.U 19. veku predloženo je nekoliko alternativnih metoda prikazivanja stvarnosti koje su se zasnivale na različitim oblicima nelinearne ili 'prirodne' perspektive. Izraz prirodna perspektiva stekao je značaj među umetnicima nakon Leonardove upotrebe u pogledu prikazivanja predmeta ne 'veštačkom' ili matematičkom perspektivom, i stoga se razlikuje od smisla koji koristi Euclid. Prirodne perspektive pokušale su prilagoditi naznake vizuelne percepcije koje je bilo teško ili nemoguće prikazati upotrebom konvencionalne linearne perspektive, poput prividnog umanjenja predmeta dok se povlače od posmatrača u frontalnoj ravni i prividne zakrivljenosti ravnih linija u perifernom vidnom polju. U 20. veku Albert Flocon i André Barre, na primer, predložili su matematički oblik zakrivljene perspektive s pet tačaka u kojima je zakrivljenost definisana segmentima elipse. Tvrdili su da ovo nudi bolju slikovnu aproksimaciju pojave vizuelnog prostora u prirodnom vidu od linearne perspektive. Alternativna krivudava perspektiva koju je predložio Robert Hansen koji je pokušao postići isti cilj takođe je koristila pet tačaka, ali hiperbole, a ne elipse.Rezultati poređenja ukazuju da NP može imati prirodniju raspodelu zakrivljenosti u odnosu na LP i FP perspektive. Moguće objašnjenje je dobro poznata sklonost zakrivljenosti, fenomen koji se široko istraživao u psihologiji. Postoje dve glavne hipoteze koje su uznapredovale da bi se objasnio ovaj fenomen: (1) da je sklonost zakrivljenju rezultat neprihvatanja oštrine; (2) da su zakrivljeni oblici ljudskog vidnog sistema jednostavniji za obradu i samim tim ugodniji za gledanje. Takođe je moguće da bi preferencija za NP perspektivu i veći komfor koji je s njom povezan uticali na procenu, iako su sudionici izloženi značajno više LP perspektivnim fotografijama u svom svakodnevnom životu s obzirom na veliku primenu u fotografiji, kinematografiji i računarskoj grafici [D.A.M]

Estetika vizuelnih prostora: kvalitet slikeEstetski kvalitet slike procenjuju se uobičajeno utvrđenim fotografskim pravilima, na koja mogu uticati brojni faktori, uključujući različite upotrebe osvetljenja, kontrasta i kompozicije slike. Ljudski sudovi, dati u okviru estetske evaluacije, rezultat su našeg estetskog iskustva zasnovanog na interakciji neuralnih sistema za emocije-vrednovanje, senzorno-motornih i značenje-znanje.Od početka studija psihološke estetike do moderne neuroestetike, istraživači su tvrdili da postoji određena veza između ljudskog estetskog iskustva i senzacije izazvane vizuelnim stimulusima, bez obzira na izvor, kulturu i iskustvo, što je potkrepljeno aktiviranjem u određenim regionima vizuelnog korteksa. Na primer, naš opšti mehanizam nagrađivanja stvara zadovoljstvo kada gledamo lepe objekte, a naknadni estetski sud sastoji se od procene valencije takvih opaženih predmeta. Ove aktivacije u vizuelnom korteksu mogu se pripisati obradi različitih ranih, srednjih i kasnih vizuelnih karakteristika stimulusa, uključujući orijentaciju, oblik, grupisanje boja i kategorizaciju. Umetnici svesno uključuju takve osobine kako bi podstakli željene perceptivne i emocionalne efekte kod gledalaca, formirajući skup smernica dok stvaraju umetnička dela kako bi izazvali željene odgovore u nervnom sistemu posmatrača. A moderni fotografi, kako bi učinili svoj rad privlačnim što većoj publici, sada pri snimanju slika pribegavaju i određenim utvrđenim fotografskim pravilima. Kako obim vizuelnih podataka dostupnih na mreži raste eksponencijalnom brzinom, sposobnost automatskog razlikovanja visoko-kvalitetnih slika od nekvalitetnih sve je veća potražnja u aplikacijama za pretraživanje i preuzimanje slika u stvarnom svetu. Kada unesemo određenu ključnu reč u pretraživač slika, očekuje se da će sistem vratiti profesionalne fotografije umesto slučajnih snimaka. Na primer, kada korisnik unese reči 'planinski pejzaž', očekujemo da vidimo šarene, prijatne poglede na planine ili dobro zabeležene planinske vrhove umesto sive ili mutnebrdske snimke.Dizajn inteligentnih sistema potencijalno može biti olakšan uvidima iz studija neuronauka, koje pokazuju da je ljudsko estetsko iskustvo vrsta obrade informacija koja uključuje pet faza koje zajedno na kraju proizvode estetski sud i estetske emocije: 
  1. percepcija, 
  2. implicitna integracija memorije, 
  3. eksplicitna klasifikacija sadržaja i stila, 
  4. kognitivno ovladavanje i 
  5. vrednovanje.
Međutim, nije trivijalno računarski modelovati proces. Izazovi u zadatku procene kvaliteta slike uključuju:
  1. računarsko modelovanje isprepletanih fotografskih pravila, 
  2. poznavanje estetskih razlika na slikama iz različitih žanrova slike (npr. objekt izbliza, profil, scenografija i noćne scene), 
  3. poznavanje vrste tehnika koje se koriste za snimanje fotografija (npr. visoko-dinamički opseg, crno-belo i dubina polja), i
  4. pribavljanje velike količine podataka anotiranih od strane čoveka za robusno testiranje.

Razum i osećajnostSuštinu proširene stvarnosti - manipulaciju našim opažanjem - nemoguće je ostvariti samo sirovom računarskom snagom? Računari su se pokazali manjom preprekom nego što se verovalo 1960ih, kada su procesori opšte namene evoluirali u visoko integrisana elektronska kola specifičnih aplikacija, i u grafičke procesorske jedinice. Povezivanje onoga što je u našim glavama s onim što je izvan naših tela zahteva holistički pristup. VR i AR se oduvek nalaze na ovoj raskrsnici ograničeni elektronskim senzorima i njihovim nesavršenostima. Današnja AR tehnologija je sofisticirana, moderni sistemi upotrebljavaju foto-skenere ili obrađuju slike s više kamera u stvarnom vremenu, ali to predstavlja i danas skupo rešenje. Ali potrebno je puno više. Ljudska spoznaja integriše različite oblike opažanja i generiše naš doživljaj stvarnosti. Ako želimo da reprodukujemo doživljaj, neophodno je da AR sistem prodre u prirodu našeg uma. AR sistemi su usredsređeni na vid i sluh. Stimuliranje naših očiju i ušiju je relativno jednostavno za slučaj s ekranima ili zvučnicima koji se nalaze na metar udaljenosti gde okupiraju samo margine naše percepcije. Poteškoće se eksponencijalno uvećavaju kada sintetičke izvore informacija postavimo bliže našim očima i ušima. Iako nas virtualna stvarnost sada može prevesti u drugi svet, to čini efektivno amputiranjem naših tela, ostavljajući nas da istražimo ova sintetička okruženja glavom i sa nešto malo telesnih čula. Osoba se tako oseća nasukano, izolovano, usamljena i prečesto ograničenog pokreta. Moguće je umrežiti učesnike u ovim simulacijama ali samo uvođenje druge osobe u virtuelni svet još je uvijek izvan mogućnosti široko dostupnih uređaja. Proširena stvarnost je i komplikovanija. Iako ne zahteva od nas da žrtvujemo svoje telo ili svoju povezanost s drugima, neophodno je da AR sistem konstantno meri i održava model stvarnog okruženja koji je dovoljan da omogući glatko stapanje stvarnog sa sintetičkim. Današnja tehnologija to teško postiže, a svakako ne u razmerama milijardu uređaja. Poput autonomnih vozila (još jedna kombinacija senzora i računanja koja na papiru izgledaju jednostavnija nego što se to u praksi dokazuje), proširena stvarnost i dalje nas iznenađuje svojim poteškoćama i dilemama. To je sve na dobro. Potrebni su nam teški problemi, oni koji se ne mogu rešiti pravolinijskim razvojem tehnologije, zahtevaju duboku misao, promišljanje, uvid, čak i dodir mudrosti. Rešenja podrazumevaju više od projektovanja elektronike, a to znači produbljivanje našeg razumevanja sebe, što je uvek dobra stvar [D.A.M] 
Kreativni MRTehnologija mešovite stvarnosti (MR) trenutno raste u popularnosti za aplikacije u domenu kulturnog nasleđa. Nadalje, mogućnosti posmatranja sa šest stepeni slobode 3DoF i volumetrijski video (VV) se trenutno istražuju kao održiv pristup kreiranju sadržaja. U kombinaciji, MR tehnologija i VV predstavljaju i praktičarima i publici inovativne pristupe stvaranju i konzumiranju opipljivih i nematerijalnih prikaza kulturnog značaja. Neophodan je sistematski pristup vrednovanju MR tehnologije primenjene u kontekstu kulturne baštine. MR se definiše spajanjem stvarnog sveta s virtuelnim, gde fizički i digitalni objekti postoje u stvarnom vremenu. Stoga se MR može odnositi na kontinuum koji se proteže između stvarnog i virtuelnog okruženja, obuhvatajući i proširenu i virtuelnu stvarnost. Nova zbivanja u MR predstavila su korisnicima mogućnosti uključivanja sadržaja u VR, gde se korisnik nalazi unutar imersivnog virtuelnog okruženja (IVE) i AR, gde se virtuelni objekti preklapaju sa stvarnim pogledom, koristeći HMD i mobilne uređaje koji koriste prostorne registre za spajanje digitalnih objekata u stvarni svet. Kapitalizirajući razvoj ostvaren u 3D snimanju i rekonstrukciji, VV tehnologija omogućuje stvaraocima sadržaja da rekonstruišu akciju uživo u 3D. U namenskim studijima, više kamera je postavljeno oko rubova studija prema unutra, iako se postavke mogu razlikovati zavisno od ograničenja i zahteva. Kao novi oblik vizuelnih medija, VV se počeo koristiti u MR aplikacijama, uključujući: daljinsku komunikacionu i saradničku šemu, rekonstrukcije u akciji uživo za aplikacije muzejskog vodiča za kulturnu baštinu. Volja za transponovanjem starih medijskih procesa u digitalne medije tendencija je koja formuliše teoriju o remedijaciji, koja dokumentuje produženje starih medijskih karakteristika u novim medijima. Istorijski gledano, vidljivo je u napretku pripovedanja u radnji od pozorišta do filma, pri čemu su 1) reditelji prvobitno snimali koristeći proscenijski format, i 2) glumci izvodili široke gestikulacije kao da komuniciraju s publikom u zadnjem redu gledališta, a ne sa kamerom postavljenom u blizini. Ali, kako se filmski medij više utvrđivao, postupno se razvijala gramatika koja je omogućila filmskim stvaraocima i publici da razumeju da film nije sinonim za pozorište i da su radni procesi i gotovi artefakti različiti. Prelaz s pozorišta na film pokazuje nam da je potrebno vremena da kreativni praktičari iskoriste mogućnosti novih interdisciplinarnih umetničkih oblika, a ti su potencijali podložni neodređenosti tehnološkog razvoja. Postavlja se temeljno pitanje koje se tiče preferencije MR publike: je li bolje posmatrati narativ iz odabranog stajališta koje je bez ikakvog uticaja na ishod priče ili se uživiti u karakter i uticati na zaplet i uticati na narativ? Što se tiče kulturne baštine i interakcije čovek-računar, to postavlja neka pitanja: Koliko su eksperti svesni ometajućeg uticaja MR na umetničku praksu i angažman publike? Kako možemo uspostaviti gramatiku priče koja omogućuje stvaraocima da lakše stvaraju privlačne MR sadržaje utemeljene na VV, a publika da se s entuzijazmom bave time? Kako možemo napraviti MR sadržaje koji se bolje poklapaju s paradigmom pripovedanja kao zajedničkog iskustva?
Način posmatranjaKada posmatramo uvek smo pod uticajem kompleksnog skupa pretpostavki u vezi sa prirodom lepog, istine, civilizacije, oblika, ukusa, klase i roda. Nikada ne možemo svesti samo na puko gledanje – mi zapravo uvek čitamo jezik slika. 
Sveprisutne, prožimajuće i uverljive mobilne komunikacijeOčekuje se da buduće komunikacijske tehnologije u nastajanju uvući u naše okruženje, pomažući nam da odmaknemo od ekrana pametnog telefona i vratimo se u svoje okruženje. Pritom nas čine više (a ne manje) prisutnima u svetu oko nas. Iako je 5G mobilnih mreža usmerena na Internet svih objekata IoE, transformativna 6G mogla bi biti upravo suprotno od IoE, odnosno IoNT. Nadovezujući se na koncept nevidljive i vidljive tehnologije, neophodno je istražiti kako se puni potencijal multisenzornih iskustava proširene stvarnosti (XR) može osloboditi u okruženjima Multiverse kros-stvarnosti. Značajna je konvergencija pristupnih MEC računara poboljšanih veštačkom inteligencijom AI i inteligentnih mobilnih robota u ostvarivanju IoNT ka novoom dobu 6G post-smar telefona. Istražuju se mreža ekstrasenzorne percepcije koja integriše tri evolucijske faze mobilnog sveprisutnog, prožimajućeg i uverljivog računarstva [D.A.M]
Vizuelna percepcija svetlosnih poljaSvetlosni talasni front LF (light field) formiraju svetlosni zraci sa scene snimljeni matricom kamera ili mikro-objektiva (micro - lenses).  LF je moguće prikazati i upotrebiti na razne načine, tako da primarni izazov koji se postavlja je definicija onoga šta vizuelna percepcija sadržaja svetlosnog polja treba biti.  Analiza vizualne pažnje LF posmatrača ističe karakteristike ponašanja korisnika u aplikacijama svetlosnih polja. Za razliku od tradicionalnih vizuelnih sistema, koji prikazuju 3D scenu projekcijom na 2D površinu, svetlosna polja kodiraju sve informacije o uglovima, smeru i intenzitetu svetlosnih zraka koji propagiraju unutar 3D prostora. Svetlosna polja mogu se prikazati na 3D ekranima od 360 stepeni ili specijalizovanim LF ekranima. Takođe se mogu posmatrati u 2D, kao skraćeni perspektivni prikazi ili kao fokusni stekovi - gde se slike s različitim fokusnim ravnima svetlosnog polja predstavljaju oštrim ili „u fokusu“.Svetlosna polja sadrže više informacija od uobičajene slike i mogu se upotrebiti u raznim aplikacijama, uključujući naknadno fokusiranje. Verovatno je da se vizuelna pažnja (tamo gdje ljudi gledaju kada posmatraju scenu) razlikuje u odnosu na posmatranje 2D slika, tako da je neophodno istražiti svetlosna polja i vizuelnu pažnju . U studijama se formira baza podataka o LF vizuelnoj pažnji projekcijom svetlosnih polja iz različitih izvora i prikupljajući podatke o praćenju oka za različite scenarije prikazivanja istih. Refokusiranje svetlosnog polja je prva metoda za prikazivanje svetlosnih polja koja su reprezentativna za njihovu 3D prirodu, ali za 2D ekran. Nakon toga ispituje se kako promene u fokusu utiču na vizuelnu pažnju posmatrača, tretirajući fokus kao naznaku karakteristika svetlosnih polja.  Selektuju se za posmatranje svetlosna polja koja sadrže više područja ili objekata s visokim kontrastom i područja s velikom gustinom ivica i lokalnim kontrastom na različitim dubinama i prostornim pozicijama.Iz analize putanja posmatranja svetlosnih polja, postoji razlika u vizuelnoj pažnji statičkih LF prikaza  u poređenju s fokusno promjenjivim prikazima.  Neophodno je dodatno istražiti mape isticanja slike različitih vrsta prikazivanja. LF vizuelna pažnja je često vođena fokusom i objektima / regionima u fokusnoj ravni posmatrajući mape izdvojenosti (silence map) izračunate na segmentima slike u toku vremena [D.A.M] 
Digitalni blizanciDigitalni blizanac (DT) definiše se kao prikaz fizičkog entiteta u digitalnom svetu u stvarnom vremenu. DT tehnologija omogućuju nam stvaranje virtuelne kopije našeg stvarnog sistema i stoga nam omogućava platformu za pregled aktivnosti, interakcija i posledica različitih odluka unutar stvarnog sistema. DT duplicira fizički model daljinskog nadgledanja, posmatranja i upravljanja na osnovu digitalnog formata. To je zapravo živi model fizičkog sistema koji se kontinuirano prilagođava operativnim promenama na osnovu podataka u stvarnom vremenu iz raznih IoT senzora i uređaja te predviđa budućnost odgovarajućih fizičkih entiteta uz pomoć ML/AI.U konvencionalnom pristupu, dizajneri koriste računarske simulacije i inženjerske alate za projekovanje i predviđanje životnog ciklusa i izvođenje različitih mehanizama fizičkog ispitivanja. Optimiziraju dizajn kako bi maksimizirali performanse i smanjili troškove projektovanja. Ali u ovom pristupu postoji ograničenje na tolerancije, strategije odnosa među konfiguracijama, planiranje itd.DT koncept stvara model fizičkih entiteta za prediktivno održavanje. Model se kontinuirano prilagođava promenama u okruženju ili radu koristeći senzorske podatke u stvarnom vremenu i može predvideti budućnost odgovarajuće fizičkog entiteta. DT dodaje vrednost tradicionalnim analitičkim pristupima poboljšanjem situacijske svesti i dodatno omogućuje bolje reakcije za optimizaciju fizičkih sredstava i predviđanje održavanja. Digitalni svet i fizički svet, uz pomoć široke DT implementacije, poseduje potencijal potpune povezanosti, pridonoseći formulisanju nove norme cyber-fizičkog sveta omogućenom DT u bliskoj budućnosti. Digitalni blizanci priminjuje se u različitim scenarijima s fizičkim objektima, uključujući automobile, zgrade, fabrike, gradove, okruženje, kao i na procese i ljude. Među tim scenarijima, digitalni grad-blizanci (DTC) slučaj je koji pokazuje tipične osobine DT upotrebe. Grad je složen sistem, sastavljen od ljudi, objekata, procesa i mnogih događaja: usvajanjem DT relevantnih tehnologija svi se gradski objekti mogu preslikati na odgovarajuće parove, poput ulica, zajednica, škole, bolnice, elektroenergetski sistemi, pa čak i aktivnosti velike grupe građana i događaji. 
StilStil je apstrakcija i odraz ljudske percepcije o osobinama proizvoda.  Od značaja je u umetnosti, arhitektonskom, modnom i industrijskom dizajnu. Uobičajeno, stil se prepoznaje kao skup prepoznatljivih obeležja koje se pojavljuju u određenim proizvodima koje su stvorili umetnici ili dizajneri, u nekim geografskim područjima ili u nekom vremenskom razdoblju. Uopšteno, ako se skup obeležja ili oblika ponavlja u brojnim proizvodima, pojavljuje se stil.Sva legitimna obeležja koja bi se mogla smatrati stilskim neophodno je da poseduju sledeća svojstva:
  • poseduje formu ili sastav prepoznatljiv po određenoj konfiguraciji i kontekstualnom odnosu s drugim obeležjima,
  • dizajner ih je izvorno stvorio kreativnim postupkom ili prilagodio ili preuzeo iz drugih izvora uz određenu funkcionalnost,
  • član je skupa istaknutih obeležja koje dizajner uzastopno koristi.

Normalni binokularni vid, prostorni osećaj i percepcija dubineNormalni binokularni vid definiše se kao integracija monokularnih senzornih i motoričkih vizuelnih informacija u kombinovanu percepciju fizičkog prostora okruženja. Očigledna je prednost jednog pogleda, a ne dvostrukog ili projekcija koje se izmjenjuje sa svakog oka. U stvarnom, životu percepcija dubine je kombinacija binokularnih i monokularnih naznaka. Suptilna razlika između desnog i levog pogleda omogućuje najtačniji oblik percepcije dubine. Stereopsis pomaže primatima u koordinaciji ruku-očiju i preciznom presretanju mobilnih izvora hrane. Stereopsis pomaže identifikovanje pretnji - protivnici se mogu uočiti kako se kreću u vidnom polju pomoću monokularnog vida, ali stacionarni 3D vid pomaže identifikovanju određene pretnje na pozadini vizuelnih informacija, (razdvajanje figura-pozadina). Razmera binokularne konvergencije koja se koristi za fiksiranje cilja svakim okom omogućava približnu procenu ciljane udaljenosti pomoću triangulacije. Binokularni vid pomaže i u prostornoj lokalizaciji kada se vizuelna pažnja koncentriše na predmete smeštene u ravni binokularne fiksacijske tačke i omogućuje ignosiranje odvraćajućih podražaja bliže ili dalje. Binokularna percepcija je u prednosti nad monokularnim vidom i u proceni površinske zakrivljenosti. Omogućava i naglašenu percepciju površinskog materijala koristeći percepciju sjaja. Na višim nivoima vizuelnih performansi, precizni stereopsis omogućuje vrlo detaljne zadatke. Naši vizuelni centri usrednjavaju kombinovanu sliku levog i desnog oka. Binakularna sumacija poboljšava performanse kontrastne oštrine vida i gornje prostorne frekvencije osetljivosti na kontrast, apsolutno otkrivanje svetla na pragu percepcije, funkciju osetljivosti praga na kontrast, kao i vreme reakcije na impulsne vidne podražaje. Dva oka i binokularni vid predstavljaju uparen, a time i rezervni organ, što vredi za mnoge telesne funkcije kao osiguranje od ozleda i bolesti. Dva oka omogućavaju i šire vidno polje. Kod životinja koje predstavljaju plen grabljivaca, horizontalna vizuelna slika proširuje se na 360° panoramskog vida. Kod ljudi vodoravno binokularno vidno polje je 120°, s daljnjim monokularnim poljem od oko 45° sa svake stran, na vodoravnoj (medijalno-lateralnoj) osi koja prolazi kroz oči, ali svodi se na nulu superirorno i inferiorno. Nos smanjuje binokularno polje inferiorno. Kod ostalih životinja monokularna i binokularna vidna polja razlikuju se zavisno o vrsti. Za binokularni vid je neophodna interokularna udaljenost (65 mm kod odraslih ljudi), neuralni put za prenos dve slike do centara u mozgu za integrisanje različitih vrsta vizuelnih informacija, poput svetline, veličine, pokreta u odnosu na oko, boje i kontrasta. Ovi sistemi analiziraju i stvaraju daljnja opažanja, kao što su udaljenost, oblik, kretanje u odnosu na telo i stereopsis. Neophodni su ekstraokularni mišići koji omogućuju projekciju snimljenog predmeta na odgovarajuća područja retine svakog oka, kao i motorni sistemi za upravljanje voljnim i refleksnim pokretima oka (za održavanje ili promenu fiksacije). Neophodna je i metoda povezivanja binokularnog senzornog ulaza i motoričke funkcije (motorna korespondencija). Daljnje poboljšanje binokularne percepcije ostvaruje se triangulacijom objekata posmatranih upotrebom pokreta glave i tela i dodavanje drugih, monokularnih naznaka ukupnoj vizuelnoj percepciji.Prostorni osećaj (spatial sense) je sposobnost tela da prepozna položaj eksternih objekata, a uključuje taktilni osećaj, sluh i vid. Određivanje spoljašnjih lokacija vizuelnim putem zasniva se na odnosu eksternog položaja, očiju i položaja glave. Vizuelni smer opisuje vizuelni položaj objekta u 2D ravni, njegov vertikalni i vodoravni položaj. Prelaz iz fizičkog prostora koji postoji bez naše prisutnosti, u vizuelni prostor (vizuelni prikaz fizičkog prostora) zasniva se u početku na upotrebi vizuelnog smera za formiranje percipirane slike. Prepoznavanje monokularnog vidnog smera ostvaruje se povezivanjem vizuelnog receptora na retini s eksternim položajem objekta zamišljenim na tom vidnom receptoru. Linija koja prolazi kroz središte ulazne zenice, do bilo kojeg predmeta od interesa, naziva se linija vida (line of sight). Za objekat fiksiran foveom, linija je poznata kao primarna vidna linija (primary line of sight) ili vizuelna osa (visual axis). Ulazna zenica je slika stvarne zenice koju formira retina, kao što je promatrao posmatrač. Vizuelna osa se strožije definiše kao eksterni svetlosni zrak koji će nakon refrakcije optičkog sistema, pasti na foveu. Fovea je područje retine koje prima slike iz objekata posmatranih ravno ispred. Oštrina vida i percepcija boja su normalno najbolja na fovei. Kada se predmet posmatranja projektuje na foveu, okulomotorni sistem prestaje pokretati oko. Fovea je, dakle, nulta tačka retino-motora, odnosno središte. Primarna linija vida (primary line of sight) predstavlja osnovni vizuelni smer, od fovee do objekta projektovanog na fovei. Svi receptori retine koji nisu fovealni poseduju sekundarne vizuelne smerove. Ugaona vrednost sekundarnog vizuelnog smera kalibrira se prema primarnom vizuelnom smeru. Opšti izraz linija pogleda uključuje i primarne i sekundarne vizuelne pravce. Neprimarne linije vida nazivaju se sekundarne linije vida ili linije pravca. Bilo koji broj objekata smeštenih na istoj (primarnoj ili sekundarnoj) liniji vida stimuliraće jednu istu grupu receptora (zakon okulocentričnog smera). Zakon se odnosi na upotrebu samo jednog oka. Dakle, kada se fovea jednog oka preusmeri na objekat u drugom smeru, okulocentrični vizuelni smer pokreće se s njim. Prepoznavanje vidnog smera pomoću retina receptora naziva se lokalni znak (local sign): svaki retina receptor šalje neuro-vizuelni signal i kodira smer u vertikalnim i horizontalnim koordinatama, ali ne i udaljenost. Svaka retina receptor - cerebralna senzorna jedinica poseduje jedinstvenu sposobnost otkrivanja određenog smera. Signali se prenose kroz bočnu jezgru genikalata do vidnog korteksa. Drugim rečima, svaki receptor retine povezan je s određenim smerom iz kojeg prima podražaj. Povezanost se proteže sve do vizuelnog korteksa: postoji retinotopsko mapiranje neurona u vizuelnom sistemu. Lokalni znak je ugaona suptencija između vizuelnog smera sekundarnog receptora retine i primarnog vizuelnog smera fovee. Visoka preciznost lokalnog znaka rezultat je procesa kortikalnog usrednjavanja, koji u stimulansu uzima srednju vrednost i prostornih i vremenskih promena. Lokalni znak je opšta osobina senzorske percepcije: čulo dodira na bilo kojem delu površine ljudskog tela povezano je s kortikalnim senzornim neuronima [D.A.M]
3D EkranEkrani za prikazivanje svetlosnog polja LF (Light Field) definišu se kao uređaji koji omogućavaju kontinuiranu paralaksu, zajedno s fokusom i binokularnim vizuelnim naznakama koji deluju zajedno na način bez rivalstva. Neophodno je istražiti svetlosno polje konceptualiziranom plenoptičkom funkcijom i njenom adekvatnom parametrizacijom, semplovanjem i rekonstrukcijom. Nedvosmislen cilj vizuelnih medija je omogućiti visok realizam 3D scene koja se rekonstruiše i alate za interakciju s vizuelnim sadržajem. Vizuelne informacije o stvarnim predmetima nosi svetlosno polje (LF), svetlost bilo koje talasne dužine koja propagira u svakom smeru kroz svaku tačku u prostoru. Nakon toga, podaci o svetlosnom polju omogućavaju visoke prostorne, ugaone i spektralne rezolucije vizuelnog sadržaja. Kako bi se iskoristilo i pretvorilo u visoko realistično i interaktivno vizuelno iskustvo, uloženi su opsežni napori da se prouče principi formiranja, propagacije i percepcije svetlosnog polja, zajedno s računarskim metodama za akviziciju, procesiranje i projekciju vizuelne informacije. Na ovom popisu metoda, prikaz svetlosnog polja (LF) zauzima posebno mesto kao završni stepen rekonstrukcije svetlosnog polja, gde se susreću optika i obrada signala. Pokušaj visoko-kvalitetne rekonstrukcije svetlosnog polja iz velike, ali ograničene kolekcije senzora zahteva istraživanje novih koncepata akvizicije i novih prikaza svetlosnih polja semplovanih u maloj rezoluciji.Ljudsko čulo vida (HVS) stvara 3D percepciju na 3D informacijama stečenim kroz brojne dubinske naznake. Vizualni znakovi su fiziološki i psihološki. Fiziološki znakovi kao što su binokularni disparitet, konvergencija i akomodacija generišu informacije temeljene na fizičkoj reakciji HVS sistema. S druge strane, psihološki znakovi poput linearne perspektive i gradijenata teksture više su povezani s naučenim iskustvima. Vizuelni znakovi mogu se podeliti u četiri kategorije: okulomotorne naznake (vergencija i akomodacija), binocularni disparitet, monokularne slikovne naznake dubine 3D scene (senke, perspektiva, okluzija, skaliranje teksture, gradijent), paralaksa pokreta (paralaksa glave posmatrača). U ovom trenutku postoje sledeće kategorije 3D LF ekrana: integralna slika je najstarija tehnika zasnovana na 2D matrici optičkih sočiva, MVD (multiview displays) dva LCD panela i horizontla matrica optičkih elemenata (lenticular sheet, parallax barrier), ekrani zasnovani na projekcijama rekonstruišu aproksimaciju kontinualne plenoptičke funkcije na osnovu diskretnog skupa svetlosnih zrakova, holografski stereogram (HS) je hibridni pristup zasnovan na holografskoj akviziciji i rekonstrukciji 2D slika, tenzorski ekrani se zasnivaju na usmeravanju LF zraka pomoću malog broja slojeva modulatora svetlosti različite transmitanse [D.A.M]
6G komunikacijaBudućnost povezanosti je u stvaranju digitalnih blizanačkih (digital twin) svetova koji su istinski prikaz fizičkog i biološkog sveta u svakom prostornom i vremenskom trenutku, objedinjujući naše iskustvo u ovim fizičkim, biološkim i digitalnim svetovima. Nove teme koje oblikuju 6G sistemske zahteve i tehnologije, su: (i) novi interfejs čovek-mašina stvorena kolekcijom više lokalnih uređaja koji skladno deluju; (ii) sveprisutno univerzalno računanje raspoređeno među više lokalnih uređaja i računarskog oblaka; (iii) spajanje multi-senzornih podataka za stvaranje višestrukih mapa i novih iskustava mešovite stvarnosti; i (iv) precizni senzori i aktuatori upravljanja fizičkim svetom. Pokušavamo oslikati široku sliku komunikacionih potreba i tehnologija u vremenskom okviru 2020-2030. Naš pogled na tehnološke transformacije polazi od mesta na kojem aktuelni 5G sistemi evoluiraju, a zatim do onoga što može postati bitno drugačije od toga. Očekujemo da:
  • Nosivi uređaji, poput uređaja ugrađenih u našu odeću, postaju uobičajeni, a mrlje na koži i bio-implantati možda nisu tako retka pojava. Posedovaćemo više nosivih predmeta koji besprekorno sarađuju i omogućavaju prirodne i intuitivne interefejse.
  • Ekrani osetljivi na dodir zastarevaju, gestikulacija i razgovor na bilo kojim uređajima koje upotrebljavamo, postaju obaveza.
  • Uređaji koje koristimo postaju potpuno svesni konteksta, a mreža će postati sve sofisticiranija u predviđanju naših potreba. Svesnost konteksta u kombinaciji s novim interfejsima čovek-mašina učinit će našu interakciju s fizičkim i digitalnim svetom mnogo intuitivnijom i efikasnijom.

Kao potrošači, možemo očekivati da:
  • Današnji samostalni konceptni automobili je dostupan masama do 2030. Većinu vremena su samostalno vođeni, ali je i dalje neophodan udaljeni vozač ili suvozač kako bi preuzeli kontrolu pod određenim uslovima. Raspoloživo vreme za konzumiranje podataka s Interneta u obliku više zabave, bogate komunikacije ili obrazovanja se povećava. Automobil upotrebiće značajno više podataka: podaci senzora vozila prenose se u stvarnom vremenu u mrežu, preuzimaju se mape visoke rezolucije a automobili se direktno međusobno povezuju. 
  • Masovna primena bežičnih kamera kao senzori. Sa napretkom AI i računarske vizije i njihovim sposobnostima prepoznavanja ljudi i objekata (automatsko prikupljanje podataka sa slika i video zapisa), kamera postaje univerzalni senzor koji može koristiti na svakom mestu. Pitanja privatnosti rešavaju se ograničavanjem pristupa podacima i anonimiziranjem podataka. Za prikupljanje informacija o okruženju koristiti se radio-talasi i drugi načini akvizicije poput akustike.
  • Digitalni novac i ključevi postaju obavezni, s tim da se transakcije u fizičkom i digitalnom svetu odvijaju kroz mnoštvo uređaja koje posedujemo. Neophodno je da mreža obezbedi sigurnost i privatnost koja je osnova za transformaciju.
  • Zdravstvena zaštita se značajno transformiše, 24/7 praćenjem vitalnih parametara za sve kroz brojne nosive uređaje. Nadzor zdravlja također obuhvata i unutarnje uređaje koji komuniciraju s nosivim izvana, a oni zauzvrat mogu prenositi podatke na Internet.

Međutim, primeri industrijske upotrebe koji se oslanjaju na mnogo ekstremnije potrebe za bežičnom komunikacijom zahtevaju:
  • Holografska teleprisutnost postaje norma i za rad i za socijalnu interakciju. Moguće je da se čini kao da se neko nalazi na određenom mestu, a stvarno se nalazi na drugom mestu. Sistemi kombinuju trenutne izraze lica s virtuelnim unutar digitalne reprezentacije bilo kojeg fizičkog sveta.
  • Masovna upotreba mobilnih robotskih rojeva i bespilotnih letilica u raznim vertikalama, kao što su hotelijerstvo, bolnice, skladišta i isporuka paketa.
  • Dinamični digitalni blizanci u digitalnom svetu s sve preciznijim i sinhronizovanim ažuriranjima fizičkog sveta su osnovna platforma za naglašavanje ljudske inteligencije.

Na osnovu predhodne vizije, moguće je ekstrapolirati sledeće ključne slučajeve upotrebe:
  • Lokalizacija i senzing pomoću komunikacijske mreže je značajna 6G osobina. Preciznost i tačnost identifikujemo kao odgovarajuće radne mere performansi za lokalizaciju i senzing. Očekuje se preciznost reda centimetra. Točnost senzora objekta može se meriti u smislu propuštenog otkrivanja (MD) i lažnog alarma (FA) i pogreške u proceni parametara.
  •  Mreža se projektuje distribuiranim AI/ML tehnikama ugrađenim u različite nodove, a koliko brzo se prilagođavaju novim uslovima u mreži je značajna osobina. Automatizacija mreže je norma, a samim time i koliko je mreža blizu kompletiranja automatizacije s nultom ručnom intervencijom je još jedan kriterijum.
  •  Konačno, očekujemo veliku revoluciju korisničkih uređaja. Prvo, verujemo da će se krajnji uređaj u mnogim scenarijima razvijati u mrežu uređaja ili pod-mrežu. Još jedna odlika uređaja su značajno intuitivniji interfejsi, na primer, pristup gestikulacijom. Konačno, određena klasa uređaja ekstremno niske potrošnje i potencijalno bez baterije, oslanja se na mrežu kao izvor električne energije.

U svakoj generacije do 5G, tri osnovna stepena slobode u projektovanju sistema sve većeg kapaciteta su radio-spektar, spektralna efikasnost i prostorna ponovna upotreba spektra. 6G komunikacije se zasnivaju i na tri nove dimenzije resursa podataka, računarstva i energije. Kao što je poznato, AI/ML tehnike zasnivaju se na podacima i pristup velikim količinama podataka specifičnih za domenu, je preduslov uspešne primene ovih tehnika. Iako su računarski resursi oduvek znaačajni za mobilne sisteme, dva osnovna trenda pokazuju ograničenje resursa. Prvi trend koji opažamo jest rastuća zasićenost broja tranzistora koji se mogu spakovati u jedinicu zapremine, a što ograničava računarsku snagu uređaja. Drugi trend je da usvajamo sve više uređaja kako bismo povećali ljudske senzoričke mogućnosti, poput naočara, ušnih slušalica i drugih nosivih predmeta, koji svi imaju male dimenzije i stoga su ograničene sposobnosti računanja. Trenutni pristup računanju opterećenjem granica oblaka verovatno nije dovoljan da zadovolji potrebe za sinhronim računanjem na različitim uređajima. Napokon, raspoloživa energija na svakom elementu mreže definiše performanse. raspon je energije koja je blizu nule na nekim vrstama uređaja, do ograničenja napajanja u baznim stanicama i do ograničenja snage u data centrima. Osim toga, rešenja klimatskih promena postaje glavni fokus u celom svetu do 2030. a rastuća potrošnja energije mreža i uređaja pomno se prati.Novu generaciju 6G na kraju obeležavaju brojne nove, esencijale tehnologije koje oblikuju komunikacioni sistem. Istinski osnovnim novim tehnologijama uobičajeno je potrebno decenija ili više da se to ostvari u praksi. S obzirom na to, neophodno je da nove tehnologije koje stvaraju 6G postanu istraživački koncepti današnjice. Identifikovali smo šest novih potencijalnih transformacija tehnologije:
  • dizajn i optimizacija radio-interfejsa na osnovu AI/ML; 
  • širenje u nove opsege spektra i nove metode kognitivne razmene spektra; 
  • integracija sposobnosti lokalizacije i senzora u definiciju sistema; 
  • postizanje ekstremnih zahteva za performansama u pogledu latencije i pouzdanosti; 
  • nove paradigme mrežne arhitekture koje uključuju podmreže i konvergenciju RAN-Core;
  • nove šeme sigurnosti i privatnosti.
6G infrastruktura je visoke gustine i sveprisutna je, tako da projektovanje nije optimizovano samo za komunikaciju, već i za percepciju i razumevanje fizičkog sveta i potreba ljudi, naglašavajući na taj način ljudsko postojanje na najintuitivniji način [D.A.M]
6G dodir i osećajTaktilni internet (Tactile Internet) je tehnologija u nastajanju koja omogućuje isporuku s veštinama umesto da isporučuje audio-vizuelne podatke. U TI, ljudi upravljaju stvarnim ili virtuelnim objektima pomoću bežičnih 6G konekcija visokih performansi. Interakcija s okolinom značajna je kako bi se podaci u stvarnom vremenu ili prenos dodira zasnivali na odgovarajućim ljudskim čulima. Ljudima su neophodna različita vremena reakcije od 100, 10 milisekundi i 1 milisekunde u međusobnoj komuniciji sa audio, video i manuelnom interakcijom. TI omogućava i dodir sa udaljenih lokacija. Osnovni TI cilj je ljudski dodir upotrebom komunikacione mreže. Haptička komunikacija je interakcija u stvarnom vremenu upotrebom komunikacionih kanala. Sposobna je daljinski prenositi fizičke senzacije i upravljanje u stvarnom vremenu. Haptička komunikacija sastoji se od haptičkih i ne-haptičkih kontrola. Haptičke kontrole su kinestetičke i taktilne povratne sprege, dok non-haptičke kontrole su audio i video. Kinestetičke povratne informacije daju nam informacije o položaju, okretnom momentu, brzini, sili i pomacima predmeta, a taktilne povratne informacije daju nam procenat trenja i teksturu površinskih informacija. Povratne informacije pomažu da se shvate ili osete fizičke senzacije preko mreže. Tako da haptička komunikacija isporučuje veštine putem interneta, a ne sadržaj. Na primer, mreže isporuke postavljene na veštinama koriste se za prenos doživljaja fizičkog dodira upotrebom haptičkih uređaja. Proširenje taktilnog Interneta, koncept Interneta veština (Internet of skills) omogućava arhiviranje veština jedne određene osobe na server, a zatim deljenje sa svima koji žele naučiti nešto novo. Moguće je slikanje ili sviranje muzičkog instrumenta ili neka aktivnost u kojoj su potrebne fine motoričke sposobnosti upotrebom taktilne rukavice koja usmerava pokrete prstiju. IoS koncept omogućava da se zabeleže stvarne lične veštine i upotrebljavaju kao referentni pokret [D.A.M]
Pametniji gradoviHiljadama godina ljudi su bili lutalice, postojali su samo u malim skupinama i konzumirali su dnevno preživljavanje. Sve promenilo. Priča o tome zašto su ljudi nastavili graditi gradove ključna je za razumevanje budućnosti čovečanstva. Značajno je istražiti poreklo gradova, uključujući važan uticaj i ulogu industrijskih revolucija u definisanju sveta danas, i kako urbanizacija nastavlja menjati planetu.Grad je fizičko mesto koje trajno naseljava veliki broj ljudi u definisanim granicama. Grad poseduje formalne sisteme podršku upotrebe zemljišta, stanovanje, sanitarna zaštita, energija i transport. Grad poseduje izvestan prepoznati oblik upravljanja koji olakšava rad na tom području i interakciju između zajednice, preduzeća i vlade.Poreklo gradova, poput toliko ljudske istorije, rezultat je niza nepredvidivih i iznenađujućih događaja. Značajno je razumevanje onoga što se dogodilo i šta znači za nas danas i za budućnost. Življenje u gradovima je relativno novi fenomen. U većem delu ljudske istorije - oko 200 000 godina, po našim najboljim pretpostavkama - članovi homo sapiensa živeli su i lutali zajedno u relativno malim skupinama, usmerenim na svoje useve i lov na životinje i ribe. Tokom 200.000 godina ništa se nije mnogo promenilo. Pre nešto više od 10 000 godina pojavila su se prva značajna urbana područja. Damask se u Siriji često navodi kao najstariji stalno naseljeni grad. Atina u Grčkoj nije zaostajala i, kao i nekoliko drugih urbanih središta tog razdoblja, bila je izvor brzog sazrevanja ljudskog razvoja. Nekoliko gradova, koji su se protezali od Bliskog Istoka do Europe, pa sve do Kine i Indije, osnovani su u ovom periodu. Iako su mnogi od tih gradova imali ključnu ulogu u definisanju civilizacije, svi su imali skromne veličineu usporedbi s masivnim, industrijskim gradovima današnjice. Tokom većeg dela ljudske istorije zaista nije bilo puno ljudi i većina nas živela je ruralnim načinom života. Sve do nedavno 1800ih svet je imao manje od milijardu ljudi. U odnosu na današnji dan, gde preko 55% ljudi živi u gradovima, u 1800. godini samo je 3% boravilo u urbanim sredinama. Gradovi su se pojavili i rasli jer su nudili uverljivu alternativu životu u ruralnim područjima. Na primer, umjesto da lovi, skuplja ili uzgaja sve potrebne materijale za preživljavanje, u gradu je osoba mogla trgovati kako bi zaradila novac za život. Ponašanje potiče od posledica neolitske revolucije, vremena koje je definsano kao prelaz s prilično ad-hoc pristupa lutanju i lovu na naseljavanje u stalna područja i formaliziranje poljoprivrede. Naknadna poljoprivredna revolucija stvorila je obilje hrane, koja je bila vrlo oslobađajuća za ljude. Jednom kada su se ljudi u velikom broju počeli naseljavati u tim gradovima, sve se počelo menjati. Potrebe su nadahnule inovacije. Bilo je definisano susedstvo. Zakon i red poprimili su oblik. Proizvodi su se počeli masovno proizvoditi. Zajednice su stvorile bogatstvo. Uslovi su se poboljšavali, mada postupno. Gradovi su postali užurbani centri trgovine, proizvodnje, društvenih aktivnosti i slobodnih aktivnosti, s sve većom raznolikošću umetnosti i novim modelima obrazovanja. Izazovi su s napretkom rasli. Industrijalizacija je podržala razvoj fabrika za masovnu proizvodnju, koje su obično građene u urbanim područjima. Za ove je objekte bio potreban sve veći broj radnika. Gradsko stanovništvo na tim područjima počelo je brzo rasti. Pojavili su se novi, pozitivni društveni sistemi. Za samo 100 godina, u toku je druga industrijska revolucija na osnovu široke upotrebe električne energije. U 1940im počinje treća industrijska revolucija. Izgrađeno na temelju napretka predhodnih revolucija, posebno električne energije i telekomunikacija, započelo je informacijsko doba. Na mnoge načine sada živimo kroz ovu revoluciju, i moglo bi se tvrditi da smo još uvek samo na njenom početku. Čini se da su računari, softverski programi, pametni telefoni i Internet već radikalno promenili svet, ali čini se da je potencijal tek delimično ispunjen. Treća industrijska revolucija omogućila je Internet, svetsku račuanrsku mrežu, masovnu automatizaciju i veštačku inteligenciju, videokonferencije, nove poslovne modele. Za većinu ljudi koji žive u gradovima, računarska tehnologija podržava njihovo okruženje. Kako ova revolucija napreduje, troškovi računanja i arhiviranja padaju, i višeuređaja se povezuju, softver postaje pametniji, bogatiji podaci postaju dostupni, a ulazna prepreka za inovacije smanjena je.Nema sumnje, ova revolucija postaje osnova za izgradnju pametnijih gradova. Iako se odvija treća industrijska revolucija, moguće je videti dokaze o još jednoj revoluciji. Treća i četvrta revolucija značajno će se preklapati, baš kao i prva i druga industrijska revolucija. Četvrta industrijska revolucija pokrenuta je konvergencijom novih tehnologija, novim naučnim probojima, novim ponašanjima, promenom demografije i globalnom ekonomijom. Priroda gradova danas je nedavna pojava. Velika, gusta urbana područja proizvod su posljednjih nekoliko decenija. Urbanizacija je zauvek promenila planetu. Gradovi su sada gusta područja ljudske delatnosti, sjedinjena putevima, žicama i cevima, tunelima i mostovima, industrijskim područjima i stambenim objektima, parkiralištima, stanovima, stadionima, skladištima, višespratnicama i još mnogo toga. Izgradili smo razne sisteme za povezivanje urbanih područja. Novije strategije transformacije gradova predstavljaju odgovor na narastujuće probleme uvećanja urbane populacije i ubrzane urbanizacije. Koncept pametnog grada SC (Smart City) integriše IKT informacione i komunikacione tehnologije u optimizaciji gradskih operacija, usluga i konekcija prema stanovnicima. Primena tehnologije poboljšava kvalitet, performanse i interaktivnost servisa, smanjujući troškove i potrošnju resursa. Istovremeno, konekcija gradske uprave prema stanovnicima je poboljšana, reakcije i upravljanje su u realnom-vremenu. Pametniji gradovi su pripremljeniji za izazove tehnologije, ekonomije i zaštite okoline, kao što su klimatske promene, ekonomsko restrukturiranje, starenje populacije, rast broja stanovnika, kao i pritisak na javne izvore finansiranja [D.A.M] 
5G XReXtended Reality (XR) je termin za različite vrste stvarnosti:Virtuelna stvarnost (VR) je rekonstruisana verzija vizuelne i audio scene. Prikazivanje je osmišljeno tako da oponaša vizuelne i zvučne senzorne podražaje iz stvarnog sveta što je prirodnije moguće posmatraču ili korisniku dok se kreću u granicama definisanim aplikacijom. Virtuelna stvarnost obično, ali ne nužno, zahteva od korisnika da nosi zaslon montiran na glavi (HMD), da u potpunosti zameni korisničko vidno polje simuliranom vizuelnom komponentom i da upotrebi slušalice, kako bi korisniku pružio prateći zvuk. Jedan oblik praćenja glave i kretanja korisnika u VR obično je takođe potreban kako bi se simulirane vizuelne i audio komponente ažurirale kako bi se osiguralo da, iz perspektive korisnika, predmeti i izvori zvuka ostaju u skladu s korisnikovim pokretima. Mogu se predvideti dodatna sredstva za interakciju sa simulacijom virtualne stvarnosti, ali nisu strogo neophodna.
  • Proširena stvarnost (AR) jest kada se korisniku pružaju dodatne informacije ili veštački generisani elementi ili sadržaj prekriven njihovim trenutnim okruženjem. Takve dodatne informacije ili sadržaj obično će biti vizuelni i/ili zvučni i njihovo posmatranje trenutnog okruženja može biti direktno, bez međusobnoe akvizicije, obrade i prikazivanja, ili indirektno, gdje se njihova percepcija okoline prenosi putem senzora i može se poboljšati ili obraditi.
  • Mešovita stvarnost (MR) napredni je oblik AR gde su pojedini virtualni elementi umetnuti u fizičku scenu s namerom da se stvori iluzija da su ti elementi deo stvarne scene.
  • Proširena stvarnost (XR) odnosi se na sva stvarna i virtualna kombinovanja okruženja i interakcije čovek-mašina generisana računaskom tehnologijom i nosivim uređajima. Uključuje reprezentativne oblike poput AR, MR i VR i područja interpolisana među njima. Nivoi virtuelnosti kreću se od delomičnih senzorski ulaza do potpuno uronjenog VR. Ključni aspekt XR je proširenje ljudskih iskustava, posebno vezanih za osećaj postojanja (predstavljena VR) i stecanje spoznaje (zastupljeno AR).
Ostali pojmovi koji se koriste u kontekstu XR su imersija (uranjanje) kao osećaj da ste okruženi virtualnim okruženjem, kao i prisutnost (presence) koja pruža osećaj fizičke i prostorne lociranosti u virtuelnom okruženju. Osećaj prisutnosti pruža značajne minimalne zahteve za rad sa različitim tehnologijama poput praćenja, kašnjenja, postojanosti, rezolucije i optike. Korisnik nastoji delovati u interakciji s proširenom stvarnošću. Akcija i interakcija uključuju pokrete, gestikulacije, reakcije tela. Pri tome, stepeni slobode (DoF) opisuju broj nezavisnih parametara koji se koriste za definisanje kretanja lokacije posmatranja u 3D prostoru. Svaka dosledna interakcija za XR aplikaciju s XR hardverom pretpostavlja da je ograničena na XR sesiju. Nakon uspešnog uspostavljanja XR sesije, može se koristiti za istraživanje pozicije posmatrača, ispitivanje podataka o okruženju korisnika i predstavljanje slika korisniku.U XR aplikacijama bitan element je upotrba prostornog praćenja. Na osnovu praćenja i zaključka o poziciji XR posmatrača, sadržaj se prikazuje kako bi simulirao prikaz virtuelnog sadržaja.Prostorno mapiranje, izrada mape okolnog područja i lokalizacija, utvrđivanje položaja korisnika i objekata unutar tog prostora neka su od ključnih područja XR, posebno AR. Višestruki senzorski ulazi kombinuju se za bolju tačnost lokalizacije, npr. monokularne/stereo/dubinske kamere, radio-signali, GPS, inercijski senzori [D.A.M]
5G evolucija ljudi i mašinaPeta generacija tehnologija mobilnih bežičnih komunikacija - sa svojim ekstremnim protocima podataka na telekomunikacionim linkovima, vrlo malim latencijama i masivnom podrškom korisnika i uređaja - je kritična komponenta u stvaranju novih imersivnih iskustava u stvarnom vremenu. Iako može zvučati kao naučna fantastika, 5G može biti polazna tačka za sledeću evoluciju ljudi i mašina, u početku kao pomoćnik ljudima, a na kraju čak i razmišljanje umesto ljudi (u pojedinim slučajevima). Kupovina odeće sa svojom decom ili izbor vašeg sledećeg automobila postaje imersivni doživljaj. 5G tehnologija pomaže nam kao dodatni partner, preuzimajući neke od zadataka na koje ne želimo „trošiti vlastite moždane ćelije“. Gledajući napred u budućnost - možda 30 godina od sada - moguć je prenos kompletnog našeg uma na računar i „digitalna besmrtnost“ - događaj koji se naziva „singularitet“.Tehnologija virtuelne stvarnosti (VR) stvara potpuno uronjeno, računarski generisano iskustvo koje simulira ili ponovno stvara situacije iz stvarnog života i okruženja. Za razliku, proširena stvarnost (AR) prekriva računarski generisane slike i poboljšanja okruženje za smisleniji kontekst interakcije s korisnicima. Uvođenje 5G omogućava nova VR i AR iskustva dostupna za masovno prihvatanja. 5G tehnologija ne samo poboljšava, neophodna je u najuzbudljivijim slučajevima AR/VR upotrebe: 
  • Deljenje sadržaja uživo na društvenim mrežama s mesta događanja zajedno s 50 000 drugih ljudi na stadionu postaje još izazovnije sa 4K videom u 360 stepeni zato što svaki korisnik istovremeno prenosi 25 Mbps podataka.
  • VR i AR sledeće generacije raspolažu sa šest stepeni slobode (6DoF), sledeći nivo imerzije omogućava korisnicima kretanje unutar scene i intuitivnu komunikacija s okruženjem. 6DoF sadržaj je za red veličine bogatiji prirodnošću i interaktivnošću od trenutnog videozapisa tri stupena slobode (3DoF). 3DoF doživljaji, poput videozapisa u 360 stepeni, omogućava korisniku rotaciju torza i glave sa fiksnog položaja posmatranja. Doživljaji 6DoF, koji su danas dostupni u video igrama, omogućuju korisniku da se prostorno kreće kroz okruženje samo hodanjem ili naginjanjem torza napred.
  • Za intuitivno uživanje u 6DoF sadržaju neophodno je 6DoF praćenje kretanja glave psomatrača. Razvoj 6DoF tehnologije pokrenuće mnoge industrije poput turizma i obrazovanja. Većina komponenti za isporuku videozapisa trenutno je neprikladno za 6DoF video, uključujući uređaje za snimanje, produkcioni softver, kodeke, algoritme kompresije, telekomunikacionu mrežu i plejere. 6DoF video zahteva i protoke podataka u rasponu od 200 Mbps do 2 Gbps, zavisno o kašnjenju prenosa sa kraja na kraj.

Budućnost VR/AR zavisi od 5G tehnologije koja donosi digitalne podatke u fizički svet i omogućava računarima da generišu 3D slike ili kreiraju 3D okruženje u poslovnim primenama, pametnim gradovima, edukaciji, malo-prodaji, proizvodnji i zdravstvu. [D.A.M] 
Prirodno iskustvo: paralelno ogledalo i digitalni blizanciFokusirali smo se na prenos informacija o ljudima i objektima s udaljenih lokacija kako bismo ih u potpunosti reprodukovali na drugim udaljenim mestima i stvorili osećaj kao da su direktno ispred nas. Sada kada su visoko inteligentne aplikacije i usluge prožimaju život ljudi, a virtuelna stvarnost (VR) i proširena stvarnost (AR) postale dostupnije, želimo dodatno proširiti spektar iskustava koja se nude korisnicima i ponuditi im da budu prirodnija. Naš cilj nije samo verna reprodukcija informacije o ljudima i objektima na nekom mestu, već i stvoriti predmete putem video projekcije i zvuka koji daju osećaj da su oživljeni i tako stvaramo vredna iskustva koja prevazilaze stvarnost. Proučavamo koji su aspekti z iznačajni za omogućavanje takvih iskustava. Iako je tačna reprodukcija objekata značajna u odnosu na realniju stvarnost, pretvaranje ili preterivanje može rezultovati većim doprinosom. Nastajanje informacionog društva omogućila je digitalizaciju različitih objekata u stvarnom prostoru i omogućila složenu rekonstrukciju i izražavanje u cyber-prostoru. Nastavljajući evoluciju lovačkog/sakupljačkog društva (Društvo 1.0), poljoprivrednog društva (Društvo 2.0), industrijskog društva (Društvo 3.0) i informacionog društva (Društvo 4.0), Društvo 5.0 se definiše kao "društvo u čijem središtu je čovek i koje uravnotežuje ekonomski napredak rešavanjem socijalnih problema sistemom koji visoko integriše cyber-prostor i fizički prostor”. Drugim rečima, osim što tačno oponašaju stvarne objekte koji postoje u stvarnom prostoru, postoji očekivanje da će stvarnost biti prevaziđena fuzijom stvarnog i virtualnog. Kako bi se dostigli ovi ciljevi, istražuje se i razvija tehnologija prirodne komunikacije. Tehnologije se sastoje od sledećih pet elemenata:
  • tehnologija kreiranja prostora i objekata za slobodno stvaranje naoko stvarnog prostora i objekata ljudske mašte koji nadilaze stvarnost,
  • tehnologija medija nulte latencije koja redukuje fizička kašnjenja u prenosu i obradi, uklanjajući na taj način senzorna kašnjenja, poput osećaja nelagode usled kašnjenja, 
  • tehnologija 2D/3D video prikaza koja omogućuje prirodni dvodimenzionalni (2D) i trodimenzionalni (3D) prikaz
  • tehnologija prezentacije informacija kako bi se omogućile prirodne interakcije između stvarnosti i virtuelnog prostora
  • novi pristupi pod zajedničkim nazivom "pet čula + X tehnologija prenosa" za prenos i predstavljanje ne samo naših pet čula, već i psihološkog osećaja direktno i prirodno.

Fizička kašnjenja u prenosu i obradi osnovni su problem u postizanju prirodne VR/AR interakcije na udaljenim mestima. Iako su uloženi napori za smanjenje ovih fizičkih kašnjenja i komercijalizacija je do neke mere napredovala, fizički je nemoguće smanjiti kašnjenje na nulu, čak i pri brzini svetlosti. Stoga, za postizanje prirodne interakcije, verujemo da je potrebna tehnologija koja ne samo da uklanja fizičke kašnjenja, već i uklanja nelagodu koju ljudi osjećaju zbog kašnjenja, kao i uklanjanje kašnjenja čula. Stoga se istražuje tehnologija nulte latencije medija. Konkretno, tekuća istraživanja uključuje razjašnjenje mehanizama čulnog kašnjenja iz različitih informacija, poput perifernih situacija i obrazaca ponašanja, stvaranje prirodnije tehnologije predikcije koja ne uzrokuje nelagodu zbog kašnjenja, te pojašnjenje mehanizama predviđanja u našem umu kako bi se uklonila čulna kašnjenja zbog predikcije okruženja u našem umu. Da bi se omogućile prirodne i stvarne tehnologije prezentacije informacija, sprovode se istraživanja i razvoj 360° autostereoskopski 3D tehnologije bez naočara i tehnologije sinteze zvučnog polja. Tehnologija omogućava posmatranje 3D objekata s binokularnom nesrazmera na zaslonu na radnom stolu bez upotrebe 3D naočara kombinovanjem više projektora smještenih u krug i posebnog zaslona. Veliki zaslon prečnika 120 cm i optičko linearno mešanje omogućuju nesmetano kretanje tačke posmatranja (glatka paralaksa pokreta). tehnologija sinteze 3D zvučnog polja omogućava reprodukovanje zvučnog polja upotrebom linearnog niza zvučnika s više zvučnika u liniji. Tehnologija omogućava kontrolisanje udaljenosti između izvora zvuka i publike, kao i njegov smer. Ostvarena je reproducija zvučnog polja upotrebom sistema koji se sastoji od više malih zvučnika usko smeštenih u kartezijanskoj mreži. Tehnologije su značajne za postizanje prirodnih komunikacija kako bi korisnici uživali u osećaju stvarnosti bez potrebe za nošenjem posebnih uređaja kao što su ekrani postavljeni na glavi, 3D naočara ili slušalica. Drugim rečima, sofisticiranost okruženja korisnika omogućava reprodukciju prirodne i realne prisutnosti bez opterećenja. Moguća primena tehnologije u području zabave kako bi se stvorila realnija iskustva sportskih događaja ili koncerata. U poslovanju, tehnologije bi trebale pomoći da se telekonferencije razviju od deljenja ekrana i zvuka do deljenja prostora. Možda više nije nedostižno da udaljeni učesnik na konferenciji postane digitalni blizanac (digital twin) kojem je moguće šaptati ili deliti pismene komunikacije. Postaje stvarnost i televizija (TV) koja reprodukuje zvuk s karakteristikama glasnoće i frekvencije optimizovane samo na područjima gde su stariji ljudi. Drugim rečima, sobe i televizori predstavljaju zvuk koji se pravilno kontroliše u skladu sa svakim prostorom slušanja, tako da je nepotrebno povećavati glasnost kako bi stariji mogli pratiti TV program sa kompletnom porodicom. Omogućuje starijim osobama uživanje u zvucima bez slušnih pomagala. Omogućuje kontrolu zvuka kako ne bi procurio u smeru dečjih spavaćih soba, tako da je praćenje televiziju bez potrebe slušalica.Evolucija zvuka i videa kao načina reprodukcije informacija izvanredna je i omogućila je ne samo poboljšanje definicije, već i 3D efekte. Međutim, upotreba ostalih čula nije napredovalo. Postizanje prirodnog korisničkog iskustva i prezentacija različitih informacija zahteva upotrebu vida i sluha kao i ostalih čula. Neophodno je da usluge koje stvaraju vrlo realistična iskustva angažuju i dodir, miris, pa čak i ukus. U pogledu prezentacije informacija, metode koje angažuju čulne organe vida i sluha nisu uvek prirodno sredstvo prenošenja informacija. Ako se informacije mogu preneti drugim metodama osim vidnim ili slušnim ili njihovim kombinacijama, moguće je prirodno primati informacije bilo kada i bilo gde. Virtuelni prostor ponekad se opisuje kao odraz u ogledalu, a verujemo da to nije samo elektronski cyber-svet, već i paralelni svet u preseku sa stvarnim prostorom. U idealnom slučaju, kada se omogući korisnicima iskustvo u paralelnom svetu u čemu žele biti dobri, poput pevanja ili plesa, poželjno je vratiti ovo iskustvo u stvarni svet. Ovakav presek virtuelnog i stvarnog sveta je tema istraživanja i nastavak razvoja tehnologije prirodne komunikacije [D.A.M]
GENOM i KONEKTOMRezultati projekta ljudskog genoma HGP [1990-2003] su identifikovanje 20,000-25,000 gena u DNK kod ljudi, određivanje sekvence 3,000,000,000 hemijskih parova koji čine DNK i formiranje informacione baze 750 MB (3,234.83 Mbp mega-basepairs per haploid genome), kao i fizičko/funkcionalno mapiranje genoma. Ciljevi projekta ljudskog konektoma HCP [2009- ] su mapiranje neuronskih puteva i akvizicija podataka o strukturi i funkcionalnim konekcijama ljudskog umaCilj projekta HuBMAP je ubrzati napore na razumevanju odnosa između organizacije ćelija i tkiva, biološke funkcije i ljudskog zdravlja.  Razvijaju se softverski alati za integrisanje i mapiranje različitih bioloških podataka u zdravom ljudskom telu [D.A.M]
Kvalitet doživljajaKvalitet je metafizički pojam (lat. qualitas) i promatra se kao konstrukcija našeg uma koju je lako shvatiti, ali teško objasniti. Mnogi elementi imaju ulogu u konstrukciji prepoznavanja kvaliteta. U digitalnim medijima kvalitet se obično koristi sa inženjerskim ciljevima, budući da je dominantna mera za ocenu sistema, aplikacija ili usluga u fazi razvoja i operativnoj fazi. Industrija i istraživačka zajednica u posljednje vreme kreće se u smeru prihvatanja krajnjeg korisnika-posmatrača kao najznačajnije komponente u proceni kvaliteta multimedija QoE (quality of experience) ili QoP (quality of perception) umesto samo QoS (quality of service).
  • QoS obeležja su performanse, responsivnost, pouzdanost, aspekti dostupnosti, prilagodljivosti, aspekti primene i sigurnosti. Performanse na nivou sistema mere se u smislu preciznosti (biometrijska/ emocionalna/ponašanje klasifikacija), adekvatnost modaliteta (primjenjivost na domenu), preciznost razjašnjenja (izvođenje semantičkih pojmova), preciznost upravljanja dijalogom (odnos uspeha razmene), kontekstualna prikladnost (kvantifikacija načela kooperativnosti), prikladnost ishoda modaliteta (međusobne veze između osobina) i prikladnost forme (ishod isporučen korisniku merljiv pomoću faktora kao što su razumljivost). Performanse interakcije na strani korisnika može se meriti naporima (kognitivnim, fizičkim i perceptivnim) koji se zahteva od subjekta i njegovom slobodom interakcije. 
  • QoS se uglavnom fokusira na celovite performanse sistema, a ne utvrđuje zadovoljstvo korisnika u smislu odnosa uzroka i posledica. Međutim, percepcija i zadovoljstvo korisnika dizajnirani su raznim drugim aspektima kojima performanse komponenata usluge sigurno ne mogu upravljati. Kvaliteta iskustva (QoE) u posljednje je vreme navedena kao subjektivna koncepcija zadovoljstva, upotrebljivosti i prihvatljivosti korisnosti. QoE prevazilazi tradicionalne krajnje parametre QoS pokrivajući mnoštvo različitih aspekata (npr. mentalno stanje subjekta) kako bi poboljšali kvalitet koju subjekt doživljava. QoE se može prikazati kao perceptivni QoS iz pogleda subjekata. Percepcija kvaliteta uzorka multimedija razlikuje se zavisno o subjektu, producentu sadržaja ili provajderu usluga. Značajna predikcija QoE može se ostvariti kroz algoritme/metrike procene QoE koji su konzistentni za bilo koju vrstu oštećenja i krajnjeg korisnika. U tu svrhu, nedavno predstavljene QoE metode procene koriste informacije povezane s degradacijom signala i informacijama o procesu percepcije kvaliteta. Na QoE utiču kognitivne i psihološke odrednice poput osećaja, navika, zahteva i očekivanja. Kvantifikovani QoE može se dobiti kodiranjem performansi sistema s percipiranjem korisnika u obliku interpretativnih i statističkih vriednosti. 
  • QoS i QoE opisuju tehnički kvalitet sistema kao i stepen zadovoljstva korisnika na osnovu njihovih očekivanja. Međutim, ove mere ne uzimaju u obzir vernost i korisnost aspekata korisnika. Kvalitet percepcije (QoP) je izraz koji obuhvata zadovoljstvo subjekta s ocenom multimedijskog prikazivanja i njegovom sposobnošću za ispitivanje, sintezu i razumevanje informacijske komponente multimedijskih prezentacija. Kvalitet multimedija koja koristi objektivne ili subjektivne komponente nije adekvatna zbog velike dimenzijske prirode multimedijskih elemenata. QoP objedinjuje kako subjektivnu procenu nivoa sadržaja duž nivoa multimedijskih dispozicija (QoP-S), tako i objektivnu procenu sposobnosti subjekta za ispitivanje, simfonizaciju i akviziciju informacijskog elementa multimedijskog sadržaja (QoP-IA). QoP-S se sastoji od QoP-LOE definisanog kao nivo uživanja korisnika i QoP-LOQ određenog kao odluka subjekta o obektivnoj oceni kvaliteta dodeljenog multimedijskoj komponenti s kojom se susreće. Posebno, QoP-IA se u procentima može meriti količinom znanja koja je korisnik stekao iz multimedijskog sadržaja. QoP-LOE i QoE-LOQ procenjuju se klasičnim metodama ocenjivanja ispitanika. 

3D gastronomijaKulinarstvo je više od područja za digitalno naglašavanje koje traži efikasnost i kontrolu: to je mesto na kojem se razvija kultura i znanje, a kreativnost slavi, pozivajući na dublje promatranje povezanosti digitalne proizvodnje i kulinarstva. Digitalna gastronomija (DG) usmerena je na integraciju tehnologija digitalne izrade u kuhinju koja utiče na naša iskustva s kuvanjem i obedovanjem. DG konceptualizuje buduću gastronomiju koja hranu posmatra iz široke perspektive, sa sredstvima koja će omogućiti ličnu kreativnost i kontrolu u pripremi hrane. U središtu ove gastronomske vizije, GD predlaže kuvarsku praksu usmerenu na čoveka, gde kuvari vode buduće kulinarske trendove kako bi uravnotežili umetnost i kulturu kuvanja sa sutrašnjim izazovima i potrebama hrane, te razvili novi dizajnerski prostor koji će nam osmisliti načine digitalnog procesiranja hrane.Potencijalno, računari mogu doprineti kuvanju na nekoliko načina. Računari omogućuju kuvaru da digitalno kontroliše ukus, strukturu i estetiku (FSA) svakog jela na način da lokalno upravlja sastavom sastojaka u jelu. Računari mogu utvrditi najbolji način dizajniranja hrane koja je ograničena količinom sastojaka i odrediti najbolji način distribucije tih sastojaka, uzimajući u obzir FSA kako je kuvar odredio.Parametarski model jela omogućava brojne interpretacije pojedinog metarecepta s visokim stepenom slobode (DoF). Takav model rešava problem uravnoteženja dva zavisna kriterijuma tokom kuvanja: 1) određivanje količine sastojaka u jelu i 2) određivanje raspodele tih sastojaka i kako uteče na FSA hrane. Dakle, kako bi se iskoristio potencijal računarskog pripremanja hrane, identifikovano je pet osnovnih područja istraživanja: 1) razvoj modela reprezentacije hrane i recepata, 2) razvoj i integracija novih digitalnih sredstava kuvanja, 3) razvijanje namenskog interaktivnog softvera, 4) raspoređivanje i ocenjivanje računarskog kuvanja u stvarnim restoranima i kuhinjama, i 5) razvijanje hibridnog (digitalno-tradicionalnog) kuvarskog iskustva, uključujući celovitu interaktivnu šemu, recepte i jela. Recept je niz upustava za pripremu određenog jela, uključujući i popis potrebnih sastojaka. Uobičajeno, ovaj popis sastojaka je nepromenljiv skup materijala i količina. Ali jela raspolažu potencijalom različitih varijacija konačnih ukusa i estetike kako bi udovoljiti različitim zahtevima različitih kuvara i jela. Neophodno je formalno (digitalno) predstaviti i postupke kuvanja (recepte) i konačne rezultate (jela). Jedinstveni model digitalne reprezentacije omogućava koherentnu istraživačku paradigmu organizovanog istraživanja na terenu i jednostavan interfejs za saradnju inženjera i kuvara. 
  • Problem 3D dizajna. Uopšteno, reprezentacija finalnog jela ili raspored sastojaka u određenom prostoru nalikuje 3D grafičkim modelima, s nekoliko razlika. Osim estetskih (vizuelnih) svojstava koje se mogu opisati datim sistemom boja, elementi hrane sadrže i ukus koji je sastavljen od ukusa, osećaj u ustima, i mirisa. Definišimo aroma_voxel kao element u 3D prostoru koji predstavlja vrednost na regularnoj rešetki takvu da flawor_voxel = funkcija (boja, okus, osećaj u ustima, aroma), dok osećaj u ustima je funkcija uglavnom teksture i temperature. Veličina i oblik aroma_voksela zavise od specifične metode kuvanja, tj. regularna 3D rešetka je funkcija tehnologije izrade. Struktura ukusa je prostorni raspored jestivog materijala s jedinstvenom karakteristikom ukusa u jelu. U jelu koje ima dve ili više strukture, kuvar može sastaviti flawor_patterns i kontrolisati kako strukture ukusa doprinose jelu, na taj način uvodeći mogućnost kontrole promena ukusa tokom konzumiranja obroka. Za upravljanje digitalnim dizajnom jela sa složenim uzorcima ukusa, brojnim strukturama ukusa i flawor_voxel neophodan je postupak parametarskog dizajna. 
  • Unificirani model recepta. Recepti se mogu objasniti proceduralno pomoću dijagrama toka, koji omogućuju upotrebu istog okvira za sve recepte i može se lako upotrebiti za opisivanje i kontrolu postupka kuvanja, uključujući hibridne postupke koji spajaju manuelne funkcionalnosti s digitalnim i automatskim. Jednostavna šema toka kuvanja sadrži elemente sastojaka (bilo u količini ili težini), funkcionalnosti (manipulacije sastojcima), elemente stanja (provera zadovoljavaju li se rezultati prethodnog koraka, potrebna kuvarska stanja) i prostor tanjira ili elementi alata s određenim geometrijskim modelom (koji uslovljavaju poseban raspored sastojaka). Odnos između hrane (ili sastojaka) i jela može se opisati pomoću parametrskog dizajnerskog modela, udovoljavajući estetskim i zahtevima koje je postavio kuvar. Tradicionalni recepti opisuju skup sastojaka sa stalnim količinama, a jelo se može opisati kao tačka u prostoru sastojaka. Međutim, iz kulinarske perspektive, može se definisati funkcija zavisnostisastojaka kako bi se omogućio DoF u receptima: na primer, brašno, kvasac, voda, šećer i so imaju složenu interakciju s glutenskim vezama u testu, tako da se promenom jednog elementa utiče na ostale i finalni proizvod. Može se lako zamisliti kako se recept opisuje kao funkcija sastojaka sa DoF, a ne s određenim količinama. Iako statički recepti ne mogu predstaviti takvu složenost, računarski program to jednostavno ostvaruje, zamišljajući stvarnost u kojoj kuvar, zajedno s inženjerom, gradi recepte na osnovu kuhinjskih eksperimenata i konstruiše visoku DoF funkciju. 
  • Teorijski okvir. Pogledajmo sada detaljnije implikacije novih načela kulinarstvs: varijacije, progresija i morfing, koji zajedno ostvaruju dublji doprinos računara u preispitivanju jela i recepata. Načela digitalne gastronomije su: 
  • Varijacija. Kada kuvar definiše odnos i zavisnosti između elemenata za kuvanje, svaka večera može predstavljati personalizovani proizvod na osnovu ličnih preferenci i potreba.
  • Progresija. Programirani modularni kalup može se koristiti za postizanje različitih varijacija oblika recepta, oslanjajući se na nekoliko različitih ukusa (slatko, kiselo, gorko) i boja, omogućavajući kontrolu struktura ukusa u jelu računarskim algoritmom. 
  • Morfing. Prelazi ukusa mogu se planirati, kontrolisati i koristiti za pretvaranje jednog jela u drugo kako bi se ostvorilo putovanje transformacije ukusa kroz pažljivo planirano pozicioniranje (diskretnih) sastojaka koji pružaju vizualni nagovještaj eskalacije okusa koja se odvija na posluženom tanjiru.
Postoji velika verovatnoća da će računari igrati sve veću ulogu u kulinarstvu: 1) postoji sve veći trend istraživača i industrije u smeru digitalizacije kuvanja pomoću različitih tehnologija, 2) računari optimiziranju upotrebu sastojaka i minimiziraju otpad, i 3) računari prilagođavaju personalnu ishranu korisnika na osnovu njihovih zdravstvenih kartona i genskih podataka. Računari redukuje otpad i personaliziraju jela upotrebljavajući sastojke s dobro poznatim hranljivim vrednostima i omogućavaju kuvarima nove kreativne alate kako bi opravdali računarki pomognuto kuvanje iz kulinarske perspektive. Računarski pomognuto poboljšanje tradicionalne kuhinje novim mogućnostima, zahteva ne samo preispitivanje recepata, već i njihovo stvaranje s visokim DoF koji se oslanja na nove principe digitalnog kuvanja, poput upotrebe varijacija jela, postupno građenje ukusa i morfing. Parametarski generorani model dizajniranja jela određuje tačnu raspodelu sastojaka prema ličnim preferencama kao i model distribucije, matematički određeni od strane kuvara dok planiraju jela i hibridne recepte. Dakle, kuvar i inženjer koji grade recepte pomoću SF (simplicial flowchart) modela (ili sličnih) omogućavaju izradu personalizovanih jela, udovoljavajući ličnim preferencama i zdravstvenim sklonostima. Upotrebom parametarskih alata za dizajn možemo postići isti rezultat na osnovu jednog metarecepta i nikada tačno ne ponoviti posluživanje, i u slučaju kada su ograničenja identična. Za usmeravanje računarskog kuvanja prema kreaciji usmerenom na pojedinca, ako se tradicionalna kultura hrane uporedo prati sa novim razvojem i mogućnostima, postoji nekoliko izazova kuvara i inženjera. Prvo, potrebno je nastaviti i proučiti kako digitalni uređaji za kuvanje i softver za interaktivni dizajn mogu biti integrisani u hibridne kuhinje za promociju računarskog kuvanja. Teorijski okvir je neophodan kako bi kuvar mogao stvoriti nove kreativne sposobnosti, kontrolisanje uzoraka i strukture ukusa, kao i novi jezik kuvanja. Osim automatizacije kuvanja, računarska vizija kuvanja usmerena je na kreativni potencijal računara za sutrašnje kuvanje; predstavljanje novih principa, metoda, teorija i interaktivnih šema kuvanja; i razvijanje revolucionarne, ali utemeljene kuvarske prakse i publikovanje iste za promociju digitalnog unapređenja kulinarskih tradicija [D.A.M] 
Zvučna scena i auditivna scenaZvučna scena odgovara akustičnim (fizičkim) pojavama (zvučnim talasima), dok je auditivna scena perceptivna interpretacija zvučnih događaja od strane slušaoca.  Prva generacija volumetrijskih audio sistema nastojala je stvoriti tačan zvučni pritisak na ušnim membranama.  Međutim, to očigledno nije dovoljno, a u nekim slučajevima nije ni potrebno.  Različite su naznake koje pomažu ili inhibiraju verodostojne slušne iluzije:
  • korektan zvučni pritisak na ušnim membranama (pomoću izmerenih HRTF ili BRIR)
  • individualna HRTF ili BRIR
  • omogućavanje rotacije glave
  • omogućite interaktivno istraživanje u dinamičkoj orijentaciji i položaju s praćenim samo-pokretanjem
  • konvergencija sobe
  • audiovizualna podudarnost
  • obuka slušaoca za sistem (iskustvo).
Sluh nam pruža relevantne informacije o stanju našeg okruženja i aktivnostima oko nas, uključujući one na mestima izvan našeg vidnog polja.  Stoga je sluh zaista od velikog značaja za našu orijentaciju u stvarnom svetu i našu situacijsku svest.  Takođe, za razliku od vida, sluh nikada ne spava u potpunosti i stoga poseduje efikasnu funkciju upozorenja.  Sluh je i istaknuto socijalno osećanje ljudi. Zvuk, lišen smisla, ne bi nam bio značajan.  Zvuk i njegovo osnovno značenje povezani su u vremenu i prostoru.  Ne postoji zvuk bez prostornih svojstava, a mozak te informacije organizuje u vremensko-prostornom okviru.  Kad smo izloženi akustičnim podražajima, ne reagujemo direktno na ono što čujemo, već šta znači za nas ono što čujemo.HAS slušni sistem (human auditory system) na ulazu prima elastične vibracije i talase okolnih fluida i čvrstih tela, s kojima je u mehaničkom kontaktu.  Kontakt s receptivnim organima, ostvaruje se ili provođenjem vazduha kroz ušne kanale ili koštanim provođenjem kroz lobanju.  Glava se može pokretati sa šest stepeni slobode u odnosu na telo, pri čemu se i samo telo takođe može kretati u 3D prostoru i može promeniti svoju orjentaciju u odnosu na referentni položaj.Slušni događaji, odnosno sve što čujemo, postoje na specifičnim položajima i određenim zapreminama u prostoru.  Sveukupnost slušnih događaja definiše zvučni prostor.  Slušni prostor kada se binauralno sluša bitno se razlikuje od zvučnog prostora kada se mono sluša. Binauralno modelovanje pokušava preslikati određene aspekte ponašanja binauralnog sluha pomoću računarskih algoritama.  Različiti modeli koji proizlaze iz ovih napora mogu se na razne načine klasifikovati.  Modeli akustičke lokalizacije obično oponašaju ljudski slušni sistem u određenoj meri kako bi procenili položaj izvora zvuka. Modeli lokalizacije koriste binauralne naznake, koji su podeljeni u interaktivne naznake i monofonske naznake.  Interaktivne naznake često su robusnije od monografskih.  Poseduju značajnu ulogu u prosuđivanju bočnog položaja, ali i u diskriminaciji napred/nazad smera i elevacije. Ljudsko razumevanje složenih 3D okruženja zasniva se na psihološkim i biološkim osobinama HAS stvaranja slušnog prostora.  Auditorni sistem poseduje mehanizme učenja razumevanja i prilagođavanja složenim okruženjima. Volumetrijski audio označava tehnologiju reprodukcije zvuka koja se zasniva na nizovima zvučnika i ostalim metodama upravljanja zvučnim poljem.  U svim tim tehnologijama cilj je generisati zvučnu scenu s prostornim audio komponentama.  Postoje dve kategorije, naime, s jedne strane, tehnologije za postizanje fizičke rekonstrukcije zvučnog polja i, s druge strane, tehnologije koje iskorištavaju psihoakustičke efekte u rekonstrukciji percipiranih zvučnih polja [D.A.M]  
Vokselizovani oblak tačaka i virtuelna tačka posmatranja Pojavom elektronskih uređaja masovne potrošnje za 3D akviziciju i 3D projekciju, vizuelne komunikacije su na pragu prelaska od tradicionalnog 2D videa do novih imerzivnih 3D komunikacionih sistema koji omogućavaju slobodno kretanje na rekonstruisanoj sceni i izbor proizvoljne tačke posmatranja. Trend u poslednjoj dekadi su matrice senzora za akviziciju ogromne količine 3D podataka, a na drugoj strani, nove vrste ekrana omogućile su projekciju ovih 3D podataka na sve prirodnije načine. Kombinacija trendova pokreće sledeću generaciju medija izvan slike, zvuka i videa: imersivni mediji. 3D mediji mogu biti predstavljeni na različite načine. Posebno jedan prikaz - oblaci 3D tačaka - postaje sve popularniji, delom i zbog toga što su mnogi računski sistemi za akviziciju u osnovi digitalni sistemi koji sempluju prirodno okruženje u diskretnim 3D tačkama. Signali semplovani na XYZ poziciji 3D tačaka postaju atributi tačaka, na primer boja, refleksija, transparentnost, smer normala na površ, smer kretanja i tako dalje.Postoje brojni formati za predstavljanje 3D podataka, a najprikladniji izbor zavisi od aplikacije. Na primer, gusto popunjene matrice voksela najbolji su izbor za predstavljanje volumetrijskih medicinskih podataka, dok su poligonalne mreže dobre za prikaz površi 3D objekata u računarskoj grafici. Oblaci tačaka (point clouds) dobro su prilagođeni za semplovanje objekata iz stvarnog sveta za koje su podaci volumetrijski retko popunjeni. Alternativa oblacima tačaka su retke matrice voksela ili oblaci voksela (voxel clouds) koji su proizvoljni skupovi voksela. Za razliku od tačaka, vokseli poseduju volumetrijski aspekt, što može biti značajno u pojedinim scenarijima upotrebe. Oblaci tačaka i retki nizovi voksela otklanjaju neke od uobičajenih problema koji poseduju 2D površi, poput rešavanja graničnih uslova na ivicama preseka i topoloških promena u vremenu. Zanemarujući volumetrijski aspekt voksela, vokselizovani oblaci tačaka mogu se posmatrati jednostavno kao oblaci tačaka čija je pozicija ograničena na regularnu prostornu 3D rešetku. Za vrste podataka koji se očekuju u akviziciji 3D scene, vokselizovani oblaci tačaka prirodniji su oblik od gustih nizova voksela i otklanjaju probleme koje poseduju poligonalne mreže sa semplovanim podacima. U poređenju sa mapama boja i dubina, vokselizovani oblaci tačkastih prikaza su viši nivo, zato što je redundansa i nekonzistentnost između senzorskih mapa koje se preklapaju uklonjena u koraku fuzije senzora sa više kamera. U poređenju sa oblacima proizvoljnih tačaka, vokselizovani oblaci tačaka poseduju prednost implementacije i vrlo su efikasni za obradu pri akviziciji 3D podataka u realnom vremenu. Razvijeni su spefični PCC koderi za komprimovanje podataka i vizualizaciju dekodovanog oblaka tačaka. PCC koderi zasnovani na 2D slikama u prvom koraku projektuju 3D prostor na veći broj 2D projekcija. PCC koderi zasnovani na direktnom kodovanju vokselizovanin tačaka u prvom koraku rekurzivno dekomponuju 3D prostor u progresivno višu rezoluciju. Format MVD (multiview video plus depth) je jednostavan skup tekstura (boja) i mapa rastojanja objekata do kamera. Na osnovu skupa referentnih projekcija moguće je sintetizovati novu virtuelnu projekciju (virtual view) scene iz proizvoljne tačka posmatranja (viewpoint). Postoje brojni tehnički izazovi (warping, blending, ghost artifact reduction, hole filling) prilikom generisanja projekcije visokog kvaliteta [D.A.M]
Efikasno kodovanje vokselizovanog oblaka tačaka Neosporno je da su proteklih godina multimedijske usluge, aplikacije i uređaji značajno promenili način na koji komuniciramo sa okruženjem. Uticaj se proširio na sva područja naših aktivnosti, od najrasprostranjenijih, poput ličnih komunikacija, sporta, zabave i obrazovanja, pa sve do profesionalnijih, poput medicine, kulturne baštine i industrije. Tokom godina, glavni trend je ponudio realističnija, vernija, bogatija i imersivna vizualna iskustva na osnovu kontinuirane evolucije senzora, algoritmima za obradu i projekcijama. U vizuelnom domenu ključni element je svetlost, kao i način akvizicije, obrade, formatiranja, kodovanja, prenosa i projekcije. Cilj akvizicije svetlosti i konvertovanja u podatke je rekonstrukcija okruženja reprodukcijom svetlosti sa 3D scene. Za nas vizuelni svet postoji kroz svetlost i ako reprodukovana svetlost rekonstruiše stvarno okruženje, taj svet postoji i za ljude. Međutim, svetlost je vrlo složen i bogat fenomen koji svakog trenutka dopire do naših očiju iz svih mogućih pravaca. Štaviše, svaki ljudski pokret, posebno rotacija i translacija, menja svetlost koja dopire do naših očiju iz svih smerova, implicirajući da rekonstrukcija okruženja reprodukcijom svetlosti koja dopire do naših očiju je vrlo težak i složen proces zbog svih ovih stepena slobode (DoF). Nažalost, u konvencionalnom videozapisu korisnici su ograničeni na vrlo usko vidno polje, gde ni rotacija glave korisnika (a naravno, ne i translacija) nisu efektno doživljene zbog ograničene veličine prikaza u odnosu na željno vidno polje korisnika. Cilj novih uređaja virtualne stvarnosti (VR) je omogućiti tri rotacijska stepena slobode (3DoF) u 360° formatu slike. Međutim, cilj je i viši jer je potrebno omogućiti i tri translacijska stepena slobode za potpuno realističnu i vrlo imersivno iskustvo, verno rekonstruktujući iskustva iz stvarnog sveta.Ultimativni cilj je osmisliti vizuelna iskustva koja nam omogućavaju imersiju sa šest stepeni slobode (6DoF) tokom kretanja tako što se rekosntruišu odgovarajuće vizuelne informacije; to je moguće ako se uzmu u obzir tri moguća stepena rotacije i tri moguća translacijska stepena, na isti način kao u stvarnom svetu.Poznato je da su svetlosne informacije u stvarnom svetu opisane plenoptičkom funkcijom intenziteta svetla u proizvoljnoj 3D tački posmatranja (x,y,z), koje dopire iz proizvoljnog ugaonog smera (𝜃,𝜑), u vremenu (t), i za svaku talasnu dužinu (𝜆 ). Efikasna akvizicija i rekonstrukcija plenoptičke funkcije omogućava imersivno iskustvo korisnika. Nedavno pojavljivanje moćnijih senzora za akviziciju vizuelnih scena, osobito uključivanje sofisticiranijih 3D modela akvizicije, uvećalo je kvalitet korisničkog iskustva u pogledu navigacije u prostoru i imersije.Trenutno u praksi postoje tri osnovna modela reprezentacije vizuelnih informacija plenoptičke funkcija: svetlosna polja (light fields), oblaci tačaka (point clouds) i mrežice (meshes). Model reprezentacije svetlosnog polja zasnovan je na velikom broju i visokoj gustoći 2D perspektive scene, što omogućava da se intenzitet svetla iz jednog položaja u 3D prostoru stekne iz više smerova/perspektiva. Za ovu paradigmu reprezentacije, najrelevantnija rešenja za akviziciju su kamere sa matricom sočiva (lenslet) i matrice kamera visoke gustine. Suprotno tome, modeli tačkastih oblaka (PC) i mrežasti modeli omogućavaju direktno predstavljanje geometrije vizuelnih objekata/scena u 3D okruženju i stoga su poznati kao modeli prikaza zasnovani na geometriji u suprotnosti s modelom reprezentacije koji se temelje na slici svetlosnih polja. PC model predstavlja vizuelnu scenu kao poziciju skupa 3D tačaka smeštenih na površini objekata, definišući geometriju i pridružene atribute (boja, refleksija, normale na površini). Mrežni model opisuje vizuelnu scenu skupom poligona u 3D prostoru, od kojih je svaki opisan temenima (vertices), koji mogu odgovarati PC položajima 3D tačaka, i ivicama (edges) koji odgovaraju vezama između svakog para temena; kada su upotrebljeni poligoni trougli, povezanost temena definiše triangulaciju površina. Sveukupno, tri modela reprezentacije konceptualno poseduju potencijal rekonstrukcije vizuelnu scene, i omogućuju korisnicima šest navigacijskih stepena slobode, iako ponekad samo za ograničeno vidno polje (3DoF+), a ne za potpune opsege navigacije.Iako ovo možda zvuči sjajno, povećani realizam i imersija dolaze sa visokom cenom ogromne količine podataka, a koja zahteva efikasno rešenja kodovanje za praktično arhiviranje i prenos. Višestruki naznake da je ovo obećavajući način za rešavanje budućih imersivnih medijskih aplikacija i pritisak industrije prouzrokovali su da JPEG i MPEG ekspertske grupe za standardizaciju pokrenu projekte u ovom području, ciljajući i svetlosna polja (JPEG Pleno) i oblake tačaka (MPEG-I) [D.A.M]
Vizuelna logika i 3D promišljanjeVizuelna logika je izmenila način naše percepcije i doživljaja sveta. Poreklo vizuelne logike je daleka prošlost i potreba da se uspostavi relativna pozicija objekata u prostoru i vremenu. Geometrija je konceptualni i vizuelni jezik nastao kao kompenzacija ograničenja naših čula. Apstraktne geometrijske ideje su evoluirale od linijskih crteža do viših apstrakcija neophodnih u merenju i predikciji. Revoluciju su označili apstraktni koncepti tačke, prave linije i trougla u matematičkom smislu. Logički koncepti su prvobitno zasnovani na vizuelnoj prezentaciji i logici putanje, evoluirali su u merena rastojanja, površine, volumene i vreme. Evolucija 3D razmišljanja zasniva se na 2D postavkama i to se odražava i danas. Savremeni 3D modeli zasnivaju se na xyz koordinatnom sistemu i količnicima celih brojeva, tako da mi 3D razmišljamo upotrebljavajući 2D geometrijske mreže (ravni). Koncept beskonačnosti, razvoj decimalnog brojnog sistema i iracionalnih brojeva uticali su na vizuelnu logiku preko sukcesivnih aproksimacija, geometrijskih progresija, ugneždenih poligona, teselacije i sukcesivnog particioniranja prostora. Dinamička geometrija omogućava novo istraživanje 3D prostora neuniformnim semplovanjem i rekonstrukcijom hijerarhije voksela promenljive veličine i pozicije u prostoru [D.A.M] 
Opis jedne sceneScena je slojevita i njen opis sadrži informacije o vrsti (prirodna, virtuelna, miks), relevantnim objektima/ličnostima na sceni, dinamici (pokret, relacije), kontekstualne informacije (enterijer, eksterijer, geolokacija/hronolokacija) i informacije povezane sa događanjem. Prostorno-vremenske granice scene određene su samo namerom u toku snimanja. Ovaj drugi sloj nosi informacije o kontekstu reprodukcije snimka (rezolucija slike, format projekcije), reprodukciji zvuka (kontekst snimanja, opis audio konfiguracije), željeno trajanje snimka, ciljana namera (video, zvuk) i željena dinamika snimanja (pokret kamere, optički i audio efekti, pokret ciljnih objekata. Treći sloj aktuelnog snimka sadrži informacije o kameri (model, brend), parametrima snimka (F, otvor blende, efekti), stvarno trajanje snimka, stvarno kretanje kamere u toku snimka (geolokaciaj i hronolokacija uređaja), aktuelni snimljeni objekti (geolokaciaj i hronolokacija objekata, vizuelni i audio opis snimljenih objekata), produkcioni kontekst (operatori, identifikator procesa rada) i produkovani medijum (lokatori, kodovi, informacije o datotekama). I konačno, sloj korisnika sadrži informacije o proceni korisnika i perspektivi sadržaja scene (emocionalne, semantičke i tehničke informacije) koje se mogu i klasifikovati (potrošač/profesionalac). Deskriptivne informacije jedne scene su složene i neophodno je selektovati radni okvir za razvoj svakog sloja. Razvoj je postepen, incijalno jednostavan a zatim pratiti zahteve i formirati strukturu. Zatim prikupljati informacije u svakom sloju, formatirati informacije i mapirati logički na standardne semantičke šeme [D.A.M] 
1917.Film 1917. predstavlja impresivno imersivno tehničko dostignuće [dobitnik Oskara2020. za dizajn videa i zvuka] koje zapanjujućom neposrednošću beleži rovovski rat Prvog svetskog rata. Film tehnički nije snimljen u jednom kadru, ali dobro odražava tehniku, zbog čega gledalac doživljava događaje iz filma u stvarnom vremenu. Publika doživljava svaku sekundu filmske radnje i svaki korak, a istovremeno je svesna geografskog rastojanja i fizičkih poteškoća. Pripovedanje je naglašeno a da nisu upotrebljeni filmski rezovi. Film neprestano menja naš odnos prema glavnim junacima, tako da gledište nije uvek subjektivno. Ponekad vidite glavne junake, ali ne vidite ono što oni vide. Ponekad vidite ono što vide pre nego što to oni učine. Ponekad je to vrlo intimno i vrlo subjektivno; ponekad je to vrlo objektivno i vidite glavne junake prilično malim u velikim pejsažima. Dakle, postoji kontinuirani ples između kamere i likova i pejzaža, sve se stalno kreće. Život doživljavamo mnogo bliže u jednom dugom neprekidnom kadru [D.A.M] 
Od geometrije do sadržaja, i sadržaj za geometrijuFizičko okruženje povezano sa iskustvom postavlja nove izazove za produkciju VR i AR sadržaja i dizajn aplikacija. Sve dok ne postoje dobra rešenja koja omogućuju korisnicima da dodirnu i osete virtualne objekte i potiskuju ograničenja fizičkog prostora, jedino zaobilazno rešenje je kreiranje pametnog sadržaja i aplikacija. Proširena stvarnost (AR) novi je oblik digitalnih medija koji povezuju digitalne informacije s fizičkim svetom koji okružuje korisnika. Često je željeni AR rezultat umetanje virtualnih elemenata u fizičko okruženje što je moguće jednostavnije, čineći da se razlika između virtuelnog i stvarnog teško utvrditi. Da bi se postigao taj cilj, kvaliteta slike 3D prikazivanja mora biti fotorealistična reprodukcija virtualnih elemenata, kao da su deo fizičkog sveta. Zahev je ne samo kvalitetna računarska grafika, već i robusno otkrivanje i razumjevanje stvarnog sveta, kako bi sadržaj i ponašanje aplikacije mogli funkcionisati unutar ograničenja fizičkog okruženja. S virtualnom stvarnošću (VR), cilj je stvoriti iskustva u koja se korisnik može u potpunosti uroniti; alternativna stvarnost generisana računarskom simulacijom i prikazana korisniku kao potpuno sintetički prikaz generisan računaskom grafikom. Prikazana grafika u potpunosti zamenjuje vizuelnu stvarnost za korisnika, ali iluzija potpunog uranjanja u sadržaj i dalje se može lako raspasti ako postoje očigledne razlike između virtualnog svijeta i fizičkog okruženja. Korisnikova nesposobnost da dodirne i oseti virtuelne predmete zbog nedostatka haptičke povratne informacije ili neočekivanih sudara s predmetima u stvarnom okruženju, u virtuelnom svetu može pretvoriti iskustvo u neugodan nered nepovezanih i sukobljenih osećajnih podražaja.Jedno rešenje za poboljšanje odnosa između fizičkog i virtuelnog jest prilagođavanje virtualnih iskustava fizičkom okruženju, koristeći okruženje kao gradivni blok za stvaranje sadržaja, prikupljanje podataka o okruženju koje se zatim mogu pročistiti kako bi se pomoglo u otkrivanju preferenci korisnika i kontekst. Ovaj odnos treba uzeti u obzir kako bi se stvorila najbolja AR i VR iskustva. Međutim, trenutno postoje područja na kojima ulazna i izlazna tehnologija još uvek imaju nedostataka koji otežavaju potpuno prilagođavanje iskustava fizičkom okruženju [D.A.M]
Digitalne konekcijeAnalogni komunikacioni sistemi dizajnirani su tako da se svakom izvoru informacija pristupa kao jedinstvenom problemu u pogledu metoda i alata za obradu informacija. Analogni sistemi zasnivaju se na skupu namenskih elektronskih sklopova za obradu glasa, slike ili senzornih ulaza koji su povezani s određenom analognom komunikacionom uslugom. Ipak, pojedine hardverske elemente dele sve usluge, što znači da je konvergencija analognih usluga moguća samo na hardverskom nivou. Prilično je neobično koristiti izraz konvergencija analognih komunikacionih sistema; termin je usko povezan s digitalnim informacionim i komunikacionim sistemima. Digitalni komunikacioni sistemi izgrađeni su na osnovu slojevite arhitekture. Svaki sloj može se posmatrati kao modul koji obavlja određenu funkciju (npr. komprimovanje ili koderi za ispravljanje grešaka). Nadalje, svaki se modul tretira kao crna kutija s dobro definisanim interfejsom prema ostalim modulima. Model crne kutije omogućava decentralizovanu izgradnju i optimizaciju komponenti sistema. Zajedno s univerzalnošću digitalnog predstavljanja informacija, to dovodi do širenja digitalnih komunikacionih sistema, međusobnog povezivanja ogromnog broja komunikacionih čvorova, kao i do ogromnog porasta digitalnog sadržaja i pojave velikih (Big) podataka. Ekspanzija digitalnih komunikacionih sistema dovodi do situacije u kojoj je generisanje, komunikacija i arhiviranje ogromnih količina podataka ekonomski isplativo. Prekretnica prvog perioda digitalne tehnologije je demokratizacija alata za digitalno povezivanje i produkciju digitalnog sadržaja. Međutim, preokret demokratizacije se ogleda kroz niz nuspojava, poput neželjene pošte, lažnih vesti na društvenim medijima, ogromnih količina nebitnih podataka koje se nikada ne upotrebljavaju, sinteza lažnih profila, slika i video zapisa, itd. Digitalna povezanost tako ulazi u svoj drugi period, gde zajedno s lokalnim fizičkim senzorskim ulazom (npr. mikrofonom mobilnog telefona) omogućuje komunikacionom čvoru da izgradi modele i znanja o svetu, fizičkom i digitalnom. U tom kontekstu najznačajniji problemi digitalne povezanosti nisu komprimovanje i prenos podataka, već osiguravanje relevantnosti i pouzdanosti podataka. Neophodni su modeli, teorija i alati koji iznad digitalnih umreženih sistema stvaraju relevantnost i pouzdanost. Ključna reč je umreženost: komunikacioni čvor je deo mreže, dobija relevantnost i pouzdanost podataka s mreže, ali takođe doprinosi relevantnosti i pouzdanosti mreže. Potrebni su teorijski modeli i fundamentalni rezultati o digitalnom povezivanju koji nude relevantne i pouzdane podatke, a ti bi rezultati mogli postati prekretnica drugog doba digitalne povezanosti [D.A.M]
Doživljaj imerzivnih medija Pojavljuju se brojne definicije, radni okviri i modeli imerzije u različitim oblastima, od računarske grafike do književnih djela. Imerzija se često upotrebljava naizmenično sa prisutnošću jer su koncepti usko povezani. Međutim, uočljive su interdisciplinarne razlike u pogledu definicija, opsega i sastavnih delova koje je potrebno razrešiti i postići koherentno razumevanje koncepta. Konsenzus je od vitalnog značaja za budućnost imerzivnih medijskih iskustava. U posljednjih nekoliko dekada imerzivni mediji privukli su značajnu interdisciplinarnu pažnju. Uključena je multimodalna interakcija čoveka i računara u kojoj je korisnik uronjen u digitalni/virtuelni prostor ili digitalni/virtuelni artefakti postaju deo fizičkog sveta. Iz iskustvene perspektive, kombinovani fizički i psihološki koncept uranjanja, neposrednosti i prisutnosti su u osnovi potpunog razumevanja imerzivnog medijskog iskustva. Postignut je konsenzus obeležja imerzivnih medija:
  • imerzija (kombinacija senzorskih (fizika/sistem) naznaka sa simboličkim (sadržaj) naznakama su esencijalni za prilagođavanje i angažovanje korisnika
  • interakcija (sa digitalnim/virtuelnim artifaktima i avatarima kroz interfejs)
  • istraživanje (mogućnost da se korisnici slobodno kreću i otkrivaju ponuđeni svet)
  • uverljivost (vernost i valjanost senzitivnih naznaka unutar generisanog okruženja, npr. fotorealizam)
  • verodostojnost (koherentnost i doslednost simboličkih naznaka generiranog okruženja u kojem je korisnik pozicioniran)
Imerzivni mediji se zasnivaju na visokokvalitetnoj simulaciji koja komunicira sa korisnikom kroz više senzorskih i semiotičkih modaliteta. Korisnici su smešteni u tehnološki okruženu scenu gde aktivno sudeluju i dele informacije i iskustva koje stvara generisani svet. Tehnološki pogled na imerzivne medije dugo je dominirao u raznim područjima od interesa. Međutim, termin imerzivno iskustvo (IMEx) označava ne samo prisustvo ili nepostojanje potrebne tehnologije, već i ono što korisnik doživljava. IMEx komponente su:
  • medijum (mehanizam sporuke - VR, AI)
  • sadržaj (ideja, informacija i doživljena iskustva - priča, zadatak, trivija)
  • forma (oblik i struktura sadržaja - simulacija, igra, virtuelni svetovi)
Razvoj namenskih mehanizama i tehnologija isporuke je od velike važnosti u stvaranju i unapređivanju imerzivnog iskustva. Imerzivne medijske tehnologije (IMT) nastoje oponašati fizički svet pomoću digitalnog ili simuliranog sveta, stvarajući tako osjećaj imerzije. Poreklom sredinom 20. veka, IMT je tokom 1990-ih privukao javnost i istraživačku pažnju te je, zahvaljujući brzom napretku i minijaturizaciji mobilnog hardvera, pronašao širu primenu i primenu.IMT se može nalaziti na različitim pozicijama duž takozvanog virtuelnog kontinuuma, s iskustvenim kontekstima u rasponu od stvarnog okruženja preko mešovitih stvarnosti do potpuno virtualnih okruženja. Trenutno se IMT manifestuje ili kao neinteraktivni sferni sadržaj za višesmerno posmatranje (360 ili 360-VR) ili kao interaktivna proširena stvarnost (XR), uključujući sljedeće:
  • MR (Mixed Reality) kombinuje realno i virtuelno, registrovano u virtuelnom prostoru, uključujući 3D i 4D, omogućuje interakciju u realnom vremenu; saglasno perspektivi
  • AR (Augmented Reality) preklapa računarski-generisani sadržaj na realno okruženje
  • AV (Augmented Virtuality) uključuje realne objekte u virtuelnom okruženju
  • VR (Virtual Reality) je iskustvo potpune računarske simulacije, virtuelno okruženje.
Uočite da su predhodne definicije nezavisne od hardvera i ograničeni na vizuelne medije. Takođe, IMT se dalje može klasifikovati na kategorije u skladu sa ciljanim stepenima imerzije. Na primer, cilj VR je generalno potpuno imerzija, dok IMT i AR kontekst je fokusiran na angažovanje, doživljena iskustva.Imersivni mediji se široko prihvataju iz iskustvene perspektive kao korisnikov osećaj prisutnosti koji se postiže raznim vrstama uranjanja (tehničkim, na temelju izazova). Potencijal se postiže preplitanjem imerzije, interakcije i naracije.Imerzija. Posebno svojstvo imerzivnih medija da simuliraju stvarnost na način na koji korisnik oseća iluziju da je deo stvarnosti. Postiže se vizuelnim, zvučnim, taktilnim, tekstualnim ili prostornim načinima. Uranjanje uključuje interakciju korisnika unutar okruženja čulima i semiotičkim znakovima. Međutim, pojam je populariziran prvenstveno zbog njegove audio-vizualne upotrebe u odnosu na prostorne simulacije u kojima se korisnici osećaju prisutnima i mogu se slobodno kretati. Imerzivni mediji su integracija različitih netradicionalnih medijskih formata podržanih platformama u nastajanju, koje stvaraju prostor od 360, bilo širenjem stvarnosti ili stvaranjem potpuno novog. Okarakterisani su upotrebom simuliranog 3D sadržaja, panoramskim prikazima i 360-pogledima. Također se smatra krovnim izrazom za svesmerne prostorne doživljaje gde korisnici mogu usmeriti pogledi u bilo kojem smeru i videti/čuti sadržaj. Oslanjaju se na imerzivne tehnologije, koje prekrivaju digitalne slike na fizičkom okruženju ili stvaraju novu stvarnost tako što potpuno isključuju svet i uranjaju korisnika u digitalno okruženje. Uranjanje, u smislu iskustva uranjanja u medije, može se razumeti da podrazumeva određeni stepen zamene i meri se stepenom slobode, što je sposobnost praćenja rotacijskog i translacijskog kretanja u svim smerovima od 360 stepeni, 3DoF i 6DoF. Interaktivnost. U imerzivnom medijima, interaktivnost se odnosi na posebne relacije uspostavljene između korisnika i virtuelnog/digitalnog sveta, koji uključuje njegovu geometriju, predmete, ljude, zaplete/priče, zadatke i vremenske rokove. Proizilazi iz istraživačke prirode imerzivnih medija i ukazuje na mogućnost da korisnik sudeluje u računarom posredovanom prienosu informacija. Pri tome korisnik više nije znatiželjni posmatrač, već posmatrač koji reaguje na brojne mogućnosti delovanja simuliranog okruženja. Medijum se smatra interaktivnim ako korisniku omogućuje uticaj ili izmenu komunikacijskog sadržaja ili oblika posredovanog okruženja u stvarnom vremenu. U imerzivnim medijima interaktivnost se odvija na različitim nivoima: na najnižem nivou, korisniku omogućuje jednostavnu selekciju informacija; tada je korisniku dopušteno stvaranje ili umetanje sadržaja; i na najvišem nivou, interaktivnost unutar virtuelnog okruženja omogućuje potpuno okruženje koje odgovara korisnikovom unosu. Većina objašnjenja interaktivnosti usmerena je na reaktivnost, kontrolu i prirodnost. Međutim, definicija potpuno imerzivnog medija prevazilazi uobičajenu iluziju interaktivnosti pri kojoj korisnici mogu komunicirati samo sa objektima na temelju unapred programiranog koda ili ponašanja. Novi imerzivni mediji omogućuju interakciju u stvarnom vremenu između virtualnog objekta/avatar/sveta i korisnika koji sudjeluju. Ova nova sposobnost je u skladu sa etimološkim značenjem interaktivnosti, međusobne (dvosmerne) aktivnosti. U svom potpuno imerzivnom obliku ovi mediji nisu samo interaktivni za nas, već i sami po sebi su interaktivni.Naracija. Naracija je skup karakteristika većine imerzivnih medijskih iskustava, do određene mere. Karakteristike zavise o specifičnosti, koja se odnosi na stepen u kojem se bilo koje generisano okruženje oslanja na određeno vreme ili mesto, jedinstveni događaj ili pojedine ljude ili predmete; i dinamičnost, koja se odnosi na način na koji nastalo okruženje se transponuje i menja među tim posebnostima. Upravo međusobna povezanost omogućava korisnicima kognitivnu i semiotičku opremu za obradu karakteristika iskustvenosti, sekvencijalnosti, mogućnosti govorljivosti, izmišljenosti ili sadržajnost bilo kojeg imerzivnog medijskog iskustva. Narativnost kao pojam ima široku primenu u različitim područjima i često se koristi kao jedan od faktora usko povezanih sa interaktivnošću i imerzijom. Istraživačke zajednice u interaktivnim narativima i dizajnu igara proučavaju potencijal imerzivnih medija kao vrhunskih narativnih uređaja koji mogu generisati imerzivno-interactivne svetove pripovedanja. Narativnost u imerzivnim medijima ne može se posmatrati kao binarno obeležje (tamo/ne tamo), već kao više-dimenzionalno, jer proziva prostorne (naseljeni svet), vremenske (transformativni), mentalne (emotivni i inteligentni) i pragmatične (kauzalni i zaključni) dimenzije iskustva. Dok su tradicionalni (pasivni) imerzivni mediji, poput filmova, obično unapred skriptirani, novi imerzivni mediji uveliko se oslanjaju na interakcije u stvarnom vremenu unutar određenog stepena pripovednih postavki kako bi pružili imerzivna iskustva. Trenutna tehnologija je daleko od savršene u ponudi enciklopedijskog raspona i proceduralne dubine za stvaranje samo-generišućih interaktivnih narativa. Međutim, imerzivni mediji ostaju sjajna platforma za delovanje interakcije i naracije [D.A.M]
XR alati proširene stvarnostiProširena stvarnost (XR) uključuje virtuelnu stvarnost (VR), naglašenu stvarnost (AR) i mešovitu stvarnost (MR), i generiše potpuno nove načine da potrošači dožive svet oko sebe i komuniciraju. U posljednjih nekoliko godina, poboljšanja senzorske tehnologije i snage procesiranja doveli su do ogromnog napretka u svim aspektima XR hardvera, a zbog ekonomičnosti razmera masovno rastućeg XR tržišta, uređaji su sada dostupni po povoljnoj ceni. S proizvodne strane, moćni niskobudžetni sistemi za snimanje 3D objekata i volumetrijski video i 360° video zapisi omogućuju VR/AR produkciju. Isto se odnosi i na potrošnju, gde VR slušalice omogućavaju impresivan VR doživljaj dostupan svima. Nažalost, razvoj alata i tehnologija za produkciju, obradu i distribuciju interaktivnih XR iskustava znatno zaostaje za razvojem hardvera, što je definitivno prepreka za ekonomski isplativu masovnu proizvodnju XR sadržaja i scenarija. Nedostatak sadržaja zauzvrat sprečava šire prihvaćanje XR tehnologija od strane potrošača. Za sve ove aspekte potrebni su novi pristupi i tehnologije kako bi se prevladali specifični izazovi produkcije XR sadržaja (multimodalni podaci, nelinearni interaktivni pripovedači, modeli notifikacija i metapodataka, nove tehnike komprimovanja, zahtevi sve većih protoka podataka itd.). Neophodni su novi pristupi, tehnologije i alatima za produkciju, obradu i isporuku interaktivnih XR medija (3D/CGI sadržaj/oblaci tačaka, video 360°, video 3DoF+/6DoF, volumetrijski video, prostorni zvuk): efikasna akvizicija i formati XR sadržaja, komprimovanje i distribucija na različite platforme (HMD, pametni telefoni, SmartTV / HbbTV, Web), subjektivna i objektivna procena scenarija XR (kvalitet sadržaja, iskustva), semantičko razumevanje XR sadržaja (procena dubine, semantička segmentacija, prepoznavanje objekata, procena poza, prepoznavanje radnje, audio analiza), automatizacija procesa produkcije XR sadržaja (automatska notifikacija sadržaja/pripoviedanja), autorska interakcija i pomoć za navigaciju (elementi za kretanje u vremenu i prostoru, avatari), generisanje dostupnih XR iskustava (npr. titlovi, audio opis, podnaslov zvuka, jezik znakova) [D.A.M]
Realizam naglašene stvarnostiProširena stvarnost (AR) ugrađuje virtuelne informacije direktno u naše fizičko okruženje, tako realno generisano da je virtealne elemente nemoguće razlikovati od stvarnih. Upotreba AR omogućuje nove vrste iskustava u kojima se svet poboljšava virtuelnim sadržajem koji se besprekorno spaja sa stvarnim, a koji su prilagođeni našim individualnim potrebama i željama. U skoroj budućnosti AR će se koristiti kao sastojak potpuno novih vrsta iskustava, nove vrste zabave i produktivne primene. S budućim iskustvima AR, realizam sadržaja je ključni faktor u određivanju kvalitete celokupnog iskustva:
  • Fizički realizam označava da slika generisana računarom je tačan prikaz tačka-na-tačka vrednosti spektralnog zračenja na određenoj poziciji posmatranja u stvarnom okruženju. Računarom generisana slika sadrži identične prikaze svih objekata u svim spektralnim i intenzitetima svetlosne energije stvarne scene.
  • Fotorealizam označava da je generisana slika foto-metrički realistična. Slika koju generiše računar proizvodi identičan vizuelni odgovor kao i stvarna scena, i ako se fizičke energije razlikuju u spektralnom i intenzitetnom rasponu.
  • Kriterijum funkcionalnog realizma sugeriše da slika koju generiše računar sadrži iste vizualne informacije kao i stvarna svetska scena. Informacije pomažu korisniku da shvati smislena svojstva objekata na sceni, poput oblika, veličina, položaja, pokreta i materijala, i stoga korisniku omogućuje korisno obavljanje vizualnih zadataka.
Jasno vidimo da je računaska grafika osnovna AR komponenta i kao takva sadrži mnogo sličnosti s AR ako se posmatra iz perspektive realizma. Međutim, takođe smo istakli da postoje značajne razlike, pogotovo zato što AR sadrži puno dublju povezanost sa fizičkim okruženjem i interakcijom između virtuelnog, stvarnog i korisnika. Na temelju tih opažanja proširuje se pogled na realizam sa čisto vizualnih aspekata kojima se računaska grafika bavi i na širu perspektivu koja takođe razmatra interakciju između virtuelnog sadržaja, stvarnog fizičkog okruženja i korisnika. Vidimo da sa ovom širom perspektivom vizuelni aspekti realizma nisu nužno ono što nedostaje rešenju, a verujemo da su rešenja koja dodaju fizički realizam u AR, poput haptičke povratne sprege i prirodne interakcije, vrlo tražena zato što imaju potencijal podizanja realizma i uranjanja AR na sledeći nivo [D.A.M]
Taktilni osećajPovratna veza dodira je presudna za mnoge zadatke koje obavljaju roboti i ljudi, poput hvatanja predmeta ili prepoznavanja materijala. Elektronska koža (e-koža) je ključna tehnologija za ove svrhe. Veštačka taktilna koža koja može igrati uloge ljudske kože ostaje daleka mogućnost zbog problema sa prihvatanjem, proizvodnjom, mehanikom, senzorima, elektronikom, energetikom, obradom informacija i transportom. Napredak u proteklih nekoliko godina u vezi s gore navedenim pitanjima je ohrabrujući, ostvareni su rezultati biološke kože sa pojavom deformabilnih senzora i fleksibilne elektronike. Naivna imitacija morfologije kože i uočavanje pojednostavljenog skupa mehaničkih i toplinskih obeležja nisu dovoljni. Neophodno je pronaći efikasnije načine ekstrakcije taktilnih informacija iz mehaničkog kontakta od onih koji su prethodno bili dostupni. Novi razvoj se posebno odnosi na rukovanje taktilnim podacima, energetsku autonomiju i proizvodnju velikih površina e-kože. Elektronička koža je značajna za taktilne povratne informacije, potrebne za bezbednu interakciju sa okolinom i izvršavanje složenih manipulativnih zadataka od strane robota za socijalnu interakciju, pomoć i olakšavanje operacija. Unatoč brzom napretku u smislu senzora, značajne prepreke su u realizaciji e-kože velike površine. Pojedini izazovi se povezani sa razvojem hardvera i energetsku autonomiju, prinos i obradu velikih podataka, uključujući neuralne pristupe, i proizvodne procese za dobijanje visoko performansne meke e-kože, uključujući nedavni napredak na području fleksibilne i tiskane elektronike. Nedavni neuronaučni napredak upućuje na to da se osećaj dodira oslanja i na vrlo dinamične interakcije između delomično omotane kože i objekata sa kojima djeluje. To omogućuje generisanje mnogo veće dimenzionalne informacije od dostupnih putem bilo kojeg drugog ljudskog čula poput vida i sluha i glavni je razlog zašto je osećaj dodira različit. Visoka dimenzionalnost takođe podrazumeva znatno bogatije informacije, što omogućava mnogo bogatiju predstavu o objektima sa kojima komuniciramo i time veću svestranost interakcije, ali i veće zahteve za inženjerskim rešenjima koja nastoje kopirati svojstva biološkog osećaja dodira. Ovo zahteva dizajn e-kože velike površine koja može podnijeti kontinuirani kontakt sa okolinom i lokalnim silama smicanja, dok je u stanju pouzdano kodovati ove sile u visokoj rezoluciji putem distribuiranog niza senzora.Razvoj e-kože trenutno je fokusiran na primenu u krutoj robotizaciji tela. Međutim, robotika se brzo razvija i očekuje se da će nove generacije robota biti fleksibilnije i skladnije. Fleksibilni roboti trenutno nemaju puno senzorskih povratnih informacija, što je neminovno potrebno za preciznu kontrolu tokom manipulativnih pokreta i interakcija. Izazovi su u realizaciji sistema meke e-kože sa mestima transdukcije različitih širina pojasa, dinamičkog raspona, rezolucije, osetljivosti i mehaničkih karakteristika, upotrebom materijala i neuronskih modela koji uzimaju u obzir različite karakteristike prilagođavanja kožnih receptora. Verovatno je potrebno razmotriti i sisteme koji spajaju ogromne količine distribuiranih senzora, jer ograničenja potrošnje energije, prostorne i vremenske rezolucije i kompatibilnost sa fleksibilnim i mekim materijalima čine projektovanje ne manje zahtevnim. Očekuje se da će rasprava o neuronima poput prenosa signala u e-koži postaknuti nova razmišljanja o područjima primene, jer će se oni suočiti sa sličnim izazovima kada broj senzora postane značajno veći [D.A.M]
Percepcija pokreta i akcijaRazumijevanje ljudskog pokreta proučava se decenijama, ali ipak ostaje izazovno područje istraživanja koje privlači pažnju različitih disciplina. Sveobuhvatan prikaz podrazumeva zatvaranje petlje između percepcije i delovanja, počevši od veština percepcije delovanja kod ljudi, a zatim prelazi na računske modele percepcije pokreta i kontrole koji su prihvaćeni u robotici. Neophodno je zatvoriti krug percepcija-akcija, zato što se uobičajeno odvojeno istražuju. 
  • Osnovnu ulogu percepcije delovanja zauzima parieto-premotorna mreža mozga koja je uključena kako u toku izvođenja akcije tako i toku percepcije istih radnji koje vrše drugi. Takvo preklapanje između neuronskih aktivacija u neuronskom sistemu povezano je s anticipacijom delovanja  i razumevanja.
  • Hijerarhijski model opisuje akcije na mišićnom nivou - kodirajući obrazac mišićne aktivnosti; na kinematskom nivou - kodiranje prostorno/vremenskih svojstava pokreta efektora; na nivou cilja - kodiranje kratkoročnog cilja akcije; ili na nivou namere - kodiranje dugoročne svrhe akcije.
  • Osim neuronske aktivnosti koja podržava razumevanje delovanja, značajno je istražiti percepcijsku komponentu procesa, tj. kako su različiti nivoi vizuelne obrade uključeni kada smo suočeni s biološkim kretanjem. 
  • Izražena ljudska osetljivost na obrasce pokreta koje stvaraju drugi pojedinci, čak i kada su predstavljeni samo u oblicima skupa tačaka koje se koherentno kreću. Postoje dve kategorije kritičnih vizuelnih obeležja za percepciju biološkog pokreta: globalna obeležja, koje se odnose na akcijske koncepte i kategorije, i lokalna obeležja, koja se odnose na određene parametre kinematike pokreta. Različita obeležja doprinose vizuelnoj i kognitivnoj obradi u odnosu na prototipove akcijskih kategorija i segmentaciju akcije. Interakcija između naših vlastitih kretanja i njihovog uticaja na našu vizuelnu percepciju biološkog kretanja, pokazuje se u činjenici da svojstva ispravne ljudske motorne kontrole, kada su prisutna u promatranom pokretu, mogu olakšati njezinu diskriminaciju od strane ljudskog promatrača. 
  • Brzo stičemo sposobnost razumevanja tuđih postupaka tokom prvih godina života. Inicijalna percepcija pokreta zasniva se na preferenciji lica, manipulativnih predmeta, vidljivim pokretima usta i biološkog pokreta uopšte. Takve početne sklonosti posmatranja relevantnih vizuelnih aspekata daju važan doprinos, koji se potom učenjem i interakcijom s okolinom pretvara u korisne građevinske blokove. Razvoj percepcije akcijezasniva se na kategorizaciji, (potencijalno) mentalnoj rotaciji, statističkom učenju, senzimotornom razvoju i imitaciji. Senzimotorno iskustvo i čisto perceptivno, promatračko iskustvo može se upotrebiti kao sastavni blok za razvoj percepcije akcije, sa prednostima i nedostacima ove dve različite vrste učenja. Kao rezultat ovog procesa, stičemo sposobnost razdvajanja promatranih radnji jedni od drugih, segmentiraju se delovanja u manje delove, oblikuju očekivanja i predviđaju tuđi postupci, i konačno formira razumevanje tuđih postupaka i postajemo iskusan socijalni partner. 
U posljednjim decenijama, modelovanje i razumevanje ljudskog pokreta iz vizualnih podataka dobilo je sve veći značaj u nekoliko primena, uključujući interakciju čovjek-mašina, igre, potpomognut život i robotiku. Iako značajan napredak posljednjih godina, gde su, kao i u drugim domenima, tehnike dubokog učenja poprimile zamah, zadaci ostaju među najizazovnijim, zbog svojstvene složenosti i ekstremne varijabilnosti dinamičkih informacija i njegove pojave, i još uvijek treba puno posla da treba učiniti da bi se postigle performanse ljudi.Biološki perceptivni sustavi ostaju zlatni standard za efikasno, fleksibilno i precizno izvođenje u širokom rasponu složenih zadataka iz stvarnog sveta, oslanjajući se na neverovatnu sposobnost očuvanja i organizovanja odgovarajuće količine informacija, otvarajući prostor novim konceptima kad je to potrebno i iskorištavajući efikasnu razmenu informacija. Prirodno rešenje za osmišljavanje modela računarske percepcije je stoga izabrati kao referencu i inspiraciju mehanizme koji stoje na osnovu percepcije ljudskog pokreta i znanje dobijeno iz polja kognitivnog i neuronauka. 
  • U najranijoj fazi obrade, analiza kretanja može se postaviti kao problem detekcije, gde je cilj identifikovati prostorno-vremenski region slike u kojoj se kretanje događa. Dobro uspostavljena metoda dobijanja vidljivih podataka o kretanju na niskom nivou oslanja se na izračunavanje optičkog protoka, procenu prividnog vektora kretanja u ravn slike. Procenjena polja pokazuju jaku povezanost s ponašanjem područja ljudskog mozga koja su uključena u percepciju pokreta kao V1 i MST, gde je otkriveno da su neuroni usmereni selektivno s namenskim receptivnim poljima. 
  • Građevni blok razumevanja biološkog pokreta je sposobnost preciznog prepoznavanja prostorno-vremenskih početnih i krajnjih tačaka radnje, tj. kada se i gde pokret događa. U domenu motoričkog planiranja, pojmovi su povezani s pojmom primitivnog pokreta, glavnim strukturnim elementom delovanja. U računarskom domenu, umesto toga, zadaci često nazivaju problemima detekcija otkrivanja i segmentacije. Iako većina najsavremenijih metoda prepoznavanja ljudskog delovanja deluje na već podešene video sekvence u kojima se događa samo jedna radnja po kadru, gore navedeni zadaci ostaju izazov i ujedno su značajan element za potpuno automatizovane sisteme prepoznavanja pokreta.
  • Zadatak segmentacije kretanja posebno posvećuje pažnju manipulacijskim akcijama (što znači da je manipulacija objektima takođe proširena i na generičku interakciju s okolinom) u scenarijima interakcije čovek-robot (HRI). Kontakt i kretanje dva su temeljna aspekta manipulacije i prirodno se koduju ključne informacije o radnji. U stvari, kontakt koduje mesto na kojem se predmet dodiruje ili hvata, i kada i koliko dugo se interakcija odvija; s druge strane, pokret prenosi informacije o tome koji je deo okoline uključen u interakciju i kako se kreće.
  • Iznad klasičnog prepoznavanja akcije, nalazi se analiza ekspresivnosti pokreta kao osnovnog elementa mašina s ljudskom socijalnom i emocionalnom inteligencijom. Ekspresivnost pokreta je motorička komponenta emocionalnih epizoda celog tela, koja se ponekad opisuje kao nenamerna akcijska komponenta izražavanja emocija. Moguće je nazvati je i komponentom dinamičkog pokreta u percepciji uticaja, za razliku od komponente statičkog oblika. Široko proučavajući područja psihologije, sociologije i neuronauka, u poslednjim decenijama počela je dobijati ​​sve veću pažnju i na području informatike. U tom je smislu osnovni cilj osmisliti računarsko rešenje za replikovanje na uređaju sposobnosti ljudi da budu svesni svojih i tuđih osećaja i integrisanje tih informacija u komunikaciju s drugima. 

XR vodičXR je široko-obuhvatni termin za naglašenu stvarnost (AR), mešovitu stvarnost (MR), virtuelnu stvarnost (VR) i druge oblike alternativnih, proširivih ili imersivnih stvarnosti. VR je imersivni medijum koji potpuno menja stvarnost korisnika novim virtuelnim okruženjem. Dva primarna VR formata su 3DoF praćenje orijentacije i 6DoF potpuno praćenje pozicije. VR nas transportuje u virtuelni (ili stvarni, ali digitalno reprodukovan) 3D svet daleko vernije od tradicionalnih medija zasnovanih na 2D ekranu. Upotrebljava prostornu memoriju korisnika i u mnogim slučajevima naglašava emocije. VR nastoji zameniti iskustvo u stvarnom svetu, tako da korisnici očekuju komunikaciju u virtuelnom svetu na način kao i van njega. Interaktivna komponenta raspolaže prednostima i nedostacima. Uravnoteženost imersije, upotrebljivost i iskustvo je središnji izazov u VR dizajnu. Tri su osnovna VR aspekta: opšte korisničko iskustvo, fizički komfor i fiziološka udobnost. Dizajniranje korisničkog iskustva obuhvata interakciju korisnika sa VR okruženjem, uključujući preporuke aklimatizacije, učitavanja ekrana i trajanje sesije. Dizajniranje za fizičku udobnost obuhvata faktore neudobnosti za korisnika kao što su mehanizmi izbegavanja zamora oka i naprezanja vrata. Korisnici izjavljuju da se mogu osećati neugodno kad nose VR slušalice iz razloga koji su izvan kontrole programera aplikacije, uključujući težinu slušalice, toplinu slušalice ili količinu strujanja vazduha unutar slušalica. Međutim, postoje barem tri područja fizičke udobnosti: neugodnost specifična za VR (osećaj sličan morskoj bolesti), ergonomija vrata i ruku (umorni ili bolni mišići u vratu i rukama), naprezanje očiju (pojačano naprezanje mišića koji se koristi za pokretanje očiju). Posledica su pomeranje perspektive korisnika u odsustvu stvarnog kretanja korisnika, ubrzanje prilikom kretanja, neprirodni pokreti, iluzija pokretanja korisnika kada ostaje nepomičan, kolizija sa virtuelnim objektima, pomeranjebhorizonta, intenzitet kretanja, virtuelno kretanje korisnika bez objašnjena, teleportacija i tunelovanje, čitljivost teksta, fokus i refokus. Dizajniranje za psihološku udobnost obuhvata načine na koje imersivna priroda VR iskustva može imati nelagodu po prirodi scenarija u kojem je korisnik, uključujući obeležja okruženja, kao što su kao visine, oštri predmeti, veliki i mali prostori, razmera. Postoji nekoliko načina kako virtualno okruženje može imati emotivan uticaj na korisnike. Uticaj ne mora uvek biti pozitivan, ali je značajno da se negativne emocije izazivaju samo planiranjem. Uobičajeni načini na koje dizajn i arhitektura okoline mogu nenamerno izazvati strah i psihološku nelagodu kod korisnika su: visina, oštri objekti, veliki prostor, mali prostor, mali detalji koji ometaju, razmera objekata na sceni. Naglašeno AR okruženje postavlja slojeve virtualnog sadržaja, poput digitalnih objekata ili informacija, na sliku stvarnog okruženja. AR iskustva su u interakciji sa fizičkim okruženjem, dok aspekti poput rasvete i detekcije površine, postaju značajni. Dizajniranje okruženja korisnika preispituje koncepte za različita okruženja i razmatra upotrebu aplikacija, uključujući privatni prostor sobe ili ogromnu otvorenost realnog okruženja. Dizajniranje korisničkog iskustva upoznaje korisnike sa XR-360 okruženjem i preispituje razmatranja načine konzumiranja naglašenog iskustva.Jedna od prvih stvari koju programer XR aplikacija razmatra je vrsta iskustva koju dizajnira. U razvoju trenutno postoje dve kategorije VR uređaja na koje programeri mogu ciljati, pri čemu je osnovna razlika u načinu praćenja. 6DoF platforme podržavaju potpuno praćenje položaja i obično zahtevaju opremu za praćenje u 360 stepeni kako bi se u stvarnom vremenu premestilo kretanje korisnika u virtelni svet. 3DoF platforme koriste praćenje orijentacije i kinematske modele kako bi korisnicima ponudili imersivno iskustvo.6DoF uređaji prate u šest stepeni slobode (napred/natrag, gore/dole, levo/desno, skretanje, nagib, kotrljanje) pokrete glave korisnika i njihov položaj u trodimenzionalnom prostor. Za 6DoF aplikacije neophodno je ograničiti kretanje na unapred definisano područje. Svaki uređaj raspolaže posebnim zahtevima za XR područje. Većina VR platformi omogućuju oblike upozorenja ako korisnik izađe iz svog definisanog prostora, kao što je prikazivanje linija mreže, projekcija postepeno sve gušće magle, pop-up notifikacija ili strelice koje usmeravaju povratak u sigurno područje.3DoF platforme prate korisnikove rotacione pokrete (skretanje, nagib, kotrljanje), ali a ne i njihovo translatorno kretanje (naprijed/natrag, gore/dolje, lijevo/desno). 3DoF uređaji koji koriste kontroler procenjuju položaj regulatora na osnovu položaja ruke i kinematskim modelovanjem. Projektovanje za 3DoF VR može biti izazovno. Mnogi korisnici upotrebljavaju svoju 3DoF platformu dok sede u udobnoj stolici koja se ne okreće 360 stepeni tako da je ograničeno dostupno vidno polje (FOV).Projektovanje AR App za pametni telefon podrazumeva dizajniranje za više različitih okruženja, od privatnog prostora sobe do ogromne otvorenosti eksterijera. Neophodno je predvidete sve potencijalne izazove koji mogu ometati fizičke mogućnosti i kretanja korisnika, kao što su poteškoće u praćenju i okluzija u javnim prostorima. Pomozite korisnicima da razumeju idealne uslove za upotrebu aplikacije. Jasno im objasniti količinu prostora potrebnog za zadatak koji je pred njima, od stola, čitave sobe do otvorenog prostora. Razmislite o tome kako kretanje telefona i AR upotreba na telefonu mogu biti nesigurni ili ometati interakcije u stvarnom svetu. Softverske platforme neprestano poboljšavaju razumevanje stvarnog okruženja. Grupišu i prepoznaju karakteristične tačke za koje se čini da leže na zajedničkim vodoravnim površinama te čine ove površine dostupnima aplikaciji kao ravni. AR zahteva visok nivo detalja kako bi se virtuelni objekti verno preklapali u okruženja stvarnog sveta. Precizno otkrivanje vrste svetla, izvora i intenziteta značajne su komponente realizma. Da bi poboljšali vernost, pametne AR softverske platforme procenjuju obeležja svetlosti ili veštačka ambijentalna rasveta može dodati dubinu i realizam materijalima na sceni. Položaj objekata odnosi se na postavljanje virtualnog sadržaja u okruženje stvarnog svetu. Da bi korisnici to uspeli, prvo moraju skenirati svoje okruženje i površine na koje će postaviti objekte, zatim odabrati odgovarajuću udaljenost gledanja i na kraju, postavljanje izvršiti ručnim ili automatskim radnjama. Pokazatelj optimalnog rastojanja pomaže korisniku postavljanje objekta na ugodnoj udaljenosti. Vodite korisnike prema optimalnom postavljanju objekata jasnim označavanjem područja na ekranu, postavljanjem zadatih vrednosti maksimalne udaljenosti i upotrebom vizuelnih pokazatelja odredišta objekta. Ograničeno vidno polje na mobilnom ekranu predstavlja izazov za uočavanje dubine, razmera i udaljenosti za korisnike. To može uticati na iskustvo korisnika aplikacije i sposobnost interakcije s objektima. Naknadno postavljanje predmeta menja percepciju dubine. Na primer, postavljanje objekta preblizu korisniku može biti alarmantno, dok postavljanje velikih predmeta u blizinu korisnika može uzrokovati da se povuku. Volumetrijski interfejsi omogućuju korisnicima interakciju s objektima za koje se čini da imaju 3D dubinu. Volumetrijski interfejsi zahtevaju čitav niz dizajnerskih razmatranja. Interakcija direktnim dodirom s virtuelnim objektom je i imersivnija i intuitivnija od interakcije kroz zasebnu upravljačku šemu. Međutim, direktna manipulacija virtuelnim objektima na ekranu pametnog telefona predstavlja svoje izazove. Pokreti dodira su inherentno dvodimenzionalni, ali AR okruženje uključuje tri dimenzije stvarnog sveta [D.A.M] VR usmerena pažnja i osnovno iskustvoVR film je najbolji zabavni format novih virtuelnih stvarnosti. Usmeravanje gledaoca u VR jedan je od najvažnijih zadataka kako bi režiser mogao preneti priču koju nameravaju ispričati. Međutim, postoji problem vizuelnog pripovedanja u poređenju sa mogućnostima tradicionalnih filmova za angažovanje gledalaca. VR gledaoci poseduju mogućnost da samostalno usmere pažnju u 360-stepeni okruženju, tako da je neophodno da kreatori sadržaja razmotre dodatne vizuelne elemente. Novi elementi su neophodni u prenosu naracije na samog posmatrača na način da ostaje angažovan sve vreme u kreiranom imersivnom okruženju. Tradicionalni projekcioni mediji se prikazuju na pravougaonom ekranu; međutim u 360-stepeni formatu ne postoji ivica ekrana: projekcija okružuje gledaoca, umesto da film gledaju kroz prozor, gledaoci imersivnog filma su u akciji i na sceni. Ova promena formata prouzrokuje nove izazove produkciji akcionih sadržaja uživo, u smislu kako učiniti nevidljivim tehničku opremu i osoblje koje je povezano s tipičnim snimanjem filmova. Kamera 360-stepeni ostavlja malo mogućnosti, da se na primer rasvetna oprema pozicionira tako se ne pojavljuje na ekranu.Pripovedanje za VR 360-stepeni format uključuje angažman usmeren na korisnika u vremenu i prostoru. Gledalac klasičnih narativnih medija, poput filma ili televizije, je uglavnom pasivan, VR gledalac je prisutan kao aktivni agent u pripovedanju koje razvija kao svedok ili učesnik. Ovi faktori generišu brojne izazove i mogućnosti za kreatora narativnog VR formata koji zahteva uranjanje i/ili interakciju gledaoca u okruženju od 360-stepeni. Neophodni su novi pristupi strukturi naracije, aklimatizaciji publike i usmeravanja pažnje gledaoca. Moguće je primeniti određene zajedničke odlike, ali do danas ne postoji niti jedan pristup i nije u potpunosti utvrđena gramatika projekcije povezana s narativom u 360 stepeni. Pripovedanje virtualnom stvarnošću u okruženju od 360-stepeni uključuje medijski-specifičan, na korisnika usmeren angažman u vremenu i prostoru. Pripovedanje je u stvarnom vremenu, u određenom prostoru (stvarnom ili imaginarnom) i/ili u kombinaciji s fizičkim objektima iz stvarnog života. Gledaoci su angažovani u virtualnoj stvarnosti na brojne načine; na primer, upotrebom ekrana montiranih na glavu (HMD), mobilnih uređaja i/ili putem mrežnih platformi. S obzirom na eksperimentalnu prirodu narativnog VR i činjenicu da se korisnici možda nisu navikli na upotrebu HMD tehnologije, značajno je da kreativci omoguće pogled usmeren na pojedinačno posmatranje. Osnovno iskustvo u virtualnom svetu označava da je osnovna struktura virtuelnog direktno vidljiva i samorazumljiva, tako da korisnici mogu odmah razumeti i početi doživljavati i koristiti novo okruženje. Kako privući i usmeriti pažnju gledalaca VR možda je jedna od najvažnijih tačaka koje pisac i/ili redatelj moraju razmotriti. Dok režiser koji radi s tradicionalnim ekranima smeštenim u pravougaonom okviru upotrebljava krupne planove i tačke montaže kako bi privukao pažnju na određene radnje ili predmete, aktivni VR gledalac raspolaže mnogo većim vidnim poljem za istraživanje. Video 360 okruženje omogućava gledaocu veliku slobodu; međutim moguća je situacija da publika ignoriše vašu priču!?Studije naglašavaju potrebu postavljanja gledaoca u središte VR pripovedanja, uzimajući u obzir njegovo iskustvo i reakcije kako se odvijaju različiti događaji iz priče. Dok gledaoca tradicionalnih ekranskih medija vodi režiser u eksplicitnom smislu (montažom različitih snimaka u definisanom pravougaonom okviru), VR gledalac je u mogućnosti da odlučuje šta će posmatrati i kada, unutar granica ponude okruženja virtualnih 360 stepeni. Neophodno je da VR kreator uzme u obzir slobodnu volju gledaoca i istovremeno nastoji voditi gledaoce unapred utvrđenim putem! U VR filmu, jedan od glavnih izazova percepcije pripovedanja je pokretanje pažnje gledaoca i obezbediti da se priča shvati na način kako je planirano. Metode tradicionalnog filma primjenjuju se sa različitim nivoima uspeha. Moguće je istražiti odnos predviđenog područja posmatranja koje su kreatori označili i osnovni dokaz o tome gde su gledaoci zapravo posmatrali. Rezultate je moguće upotrebiti za dodatno povećanje efikasnosti režisera da usmeri pažnju gledaoca VR filma.Kada shvati koji elementi scene su vidljivi za gledaoca, režiser je u mogućnosti da dodavanjem vizuelnih elemenata ili prilagođavanjem vizuelnih svojstava kako bi stvorio još vidljivija područja u pravcu kojem želi da usmeri gledaoca. Narativnu teoriju je moguće priminiti na široki raspon različitih formata medija. Virtualna stvarnost je jedno područje istraživanja o tome kako se narativ može primijeniti. Zbog jedinstvenih svojstava koja nisu pronađena u projekcionim ekranima, virtualna stvarnost je specifičan narativni medijum. Proces stvaranja vizuelnog pripovedanja je takođe područje koje je istraženo upotrebom širokog raspona različitih formata, gde se redosledom slika pripoveda. Primeri su od pećinskih crteža do modernih stripova. Ove principe vizuelnog pripovedanja je moguće primeniti u uključivanju gledaoca u virtuelnu stvarnost i poboljšanju doživljaja. U tradicionalnom filmu razvijene su različite metode povezivanja pripovedanja sa publikom primenom vizuelnih tehnika, uključujući stil i tehniku montaže i vizuelnih asocijacija. Primena ovih tehnika i njihov stilski razvoj prouzrokovali su da određeni stilovi postaju sve dominantniji. Kontinuitet montaže je jedna od ovih tehnika koja poseduje definisani skup pravila. Nadalje, sprovedena su istraživanja o ponašanju vizuelne pažnje u videu 360-stepeni kako bi se postiglo bolje razumijevanje načina na koji gledaoci komuniciraju sa slikama u takvom prostoru. Takođe, upotreba smernica u okruženju od 360 stepeni i razlike tradicionalnog filma je aktivno područje istraživanja, posebno način na koji vizuelne naznake formiraju osnovu nove gramatike za pripovedanje u virtualnoj stvarnosti. Istraženi su novi oblici vizuelnih naznaka kako bi se ova smernice mogle primeniti na narativ u okruženju od 360-stepeni zajedno sa različitim metodama njegove implementacije i efikasnosti. Uključeni su dijegetski i nedijegetski znakovi koji su nadalje definisani eksplicitno ili implicitno. Implicitni znakovi su više uslovljeni odozdo - na gore prirodom vidljivosti u slikama. Model vidljivosti otkriva oblasti koje će privući pogled gledaoca. Uopšteno postoji visoka saglasnost između vidljivosti i gledaoca, što potvrđuje da se model može upotrebiti za procenu ponašanja publike. To znači da razumevanje istaknutih elemenata kadra pomaže poboljšanju sposobnosti usmeravanja pažnje gledaoca na način koji je implicitan i nedegetski, što znači da nije vezan za elemente unutar scene. Jedno područje primene je u postprodukcijskom okruženju u kojem bi se kadar mogao prilagoditi s obzirom na vidljiva svojstva (intenzitet, boja) unutar njega i na taj način ​​smanjiti mogućnost izbora istaknutih tačaka. Scenu je moguće dopuniti i dodatnim elementima poput grafike i dodatno povećati vidljivost područja koje režiser namerava da gledalac posmatra [D.A.M] 
Naglašene i izmenjene slike nove stvarnostiNaša percepcija okruženja je slojevit mentalni proces kognitivnih, racionalnih i emocionalnih komponenti. Kognitivna percepcija omogućava interpretaciju okruženja na osnovu stimulusa koje primamo kroz različita čula (vid, sluh, ukus, miris, dodir), kao i propriocepcija (nesvesno poimanje našeg položaja i orijentacije u prostoru) i interocepcija (osećaj unutar našeg tela, glad, bol). Dobri smo u apstraktnom razmišljanju, ali kako se virtuelno okruženje približava realizmu stvarnog sveta, nivo apstrakcije na kojem tretiramo ono što percipiramo pomera se od imaginarnog ka gotovo stvarnom, tako da mala neslaganja počinju igrati veliku ulogu u percepciji i emocionalnom iskustvu. Psihološki fenomen (uncanny valley - nepoznato, neprijatno, misteriozno, zazorno) postaje značajan, spremni smo da prihvatimo 'veliku neistinu' ali istovremeno, nismo spremni da prihvatimo mala odstupanja između opaženog ponašanja virtuelnog karaktera i očekivanog ponašanja stvarnog ljudskog bića. Naš pogled na svet funkcioniše iz svake tačke posmatranja (Point of View), ali pojedine perspektive su uobičajene. Postoje tri ugla sagledavanja akcije na VR sceni i komunikacije sa posmatračem: pogled iz prvog lica (First person PoV) ali i iz perspektive drugih entiteta VR scene, pogled drugog lica (Second person PoV) avatar/wingman omogućava 'izvan telesno' iskustvo, pogled kao treće lice (Third person PoV) udaljeni ili sveprisutni 'glas savesti' [D.A.M] 
Stvarnost dopunjena personalizovanim informacijamaAR (augmented reality) dokumentuje naše okruženje grafičkim slojevima registrovanim u 3D, kombinuje realnost i virtuelni sadržaj, i interaktivnost u realnom vremenu. Neophodni su projekcioni ekrani za kombinovanje (registraciju) stvarne i virtuelne slike, računarski sistemi koji generišu interaktivnu grafiku koja reaguje na ulaze korisnika u realnom vremenu i sistem za praćenje pozicije korisnika i njegovog ugla posmatranja u kojem se pojavljuju virtuelne slike registrovane u realnom okruženju. Ekrani su manjeg prostornog vidnog ugla i upotreba grafike je minimalna, nasuprot VR (virtual reality) sistemima koji zahtevaju imerzivni široki prostorni vidni ugao, 3D grafika je maksimalno realistična, i smanjena je preciznost praćenja pozicije korisnika u odnosu na realno okruženje [D.A.M] 
  • Prvi zahtev AR sistema je mogućnost povezivanja virtuelnog sadržaja sa realnim okruženjem tako da predstavlja sastavni deo fizičkog okruženja. Registracija virtuelnog sadržaja u fizičkom okruženju zahteva određivanje pozicije i orijentacije posmatrača u odnosu na referentnu tačku u realnom okruženju. U zavisnosti od aplikacije i tehnologije, referentna tačka je fizički objekat ili GPS koordinate ili referentna tačka inercijalnog sistema za praćenje. Proces registracije AR sistema u 3D prostoru sastoji se od faze registracije kada se određuje pozicija i orijentacija posmatrača u odnosu na referentnu tačku u realnom okruženju, i faze praćenja u kojoj se određuje nova pozicija posmatrača u odnosu na predhodno poznatu poziciju i orijentaciju. Virtuelni koordinatni sistem je moguće formirati raličitim transmiterima, 6DoF senzorima, markerima, računarskom rekonstrukcijom vizuelnog 3D modela, inercijalni/GPS i hibridni trekeri.
  • Kombinovanje realnih i virtuelnih scena u AR vizualizaciji zahteva procedure kalibracije kamere, registraciju, treking i kompoziciju. Kalibracija kamere je procedura usaglašavanja parametara virtuelne kamere sa fizičkom kamerom (ili optički model korisnikovog pogleda definisanog kamera-oko geometrijom), tako da je računarski generisana slika virtuelne scene korektno registrovana sa pogledom na realno okruženje. Interni parametri fizičke kamere određuju projektovanje 3D scena na 2D slike na osnovu skupa kalibracionih uzoraka poznate geometrije i izračunavanjem odgovarajućih tačaka 3D strukture uzoraka i njihove projekcije na 2D slike. U slučaju kada se ne upotrebljavaju kamere za snimanje realnog okruženja, interni parametri se određuju na osnovu geometrijskog modela posmatračevog oka i ravni slike na ekranu (pinhole camera model). Eksterni parametri se određuju na osnovu praćenja pozicije i orijentacije fizičke kamere. Ako je fizičko okruženje statično, neophodno je pratiti samo poziciju i orijentaciju kamere u odnosu na referentni frejm u fizičkom okruženju. Ako je scena dinamična, neophodno je pratiti svaki dinamički objekat od interesa kako bi se promene u realnom okruženju reflektovale na virtuelnu scenu. Korektna registracija virtuelne scene sa fizičkom scenom zahteva poklapanje koordinatnog okvira upotrebljenog za rendering virtuelne scene sa treking koordinatama okvira u fizičkom okruženju u procesu registracije. Nakon kalibracije virtuelne kamere i registracije virtuelnog prostora (ili korektnog poklapanja) sa fizičkim okruženjem, rendering virtuelne scene na osnovu treking informacija generiše virtuelne slike (slike virtuelne scene) koje odgovaraju posmatračevom pogledu na realno okruženje. Postoje četiri osnovne vrste AR ekrana na osnovu toga kako kombinuju virtuelne slike sa slikama realnog okruženja: video, optički transparentni, projekcija na fizičku površinu i multipleksiranje na oku.
  • AR sistemi upotrebljavaju različite ulazne metode koji variraju od 2D korisničkog interfejsa (UI) do 3D i multimodalnih interfejsa kao što su ručni pointeri, govor, pokreti rukom... Metod zavisi od AR aplikacije (wearable computers, AR simulation, training) i vrste zahtevane interakcije: interfejs koji prikazuje AR informacije na realno okruženje, 3D tehnike interakcije za manipulaciju sadržajem u prostoru, upotreba realnih objekata za interakciju sa AR virtuelnim sadržajem, multimodalna upotreba tela posmatrača kao pokreti rukom i govor. Osnovna interakcija je posmatranje vizualizovane AR scene i pretraživanje informacija. Nije neophodan interfejs za navigaciju u 3D virtuelnom prostoru, AR sistem vizualizuje virtuelne objekte registrovane u realnom prostoru i posmatrač koristi prirodne sposobnosti kretanja u fizičkom okruženju. Dovoljno je promeniti orijentaciju glave i/ili usmeriti AR uređaj u pravcu novog pogleda. Zatim je moguće selektovati kanal informacija, personalizovati informacije, selektovati detalje i menjati format prikazivanja informacija.
  • Jedna od osnovnih funkcija AR posmatrača je poravnanje dva objekta koja su prikazana pomoću različitih načina projekcije. Jasno je da naš osećaj za veličinu, orijentaciju i lokaciju objekata zahteva snažan osećaj dubine prostora. Istraživanja ljudske percepcije veličine i udaljenosti ukazuju na vrlo komplikovane mehanizme, na koji utiču brojna pitanja mnogo šira od percepcije dubine prostora. Pitanja su grupisana u tri kategorije: 
  • Pogreške u implementaciji koje se mogu riješiti pažljivom primenom trenutno dostupne tehnologije: Neophodno je odrediti precizno parametre kalibracije koji određuju vizuelni ugao, perspektivu i binokularnu paralaksu slike u odnosu na posmatrača. Moguće je postići preciznu ortoskopsku projekciju realnog okruženja na ekran ali samo za fiksiranu poziciju posmatrača. Međutim, preciznu projekciju je komplikovano održavati zato što kada se posmatrač pomeri, vizuelni prostor je ponovo izobličen. Dodatno, ako AR grafika nije ortoskopska, koordinate AR i realnog prostora nisu poklopljene, posledica je da interakcija posmatrača sa okruženjem nije korektna. 
  • Trenutna tehnološka ograničenja koja će verovatno postati manje važna s poboljšanjem stanja tehnike: Pod pretpostavkom da je ortoskopski grafički prikaz kalibrisan, preostaje problem kako registrovati, ili poravnati, koordinatni sistem virtualnog sveta i stvarnog okruženja. Nadalje, iako se skale mogu tačno podudarati, teško je održavati precizno poravnanje između grafike i video snimka, ili između grafike i direktnog prikaza, obzirom na različita kašnjenja povezane sa različitim načinima prikazivanja. Održavanje registracije u dinamičnom, promenljivom okruženju vrlo je izazovno tehnološko pitanje. AR sistem u kojem grafika zaostaje za direktnim pogledom može brzo dovesti do vrtoglavice, mučnine i drugih simptoma sličnih bolesti simulatora, što je uzrokovano disparitetima između informacija dobijenih vizuelnim, vestibularnim i proprioceptivnim čulima. Potpun i tačan osećaj prostora zahteva vrlo široko vidno polje. Naše razumevanje okruženja je generalno izgrađeno korak po korak, koristeći relativne rasporede svakog objekta u potvrdi naše percepcije. Kada zbog neprirodno uskog vidnog polja, ne možemo videti važne delove okruženja gubimo poverenja u našu percepciju. Što je šire vidno polje, potpunija je i preciznija dubinska percepcija. Ograničenja i neusklađenost rezolucije, sjajnosti i kontrasta direktne slike realnog okruženja i grafike na monitoru mogu uticati na percepciju dubine i veličine objekata. Vertikalna neusaglašenost leve i desne stereo slike prouzrokuje degradaciju performansi. Neusklađenost realne slike i grafike u zavisnosti od tačke posmatranja je posledica pogrešaka praćenja pozicije prilikom brzih pokreta glave posmatrača. 
  • Složeni problemi koji zahtevaju rešavanje novih temeljnih razvoja tehnologije: Bez potpunog modela okruženja, nemoguće je u potpunosti primeniti okluzivnu naznaku. Međutim, akvizicija i održavanje modela stvarnog okruženja može biti vrlo komplikovano i neisplativo rešenje. Neophodno je povećati dubinsku oštrinu direktne slike okruženja, zato što stereoskopski ekrani imaju uveliko proširenu, dubinsku oštrinu. Percepcija dubine i percepcija prividne veličine u čisto optičkim sistemima pokazuju postojanu tendenciju umanjenja objekata. Iako postoji određen broj činjenica koji doprinose, učinak je smanjen u scenama koje su bogate naznakama dubine, fiksna pogrešna akomodacija udaljenosti je veliki deo problema. Nadalje, iznosi ugroženosti procena udaljenosti i procena veličine nisu neophodno isti i različito su ugroženi činiocima okruženja, kao što je dostupnost dubinskih naznaka. Svi sistemi za stereoskopski prikaz zahtevaju fokusiranje očiju na dubinu ekrana kako bi se jasno videli objekti, bez obzira na dubinski položaj objekata. Akomodacija i konvergencija blisko su povezani vizuelni sistemi, a svaki od njih pokreće drugog pod različitim uslovima. Konflikt akomodacije i konvergencije je glavni uzrok naprezanja očiju u stereoskopskim prikazima, ali mehanizmi su fleksibilni i robustni i moguće je brzo prilagođenje novim situacijama. Nadalje, stanje mirovanja dva sistema se znatno razlikuje. Dok su akomodacije i vergencija u korelaciji sa određenim vizuelnim zadacima, čini se da upravljački sistemi ne nastoje održavati jednake udaljenosti. Većina sistema virtualne i proširene stvarnosti pretpostavlja da je percipirana dubina objekta u tački konvergencije. Međutim, to nije nužno slučaj. Iako je akomodacija u najboljem slučaju slaba naznaka dubine, može svakako uticati na percepciju dubine i percepciju veličine. U AR situaciji, gotovo uvek će postojati neusklađenost akomodacije između stvarnih i virtualnih objekata. Akomodacijska udaljenost za virtuelne objekte je uvek udaljenost od posmatrača do ekrana, dok je udaljenost akomodacije za stvarni objekat u skladu sa položajem objekta. Što su veće razlike u akomodacijskim udaljenostima, to je verovatnije da će naznaka biti jača i značajnije uticati na performanse. Bez obzira na to koliko je razvijen model stvarnog sveta, gotovo je nemoguće stvoriti realne senke koje izgledaju kao da padaju na stvarne objekte, posebno u složenim, stvarnim uslovima [D.A.M]

Audio scena

Automatska klasifikacija audio scene i detektovanje akustičkih događaja zahteva prepoznavanje ne samo govora i muzike, koji se istražuju kao specifični zadaci, već i prepoznavanje zvukova (anthrophonic, biophonic, geophonic) u svakodnevnom okruženju. Prepoznavanje govora i reči ograničeni su vrstom zvukova koje naš vokalni trakt može proizvesti, a uslovljeno je i komunikacijskom strukturom ljudskog jezika. Slično tome, muzika uglavnom proizlazi iz fizičke rezonancije, a uslovljena je pravilima različitih muzičkih žanrova. Dok je ljudsko čulo sluha vrlo dobro u tumačenju zvukova usprkos zvučnim varijantama, računari su izvorno dizajnirani za obradu ponavljajućih zadataka. Dakle, obučavanje mašine u prepoznavanju govora i muzike uveliko koristi unapred definisana pravila i prethodno znanje. Zvuci, s druge strane, mogu biti puno raznovrsniji, neograničeni i nestrukturirani od govora i muzike. Zamislite da vam se razbije prozor i svi različiti načini da komadići stakla nasumično padnu na pod, bez ikakvih posebnih namera ili stila. Ili razmislite o razlici između relativne glasnosti prirodno izgovorenog razgovora nasuprot eksplozivnom udaru stakla. Prepoznavanje zvuka zahteva posebnu stručnost u prikupljanje zvučnih podataka i rešavanju problema prepoznavanja zvuka u stvarnom svetu.Klasifikacija medija zahteva analizu vremenski strukturiranih podatke i genersanje jednog obeležja. Prva strategija je upotreba skupa obeležja niskog nivoa kada se scena tretira kao jedinstven objekat sa ciljem modelovanja dugoročne statističke raspodele skupova lokalnih obeležja. Druga strategija je upotreba prelaznih reprezentacija koje predhode klasifikaciji i modelovanje scene skupom obeležja višeg nivoa koji su prikupljeni u rečniku akustičkih atoma koji obično predstavljaju akustičke događaje ili tokove unutar scene koji nisu nužno a priori poznati. Cilj akustične detekcije događaja je označavanje vremenskih područja unutar audio zapisa, što rezultuje simboličkim opisom tako da svaka anotacija sadrži vreme početka, vreme završetka i oznaku za jednu instancu određene vrste događaja. U opštim zvučnim scenama događaji se paralelno odvijaju, pa je poželjno polifonsko otkrivanje događaja (za područja u kojima se događaji preklapaju). Međutim, značajni događaji su relativno retki, tako da je značajna i monofoniska detekcija. Detektovanje događaja možda je zahtevniji zadatak od klasifikacije scene, ali istovremeno to su i isprepletani zadaci [D.A.M]

Stvarnost dopunjena prostornim audio informacijama

Audio modalitet može biti presudan za osećaj stvarnosti zato što nikada nije isključen. Audio pozadina je neprekidna struja slušnih informacija koje dopiru do nas, formirajući auditivnu pozadinu za trenutne percepcije. Značajna je za usidrenu prisutnost, odnosno osećaj da smo deo okruženja. Zvuk je za razliku od vizuelnih senzacija, inherentno temporalan, stalno u toku i životan, govori nam da se nešto događa. Stoga se čini razumnim pretpostaviti da je uloga slušnog modaliteta značajna u stvaranju uverljivih iluzija stvarnosti. Neophodna je konzistentnost prostornih kvaliteta generisanih senzacija i visok stepen podudarnosti vizuelno indukovanih očekivanja i reprodukovanog zvuka. Dodatno, kvalitet senzacija u jednom modalitetu može uticati na percipirani kvalitet drugog. Prostorna preciznost auditivnog modaliteta je inferiorna u odnosu na vizuelnu percepciju i propriocepciju, i moglo bi se pretpostaviti da je manje značajan zato što je VR inherentno prostorna iluzija. Međutim, uprkos ograničenjima, zvuk je ključan za doživljaj prostora. Sa evolucijske perspektive, jedna od najstarijih i najosnovnijih funkcija sluha bila je upozoriti živo biće. Sposobnost čuti i lokalizovati potencijalne grabljivce ili plen izvan vidokruga, smatra se konkurentskom prednošću. Osim pružanja informacija o okruženju izvan našeg vidokruga, zvuk utiče i na percepciju vidljivih i opipljivih događaja i objekata. Podražaji u jednom modalitetu mogu uticati na prostorne percepcije u drugom.Cilj prostorne reprodukcije je stvoriti utisak zvučnog okruženja za slušaoca u 3D prostoru, čime se simulira auditivna stvarnost. Stoga se čini da istraživanja prostorne zvučne reprodukcije (prvi stereo sistemi izgrađeni su tokom 1930ih) i VR dele zajednički cilj stvaranja uverljivih iluzija prisutnosti. Moguće je razlikovati različite vrste metoda reprodukcije prostornog zvuka (spatial audio). Problem sinteze virtualnih izvora zvuka odnosi se na stvaranje auditivnog događaja na proizvoljnoj tački u virtuelnom 3D prostoru. Savršen sistem sinteze virtualnog izvora verno oponaša sve naznake lokalizacije, tako da slušalac zvučnu sliku doživljava kao uverljiv pravi izvor zvuka. Komplikovano je ostvariti idealnu sintezu i u većini slučajeva neophodna su pojednostavljenja i aproksimacije za ostvarljive sisteme. Ljudski slušni sistem koristi nekoliko naznaka za lociranje izvora u prostoru za slušanje. Razlika između zvučnih signala na levom i desnom uhu (interauralna naznaka do 1.5KHz - time difference, naznaka iznad 1.5KHz - intensity difference) koriste se za određivanje horizontalne komponente (azimut) položaja izvora zvuka. Spektralne naznake koje su posledica refleksija visoke frekvencije unutar ušne školjke (pinnae) pomažu pri određivanju vertikalne komponente (elevacija). Slušalac je sposoban proceniti i udaljenost izvora zvuka na osnovu naznaka intenziteta zvuka (loudness). U uslovima slušanja kada spektralne i interauralne naznake ne generišu dovoljno informacija za prostornu lokalizaciju izvora zvuka, slušalac jednostavno pomera glavu da razreši dvosmislenost. Iako pokreti glave poboljšavaju lokalizaciju, predstavljaju i velike poteškoće za sintetičke 3D zvučne sisteme [D.A.M]
  • Monoauralni sistemi su ograničeni jednim zvučnikom i podešavanjem samo boje zvuka (timbre) i percipiranim rastojanjem izvora zvuka do mikrofona. Filtriranje monoauralnog zvučnog signala koji ne sadrži prostorne informacije kroz prethodno izmereni par HRTF funkcija generiše par električnih signala koji sadrže sve informacije koje se odnose na lokaciju zvučnog izvora. Reprodukcija ovog para električnih signala (na slušalicama ili paru zvučnika + poništavanje preslušavanja) generišu se prostorne naznake, zbog čega slušalac uočava virtuelni zvuk koji dolazi iz mesta gde je izvor bio u vreme merenja. 
  • Binauralni sistemi omogućuju potpunu kontrolu zvuka koji dolazi na svako uho i modeluju akustička svojstva ljudskog tela (dominantno torzo i glava i ušne školjke) kako bi se generisale auditivne naznake sa specifičnim prostornim atributima. Akustičke osobine opisane su prenosnim funkcijama HRTF (head-related transfer function) i individualne su. Tipično, određena scena se snima modelom slušaoca sa mikrofonom postavljenim na uho, ili se HRTF funkcije mere test signalima. Kada se koriste zvučnici za reprodukciju, potrebno je primeniti poništavanje zvuka koji dopire i do levog i desnog uha (cross-talk cancellation), što predstavlja osnovno ograničenje. Metode koje sadrže uklanjanje preslušavanja nazivaju se transauralne. U svakom slučaju, značajno je da se kretanje slušaoca, posebno rotacija glave, prati u realnom vremenu i uzima u obzir u toku reprodukcije. Kada se koriste slušalice za binauralnu reprodukciju, signali na oba uha se mogu kontrolisati pojedinačno, čime se ograničava svako preslušavanje. Osim preciznije kontrole binauralnih signala, blokiraju se i neželjeni zvuci kao što su odjeci i reverberacija. Međutim, redukcija signala iz okruženja može biti nametljiva i iritantna za slušaoca. Generalno, postoje tri tipa prostorne simulacije na slušalicama. Reprodukcija identičnog signala (diotic display) simultano levom i desnom kanalu generiše senzaciju da su svi izvori zvuka lokalizovani unutar glave slušaoca (lateralization). Reprodukcija stereo signala (dichotic display) koji predstavljaju izmenjen frekvencijski zavisan (comb filtering) interarualni intenzitet ili vremenske razlike levog i desnog kanala. Efekat se ostvaruje jednostavnim skaliranjem i kašnjenjem signala koji dopiru na levo i desno uho. Metod ne omogućava korektnu prostornu raspodelu izvora zvuka jer slušalac doživljava da se zvuci kreću samo unutar glave od jednog do drugog uha (panning). Metod koji omogućava reprodukciju većine prostornih naznaka dostupnih u stvarnom svetu, zasniva se na filtriranju zvučnog signala i HRTF transformaciji tako da oponaša akustički signal koji je stupio u interakciju sa torzom, glavom i ušnim školjkama slušaoca. Transformacija se postiže standardnim ili dinamički personalizovanim HTRF prenosnim funkcijama.
  • Stereofonija (gr. stereos - čvrsti, phone - zvuk, ton, glas) je ograničena podešavanjem amplitudne i/ili vremenske razlike između koherentnih signala koje emituju dva ili više zvučnika u konfiguraciji jednakokrakog trougla (+/-30°, sweet spot >1m). Povećanje amplitude signala emitovanog sa određenog zvučnika pomera percipiranu lokaciju virtuelnoh izvora prema odgovarajućem zvučniku (amplitude panning). Kašnjenje zvučnog signala pomera percipirani položaj virtuelnog izvora od odgovarajućeg zvučnika (delay panning). U početku, takve amplitudske i vremenske razlike generisane su u toku snimanja scena odgovarajućim rasporedom mikrofona. Prostorno koincidirajući raspored mikrofona odgovarajuće usmerenosti generiše amplitudne razlike u izlaznim signalima. Prostorno nekoincidirajući raspored omnidirekcionih mikrofona prvenstveno stvaraju vremenske razlike, dok usmereni mikrofoni generišu i amplitudne i vremenske razlike. Odgovarajuće amplitude i vremenske razlike mogu se generisati na ulaznim signalima i primenom digitalne obrade signala (DSP). Matematički opisi odnosa između razlike signala sa zvučnika i percipirane lokacije virtuelnog izvora nazivaju se zakoni tranzicije (panning laws). Primer je VBAP (Vector Base Amplitude Panning) koji u horizontalnoj konfiguraciji pomera virtuelne izvore između parova zvučnika. Ako sistemi koriste i izdignute zvučnike, VBAP izvodi prebacivanje između trostrukih zvučnika, ali sa znatno smanjenom perceptualnom verodostojnosti. Sproveden je niz istraživanja percepcija stereofonije i pretpostavljena je sumirajuća lokalizacija (summing localization) kao osnovni psihoakustički mehanizam superpozicije zvučnih polja (tipično malog broja) dovoljno koherentnih signala koji propagiraju u vremenskom intervalu koji je manji od približno 1 ms. Stereofonija najbolje funkcioniše u horizontalnoj ravni kada je slušalac okrenut prema aktivnim zvučnicima. Tranzicija na bočnim zvučnicima ili zvučnicima na različitim visinama manje je pouzdana i veoma osetljiva na translaciono pomeranje slušaoca i rotaciju glave. Stereofonija pokazuje tri osnovna ograničenja. Izražena je optimalna zona pozicije slušaoca (sweet spot) izvan koje su znatno narušeni prostorna percepcija i ravnoteža boje zvuka. Drugo, nije moguće generisati auditorne naznake koje su bliže slušatelju od instaliranih zvučnika (značajno ograničenje u velikim prostorima). I treće, ako se uzme u obzir standardna dvo-kanalna stereofonija, sadržaj i njegova reverberacija može se prikazati samo iz smera između zvučnika. Dvo-kanalna stereofonija ostvaruje prihvatljive rezultate i kada se reprodukuje na slušalicama umesto dva zvučnika u prostoru. Međutim, reprodukcija odgovarajućih signala na slušalicama predstavlja bitno drugačiju situaciju u odnosu na reprodukciju na zvučnicima. U reprodukciji na slušalicama ne dolazi do preslušavanja (cross-talk) između dva kanala jer se svaki kanal reprodukuje na samo jednom uhu. Kao posledica toga, amplitudske i vremenske razlike između komponenti signala prenose direktno interauralne naznake. Tipično, auditivni doživljaj pojavljuju se unutar glave slušaoca (in-head localization) i panorama se proširuje. Konačno, stereofonski sadržaj se obično priprema tako da je prostorna percepcija optimalna kada se reprodukuje u prostoriji za slušanje sa specifičnim akustičkim svojstvima. Doprinos sobe za slušanje reverbaciji sadržaja nije prisutna prilikom reprodukcije na slušalicama. Ali prenosna funkcija slušalica nije ravna, dizajnirana je za propagaciju od zvučnika do granice spoljašnjeg i srednjeg uha (drums), pri čemu se pretpostavljaju uslovi prostiranja slobodnog polja ili difuzno zvučno polje. 
  • Okružujući zvuk (surround sound) povećava broj upotrebljenih zvučnika na 5.1/7.1/9.1/22.2 plus jedan/dva opcionalna niskotonca (subwoofer). Tipično, levi i desni zvučnici upotrebljavaju se slično kao dvo-kanalna stereofonija; centralni zvučnik se upotrebljava za reprodukciju sadržaja sa fiksnom lokalizacijom u sredini; SLeft i SRight zvučnici upotrebljavaju se za reprodukciju dekorelisanih signala kao što je reverberacija koja poboljšava prostornu percepciju. Pojedine zvučnike je moguće upotrebiti i nezavisno za reprodukciju sadržaja, kada se signal šalje samo jednom zvučniku i na taj način pouzdano lokalizuje izvor na mestu selektovanog zvučnika. Imerzivni sistemi proširuju zvučnu sliku okružujućih sistema (5.1.2-5.1.4, 7.1.2-7.1.4, 24.1.10) u vertikalnu ravan (lokacija zbučnika/izvora na zidu/plafonu prostorije) za 3D reprodukciju. 
  • Generisanje zvučnog polja (Wave Field Synthesis, Higher Order Ambisonics) zasniva se na više-kanalnim sistemima zvučnika kako bi se generisao audio prostor u kojem je zvuk lokalizovan na prirodan način. Broj zvučnika određuje veličinu ovog područja (sweet spot). Zbirni akustički signal koji dopire do svakog uho slušaoca u bilo kojem trenutku definisan je sumom signala koji potiču iz pojedinih izvora zvuka u okruženju. Na taj način, menjajući osobine signala svakog zvučnika u nizu, moguće je uticati na prostorne audio naznake. Binauralne naznake su interauralna razlika u vremenu propagacije do levog i desnog uha, i razlika interarualnih intenziteta. Dodatna naznaka udaljenosti u slučaju niskog stepena reverberacije (anechoic) je spektar zvuka (akustička mapa tela slušaoca) koji dopire do ušiju. Međutim, proces generisanja zvučnog polja nije nimalo jednostavan, metoda ne dopušta da signali koji stižu na svako uho budu potpuno nezavisno procesirani jedan od drugog. Položaj zvučnika i prostorna akustika su kritični za upotrebu sofisticiranih metoda prostornog renderinga (ambisonics, vector-based amplitude panning, wave field synthesis).

Stvarnost oslikana podacimaDo danas je publikovano 129 miliona knjiga, i nastavlja se objavljivanje više od 1 milion knjiga godišnje. U 2018. godini generisano je više podataka nego ukupno zabeleženo u istoriji do tada, i statistika se nastavlja u 2019. i 2020. Upotreba mobilnih ekrana dostiže 4 časa dnevno u 2018. godini. Sa ogromnom količinom dnevno generisanih podataka, pristup aktuelnom, relevantnom znanju je osnova funkcionisanja društva. Puni AR potencijal je sposobnost prezentacije informacija koje su nam potrebne, u pravo vreme i na pravom mestu. AR prodor je pokrenut sinergijom eksponencijalnog rasta tehnologija. AR je četvrta transformacija računara. Prva je bila razvoj personalnih računara koji je povezao ljude i inteligentne uređaje, zatim je došao Internet povezujući ljude i ogromne arhive znanja, a mobilno računarstvo je povezalo ljude i informacije na svakom mestu. Mobilni pristup informacijama eksponencijalno raste, 5G omogućava protoke od 10 Gbps. Milijarde IoT uređaja sa senzorima arhiviraju na klaudu konstantan strim podatak iz okruženja. AI interpretira specifične skupove podataka iz klauda u realnom vremenu. AR TV. Televizija privlači gledaoce kao nijedan medijum. AR pomera TV korak unapred, dezintegriše svet između emitera i gledalaca, prenosi auditorijum u sopstveni prostor jedne nove stvarnosti. ARTV je nova forma, mesto gde su gledaoci u poziciji interakcije i promene sadržaja. Mobilni striming je tehnologija koja je izmenila način kreiranja, pretraživanja, reprodukcije i deljenja sadržaja. ARTV postepeno menja TV okruženje. Udaljavamo se od linearne naracije i pasivnog posmatranja, prema nelinarnom pripovedanju koje angažuje grupu posmatrača interaktivnog, gejmifikovanog i deljenog sadržaja. Izgleda kao da svi mediji konvergiraju u jedan. Verovatno je to naznaka konvergencija svih medija u AR/VR. AR je moćno sredstvo povezivanja sa okruženjem, fizički i digitalno. Nestajanjem podele na, kreatore sadržaja i potrošače, TV i gejming, TV i AR/VR, jedna nova verzija televizije se pojavljuje.AR pripovedanje. Pripovedanje najbolje funkcioniše kada je imerzivno, nezavisno od vrste medija. AR pripovedanje je cilj od prvih dana nemog filma, pa do današnjih digitalnih bioskopa.5G AR. Jasno je da brze 5G konekcije 10/20-50/100Gbps predstavljaju prednost za AR/VR uređaje. Brza konekcija znači brže preuzimanje podataka i pouzdaniji striming sadržaja uživo. Dodatno, računarski intenzivne operacije (CPU/GPU rendering AR/VR scene u visokoj rezoluciji i broju frejmova, u realnom vremenu za stereo vid) moguće je izvršavati na klaudu, u realnom vremenu pomoću bežične 5G konekcije. Ključni faktor je latencija, broj isporučenih responsivnih frejmova u sekundi. Niska latencija 5G konekcije od 1ms omogućava 120fps AR/VR video strim prihvatljivog kvaliteta, a 5G protoci visoku rezoluciju formata. VR uređaju je preostalo da obezbedi dovoljno CPU snage da pokrene senzore, ekran i jednostavan klijent softver za pristup klaudu putem 5G konekcije.5G Taktilni AR. Taktilni Internet omogućava prenos osećaja dodira na velike udaljenosti, sa ili bez vizuelne povratne informacije - nešto što je nije bilo moguće u stvarnom vremenu zbog količine potrebnih podataka i potrebe za nisko latentnim vezama. AR/VR postaje stvarnija, mašine bna daljinsko upravljanje postaju tačniji, otvoraju se novi putevi u zdravstvu i nove mogućnosti u obrazovanju - a to je tek početak. Virtualne objekte osećamo čvršće, a zajedno sa smanjenom 5G latencijom i visokom pouzdanošću, nepovezane kontrole postaju dodirljive za korisnika. Jedan od najvećih izazova za taktilni Internet stvara osećaj pritiska na kožu bez fizičke površine. Postoji više načina da se to postigne - jedan od najperspektivnijih su fokusirani zvučni talasi. Taktilni Internet omogućava komunikaciju sa okruženjem, u realnom vremenu, dok smo u pokretu i unutar određenog komunikacionog prostora.Taktilni Internet omogućava haptičku interakciju sa vizuelnim povratnim informacijama. Pojam haptički odnosi se na osećaj dodira, posebno na percepciju i manipulaciju objektima pomoću dodira i propriocepcije. Propriocepcija je osjećaj relativne pozicije delova tela i snage napora koji se koristi u pokretu. Vizuelna povratna sprega obuhvata ne samo audiovizualnu interakciju, nego i robotske sisteme koji se mogu kontrolisati u realnom vremenu. Neophodno je da tehnički sistemi dostignu brzinu našeg prirodnog vremena reakcije. Latencija 1ms sa kraja na kraj je neophodna za taktilne aplikacije. 5G mobilna mreža mora biti ultra-pouzdana zato što se mnogi kritični zadaci izvršavaju na daljinu. Taktilni Internet kombinuje više tehnologija, kako na nivou mreže tako i na nivou aplikacija. Na ivicama mreže, taktilni Internet omogućava IoT i robote. Sadržaj i podaci prenose se preko 5G mreže, dok je inteligencija bliska korisničkom iskustvu omogućena mobilno računarstvom na ivici mreže. Na nivou aplikacije, automatizacija, robotika, telepresence, proširena stvarnost (AR), virtuelna stvarnost (VR) i veštačka inteligencija (AI) imaju svoje važne uloge.AI AR. AI je širok pojam, nijansiran i kompleksan kao i AR. Originalni AI je algoritam koji donosi sopstvene odluke. Prediktivan je i sa nekompletnim informacijama, izvodi zaključke - nešto što je još uvek svojstveno ljudima. AI rešava probleme. Mašinsko učenje (ML) upravo rešava probleme. I AI i ML su sposobni da uče. AI prepoznavanje govora je neophodna komponenta VR naočara zato što unos teksta nije opcija a ring-kontroleri nisu zadovoljavajući interfejs. Najprirodnija forma komunikacije je ljudski glas. AI prepoznavanje slike (computer vision) je obučavanje AR mašine za posmatranje i razumevanje okruženja. Prepoznavanje ljudi i njihovih emocija nije jednostavan zadatak zato što podrazumeva prediktivno razmišljanje a koje je svojstveno ljudima u svakodnevnom životu Kako radi AI? AI kombinuje velike količine podataka s brzim, iterativnim sistemima procesiranja i pametnim algoritmima, što softveru omogućava da automatski uči putem prepoznavanja određenih karakteristika ili šema ponavljanja u podacima. Premda AI uključuje ogroman broj teorija, metoda i tehnologija, sledeće stavke smatraju se najbitnijim:
  • Machine learning (ML) upotrebljava metode neuronskih mreža, statistiku, istraživačke operacije za otkrivanje skrivenih uvida u podatke bez eksplicitnog programiranja i i štaje zaključak.
  • Neuronska mreža (NN) je mašinsko učenje gde je mreža sastavljena od povezanih jedinica, poput neurona, koji procesiraju informacije dobijene iz eksternih izvora, razmenjujući potom informacije s drugim jedinicama. Proces zahteva višestruke obrade istih informacija od raznih jedinica kako bi se pronašla veza i ustanovio smisao u inače nedefinisanim podacima.
  • Deep learning (DL) koristi ogromne neuronske mreže i kombinuje ih s mnogim slojevima procesivnih jedinica, koristeći ogroman napredak u sposobnostima i snazi procesiranja koji je ostvaren u proteklim godinama. Na taj način dolazi se do naprednih tehnika učenja veoma kompleksnih obrazaca u ogromnim količinama podataka.
  • Cognitive computing je AI podgrupa gde se teži prirodnoj interakciji između mašina, nalik ljudskoj interakciji. Cilj je da se simulacijom ljudskog procesiranja interpretiraju podaci onako kako to čini čovek. 
  • Computer vision (CV) predstavlja nešto slično, s tom razlikom što se ovde AI fokusira na procesiranje i analizu podataka kako bi ih interpretirao u vizuelnom smislu, odnosno da omogući da mašina razume sliku i video na način na koji ih čovek razume i da ih interpretira što sličnije čoveku.
  • Natural language processing (NLP) je fokusiran na interpretaciju u domenu jezika; cilj je ostvariti sposobnost kompjutera da analiziraju, razumeju i generišu ljudski jezik i govor. Naredna NLP faza je prirodna komunikacija s ljudima putem jezika.

Percepcija i veštačka inteligencija: AI percepcijaAI podrazumeva razumevanje obrazaca u ulaznim podacima za situaciju i izvođenje percepcija zasnovanih na dubokom učenju o određenoj temi. Ove percepcije su izražene kao nivo poverenja za donošenje odluka za datu situaciju. AI je, u stvari, veštačka percepcija. AI mehanizam oponaša perceptualnu sposobnost našeg uma.Naša inteligencija zasniva se na neverovatnoj dvojnosti zaključivanja na percepciji uzoraka, i suprotno, zaključcima koji se temelje na vrlo struktuiranim i racionalnim odlukama. Oba su oblika različita, ali se nadopunjuju. Mašinska inteligencija (ML) takođe dolazi u dva oblika: veštačka inteligencija (AI) utemeljena na dubokom učenju (DL) tumači obrasce u podacima kako bi došla do zaključaka i stoga oponaša našu inteligenciju zasnovanu na percepciji; i standardno izvršavanje instrukcija korak po korak (kao na računaru) oponaša našu racionalnu inteligenciju.Donošenje odluka zasnovano na ljudskoj percepciji teško je detaljno opisati verbalno, jer je gotovo automatsko i podsvesno. Nasuprot tome, logika se po definiciji može tačno opisati. Postoji još jedna ključna komponenta - možda i najdominantnija - u donošenju odluka: emocije i osećanja. Hipoteza je da su naše emocije ostaci percepcija zaključanih u umu zbog situacija koje smo doživeli u prošlosti. Emocije dolaze u različitim oblicima kao što su strah, volja, sklonost, ljutnja, zavist i ljubav. Emocije se prizivaju obrascima koje generišu čula i doprinose ukupnoj percepciji, čak i u novoj situaciji.Većina AI sistema danas se zasniva na Deep Learning (DL) , gde se učenje odvija kroz izlaganje AI sistema desetinama hiljada ilustrativnih primera. Metoda dubokog učenja uključuje apsorbovanje komplikovanih detalja i suptilnih nijansi u slikama, videozapisima ili zvukovima u parametre neuronske mreže AI sistema. Nakon treninga, AI sistem može uočiti ulazne podatke na uzorcima slika, licima, objektima, pokretima ili zvukovima koji se unose u sistem. Donošenje odluka u sistemu veštačke inteligencije zasniva se na percepciji uzoraka ulaznih podataka.Naš um poseduje ogroman broj dimenzija - daleko više od onoga što danas pokušavamo oponašati AI mehanizmima. Ljudski potencijal nam omogućuje rešavanje vrlo složenih, multidisciplinarnih problema, daje nam moć zamišljanja stvari i situacija koje nikada nisu postojale, kreativnost, generisanje snažnih emocija i nagona za postizanjem onoga što se čini nemogućim i, daje nam neverovatan osećaj svesti i samosvesti.Današnji sistemi veštačke inteligencije, i sa svojim uskim i ograničenim opsegom, sposobni su za revolucionarne promene u načinu na koji živimo i radimo. Nude neverovatne mogućnosti za pojednostavljenje i personalizaciju upotrebe proizvoda i radikalno novih usluga. Upravo smo na samom početku velike promene [D.A.M]
AI percepcija jedne mašineVozila - sredstva prevoza - kontinuirano se razvijaju da postanu visoko povezana, inteligentna i autonomna. Asistencija vozaču obuhvata prilagodljivi tempomat, automatsko kočenje, automatsko parkiranje, pokrivanje nevidljive zone, izbegavanje sudara, upozorenja napuštanja i automatska promena kolovozne trake. Funkcija upozorenja o napuštanju saobraćajne trake oslanja se na različite senzore percepcije koji obezbeđuju da vozilo ne napusti svoju traku. Pre nego što vozilo napusti voznu traku, upozoriće vozača zvučnim ili haptičnim upozorenjima. Funkcija prilagodljivog tempomata održava vozilo na zadanoj brzini kada nema vozila ispred. Kada su vozila ispred, usporava i ubrzava automatski da održi korak sa vozilima. Funkcija otkrivanja nevidljive zone upozorava vozača kada se vozila, putnici i drugi predmeti približavaju tačkama koje nepokriva ogledalo sa strane. Funkcija automatskog upravljanja kočenja usporava vozilo ili koči do potpunog zaustavljanja u vanrednim situacijama. Funkcija upozorenja na sudar upozorava vozača kada postoji opasnost od sudara kako bi se umanjile posledice. Funkcija automatske promene trake menjati trake kada vozač aktivira pokazivač smera na ulicama sa više traka. Automatsko parkiranje koristi senzore za praćenje približne veličine prostora između dva parkirana vozila, a zatim izračunava tačne uglove upravljanja i brzine za vožnju na parkirno mesto bez potrebe za ljudskom intervencijom. Za razliku od gore navedene vožnje, automatizovana vožnja omogućuje potpuno upravljanje vozilom. Trenutno, Audi A8 je preuzeo vođstvo u postizanju prvenstveno automobila bez vozača (L3), koji može biti autonoman pod određenim uslovima kao što je autoput. Vozač može aktivirati auto-pilot u toku vožnje u saobraćajnoj gužvi ili usporenom saobraćaju autoputa do 60 km/h. Kada se aktivira auto-pilot, sistem preuzima automobil, u potpunosti poštujući lokalne zakone, a vozač više ne mora stalno nadzirati automobil. Vozač samo mora ostati na oprezu i biti spreman za ponovno preuzimanje vozačkog zadatka kada sistem u bilo kojem trenutku zatraži.Autonomno vozilo podrazumeva percepciju okruženja, donošenje odluka i planiranje putanje, kao i kontrolu kretanja. 
  • Percepcija okruženja je osnovna funkcija autonomnih vozila, obezbeđuje vozilima ključne informacije o uslovima vožnje, uključujući zone slobodne vožnje, prepreke u okruženju, brzinu, pa čak i predikciju ovih budućih stanja. Zadatak percepcije okoline uspešno se rešava upotrebom senzora, LiDAR laserskog skenera, radara milimetarskih talasa, ultrazvučnih radara, video kamera, senzora položaja. Efikasni algoritmi filtriranja usvojeni su za procesiranje informacija sa svih senzora. Jedno od osnovnih pitanja multi-senzorskih sistema je selekcija odgovarajućeg algoritma za fuziju kako bi se u potpunosti iskoristile prednosti svakog senzora, uzimajući u obzir raznolikost i složenost informacija. Osnovni zahtevi uključuju robusnost, sposobnost paralelne obrade, brzinu i preciznost obrade. Tehnike fuzije podataka u autonomnim sistemima zasnivaju se na Bayesovoj statističkoj teoriji, tehnologiji neuronskih mreža, fazzy metodama. 
  • Istraživački napori su fokusirni na sledeća dva aspekta: percepcija stanja i međusobna povezanost mreže vozila (V2X). Percepcija stanja uključuje percepciju stanja saobraćaja i percepciju stanja tela, uglavnom pozicioniranje vozila, kao i navigacijske module kao što su globalni navigacijski satelitski sistem (GNSS), inercijalni navigacijski sistem (INS) i kinematika u realnom vremena (RTK). V2X mrežna interkonekcija obuhvata razmenu informacija, interoperabilnost i koordinaciju između vozila i svih učesnika saobraćaja, uključujući vozilo-infrastruktura (V2I), vozilo-pešak (V2P) i vozilo-vozilo (V2V). Nadalje, kako bi se osigurala konzistentnost i primenjivost različitih podataka o sceni, sistem za percepciju sadrži fuziju podataka, u kojem se izlaz više senzora kombinuje u koordinatnim sistemu vozila kako bi se uspostavila povezanost sa jedinstvenim vremenskim oznakama.
  • Donošenje odluka i planiranje putanje potencijalno poboljšava efikasnost misije i generisanje željene putanje, omogućuje da vozilo deluje u skladu sa konfiguracijom terena, pravilima sigurnosti i bezbednosti, dinamikom vozila i kontekstom okruženja. Donošenje odluka sastoji se od planiranja misije i obrazloženja ponašanja. Kada se vozilo samostalno kreće kroz okruženje, planer misije uključuje novo osmatranje, ažurirajući lokalne mape, a zatim se generiše novo pravilo. Planer ponašanja implementira obrazloženje ponašanja i novo stvoreno pravilo, koje može uključivati ​​različite funkcije praćenja puta, promene u saobraćaju, parkiranje, izbegavanje prepreka i oporavak u neregularnim uslovima. Planiranje putanje sadrži planiranje globalne i lokalne putanje. Globalno planiranje oslanja se na potpune statičke informacije o okruženju i sistem preciznog mapiranja. Postoji nekoliko uobičajenih metoda kao što su grid algoritam, metoda pregleda, metoda topologije i drugi statički algoritmi. Lokalno planiranje putanje oslanja se na informacije o okruženju u realnom vremenu koje se mogu dinamički prikupljati sa svih vrsta senzora. Metode planiranja lokalne putanje uključuju veštačko polje potencijala, histogram vektorskog polja, polje virtualne sile. 
  • Planiranje odluka, uključujući donošenje odluka i planiranje, odgovara kognitivnom sloju sistema bez vozača. Donošenje odluka definiše raspodelu funkcija svakog dela, kao i njihov međusobni odnos, i donosi odluke o načinu sigurnosti vozila, dok je planiranje posebno osmišljeno za genesanje bezbednih, putanja bez kolizije u realnom vremenu. Što se tiče podsistema za planiranje, njegove temeljne tehnologije uključuju funkciju rutiranja i funkciju planiranja aktivnosti. Konkretno, funkcija usmeravanja se odnosi na rešavanje problema rutiranja od tačke A do tačke B, a njegov izlaz je redosled kolovoznih traka zasnovan na mapi visoke definicije. Funkcija planiranja aktivnosti interpretira makroskopske instrukcije odluka o ponašanju kao trajektoriju sa informacijama o vremenu, tako da generiše upravljanje sa najnižom povratnom vezom stvarnom pogonu vozila. Ukratko, neophodno je dobro osmišljeno akcijsko planiranje, sa ciljem dobrog rešavanja problema optimizacije prostorno-vremenske putanje pod određenim ograničenjima.
  • Upravljanje kretanjem izvršava neophodne naredbe planirane misije i generiše ulaze na nivou hardvera koji dovodi do željenog kretanja. Upravljanje se deli u dve kategorije: lateralnu i longitudinalnu kontrolu. Bočna kontrola je upravljanje normalno na smer kretanja, cilj je upravljanje vozilom tako da automatski održava položaj vozila u središtu kolovozne trake, dobru udobnost vožnje i stabilnost pri različitim brzinama, opterećenjima, otpornostima vetra i uslovima na putu. Uzdužna kontrola, koja sadrži kontrolu brzine i kontrolu ubrzanja/usporenja, povezana je sa kontrolom udaljenosti i brzine između vozila radi sigurnosti i udobnosti, među kojima su tipični slučajevi kontrola brzine i uprvljanje kočnicama u hitnim slučajevima. Dodatno, kontrola sila proklizavanja na gumama je ključna. Osim toga, bočna i uzdužna dinamika vozila spojeni su u kombinovanoj bočnoj i uzdužnoj regulaciji, gde je stepen spajanja zapravo funkcija sila guma i parametara vozila. Uopšteno, postoje dva različita pristupa dizajniranju kontrolore vozila. Jedan način je oponašanje operacija vozača, a drugi se zasniva na dinamičkim modelima vozila i strategijama upravljanja.
Koordinacijom longitudinalne i lateralne kontrole, vozilo može ne samo tačno i stabilno raditi u skladu sa trajektorijom cilja praćenja, već i ostvariti regulaciju brzine, udaljenost, promenu trake, preticanje i druge osnovne operacije u procesu vožnje. Konkretno, uzdužna kontrola odnosi se na upravljanje vozilom i kočenjem, dok se bočna kontrola odnosi na podešavanje ugla upravljača i kontrolu sile guma. U poređenju sa tradicionalnim longitudinalnim upravljačkim modulom, inteligentna uzdužna kontrola uglavnom se odražava u primeni objektnog modela kontrole i sveobuhvatnih informacija o kontekstu, koristeći kontrolu zasnovanu na modelu, kontrolu neuronske mreže, duboko učenje (DL). Autonomni sistemi vožnje budućnosti zasnivaju se na revolucionarnim funkcionalnostima, kao što su prilagođavanje vozačkih zadataka, kooperativna vožnja, upravljanje energijom, adaptivna mehanička rekonstrukcija, adaptivna promena načina rada, fuzija virtualne stvarnosti i inteligentna interaktivna kontrola. 
  • Prilagođavanje zadataka vožnje je funkcionalnost u kojoj je neophodno da korisnik samo unese početnu tačku, završnu tačku, prolazne tačke na putu, kao i odgovarajuća vremena dolaska za svaki zadatak vožnje. 
  • Kooperativna vožnja u realnom vremenu koordinira ponašanje vozača proizvoljnog broja vozila prema zahtevima korisnika, kao i praktični putni saobraćaj, kako bi se izbegla zagušenja i incidenti. 
  • Upravljanje energijom omogućuje vozilima upotrebu različitih tehnologija punjenje u konverziju čiste energije direktno u električnu energiju, kao što je bežično punjenje i tehnologija solarnog električnog punjenja. 
  • Mehanička rekonstrukcija prilagođava organizacijsku strukturu mehaničkim komponenti vozila i sprovodi automatsku mehaničku deformaciju prema prostornim ograničenjima okoline.
  • Adaptivna selekcija moda se uglavnom oslanja na različite senzore percepcije za praćenje terena (npr. pesak, planine, centar grada ili ruralna područja) i scenarija vožnje, a zatim se prebacuje između različitih načina vožnje u skladu sa rezultatom percepcije.
  • Fuzija virtualne stvarnosti je čvorište za razmenu cyber-fizičkih informacija okruženja vozila i korisnika, kao što je prikazivanje stanja vožnje i virtuelni korisnički interfejs na tehnologiji holografske projekcije za realnu okolinu u blizini, kao što su trgovine, restorani, i bioskopi.
  • Inteligentna interaktivna kontrola pomaže korisniku u interakciji sa vozilom putem glasa, ponašanja i moždanih talasa za upravljanje vozilom [D.A.M]

Rekonstrukcija 6D.ai okruženja u realnom vremenuPlatforma 6D Reality je izgrađena oko skupa inovativnih servisa u računarskom oblaku i mobilnog SDK softvers koji poboljšavaju AR aplikacije koje gradite, pomažući interakciju sa svetom na prirodan i stvaran način. Aktuelne AR aplikacije ograničavaju korisnika na malu površinu, bez mogućnosti zaustavljanja objekata, sadržaj nestaje kada se aplikacija zatvori. Nove aplikacije izgrađene na platformi 6D Reality koriste standardnu kameru sa jednim objektivom za pametne telefone kako bi izgradile trodimenzionalnu semantičku mapu okruženja u stvarnom vremenu, sve u pozadini uređaja korisnika. Korisnicima je omogućena komunikacija sa kompletnim modelom onoga što njihova kamera vidi za manje od sekunde. Rekonstruisan model se ažurira mnogo puta u sekundi, a programeri imaju pristup do njega u roku od nekoliko sekundi nakon što korisnik otvori aplikaciju. Baš kao što relokalizacija omogućuje multiplayer i nastavljanje sesije, povezivanje omogućuje kritična obeležja proširene stvarnosti: okluzija, fizika, interakcija stvarnog sveta i proceduralno naglašavanje. Modeli okruženja čuvaju se u 6D AR oblaku, tako da možemo automatski proširiti mapu izvan onoga što korisnici vide na bilo kojem mestu koje je prethodno posetila bilo koja 6D aplikacija. Sadržaj stvoren u jednoj AR sesiji aplikacije moguće je sačuvati u AR oblaku i preuzeti kasnije u drugoj sesiji aplikacije ili na drugim uređajima. Nepostoji komplikovan postupak ili ritual koji je potreban za početak multiplayer AR sesije. Novi korisnik se jednostavno pojavljuje u modelu okruženja [D.A.M]
Priroda opažanjaNa mnogo načina mi ne vidimo pravu prirodu stvarnosti. Naša percepcija je ograničena. Mi opažamo samo delić onog što postoji. Naš mozak iskrivljuje istinu. Možemo li ikada znati šta je stvarno? Koliko smo do sada bili uspešni u tome? Mi čvrsto verujemo da stvarnost postoji, ali to ne znači da smo je u potpunosti razumeli. Kada je reč o pravoj prirodi stvarnosti, postoje brojne hipoteze. Živimo u uzročno-posledičnom svetu, i čini nam se da se priroda ponaša predvidivo. Ali priroda poseduje mnoge dimenzije, i na dubokim nivoima, stvarnost se pomera i menja. Na elementarnom nivou stvarnosti, čini nam se da je sve virtuelno. Sa druge strane, biocentrizam tvrdi da prostor i vreme postoje samo ako ih vidimo, zato i mi postojimo. Ako nema percepcije i ljudske svesti, nema ni objekata. Svet oko nas predstavlja običnu iluziju koju stvara naš um [D.A.M]
Ograničenja ARAR i VR se ne podudaraju u pogledu tehnološke zrelosti, AR je nekoliko godina iza pozicije VR danas. AR je uzbudljiva tehnologija, neophodno je prevazići velike prepreke pre nego što uspemo postići bilo što blizu uobičajenih AR koncepata koje smo videli tokom predhodne decenije. Vreme je uzbudljivo za AR, teren je još uvek širom otvoren i prilika je probiti se u prostor s nečim što bi moglo pomaknuti čitav sektor napred.
  • Prostorni vidni ugao (FoV) je značajan AR parametar. Da bi se postigao razuman nivo imerzije, neophodno je AR konstrukciju besprekorno uklopiti sa stvarnim okruženjem. Mali prostorni ugao znači da ne možete odjednom videti veći deo proširenog okruženja, što prouzrokuje neprirodno skeniranje glavom - kao da gledate kroz periskop - otkrivate AR objekte u vašem okruženju, umesto da dopustite intuitivno mapiranje AR konstrukcije kao deo stvarnog okruženja. Vidno polje od 50 stepeni je još uvek daleko od današnjih VR slušalica koje pokrivaju oko 110 stepeni vidnog polja - AR korisnici zahtevaju prostorne uglove veće od 90 stepeni. 
  • Klasifikacija objekata u realnom vremenu. Trenutno 99% AR aplikacija i demonstracija za podlogu imaju radni sto ili pod zato što ih je jednostavno detektovati i klasifikovati. Ravan jednog poda ili zida jednaka je ravni druge i može se pouzdano pretpostaviti da nastavlja kao takva u svim smerovima do preseka sa drugom ravni. Složenije objekte, AR može snimiti kamerom ali klasifikovanje nije jednostavno. To je razlog upotrebe markera na objektima kako bi olakšali praćenje i interakciju. Ručno pisanje algoritama za klasifikovanje svake vrste objekata, ili čak samo one uobičajene, masovno je složen zadatak. Ali možda ćemo moći osposobiti računarske neuronske mreže - DL se automatski prilagođava u vremenu - za pouzdano detektovanje mnogih uobičajenih objekata u našem okruženju. Sledeći korak je proširiti zbirku mogućih klasifikacija, a zatim spojiti detekciju na osnovu slika sa podacima o mapiranju okruženja u stvarnom vremenu prikupljenim iz AR sistema praćenja. Nakon što postignemo da AR sistemi detektuju i klasifikuju svet oko nas, možemo započeti projektovanje adaptivnih AR sistema.
  • Osnovna verzija adaptivnih VR sistema je projektovanje različite veličine okruženja. Potrebno je mnogo godina razvoja da bismo shvatili kako stvoriti uverljiva iskustva koja se mogu prilagoditi naizgled beskonačnom skupu promenljivih okruženja - od tlocrta do visine plafona do rasporeda nameštaja i još mnogo više - u milijardama različitih domova i zgrada, a da ne spominjemo otvorene prostore. Neophodno je osmisliti prilagodljive AR aplikacije koje će iskoristiti stvarni prostor i predmete oko nas, i kroz vrlo pametan dizajn, smisliti upravljanje ogromnim brojem varijabli koje dolaze sa tim

Fizička ograničenja i tehnološka ograničenja/mogućnosti - dovoljna količina informacija?Informacioni protok vizuelnog sistema čoveka procenjuje se projekcijom slike na retinu rezolucije 500 Mpix protoka 100 Gbps koji se dalje smanjuje kodovanjem na optičkom nervu na 1 MBps. Ukupna količina primljenih informacija u toku perioda od 18 godina je približno 0.75 PB. Procenjuje se da je svaka sinapsa u stanju da zabeleži 4.7 bita (0.5875 bajta) informacija, tako da ljudski mozak skladišti 1.000.000.000.000.000 bajtova podataka, odnosno 1 PB. A jedan petabajt podataka jednak je 13.3 godina televizijskih HD snimaka, 4.7 milijardi knjiga ili 670 miliona veb stranica. Video projekcija 2D scene rezolucije 4K (3840x2160x60x10x1.5) generiše 7.5 Gbps. Tehnološki zahtev komunikacionog protoka komprimovanih podataka VR sistema rezolucije 30 Kpix procenjuje se na 5.2 Gbps (30Kx24Kpix x 12x3bpp x 60fps x2stereo /600CG). Aktuelne su implementacije volumetrijskih video sistema koji ostvaruju protok 3 TB u minuti. 3D projekcioni sistemi zahtevaju 1 TRaysps za ostvarivanje pune paralakse na ekranima dijagonale 10 inch. Za korektnu akomodaciju oka neophodno je 1Ray na 3/10 stepeni vidnog polja posmatrača 160x135 stepeni (makula 13 stepeni, centralna fovea 3 stepena, optički disk 7x5 stepeni) [D.A.M] 
Ograničenja bioloških sistemaKada govorimo o čulima pomislimo na vid, ukus, miris, sluh i dodir. Međutim, postoje i drugi načini da uočimo svet oko sebe i svoje mesto u njemu. Propriocepcija je čulo uz čiju pomoć smo svesni položaja svog tela, dok je transmisija čulo bola. Takođe, posedujemo čulo za ravnotežu, a srednje uvo je za to krucijalno. Uz ova čula, posedujemo i ono za telesnu temperaturu, osećaj vremens i ubrzanje. Mogli bismo reći da živimo u svetu u kojem su naša čula izložena neprestanim napadima sa svih strana. Brojni potencijalni podražaji u neposrednom okruženju mogu dopreti do naših čula u svakom trenutku. Nadalje, naše okruženje je ponekad stabilno a ponekad ne. Dakle, stalno postoji neverovatna raznolikost podražaja. Ipak, iz svih ovih informacija izdvajamo nešto razumljivo i taj zadatak obavljamo bez napora. Ova izvanredna efikasnost omogućena je funkcionisanjem osnovnih mehanizama percepcije.Percepcija podrazumeva ekstrakciju i kodovanje korisnih informacija iz nepouzdanih signala i šumova. Osnovni cilj je postizanje maksimalne korisnosti akcija u ostvarivanju željenog ponašanja. Procesorske mogućnosti bioloških sistema (fiziologija+metabolizam) su ograničene a senzorske informacije su kompleksne, tako da je neophodno odbaciti redundantne informacije. Dobar i efikasan sistem precizno i pouzdano rešava značajne perceptualne zadatke. Optimalni kognitivni sistem maksimizira korisnost akcija pod unutrašnjim ograničenjima memorije i procesiranja informacija, kao i spoljašnjim ograničenjima ciljeva sistema i strukture okruženja [D.A.M]
Simetrija - telesni planovi i evolutivni pritisciAko se pitamo zašto smo mi, zajedno sa 99 odsto živog sveta, simetrični po jednoj vertikalnoj osi, odgovor je najverovatnije zato što je bilateralna simetrija tako stara i tako fundamentalna osobina. Ako se pitamo kako se razvila i proširila – na to pitanje ćemo morati čekati. Postoji konsenzus da simetričnost pomaže kretanju: ako je telo simetrično, omogućava lakše prevazilaženje otpora vode (sasvim je sigurno da se kretanje prvo pojavilo u moru). Međutim, ova simetričnost nije obavezno bilateralna – i meduze imaju relevantno rešenje ovog problema:-) Drugim rečima, za potrebe kretanja evolucija nije mnogo izbirljiva po pitanju tipa simetrije. Međutim, možda postoje bitnije prednosti bilateralne simetrije nego prilikom kretanja i okretanja. Jedna pretpostavka je da je ova simetrija omogućila razvoj digestivnog trakta, kao i prvih čulnih sistema (preteča oka). Spoljna simetrija je onda samo posledica potreba unutrašnjih organa.Evolutivni činioci favorizovali su bilateralnu simetriju. Međutim, jednom kada je takav telesni plan došao u stadijum fiksacije, prirodno je počeo da diktira razvoj drugih osobina. Čulni sistem, varenje, lokomocija, kasnije različiti nervni sistemi – svi oni zavise od simetričnosti jedinke u kojoj se razvijaju, i razvijaju se u odnosu na nju. Simetričnost nije samo osobina u fiksaciji, ona je fundamentalna. Simetričnost se vrlo rano ustalila kao osnova telesnog plana ogromnog broja životinja. Nakon što su se desili prvi bitni evolutivni proboji u okviru bilateralne simetrije, evolucija nije imala drugde nego da deluje u okviru ovog novog strukturalnog ograničenja. Sudeći po diverzitetu živog sveta na našoj planeti, ona sa time nije imala problema.
Dodir - taktilna rukavicaBez napora manipulišemo objektima i alatima primjenjujući precizno kontrolisane sile. Možemo osetiti, odmeriti i hvatati različite objekte, i istovremeno utvrditi osobine materijala primenom odgovarajuće sile držanja rukama. Mreža mehanoreceptora generiše senzorske povratne informacije i omogućuje spretno hvatanje objekata. Proučavanje mehanike načina na koji ljudi hvataju objekte dopunjava manipulaciju objektima zasnovanu na čulu vida. Međutim, nemogućnost snimanja i analize taktilnih signala trenutno ograničava naše razumevanje uloge taktilnih informacija u hvatanju i držanju različitih objekata. Mreža senzora (piezorezistentni film) ravnomerno raspoređeni na test rukavici koriste se za identifikaciju pojedinačnih objekata, procenu njihove težine i istraživanje tipičnih taktilnih obrazaca koji se pojavljuju pri hvatanju objekataMeđutim, veliki taktilni skupovi podataka o ljudskim zahvatima koji pokrivaju celu ruku ne postoje jer je gusto prekrivanje ljudske ruke sa osetljivim senzorima izazovno. Senzori osetljivi na dodir dolaze sa strogim zahtevima za oblik pokrivene površine, rezoluciju i mehaničku usklađenost. Prostorne korelacije i korespondencija između regija prstiju koje se pojavljuju iz skupa podataka predstavljaju taktilne potpise strategije ljudskog hvatanja. Na osnovu sličnosti percepcija primitivnih oblika u vizuelnom i taktilnom domenu, i na osnovu rezultata studija vizuelne percepcije određen je minimalan broj taktilnih senzora. Matrica senzora formira film osetljiv na silu, predstavljen mrežom ortogonalnih provodnih niti na svakoj strani rukavice. Svaka tačka preklapanja između ortogonalnih elektroda je osetljiva na silu pod pravim uglom, modulirajući električni otpor kroz film osetljiv na silu. Laminat rukavice je tanak mehanički i fleksibilan. Ljudi su sposobni povezati slična hvatanja na osnovu motoričkih pokreta, i identifikaciju objekta verovatno je bolje izvršiti na izboru najizrazitijeg (informativnog) skupa zahvata. Uočeno je da su predmeti sličnih oblika, veličina i težina komplikovaniji za prepoznavanje. Za procenu težina objekata na osnovu taktilnih interakcija, koristi se ograničen skup podataka zahvata sa više prstiju gde je objekt pokupljen odozgo. Analiziran je tipičan redosled taktilnih mapa neposredno i nakon što je predmet uhvaćen. Ruka se postepeno sve više artikulira kako bi dobro zahvatila objekt, za to vrijeme se proprioceptivni signal u taktilnoj mapi postepeno povećava sve do kontakta tokom faze "dohvata". Kada se prvi put uspostavi kontakt s objektom (faza opterećenja), srednja vrednost pritiska se naglo povećava, što prouzrokuje oštar vremenski gradijent. Ovakav pristup pomaže u dekompoziciji taktilne mape u signale pozicije ruke i mape pritiska povezanog sa objektom. Efikasnost pristupa je dokazana malom strukturnom korelacijom između senzora na vrhovima prstiju i pune ruke sa signalom pozicije ruke. Kanonična-korelacijska analiza na dekomponovanoj objektno povezanoj taktilnoj mapi na različitim delovima ruke pokazuje saradničku ulogu između distalnih falangi velikih prstiju, koji se najčešće koristi u stvaranju sila u toku hvatanja objekta. U drugim falangama, raspodela je jednoličnija, što odgovara zatvorenim šakama gde je veliki deo površine ruke u dodiru sa predmetom. Korelacije između različitih senzora ukazuju na saradnju različitih regiona ruke; poznato je da je priroda ljudskog hvatanja kolaborativna. Direktno testiranje proprioceptivnog sadržaja taktilnih signala, zasnovano je na artikulisanju određenih pozicija ruke u odsustvu objekta na osnovu standardne taksonomije hvatanja. Dopunska analiza vremenskih odnosa senzora ukazuju na dinamiku ljudskih pokreta i doprinose ukupnom razumevanju principa manipulacije objektima [D.A.M] 
Kvalitet slikeKvaliteta slike je subjektivna procena mentalnom komparacijom test slike sa impresijom zapamćenom manje ili više jasno od strane posmatrača. Potpuna procena još je nemoguća. Prvi pristup je uzeti u obzir fizičke atribute slika koje posmatrač prihvata kao prijatne ili neprijatne. Razumevanje kako promene ovih atributa uzrokuju perceptivne promene, je osnova procene kvaliteta slike merenjem fizičkih atributa. Brojne studije u području vizuelne psihofizike i vizuelnih neuronauka su kvantifikovale odnose između fizičkih atributa vizualnih podražaja i odgovarajućih psiholoških i neurofizioloških odgovora. Rezultati istraživanja su dali važan uvid u HVS funkcije ljudskog čula vida. Istraživanja vizuelne psihofizike ima za cilj bolje razumevanje HVS povezivanjem promena u fizičkim atributima vizuelnog podražaja sa odgovarajućim promenama u psihološkim odgovorima (vizuelna percepcija i spoznaja). Studije uključuju pažljivo osmišljene eksperimente na ljudskim subjektima u kontrolisanim uslovima posmatranja. Međutim, mora se naglasiti da je naše sadašnje razumevanje HVS, a time i računarskog modela koji se upotrebljava u proceni kvaliteta slike, daleko od potpunog. Velika većina računarskih modela ne obuhvata pojave izvan primarnog vizualnog korteksa (V1), a mnogi istraživači tvrde da su čak i sadašnji V1 modeli još uvek nepotpuni. Analiza vizuelnih podražaja u V1 je samo jedan od doprinosa vizuelnoj percepciji, a da ne govorimo nadalje o proceni kvaliteta slike. Drugi pristup proceni kvaliteta je direktno prikupljanje ocena reprezentativnog skupa ljudskih subjekata na bazi test slika. Rezultati istraživanja objavljuju se na bazama podataka kvaliteta koje sadrže skup referentnih i test slika, zajedno sa odgovarajućim prosečnim ocenama kvaliteta za svaku sliku [D.A.M]
Perceptualni realizam - ograničenja VR sistemaFaktori vernosti opažanja su realizam scene, konzistentnost modela sa fizičkim objektima, prirodnost interakcije i smislenost iskustva.Naša potreba da rekonstruišemo 3D scenu oko nas je evidentna. Naš san je oduvek da verno prikažemo objekte na način da ne možemo razlikovati u odnosu na prirodu. Perceptualne metrike zasnivaju se na parametrima kvaliteta niskog nivoa, kao i na kognitivnim i emocionalnim parametrima višeg nivoa [D.A.M] 
Ultimativni realizamDostupna tehnologija je sve više prirodna, personalizovana, intuitivna, jednostavna, prihvatljiva, automatska, pametna, stvarna :-)Početkom 1990ih postojao je ogroman javni interes za VR. Međutim, polovinom dekade očekivanja se raspršila usled činjenice da VR sistemi ostvaruju neubedljiv doživljaj, dizajn uređaja je neobičan i zastareo, neisplativi su i nedostupni u našim stanovima. Od sinonima za budućnost, VR je izbledela iz javnosti i prešla u standardnu priču o neslavnom kraju. Međutim, istraživanja su nastavljena u narednim godinama i konačno, tehničko-tehnološki i tržišni ambijent se promenio u današnjih 15 godina, do 2020. Ultimativni zahtevi postaju ostvarljivi od 2016. godini, značajne investicije su u istraživanje i razvoj, novi proizvodi se pojavljuju na tržištu široke potrošnje. Napredak u razvoju 3D senzora i akvizicije pokrenuo je novi talas inovacija u kreiranju VR/AR/MR sadržaja i komunikacija, kao i 3D monitoringa u pametnim gradovima, robotici i aplikacijama autonomnih vozila. Postoji veliki interes VR tržišta za rešenjima digitalne rekonstrukcije stvarnog okruženja u tri dimenzije koja omogućava krajnjim korisnicima slobodnu navigaciju u digitalnom modelu. Volumetrijski 3D Video u Point Cloud formatu opisuje kompletnu scenu i omogućava vizualizaciju iz proizvoljnje tačke posmatranja, tako da predstavlja ključnu tehnologiju za VR/AR/MR aplikacije sa 6DoF stepenom slobode [D.A.M]
XR platformaPočetkom 2019. godine AR/VR/MR tržište samostalnih HUD napokon je naraslo toliko da su opravdani troškovi projektovanja i proizvodnje namenske XR1 SOC platforme, uključujući VLSI tehniku i još skuplje kampanje za razvoj dve klase novih proizvoda. Integracijom funkcija kvalitetnih video i audio formata, kao i bogate interakcije, HUD uređaji su postali ekonomični 3DoF (Oculus Go) i premijum kvaliteta 6DoF (Lenovo Mirage). Platforma XR1 je heterogene računarske arhitekture (CPU ARM, GPU Adreno, DSP Vector processor, AI Engine). Omogućena je upotreba veštačke inteligencije (frameworks Caffe, TensorFlow, ONNX) i pokretanja energetski efikasnih algoritama za mašinsko učenje (ML) u predviđanju pozicije i orijentacije, klasifikacije objekata, prepoznavanju govora i govornika.
  • XR1 video funkcionalnosti podržavaju 4K@60fps rezoluciju visokog kvaliteta. Integrisani procesor za projekciju slike podržava hardverski ubrzanu kompoziciju, podršku za dva ekrana, 3D slojeve i vodeće grafičke API (OpenGL, OpenCL, Vulkan) za programiranje aplikacija. Platforma omogućava napredne mogućnosti obrade video signala, osnove za VIO tehnologiju vizuelne inercijalne odometrije, koja korisnicima omogućuje kretanje u virtualnom svetu ili interakciju sa proširenim objektima u AR iskustvu. 
  • XR1 audio funkcionalnosti podržavaju doživljaje visoke vernosti, always-on wake-word glasovnu aktivaciju, kao i 3D Audio HRTF i Bluetooth reprodukciju. 
  • Interakcija je omogućena u tri ili šest stepeni slobode (3DoF, 6DoF) praćenja položaja glave i kontrolerima za XR uređaje. Integrisano senzorsko čvorište i optimizirane sposobnosti fuzije senzora omogućuju korisnicima bogate interakcije sa pokretima i latencijom pokret-foton znatno ispod teorijski potrebnih 20 ms.

Konvergencija VR i dizajnaAR duboko utiče na umetnost i inženjering arhitekture, i dizajna. Ako je VR budućnost modela gline ili šperploče, AR je budućnost olovke, papira i lenjira koji su prvo pretvorili snove u dizajn.Iskustvo je kao putovanje kroz vreme. Pomoću AR sistema, posmatrač može videti kako je nekada izgledala zgrada, kako je izgledala u toku gradnje i kako zgrada izgleda danas. Inženjeri mogu upotrebiti AR kako bi potvrdili da je zgrada izgrađena u skladu s planovima. Još jedna velika prednost AR je korištenje BIM (Building Information Modeling) digitalnog 3D modela. Kao što je izgled zgrade jedno iskustvo, akustika unutar i izvan zgrade pažljivo je izrađena i prerađena. Dizajneri mogu čuti kako bi lokacija mogla zvučati nakon dovršetka prema modelu koji su napravili. Takođe mogu čuti šta pojedinac u gomili može čuti, ako je prostor javni. Kombinujući vizuelni AR prikaz sa binauralnim dizajnom, koristeći kombinaciju BIMa, snimljene zvukove i modelovane zvukove moguće je stvoriti vizuelno i auditorijalno prošireno iskustvo. To je iskustvo koje dizajnerima, inženjerima, klijentima i radnicima omogućuje da bolje konstruišu našu budućnost.Dizajneri, arhitekte i inženjeri su zainteresovani za proces, iskustvo, za što je AR podesna. Sa druge strane, VR je prikladnija za krajnji proizvod: predstava za klijenta ili način da se investitorima pomogne vizuelno razumevanje novog prostora. AR je alat. VR je medijum za prikazivanje [D.A.M]
Konvergencija VR i TVAudio-vizuelna komunikaciona tehnologija ostvarila je ogroman napredak u poslednjih nekoliko decenija. Televizijsko emitovanje evoluiralo je od standardne rezolucije 25 isprepletenih crno-belih kadrova u sekundi, do TV u boji i odnedavno i proširenog gamuta WCG i dinamike HDR u rezoluciji 4K/8K. Akvizicija i reprodukcija slike visokog kvaliteta postali su stvarnost zahvaljujući naprednim senzorima i monitorima visoke sjajnosti do 4K nita i brojem kadrova do 120 u sekundi. Testiran je 3D format (stereoscopic, multi-view) sa izvesnim uspehom, dok najnoviji prototipovi i rane verzije uređaja za omnidirekcioni i imerzivni format nagoveštavaju dalji razvoj. Sličan napredak je postignut u audio tehnologiji, tako što je mono format zamenjen stereo, surround i 3D formatima u poslednjoj dekadi. Nadalje, način potrošnje audio-vizuelnih sadržaja je izmenjen, a širok opseg usluga omogućava nova iskustva zahvaljujući inovacijama u načinu arhiviranja informacija i isporuci korisnicima, zahvaljujući snažnim i funkcionalnim uređajima i infrastrukturi koja omogućava mobilne i audio-vizuelne komunikacije. Paralelno sa ovim napretkom učinjeni su pokušaji procene kvaliteta novih iskustava na pouzdan, tačan i ponovljiv način, ne samo da ih bolje kvantifikujemo, već i da optimiziramo kompletan produkcioni medijski lanac od kreiranja do potrošnje za ciljani nivo iskustva.Danas korisnici mogu pristupiti VR sadržaju pomoću dva tipa HMD (head-mounted display) ekrana: 6DoF omogućava 6 stepeni slobode, 3DoF omogućava 3 stepena slobode. Razlika je u ograničenom kretanju posmatrača. U 6DoF slučaju, korisnici se pomeraju i menjaju svoju poziciju i orijentaciju na sceni, dok u 3DoF slučaju korisnici su ograničeni na jednu poziciju tela i ugao posmatranja okruženja određuju promenom orijentacije glave i HMD ekrana. 3DoF+ dodatno omogućava i ograničeno translaciono pomeranje torza korisnika. Video 360° format obuhvata 360° horizontalnog i 180° vertikalnog vidnog polja u odnosu na fizičku lokaciju posmatrača. U 3DoF+ slučaju neophodna je rekonstrukcija interaktivne paralakse posmatranja objekata bliskih posmatraču koja smanjuje vizuelni diskomfor i povećava prirodnost scene. Video 360° format (spherical, omnidirectional, surround videos) obuhvata računarski generisan VR kada je sadržaj primarno prikazan iz 3D modela u stvarnom vremenu na korisničkom uređaju, i kada je sadržaj prvenstveno zasnovan na video zapisu. Format obuhvata i kombinaciju video zapisa i računarski generisanog ulaza, kada se stvara iskustvo imerzije pomoću oba tipa sadržaja. I konačno, format obuhvata i panoramske 2D (monoskopske ili stereoskopske) slike prikazane na HMD ekranima. Konvergencija povezanih televizijskih ekosistema i VR sadržaja i uređaja omogućava nove fascinantne scenarije. U tom kontekstu, VR doprinosi ne samo povećanju angažovanosti korisnika, već i povećanju imerzije, suprisutnosti i umreženog zajedništva (osećaj združenosti u zajedničkim virtualnim scenarijima, dok su na udaljenim lokacijama). Uzimajući u obzir sadašnju heterogenost sadržaja i potrošačkih uređaja, neophodna su unazad kompatibilna rešenja usklađena sa standardima kompletnog lanca sa kraja na kraj. Neophodni su novi oblici akvizicije sadržaja, produkcije, pripovedanja, kodovanja, distribucije i potrošnje koji omogućavaju različite verzije i formate audio-vizuelnih i VR sadržaja, koji se mogu interaktivno selektovati i prikazati na više uređaja u scenarijima na više ekrana, na koherentan, intuitivan i personalizovan način. Cilj je ponuditi istinske društvene doživljaje između korisnika smeštenih u udaljenim kućnim scenarijima, na osnovu fotorealističnog sadržaja, i to na ekonomičan način. Sa jedne strane, neophodno je projektovati kompletne produkcione procese koji integrišu najsavremenije tehnologije i dostupnu opremu. Sa druge strane, neophodna su inovativna rešenja i optimizacija ključnih tehnoloških i kreativnih aspekata kompletnog produkcionog procesa.Nastanak digitalne televizije (DTV) prati se sve većim naporima u smeru stvaranja vizuelnog sadržaja višeg kvaliteta sa realističnim osećanjima. To uključuje razvoj veće prostorne/vremenske rezolucije (HD->4K->8K) / (30->240 frame rate), višeg kontrasta boja i dinamičkog raspona (HDR) i stereo uređaja za višestruko snimanje i prikazivanje (multi-view). Osim toga, paralelni napori se nastoje usmeriti prema direktnom snimanju i volumetrijskom prikazivanju geometrije i teksture 3D tačaka radi potpunog interaktivnog iskustva (VR/AR/MR, 2.5 DoF->6 DoF). Ovi industrijski trendovi zauzvrat su bili ključni činioci u razvoju 2D/3D standarda komprimovanja videozapisa, kao što su AVC/H.264, HEVC/H.265 i MVC, kao i najnoviji VVC i kompresija oblaka tačaka (PCC) [D.A.M]
Virtuelni prostor slika - od iluzija do imerzijeNikada se svet slika oko nas nije menjao tako brzo kao što je to slučaj u poslednjih nekoliko godina, nikada nismo bili izloženi toliko različitim svetovima slika, a nikada nije način na koji se stvaraju slike promenio tako fundamentalno. Pojavom novih tehnika za generisanje, distribuciju i prezentaciju slika, računar je transformisao sliku i sada sugeriše da je moguć 'ulazak' u sliku. Sugestivan je utisak da uranjamo u prostor slike, krećemo se i integrišemo u 'realnom vremenu' u interakciji. Virtualne stvarnosti - i prošle i sadašnje - u suštini su imerzivne. Izraz 'virtualna stvarnost' je paradoks, kontradikcija u terminima, i opisuje prostor mogućnosti ili nemogućnosti formiran čulnim iluzijama. Imerzija je nesumnjivo ključna za svako shvatanje razvoja medija, iako se taj koncept čini pomalo netransparentnim i kontradiktornim. Tradicija koncepta slike i imerzije je duga i složena. U istorijskom kontekstu, virtuelna realnost se može relativizirati, adekvatno opisati i kritikovati u smislu fenomenologije, estetike i nastanka. Istorijska geneza započinje širokom, prvenstveno europskom tradicijom slikovnih prostora iluzija, koju pronalazimo u privatnim seoskim vilama i gradskim kućama, kao što su kultne freske u Pompeji, gotička fresco soba, i mnogi primeri renesansnih iluzijskih prostora. Iluzijski prostori takođe su dobijali na važnosti u javnom domenu, o čemu svedoče krovne panorame baroknih crkava. Svi ovi primeri slikovnih prostora za stvaranje iluzija nisu, očigledno, tehnički uporedivi sa iluzijama koje su sada moguće uz pomoć računara, koje korisnik može interaktivno doživeti. Međutim, primeri jasno pokazuju kako su u svakoj epohi učinjeni izvanredni napori da se proizvede maksimalna iluzija raspoloživim tehničkim sredstvima (panorama, stereoskop, Cineorama, stereoskopska televizija, sensorama, expanded cinema, 3D, Omnimax, IMAX cinema, kao i ekrani montirani na kacigi u vojnim primenama).
  • [60 BC] spektakularno oslikana scena gotovo u potpunosti ispunjava vidno polje promatrača (Great Frieze - Villa dei Misteri - Pompeii) prekriva potpuno zidove sobe br.5 sa 29 vrlo realističnih likova u prirodnoj veličini na pozadini sjajnih crvenih i mermernih inkrustacija, ritmiziranih i grupisanih u oecusu dimenzija 5x7 metara
  • [1343.] fresko oslikana scena iz lova formira potpuni prostor iluzija (Chamber of the Stag - Tour de la Garde-Robe - Avignon) prekriva 4 zida dimenzija 8x9 metara 
  • [1518.] oslikani prostor sa iluzijom dubine (Sala delle Prospettive - Villa Farnesina - Rome) prekriva potpuno zidove sa fresco oslikanom dvoranom sa stubovima u perspektivi koja okružuje posetioce sobe i sa dodatnim 3D arhitektonskim elementima koji naglašavaju imerziju
  • [1822.] imerzija Biblijskog Jerusalema (Complex Sacro Monte - Varallo)
  • [1694.] barokne panorame na svodovima (The Nave - Sant’Ignazio, Rome)
  • [1793.] soba iluzija (Drakelowe Hall - Derbyshire) camera obscura
  • [1793.] kompletan kružni/konkavni kanvas/panorama u korektnoj perspektivi (Panorama Rotunda - Leicester Square, London)
  • [1922.] kružna panorama 8 slika u ovalnim sobama (Claude Monet - Musée de l'Orangerie - Giverny, France)
  • [1939.] Futurama (World’s Fair - New York)
  • [1962.] Sensorama Simulator (M. Heilig)
  • [1984.] Omnimax Theater (IMAX Dome)
  • [1862-2018] Pepper's Ghost (Pulse Evolution, BASE Hologram]

Pokretne slike (filmovi) su sastavni deo našeg svakodnevnog života i zanimljivo, oni su već dosta dugo sa nama. 
  • [1820-1830 Phenakistiscope] prvi poznati praktični uređaj za stvaranje iluzije kontinuiranog kretanja na osnovu posmatranja niza odštampanih statičnih slika oko kružnog diska
  • [1820-1860 Zoetrope] uređaj je posedovao crteže objekata u pokretu unutar rotirajućeg bubnja, posmatrač slike gleda kroz uski vertikalni prorez sa strane bubnja
  • [1870 Zoetrope] prva prekretnica razvoja filma: fotografska tehnika razvijena u studijama faza pokreta jednog predmeta
  • [1870 Camera array] druga prekretnica razvoja filma: E. Muybridgea pravi snimke konja u pokretu nizom od 24 i više fotografskih aparata i kasnije projektuje na ekran (prva poznata filmska slika)
  • [1893 Kinetoscope] prvi svetski glumci na filmu snimljeni su i reprodukovani u javnosti (Blacksmith Scene) pomoću uređaja koji je posedovao mali prozor na vrhu za posmatranje scene
  • [1895 Vitascope] najranije poznati primer (Annabelle Serpentine Dance) ručno obojenog filma; patentiran prvi pravi filmski projektor i sledeće godine otvorena prva zgrada posvećena isključivo prikazivanju pokretnih slika (New Orleansu)
  • [1900- ] mnoge nove tehnike (stop-motion, true color film, early 3D), bioskop postaje uobičajen a formira se i studio za snimanje filmova (Disney, Universal, Paramount, 20th Century Fox)
  • [1950-1960] zlatno doba razvoja (vizualni efekti)
  • [1990- ] moderne tehnike (CGI, 3D)
  • [2000- ] računarska animacija, VR&AR...

NA SCENI

Na sceniKoncept prisutnosti SoP (Sense of Presence) je značajan u brojnim disciplinama kao što su komunikacije, kognitivne nauke, računarske nauke i inženjering, filozofija, psihologija i umetnost.Osećaj prisustva je složena, multidimenzionalna perceptualna i psihološka konstrukcija. Karakteristike posmatrača obuhvataju opseg individualnih i kulturoloških razlika. Faktori medija su objekti, akteri i događaji a promenljive su naracija, identifikacija/saosećanje sa likovima, društvena interakcija, emocije i predznanje. Emocije su esencijalne deo doživljaja okruženja i imaju važnu ulogu u našim subjektivnim procenama i automatskim odgovorima, utiču na proces učenja i način kako shvatamo, opisujemo i reagujemo na okruženje i kako doživljavamo sebe. Format medija zavisi od osobina projekcije/rekonstrukcije (realističnost senzorskih informacija) i neophodna je transparentnost. Formalni tehnološki faktori su prostorne i perceptualne naznake kao što su široki prostorni vidni ugao, praćenje pogleda, stereoskopija, prostorni zvuk, unutrašnji model orijentacije tela, mape i orijentiri, prostorna interakcija. Ključni faktori u doživljaju prisustva su imerzija, interakcija i perceptualni realizam. Imerzija je objektivni opis tehnologije, a osećaj prisustva je subjektivni doživljaj. Prisustvo je kognitivni ili perceptualni parametar, dok je imerzija u funkciji tehnologije. Stepen doživljaja prisutnosti zavisi od fokusa i selektivne pažnje, učešća i imerzije. Faktori koji doprinose osećaju prisustva su senzorski (modaliteti, složenost okruženja, multimodalna rekonstrukcija, konzistentnost multimodalnih informacija, stepen percepcije pokreta, aktivno traganje) i faktori realizma (realizam scene, konzistentnost informacija sa fizičkim svetom, smislenost iskustva, odvajanje anksioznost/dezorijentacija). Sposobnost kontrole i učešće, selektivna pažnja i perceptualna vernost, kao i prirodnost interakcije su najznačajniji faktori [D.A.M]
Virtuelno okruženjeTermin imerzija se nekonzistentno upotrebljava i dodatno slabi kada se upotrebljava i u značenju prisutnosti i angažovanja. Imerzija se može definisati kategorijama koje predstavljaju dimenzije taksonomije: imerzija kao osobina sistema koji rekonstruiše virtuelnu scenu i kao perceptualni odgovor na takav sistem, imerzija kao subjektivni odgovor na narativni sadržaj (virtuelne karaktere) i izazove (intelektualne, senzorno-motorne) veštačke stvarnosti. Najčešće se imerzija definiše kao objektivna osobina sistema ili subjektivno stanje posmatrača. Imerzija je složen fenomen koji angažuje višestruke neuro-psihološke nivoe kao što su percepcija, pažnja i emocije. Postoji niz drugih koncepata povezanih sa imerzijom (flow, presence, engagement, engrossment, cognitive absorption, narrative involvement, transportation). Prostorna imerzija (embodied immersion: non-diegetic, situated, physical, sensory(-motoric), perceptual, spatial, egocentric, visceral) omogućava posmatraču osećaj fizičkog prisustva i interakcije sa virtuelnim objektima. Emocionalna imerzija (diegetic, mental, imaginative, fictional, cognitive & emotional, psychological, narrative, exocentric, vicarious, self-presence) omogućava posmatraču da formira mentalnu reprezentaciju doživljaja realnog okruženja na osnovu mašte ili drugih psiholoških, kognitivnih ili emocionalnih mehanizama. Specifične komponente imerzije su realizam, osećaj fizičkog prisustva, prostorna orijentacija, emocionalni aspekti, senzorske naznake, osećaj kretanja [D.A.M] 
Quality of physical experienceA truly immersive AR/MR/VR experience requires a joint design integrating not only engineering (wireless, computing, storage) requirements but also perceptual requirements stemming from human senses, cognition, and physiology. Minimal and maximal perceptual requirements and limits must be factored into the engineering process (computing, processing, etc.). To do so, a new concept of quality-of-physical-experience (QoPE) measure is needed to merge physical factors from the human user itself with classical QoS (e.g., latency and rate) and QoE (e.g., mean-opinion score) inputs. Some factors that affect QoPE include brain cognition, body physiology, and gestures. Visual and haptic perceptions are key for maximizing wireless resource utilization. Concisely, the requirements of XR services are a blend of traditional URLLC and eMBB with incorporated perceptual factors that 6G must support.QoPE capturing raw wireless metrics as well as human and physical factors. The design of QoPE metrics that integrate physical factors from human physiology (for HCS services) or from a control system (for CRAS) is an important 6G research area, especially in light of new, emerging devices (Trend 7). This requires both real-world psychophysics experiments as well as new, rigorous mathematical expressions for QoPE that combine QoS, QoE, and human perceptions. Theoretical development of QoPE can be achieved using techniques from other disciplines such as operations research (e.g., multi-attribute utility theory and machine learning. 6G will be the first generation to enable a new breed of applications (wireless BCI) leveraging multiple human cognitive senses.

Imerzivno okruženjeImerzivna i interaktivna tehnologija kao što je virtuelna svarnost VR predstavlja prekretnicu u načinu interakcije u okruženju, štaviše u načinu kako osmišljavamo nove pristupe našeg odnosa sa stvarnošću. Informacione i komunikacione tehnologije (ICT) raspolažu značajnim potencijalom transformacije stvarnog sveta i načina naše interakcije. Neophodno je definisati i analizirati moguće implikacije i uticaj kako mediji i komunikacije kreiraju nove poruke i pristupe kulturi (“The Medium is the Message”). VR nije samo tehnologija, takođe je i koncept podrške novim stvarnostima neviđenim i nedoživljenim do sada. VR raspolaže brojnim mogućnostima interakcije, posebno u imerzivnom pristupu koji obuhvata ljudska čula i perceptivne komunikacione kanale. 3D imerzivna interaktivna okruženja predstavljaju i polja za razvoj inovativnih i kreativnih ideja i koncepata iz perspektive umetnosti [D.A.M]
Imerzivna analitikaImerzivna analitika (IA) obuhvata primenu alata za analizu u podršku kolaboraciji i angažovanom istraživanju podataka i donošenju odluka. Analitika se oslanja na područja vizualizacije podataka, vizualne analitike, virtuelne i mešovite stvarnosti, računarske grafike i interakcije čovek-računar. Cilj je ukloniti prepreke između ljudi, njihovih podataka i alata koji se koriste za analizu. Cilj je podržati razumijevanje podataka i donošenje odluka u svim aplikacijama od strane svakog, radeći pojedinačno ili u grupi. Iako se to može postići upotrebom tehnologija virtuelnog okruženja, multisenzornih prikaza, materalizacije podataka, prirodnih interfejsa ili responsivne analitike, područje imerzivne analitike nije vezano za upotrebu specifičnih tehnika. Područje istraživanja obuhvata tehnike koje omogućavaju neometanu lokalnu i udaljenu kolaboraciju upotrebom podataka iz imerzivnog okruženja. Idealna tehnologije nije dostupna, istražuje se prostor projekata i razvijaju neophodni displeji i interaktivne tehnike upotrebom postojećih tehnologija. Živimo u vremenu u kojem količina i složenost podataka koji su nam dostupni daleko nadmašuju našu sposobnost razumevanja ili upotrebe u donošenju odluka. Šira javnost sve više pristupa personaliziranim podacima, IoT i drugim senzorskim podacima, kao i društvenim medijima. U posljednjih nekoliko godina beležimo nagli napredak u razvoju i dostupnosti imerzivnih tehnologija, kao što su virtualna i proširena stvarnost, veliki zidni, ručni ili nosivi ekrani. Napredak u tehnologiji senzora i primena tehnologija mašinskog učenja za interpretaciju gestikulacija i oglašavanja korisnika postaknuli su razvoj prirodnih intefejsa koji koriste govor, pokret i dodir. Kombinacijom ovih novih tehnologija projekcije i interakcije gradi se evolucija načina na koji ljudi koriste računare i nudi novi pristup analizi podataka i donošenju odluka. Međutim, nedostaje fundamentalno znanje projektovanja odgovarajućeg interfejsa čovek-računar u vizualizacija podataka. Osnovne prednosti IA u odnosu na tradicionalnu vizuelnu analitiku: situaciona analitika u kojoj su analitički podaci povezani sa objektima u fizičkom okruženju, istraživanje podataka (dodirom, pokretom, glasom) tako da je računar nevidljiv, nepristrasna i društvena kolaboracija, imerzija u 3D prostoru, multi-senzorska prezentacija, imerzivna interaktivna naracija povećava stepen učešća korisnika. Osnovna razlika vizuelne analitike i tradicionalne vizualizacije podataka je skaliranje ogromne količine podataka i proširenje direktnih zadataka niskog nivoa analize.Tehnološka imerzija okružuje korisnika u virtuelnom svetu. Psihološka imerzija je kognitivno stanje iskustva korisnika angažovanog na nekom zadatku. Prisutnost je subjektivno psihološko iskustvo boravka na udaljenom ili virtuelnom prostoru:
  • prostorno prisustvo je psihološko stanje u kojem se okruženje i objekti virtuelnog sveta doživljavaju kao fizički objekti
  • društveno prisustvo je psihološko stanje u kojem virtuelni akteri se doživljavaju kao društveni akteri u jednom virtuelnom prostoru sa određenim stepenom uzajamne svesnosti i psihološkog učešća aktera i interpersonalne komunikacije 
  • osećaj sopstvenog prisustva je psihološko stanje u kojem akteri doživljavaju sebe i mere efekat virtuelnog okruženja na percepciju sopstvenog tela.

Istraživači otkrivaju različite korelacije prisutnosti i osobine virtuelnog okruženja: 
  • inkluzija je stepen blokiranja stvarnog sveta, 
  • ekstenzivnost je opseg senzorskih kanala u okruženju - vizuelni, audio, dodir, miris...
  • životnost je stepen realizma virtuelne stvarnosti
  • proprioceptivni realizam (stepen podražavanja efekata pokreta u realnom svetu od korisnika u virtuelnom okruženju
  • autonomija delovanja je opseg delovanja korisnika u virtuelnom okruženju i ostvarene usluge
  • doživljaj i ponašanje je stepen sopstvene prezentacije učesnika virtuelnog okruženja
  • verodostojnost je stepen u kojem objekti i učesnici virtuelnog okruženja prate ponašanje u fizičkom svetu
  • prezentacija ostalih učesnika u virtuelnom okruženju
  • komunikacioni kanali su opseg verbalnih i neverbalnih komunikacija u okruženju [D.A.M]

Klasifikacija IMEx sistemaOd pojave prvih sistema virtualnih stvarnosti (VR) usmerenih prema korisnicima, raznolikost imerzivnih tehnologija ubrzano se povećava. Od 360º video do VR, naglašene stvarnosti, mešovita stvarnost, volumetrijske i računarski generisne slike do upotrebe sve složenijih haptičkih uređaja, čini se da inovacija na ovom području ne poznaje granice. Iz perspektive kreatora sadržaja, to može imati paralizujuće dejstvo! Koje tehnologije imaju budućnost a koje ne? Koja tehnologija je prikladnija za pripovedanje, edukaciju, istraživanje ili igranje?Umesto definisanja IMEx iskustava kroz tehnologiju koju upotrebljavaju, moguća je klasifikacija tehnologija na osnovu kriterijuma kako utiču na korisnike, a što nam daje bolje ideje kako funkcionišu, relativne prednosti kao i ograničenja u različitim korisničkim scenarijima. Kriterijumi klasifikacije su izolovanost (koliko je gledalac čulno izolovan od stvarnog okruženja), navigacija (kako gledalac evoluira u okruženju), interakcija (kako se gledalac razvija u okruženju) i modelovanje (kako se stvara okruženje). Mapiranje imerzivnih tehnologija na 4 ose i povezivanje sa vrstama korisničkih iskustava (pasivno pripovedanje, interaktivna igra, samostalno istraživanje), pojednostavljuje izbor odgovarajuće kombinacije tehnologija. Na primer, ako je cilj pripovedanje određene priče, korisnije je upotrebiti tehnologiju sa ograničenom opcijom navigacije i interakcije. Ako je cilj omogućiti simulaciju, poželjan je visok nivo izolovanosti u kombinaciji sa velikom slobodom i interakcijom, ali ova kombinacija nije najbolji izbor za postizanje specifičnog obrazovnog iskustva. U imerzivnim medijima ne postoje ispravne ili pogrešne tehnologije! Svaka pojedinačna tehnologija poseduje upotrebnu vrednost; tako da je neophodno uskladiti ciljeve kreatora sadržaja sa pravom kombinacijom tehnologija i omogućiti korisniku najbolje iskustvo u okviru postavljenih zahteva [D.A.M]Komunikacioni modelU konverzaciji razmenjujemo izuzetnu količinu informacija. Dva komunikaciona kanala su uobičajeno otvorena u svakom trenutku. Kognitivna komunikacija prati logičku strukturu i uzorke racionalnog jezika, razumljive za svakoga. Emocionalna komunikacija obuhvata izraze lica, ton govora, izbor reči i druge znake osećanja. U komunikaciji sa drugima, razumemo kognitivne i emocionalne poruke kao i njihov odnos. Sledeći faktor komunikacija je pamćenje koje obezbeđuje okruženje za promišljanje. Deljeno okruženje je kultura. Pamćenje sadrži naša očekivanja tako što koduje našu istoriju. Ne postoji komunikacija ako ne postoji pamćenje - komunikacija zavisi od očekivanja. Saznanje zahteva pamćenje, ali nije memorija. Misija kao svrha naše organizacije je finalni faktor komunikacionog ponašanja. Komunikacije prenose informacije, osećanja, pamćenje i ideje između ljudi. Komuniciramo paralelno na svih šest nivoa: fizički (sluh, vid, dodir, miris, ukus), informacioni (kodovanje/dekodovanje simbola), emocionalni (pažnja, povezanost, saosećanje), pamćenje (istorija, kultura), saznanje (kolektivno promišljanje), misija (svrha, cilj). Na informacionom nivou poruke se koduju, prenose uspostavljenim konekcijama i sinhronizuju. Sistem neizbežno sadrži šum (nerelevantne i informacije bez značenja) i izobličuje informacije u određenom stepenu. Efektivna komunikacija podrazumeva prenos maksimalne količine relevantnih informacija angažovanjem minimalnih resursa. Komunikacija je multimedijalna sa promenljivim značajem upotrebe pojedinačnih medija u različitim fazama misije. Komunikacioni protokoli koduju, formatiraju, usmeravaju i isporučuju poruke. Informacioni tok je usmeren, vremenski organizovan i sinhronizovan. Komunikaciju ometaju neizbežni šum i izobličenja originalnih poruka. Kada primimo poruku, mi osećamo i razmišljamo. Svaka smislena poruka sadrži osećajne i kognitivne komponente. Osećajna komponenta uspostavlja i stabilizuje stavove i uverenja. Sistem povezivanja uspostavlja koherentne grupe pojedinaca. Znanje je smešteno u individualnom i kolektivnom pamćenju. Pamćenje je osnova komunikacije i percepcije. Pamćenje ne garantuje uspešno promišljanje ali je neophodno. Efektivni sistemi pamćenja omogućavaju pohranjivanje i pretraživanje informacija. Kognitivni sistem razvija ideje, potvrđuje nove ideje, reorganizuje postojeće, eliminiše beskorisne ideje i znanje, transformiše informacije i osmišljava grupno znanje u postizanju ciljeva misije. Komunikacije koje podržavaju grupne misije sadrže dve komponente: skup reči i koncepata (sadržaj) i pravila upravljanja (protokol) razmenom, sinhronizacijom i formulacijom poruka [D.A.M]
Informacioni modelInformacioni protok vizuelnog sistema čoveka procenjuje se projekcijom slike na retinu rezolucije 500 Mpix i protok 100 Gbps koji se dalje smanjuje kodovanjem na optičkom nervu na 1 MBps. Ukupna količina primljenih informacija u toku perioda od 18 godina je približno 0.75 PB. Procenjuje se da je svaka sinapsa u stanju da zabeleži 4.7 bita (0.5875 bajta) informacija, tako da ljudski mozak skladišti 1.000.000.000.000.000 bajtova podataka, odnosno 1 PB. A jedan petabajt podataka jednak je 13.3 godina televizijskih HD snimaka, 4.7 milijardi knjiga ili 670 miliona veb stranica. Tehnološki zahtev komunikacionog protoka komprimovanih podataka VR sistema rezolucije 30 Kpix procenjuje se na 5.2 Gbps (30Kx24Kpix x 12x3bpp x 60fps x2stereo /600CG). Aktuelne su implementacije volumetrijskih video sistema koji ostvaruju protok 3 TB u minuti. 3D projekcioni sistemi zahtevaju 1 TRaysps za ostvarivanje pune paralakse na ekranima dijagonale 10 inch. Za korektnu akomodaciju oka neophodno je 1Ray na 3/10 stepeni vidnog polja posmatrača 160x135 stepeni (makula 13 stepeni, centralna fovea 3 stepena, optički disk 7x5 stepeni) [D.A.M] 
Imerzivna komunikacijaDanas telekomunikaciona tehnologija omogućava globalnu trenutnu multimedijalnu komunikaciju. Međutim, brojnost udaljenih konekcija ne nadomeštava kvalitet. Ljudi su socijalni i evoluirali smo tako da je najefektivnija komunikacija lice-u-lice. I nastavićemo da se sastajemo kada god je to moguće. Kolokacija omogućava da se izrazimo i interpretiramo različite neverbalne signale i naznake, kao što su dodir, bliskost, pozicija, gestovi, kontakt očima, nivo pažnje. Naša potreba da efektivno komuniciramo sa udaljenim ljudima nikada nije bila veća. Brojni društveni uslovi kreiraju ovu potrebu: neophodnost smanjenja uticaja okruženja, zahtev smanjenja putnih troškova i zamora, potreba obogaćene komunikacije u sve složenijem poslovnom okruženju, otežani uslovi putovanja u toku prirodnih katastrofa i epidemija.Imerzivna komunikacija podrazumeva razmenu prirodnih društvenih signala u realnom vremenu između korisnika koji su geografski udaljeni na način da uspešno potiskuju osećaj da nisu u zajedničkom prostoru. Današnja tehnologija ne omogućava mnoge od ovih društvenih interakcija. Međutim, tehnološki napredak je brži od biologije i omogućio je bitski protok reda Mbps/Gbps/Tbps koji je veći od propusne moći čula posmatrača koji ga razdvajaju od okruženja. Ljudsko čulo vida apsorbuje oko 10Mbps, čulo dodira oko 1Mbps, auditorni i čulo mirisa oko 100kbps, čulo ukusa 1kbps. Na raspolaganju su veliki komunikacioni protoci, tako da je sada aktuelno pitanje transdukcije: način akvizicije i renderovanja informacionog protoka tako da je prilagođen ljudskim čulima, i fundamentalnije pitanje - koji oblik komunikacija i udaljenog iskustva zaista želimo. Ako popularna kultura (Star Trek’s Holodeck, Star Wars’ Jedi council meetings, The Matrix’s matrix, Avatar’s Pandora) reflektuje naše želje, odgovor je imerzivna komunikacija koja omogućava razmenu prirodnih društvenih signala sa udaljenim ljudima i/ili doživljaj udaljene lokacije na način da potisnemo nevericu i ostvarimo transparentnost, fluidnost interakcije i osećaj prisustva. Ključna karakteristika imerzivnih komunikacija je sposobnost interakcije učesnika sa okruženjem, i detekcija i evaluacija interakcije na osnovu čula. Vizuelno, u toku kretanja, posmatramo okruženje iz različite perspektive, okruženje reaguje, ljudi u okruženju reaguju, i pomažu nam da se osećamo kao deo scene. Slično, mi čujemo na sceni u toku kretanja, scena se prilagođava nama i možemo čuti rezultat. Ova dvosmerna interakcija daje nam osećaj imerzije. Međutim, ostala čula je tehnički teže potisnuti. Vestibularni osećaj balansa i ubrzanja je tesno povezan sa čulom vida, tako da svaka nekonzistentnost narušava imerziju. Ali ljudska čula raspolažu sposobnošću da nadomeste nedostajuće ili nekonzistentne naznake.Stepen imerzije i forma su prilagođene potrebama i upotrebi. Pojedini oblici imerzije su neprihvatljivi zbog nedostatka privatnosti i zahtevaju poseban oprez. Cena, portabilnost, snaga, i ostala ograničenja će dominirati. Na primer, posmatrač raspolaže izborom ručnog displeja, video-zid ili kaciga i tako selektuje način i stepen imerzije. Virtuelni prostori ne moraju pratiti perfektnu konzistentnu fizičku geometriju. Različite i parcijalne iluzije imerzije ostvaruju se preklapanjem nepromenljivih elemenata fizičkog okruženja sa virtuelnim objektima.Prema tome, ne postoji jedinstven tehnološki razvoj imerzivnih komunikacija za sve scenarije. Takođe, tehnološke inovacije je neophodno koordinirati sa razvojem u oblastima koje nisu tehnološke, kao što je kreativni dizajn.Imerzija omogućava prirodne komunikacije (as good as being there), ali i super-prirodne komunikacije (better than being there) su značajne (pogledati i poslušati na velikim udaljenostima, ubrzati kroz vreme i prostor, arhivirati iskustva) [D.A.M]
Neograničen korakPercepcija je omogućena prikupljanjem (višestruki senzorski kanali) informacija o okruženju, motoričke sposobnosti (mišićno-skeletni sistem) omogućavaju navigaciju u okruženju i manipulaciju objektima (interakcija dodirom), kognitivne sposobnosti (centralni nervni sistem) omogućavaju analizu informacija iz okruženja, generalizaciju i planiranje aktivnosti u skladu sa trenutnim ciljevima zadataka. Ljudski korak je najosnovniji i intuitivan način kretanja unutar realnog prostora. Korak po sebi predstavlja ogromno evolucijsko dostignuće vremenske i prostorne sinhronizacije unutar naizgled jednostavnog zadatka koji se ponavlja. U toku kretanja, senzorske informacije (balans i prostorna orijentacija, relativna pozicija delova našeg tela, interna kopija motornih signala, vizuelne informacije) kreiraju konzistentne multisenzorske naznake koje indiciraju naše kretanje (ubrzanje, brzina i pravac). Samo vizuelne orijentaciono-navigacione informacije nisu dovoljne da naglase prirodnost virtuelnog 3D okruženja. Štaviše, upravo naznake kretanja najviše doprinose osećaju prisutnosti u stvarnom okruženju. Međutim, u virtuelnim okruženjima nije moguće ostvariti neograničeno realno kretanje u svim pravcima. Cilj je ostvariti redirekciju virtuelnim kamerama tako da se posmatrač sve vreme fizički kreće u razumno malom radnom prostoru i ne opaža nekonzistentnost [D.A.M]

PERCEPCIJA

Percepcija

Kognitivna percepcija omogućava da se organizujemo i interpretiramo okruženje na osnovu stimulusa koje primamo kroz različita čula (vid, sluh, dodir, ukus, miris) kao i propriocepcija (nesvesno poimanje našeg položaja i orijentacije u prostoru) i interocepcija (percepcija pomeranja unutrašnjih organa u našem telu, glad, bol). Kada je stimulus primljen, naš mozak integriše informacije, stvarajući novo sećanje.Percepcija je sposobnost prijema, obrade i interpretacije informacija koje dobijamo putem naših čula. Ova važna kognitivna veština je od suštinskog značaja za naš svakodnevni život jer nam omogućava da razumemo svoje okruženje. Percepcija je aktivan proces koji zahteva da obrađujemo informacije odozdo-nagore i odozgo-nadole, što znači da nismo samo vođeni stimulusima koje primamo (pasivna, odozdo-nagore obrada podataka) već takođe predviđamo i očekujemo određene stimuluse koji kontrolišu percepciju (aktivna, odozgo-nagore obrada podataka).Percepcija je složeni proces koji nam omogućava da ostvarimo interakciju sa svetom koji nas okružuje. Osnovna podela percepcije je na pet čula:
  • Čulo vida ili vizuelna percepcija. Sposobnost da vidimo i tumačimo informacije putem spektra svetlosti koji stiže do naših očiju. Područje mozga koje je zaduženo za vizuelnu percepciju je potiljačni režanj (primarni i sekundarni vizuelni korteks V1 i V2).
  • Čulo sluha ili auditivna percepcija. Sposobnost primanja i tumačenja informacija koje se prostiru kroz vazduh do naših ušiju putem zvučnih talasa određene frekvencije. Područje mozga koje je zaduženo za auditivnu percepciju je slepoočni režanj (primarni i sekundarni auditivni korteks A1 i A2).
  • Dodir, somatosenzorna ili haptička percepcija. Sposobnost tumačenja informacija koje primamo na osnovu vibracija ili dodira. Temeni režanj je područje mozga zaduženo za haptičku percepciju (primarni i sekundarni somatosenzorni korteks S1 i S2). 
  • Miris ili olfaktorna percepcija. Sposobnost tumačenja hemijskih supstanci u vazduhu (putem mirisa). Područje zaduženo za percepciju mirisa je olfaktorni bulbus (primarni olfaktorni korteks) i piriform korteks (sekundarni olfaktorni korteks).
  • Ukus ili gustatorna percepcija. Sposobnost tumačenja informacija putem pljuvačke (putem ukusa). Osnovna područja mozga zadužena za ukus su primarna područja za ukus G1 (postcentralna vijuga, temeni režanj, prednja insula, prednji-temeni poklopac ili operkulum) i sekundarna područja za ukus G2 (orbitofrontalni korteks i anteriorni cingularni korteks).
Pored naših čula, postoje i ostali tipovi percepcije:
  • Percepcija okoline - kada smo svesni svojih odnosa sa okolinom (povezana je sa haptičkom i kinestetičkom percepcijom)
  • Percepcija oblika - sposobnost da na osnovu obrisa, kontura i kontrasta, shvatimo kako izgleda određeni entitet (povezana je sa vizuelnom i haptičkom percepcijom)
  • Percepcija ravnoteže - sposobnost da budemo svesni sile gravitacije, mogućava nam da održavamo ravnotežu i da kontrolišemo svoje držanje (povezana je sa auditivnom percepcijom)
  • Termocepcija ili percepcija toplote - sposobnost da osetimo temperaturu na površini kože (povezana je sa haptičkom percepcijom)
  • Nocicepcija ili percepcija bola - sposobnost doživljavanja visokih ili previše niskih temperatura, kao i prisustvo štetnih supstanci ili ostalih stimulusa (povezana je sa haptičkom i percepcijom toplote)
  • Svrab ili percepcija svraba - sposobnost doživljavanja stimulusa na našoj koži koji tera na češanje (povezana je sa haptičkom percepcijom)
  • Samopercepcija - sposobnost razumevanja pozicija i stanja naših mišića i tetiva što nam omogućava da budemo svesni svog tela i toga gde se nalazi svaki deo našeg tela (povezana je sa percepcijom ravnoteže i haptičkom percepcijom)
  • Interocepcija - svest o osećajima koji nam pokazuju stanje naših unutrašnjih organa.
  • Percepcija vremena - sposobnost uviđanja promena na stimulusima i njihovo organizovanje.
  • Kinestetička percepcija - sposobnost razumevanja informacija o pokretima i brzini predmeta u našoj okolini, kao i našeg sopstvenog tela (povezana je sa vizuelnom percepcijom, percepcijom okoline, vremena, haptičkom percepcijom, interocepcijom, samopercepcijom i percepcijom ravnoteže)
  • Hemijska percepcija - sposobnost doživljavanja hemijskih supstanci rastvorenih u pljuvački koje se pretvaraju u snažne ukuse (povezana je sa percepcijom ukusa, ali koriste različite strukture)

Percepcija nije samostalni proces koji se spontano dešava. Suprotno, to je čitav niz faza koje se odvijaju kako bi došlo do percepcije stimulusa na pravi način. Na primer, da bi se primile vizuelne informacije, potrebno je da se svetlost odbija od predmeta i zatim da to stimuliše naše receptorne ćelije mrežnjače oka, koje će dalje slati informacije određenom području mozga. Da bi se percepcija dogodila, potrebno je da se ostvare sve ove faze. Percepcija je aktivan proces, gde je potrebno da selektujemo, organizujemo i tumačimo informacije koje se šalju mozgu:
  • Selekcija. Broj stimulusa kojima smo izloženi svakodnevno prevazilazi naš kapacitet, razlog da biramo informacije koje dalje želimo da obradimo. Selekcija se obavlja na osnovu pažnje, iskustva, potreba i želja.
  • Organizacija. Kada selektujemo stimuluse koji želimo da obradimo, potrebno je da ih grupišemo i damo smisao. Kod percepcije je prisutna sinergija, informacija se prima putem opšte percepcije i ne može suziti kako bi se izdvojio određeni stimulus.
  • Tumačenje. Kada grupišemo stimuluse, interpretiramo i završavamo proces percepcije. Proces tumačenja se prilagođava u zavisnosti od naših iskustava i očekivanja.

Percepcija okruženjaOkolina je sve ono što nas okružuje (predmeti, elementi, ljudi...). Okruženje je takođe deo naših misli, jer se u njima spajaju sva naša iskustva. Percepcija okoline znači biti svestan odnosa sa našim okruženjem (eksteroceptivni procesi) i biti svestan samog sebe (interoceptivni procesi). Eksteroceptivni proces stvara predstavu o prostoru oko nas kroz naše opažanje, interoceptivni proces stvara predstavu o našem telu, o njegovoj poziciji ili orijentaciji. Najistaknutija karakteristika ove kognitivne veštine je da nam omogućava razlikovanje oblika, veličina, udaljenosti... Zahvaljujući percepciji okoline, možemo zamisliti različite predmete kao 2D i 3D modele i predvideti promene u okruženju.Dobra percepcija okoline omogućava razumevanje okruženja i povezanosti. Percepcija okoline takođe podrazumeva razumevanje odnosa dva objekta kada se menja njihov položaj u prostoru. Pomaže nam da razmišljamo kroz dve i tri dimenzije, što nam omogućava da zamislimo objekat iz različitih uglova i da ga prepoznamo bez obzira na ugao posmatranja.Prostorna percepcija nam omogućava da se pozicioniramo, krećemo, orijentišemo, da donosimo odluke, analiziramo situaciju i sopstveno okruženje i povezanost našeg tela sa okruženjem.
  • Vizuelni sistem (receptori se nalaze na mrežnjači oka, u zadnjem delu oka, zaduženi za prenos informacija ka centrima u vizuelnom korteksu)
  • Auditivni sistem (receptori se nalaze u unutrašnjem uhu, zaduženi za prenos informacija ka centrima u slušnom korteksu)
  • Haptički sistem (rasprostranjen je po čitavom telu osobe i obezbeđuje informacije o položaju delova tela, pokretu udova, i informacije o površini i karakteristikama objekta koji se posmatra, kao što je brzina i čvrstina)
Vizuelna percepcija se može definisati kao sposobnost tumačenja informacija koje naše oči primaju. Rezultat primanja i obrade takvih informacija u centrima mozga je ono što nazivamo percepcijom ili vidom. Vizuelna percepcija je proces koji počinje od naših očiju.
  • Prijem svetlosnih stimulusa. Svetlosni zraci dopiru do naših zenica i aktiviraju receptorske ćelije ćelije na mrežnjači.
  • Prenos i osnovna obrada signala. Signali koje stvaraju ove ćelije se prenose putem optičkog nerva ka mozgu. Prvo prolaze kroz optičku raskrsnicu (gde se ukrštaju pojedina vlakna, što omogućava da informacije dobijene iz desnog vidnog polja delom idu i u levu hemisferu, i informacije dobijene iz levog vidnog polja delom idu u desnu hemisferu), i zatim se prenosi na deo talamusa koji se naziva corpus geniculatum laterale (lat.)
  • Konačno, vizuelne informacije koje naše oči primaju se šalju vidnom korteksu u potiljačnom režnju. U potiljačnom režnju mozga, se nalazi veliki deo područja koja su specijalizovana za svaki od prethodno navedenih procesa, kao i u susednim područjima - slepoočni režanj i temeni režanj. Dakle, za dobru percepciju je neophodno da sva ova područja mozga rade zajedno.
Vidno polje se može definisati kao područje u kom naše čulo vida može da detektuje prisustvo stimulusa. Drugim rečima, vidno polje je ono što oko vidi kada gledate pravo napred bez pokretanja glave, kako tik ispred Vas tako i oko Vas (periferno vidno polje). Vidno polje nam omogućava poimanje našeg okruženja. Uopšteno, normalne granice vidnog polja su nazalni deo (područje vidnog polja prema nosu, normalne granice ovog polja su 60º - horizontalna linija), temporalni deo (područje vidnog polja ka ušima, normalna granica je 100º - horizontalna linija), superiorni deo (područje od centra vidnog polja nagore, normalne granice su 60º - vertikalna linija), inferiorni deo (područje od centra vidnog polja nadole, normalne granice su 75º - vertikalna linija).Auditivna percepcija može biti definisana kao sposobnost primanja i tumačenja podataka koji stižu do našeg uha u vidu zvučnih talasa kroz vazduh ili na drugi način. Postoji čitav niz različitih procesa koje činimo da bismo obradili zvuk oko nas.
  • Primanje informacija. Kada predmet virbrira, kao što je slučaj sa ljudskim glasom (glasne žice vibriraju), talasi koje stvara ova akcija se prenose kroz vazduh ili na drugi način. Kada ovi talasi stignu do unutrašnjeg uha, aktiviraju se određene ćelije.
  • Prenos informacija. Ćelije proizvode signale koji se prenose kroz različite nukleuse dok ne stignu do dela talamusa koji se naziva corpus geniculatum mediale (lat.)
  • Procesiranje informacija. Konačno, slušne informacije koje uho prima se šalju auditivnom, slušnom korteksu u slepoočnom režnju. Informacija se obrađuje i šalje ostalim područjima mozga.
Da bi slušna percepcija bila omogućena, neophodno je da slušni centri analiziraju osobine i karakteristike zvuka: intenzitet (jačina zvuka koja može biti visoka ili niska), ton (viši ili niži), boja zvuka (omogućava nam da razlikujemo i prepoznajemo glasove, instrumente i zvukove), trajanje (vreme trajanja vibracije zvuka).Auditivna percepcija je proces koji se sastoji iz višestrukih koraka.
  • Otkrivanje. Da bismo mogli da primimo audio stimulus, potrebno je da on ima intenzitet dovoljan da stigne do našeg uha. Takođe je neophodno da zvuk bude u dometu slušanja. Ako ispuni ova dva uslova, možemo da utvrdimo gde se predmet koji proizvodi vibracije nalazi i čak da li je predmet u pokretu.
  • Razlikovanje. Da bismo primili i obradili zvuk, potrebno je da izdvojimo taj zvuk iz buke iz okruženja i da ga razlikujemo.
  • Identifikovanje i raspoznavanje. Neophodno je da prepoznamo zvuk kao glas, muzički instrument ili neki drugi zvuk. Ovo uključuje i raspoznavanje našeg ličnog odnosa sa zvukovima (na primer, to je glas mog prijatelja). Da bismo primili zvuk, moramo da ga prepoznamo kao takvog i da ga ne mešamo sa drugim zvukovima, kao što bismo uvideli da je to glas našeg prijatelja, a ne neke nepoznate osobe.
  • Razumevanje. Od suštinskog značaja je razumeti zvuk koji čujemo, bilo da je to poruka, ili da razumemo šta znači neki zvučni signal.
Auditivna percepcija igra vrlo važnu ulogu u našim svakodnevnim životima i prisutna je u skoro svakoj aktivnosti koju obavljamo. Omogućava nam da se povežemo sa okolinom, da ostvarmo tečnu komunikaciju, upozorava nas na moguće opasnosti u našoj okolini i omogućava nam da uživamo u muzici.
Percepcija emocijaEmocije su esencijalni deo doživljaja okruženja i imaju važnu ulogu u našim subjektivnim procenama i automatskim odgovorima, utiču na način kako shvatamo, opisujemo i reagujemo na okruženje i kako doživljavamo sebe. Emocije presudno doprinose stanju čoveka. Pokret je značajna odlika svih živih bića, emocije su jedinstvena osobina ljudi. Rezultati istraživanja psihologije i neuro-nauka u poslednjih 30 godina daju dobar uvid u procese. Kognicija i emocije predstavljaju dva osnovna stuba ljudske psihe i inteligencije. Nastali su kao proizvod evolucije i adaptivnih funkcija. Emocionalni izrazi su istaknuti društveni znaci u svakodnevnim interakcijama, komunikaciji emocionalnim stanjima i osmišljenim akcijama. Društveno povezivanje i kolektivno ponašanje (emocionalna zaraza) raspolažu kapacitetom da dopru do milionskog broja ljudi i traju decenijama. Jednostavno rečeno, emocija je kritični sastojak ljudskog stanja koji ga prožima osećanjima i obogaćuje. Lica su inherentno istaknuti, emocionalno (21 izraz /6 osnovnih: sreća, bes, iznenađenost, gađenje, strah, tuga) značajni stimulusi, tako da i lica neutralnog izraza nose emocije kao posledica rase, pola, usmerenog pogleda, privlačnosti. Posledica je da su lica perceptualno značajnija u poređenju sa ostalim objektima. Primećeno je da su ovi stimulusi kontrolisani osnovnim vizuelnim osobinama (kontrast, kompleksnost i prostorne učestanosti) kako bi se isključila mogućnost bilo kakve konfuzije usled fizičkih nejednakosti. Posebna povlašćena perceptualna analiza posvećena je licima koja sadrže preteće emocije ljutnje i straha u odnosu na lica u velikoj grupi ljudi koji poseduju neutralne ili pozitivne emocije. Nedavne studije dalje upućuju da percepcija akutnih emocija ne razlikuje samo pretnju od nevolja, sposobna je disocirati individualne osnovne emocije unutar domena pretnje (strah, uznemirenost). U toku osnovne percepcije, strah izaziva trenutan stop-pogledaj-poslušaj odgovor kako bi se pokrenula senzorska akvizicija i usmerila akcija (borba/povlačenje). Ove suprotne senzorske tendencije su usklađene sa biomehaničkim izrazom lica, strah izaziva proširene oči i uvećavaju se vizuelne senzacije koje omogućavaju delovanje sa minimalnim kašnjenjem. Složeniji modeli percepcije emocija obuhvataju tri sukcesivne faze (orijentacija, primarna faza, meta-kognitivni model) u vremenu. U toku prve faze (detekcija odlika) spoljašnji stimulus se automatski registruje. U drugoj fazi, procenjuje se značaj i u slučaju potvrde, aktivira se treća faza kontrolisanog, strategijskog procesiranja stimulusa i formiranja svesne percepcije pretnje. Sa naglim razvojem ljudskog društva, postoji rastuća potreba percepcije u aplikacijama realnog vremena. Dominantna je video tehnologija u prepoznavanju pokreta i emocija, i senzorski sistemi virtuelnog otiska ljudskog bića u prepoznavanju aktivnosti i raspoloženja. Sve veći broj pametnih uređaja u našem svakodnevnom okruženju omogućavaju nove sisteme pokretane velikim skupovima podataka (big data). Emocionalne komunikacije su kompleksan sistem i postoje početna ohrabrujuća tehnička rešenja, računarsko prepoznavanje izraza lica je značajno napredovalo u smislu tačnosti i brzine. Emocionalni izrazi i gestovi se efikasno koduju, prenose i sinhronizuju, ali percepcija emocija zaostaje u razvoju. Neophodna su istraživanja multimodalne percepcije izraza lica i olfaktornih emocija [D.A.M]
Percepcija pokretaPercepcija pokreta je proces opažanja brzine i smera objekata na sceni na osnovu vizuelnih, vestibularnih i proprioceptivnih opažanja. Iako je proces jednostavan za većinu promatrača, kompleksan je u smislu neuronske obrade. Vizuelna percepcija pokreta je opažanje promene pozicije objekta u odnosu na ostale objekte u vidnom polju. Početna pretpostavka je da su 3D objekti čvrsti i da ne menjaju oblik u toku translacionog i rotacionog kretanja. Postoji složena relacija između opažanja pokreta, pokreta očiju i projekcije na retini oka. Najkvalitetnija percepcija pokreta ostvaruje se umereno sporom brzinom projekcije na retini (reda 0.4-0.8 stepeni u sekundi). Osetljivost je uvećana za horizontalna i vertikalna kretanja objekta, a uočeni su učestaliji pokreti oka u vertikalnoj dimenziji. Ali moguće je opažanje i kada ne postoji promena lokacije projekcije na retini u slučaju kada očima precizno pratimo objekat na trajektoriji koja je jednostavno predvidljiva. Generalno, opažena trajektorija objekta je posledica i kretanja objekta i pokreta oka. Neophodno je uspostaviti i relaciju između binokularne percepcije pokreta i opažanja dubine prostora i 3D pozicije objekta. Paralaksa se pojavljuje i u slučaju kada se samo posmatrač pomera. Opaža se brže pomeranje objekata na manjem rastojanju u pravcu suprotnom od kretanja posmatrača u odnosu na udaljenije objekte. Percepcija kontinuiranog pokreta u sekvenci mirnih slika (fi-fenomen) i vizuelna perzistencija (optička iluzija) predstavljaju osnovu tehnologije filmske i TV projekcije [D.A.M]
Percepcija vremenaSubjektivna (psihološka) estimacija vremena je naša univerzalna sposobnost da procenimo objektivno (fizičko) vreme. Subjektivno vreme je osećaj vremenskih intervala, uključujući značenje prošlosti, sadašnjosti i budućnosti. Upućuje na raspon percepcije prošlosti i budućnosti, kao i relativne pažnje posvećene prošlosti, sadašnjosti i budućnosti. Naša procena vremena gotovo uvek se razlikuje od objektivnog vremena. Rezultat je naše evolucije, vreme kao svesno iskustvo je proizvod procesa koji nam omogućavaju da se adaptivno orijentišemo i organizujemo u skladu sa sekvencijalnim sledom u određenom okruženju. Odnos između subjektivno percipiranog vremena i univerzalnog objektivnog (fizičkog) vremena ne zavisi samo od biološkog osećaja (unutrašnji sat) nego i od dobi, pola, personaliteta, kognitivnih sposobnosti, iskustva, učenja i fizičkog i kulturnog okruženja. Napredan i sveobuhvatan osećaj vremena, proračun vremena i vremenske perspektive, je jedinstveno za ljudsku svest. Psihološko vreme je više od percepcije, značajna je komponenta samosvesti i poseduje ključnu koordinacionu ulogu za druge mentalne funkcije. Distorzija perceptivnih čula, kao što su vid i sluh, iako uznemirujući, ne uzrokuju veliki psihološki uticaj kao što izaziva poremećaj percepcije vremena.Iskustvo sa vremenom uključuje trajanje intervala (procena o dužini vremenskog toka između dva trenutka), vremensku perspektivu (definisanu prošlošću, sadašnjošću i budućnošću), redosled (događaja i intervala), sled (koji događaj predhodi nekom događaju) i paralelni događaji (događaji se odvijaju istovremeno) [D.A.M] 
Akcija vođena pogledomVizuelna percepcija je najznačajnija u kontroli naših aktivnosti u prostoru, produkciji pokreta i očuvanju bezbednosti. Kada se krećemo prema objektu koji fiksiramo pogledom, konstelacija pokreta u prostoru (optički tok) je potpuno specifična. Ako optički tok nije dostupan, alternativno možemo da upotrebimo informacije o perspektivi. U slučaju da u kretanju pokušavamo da izbegnemo prepreku, što za posledicu ima različite prividne brzine prepreka koje ostaju sa unutrašnje i spoljašnje strane zaobilazne putanje, pojedini objekti se prividno približavaju (tok objekata). Koristimo i vizuelnu direkciju: ugao između ose tela i ciljnog objekta. U toku precizne navigacije, osa tela je je orijentisana prema ciljnom objektu. Određivanje vremena do kontakta sa objektom zahteva procenu početne udaljenosti objekta, procenu sopstvene brzine i brzine (pokretnog) objekta. Opažanje razdaljine zahteva 3D percepciju, brzina zahteva opažanje vremena i pokreta. 
Opažanje događajaShvatanje događaja, vremena i kauzaliteta značajno je u opažanju kretanja i kontroli naših akcija. Opažanje događaja je povezano sa opažanjem uzročno-posledičnih veza između elemenata vizuelne scene. Sastavni elementi se uočavaju veoma brzo i celina se neodoljivo nameće. Pretpostavka je da nam brzo shvatanje kauzalnih odnosa na sceni omogućava da razumemo ne samo šta trenutno vidimo, nego i ko su akteri i šta će se sledeće dešavati. Međutim, detekcija promena u vizuelnoj sceni zahteva aktivno posvećivanje pažnje situaciji od interesa. 
Opažanje sopstvenog telaGotovo je nemoguće ne opažati sopstveno telo. Postoji više informacija o sopstvenom telu nego o bilo kom drugom spoljnom objektu. U okviru percepcije ljudskih lica, tela i biološkog pokreta, percepcija sopstvenog tela zasniva se na specifičnom uglu vizuelnog posmatranja i unutrašnjim vestibularnim i kinestetičkim senzorskim informacijama. Informacije iz različitih senzornih modaliteta određuju predstavu našeg tela, ali su i modulirane prezentacijom sopstvenog tela. Različite reprezentacije tela upotrebljavaju se u multisenzornoj integraciji u peri-personalnom prostoru. Naše telo menja perceptivni prostor koji ga okružuje. U okolini tela smo osetljiviji na mnogo finije prostorne intervale, dovodeći do promene razmere u okolini i distorzije prostora. Projektujući informacije iz sopstvenog tela u perceptivni prostor, bolje mu se prilagođavamo. Mi smo telesna bića optimizovana i organizovana da shvatimo informacije o sebi-sličnim objektima. Orijentacija tela i prostorni raspored udova su najznačajniji faktori za uparivanje informacija. Oruđa koja upotrebljavamo, moguće je inkorporirati u telesnu šemu. Zahvaljujući fleksibilnoj telesnoj šemi, telo-u-mozgu postaje telo-u-prostoru, ali i obrnuto!
Interna percepcija Živa bića kontinuirano mapiraju svoja unutrašnja stanja i koriste svoje telesno iskustvo kao informacijski izvor za izgradnju reprezentacija svojih unutrašnjih stanja, sebe i spoljašnjeg sveta. Propriocepcija obuhvata sve oblike iskustva koje ljudi imaju o svojim telesnim stanjima, uključujući kinestetičke, senzorimotorne i posturalne informacije o kojima smo svesno svesni, kao i senzacije generisane iz i povezane sa opštim stanjem tela i njegovih delova i organa. Propriocepcija prati i nadopunjuje spoljašnju percepciju u smislu da čini pozadinu opažanja, kao i neophodan uslov za uspešnu percepciju. Međutim, propriocepcija nije uvek samo osnovna podrška za spoljašnju percepciju. Ponekad to postaje istaknuto i nije popraćeno odgovarajućim exteroceptivnim činom kao na primer kad iznenada osetimo osećaj boli ili postanemo svesni da smo gladni. Budući da su unutarnji podražaji suštinski nejasni, percepcija koju imamo o njima je takođe nejasna. Ipak, ova nejasnoća ne znači da je ova percepcija lažna ili da je funkcija nevažna ili marginalna. Zapravo, ovo iskustvo je nužan uslov za osobu da identifikuje svoje telesno stanje i da ih na neki način klasifiikuje: potrebno je identifikovati npr. da smo u bolovima ili gladni. Subjekt koji ima telesno iskustvo zna da uočava nešto o svom telu i može iz njega izvući mnoge relevantne podatke.
Telesni senzori (somatosenzorni sistem)Senzori tela omogućavaju signale direktnog kontakta sa kožom, konfiguracije tela i kretanja u okruženju, i ambijentalne temperature. Vestibularni sistem omogućava osećaj balansa. Somatosenzorni sistem omogućava osećaj dodira, propriocepcija i kinestezija. Posmatrajmo telo i sve njegove pokretne delove (noge, ruke, jezik, usta i usne). Propriocepcija odgovara svesti o pozi svakog dela tela u odnosu na ostale. Kinestezija je pandan samom pokretu, daje informacije o brzinama, ubrzanjima i silama. Receptori dodira pozicinirani su u koži (dermis) kao slobodni pseudounipolarni nervni završetci (epidermis) osećaja ekstremnih temperatura i bola, telašca (corpuscles) dublje u koži signaliziraju rastezanje kože, telašca ispunjena fluidom signaliziraju pritisak, strukture diska (disk) ispod epidermisa signaliziraju statički pritisak, telašca ispod epidermisa na delovima kože bez dlaka signaliziraju lagani dodir, folikuli dlake signaliziraju lagani dodir i bol prilikom uklanjanja dlake. Haptička percepcija velikih objekata zasniva se na manipulaciji rukama (lateral motion - texture, pressure - hardness, enclosure - global shape/volume, static contact - temperature, unsupported holding - weight, contour following - shape) i zaključivanju o osobinama objekta (veličina, oblik, težina, čvrstina, tekstura površine) i njegovom geometrijskom modelu. Receptori propriocepcije (i kinstezije) signaliziraju poziciju, orijentaciju i brzinu pokretnih delova tela, smešteni su u mišićnim vretenima i signaliziraju promenu dužine mišića, organi u tetivama (povezuju mišiće sa kostima) signaliziraju napetost (tension) mišića, i zglobni receptori koordinišu pokrete mišića i signaliziraju relativnu poziciju kostiju. Neuralni putevi somatosenzornog sistema su slični vizuelnom sistemu. Signali se rutiraju kroz talamus do primarnog korteksa i procesiraju na visokom nivou. Pojedini signali se takođe rutiraju kroz kičmenu moždinu i omogućavaju brze motorne odgovore (knee-jerk reflex). U korteksu postoji topografsko mapiranje koje odgovara lokacijama na telu. Lateralna inhibicija i prostorna nepristrasnost formiraju detektor koji omogućava estimaciju oštrog pritiska na površini kože. Somatosenzorna percepcija zasniva se na pragovima detekcije, percepciranoj amplitudi i preciznosti/rezoluciji duž vremenske i prostorne ose. Percepcija tekstura zasniva se na detekciji veličine, oblika, rasporeda i gustine malih elemenata koji izlaze ili se uvlače na površinu objekta. Pritiskom prstiju na površinu detektuju se krupniji elementi (spatial cues) a pomeranje prstiju prouzrokuje vibracije pritiska (temporal cue) [D.A.M] 
Telesni balans (vestibularni sistem)Osećaj balansa i gravitacije, orijentacije i kretanja glave zasniva se na vestibularnom sistemu koji meri linearno i ugaono ubrzanjeOtolitički organ (utricle) meri linearno ubrzanje u horizontalnoj ravni (xz plane) kada je glava uspravno orijentisana, istovremeno membrana i trepljaste ćelije (saccule) organa kao mehano-receptori nalaze se u vertikalnoj ravni (sagittal plane) koja je poravnata prema napred. Svaka ćelija je osetljiva za ubrzanje u pojedinačnom pravcu unutar ravni. Princip (Einstein) ekvivalencije izjednačava uticaj gravitacije na telo i naginjanje glave, i realnog linearnog ubrzanja. Ugaona ubrzanje se meri pomoću tri mala (prečnik 2-3mm) polukružna karbonatna tela u unutrašnjem uhu koja su orijentisana približno pod pravim uglom (anterior canal, posterior canal, lateral canal) tako da istovremeno mere tri komponente ugaonog ubrzanja. Svaki kanal pojedinačno je osetljiv na rotacije u odnosu na ose koje su normalne na ravan koja sadrži kanale ispunjene viskoznom tečnošću. Značajna je uloga somatosenzornog sistema u funkcionisanju tela koje uključuje kretanje. Osećaj balansa je relativno slab signal u odnosu na ostala čula. Međutim, konflikt i ne poklapanje sa vizuelnim naznakama prouzrokuje prividne iluzije (vection). Nekorektno funkcionisanje vestibularnog sistema prouzrokuje vrtoglavicu (vertigo) sa propratnim simptomima mučnine i otežanog hodanja [D.A.M] Interni model (propriocepcija, kinestezija, haptika)Senzorski odgovor je neophodan element VR sistema na osnovu pozicije i orijentacije, kao i akcije korisnika. Adekvatan senzorski odgovor zahteva kontinuirano praćenje korisnika i merenje pozicije objekata u fizičkom okruženju. Somatosenzorski sistem reaguje na promene (mehaničke, hemijske, termalne) na površini ili unutar ljudskog tela. Senzori se nalaze po celom telom uključujući kožu, epitel, mišiće i zglobove, unutrašnje organe i kardiovaskularni sistem. Sistem obuhvata osećaj dodira (taktilni pasivni kontakt sa statičkim objektima), osećaj pozicije (propriocepcija) i kretanja (kinestezija), i haptički osećaj (aktivno istraživanje pomeranjem površina i objekata). 
  • Propriocepcija je osećaj (šesto čulo) relativne pozicije delova tela i jačine mišićne sile upotrebljene za pokretanje. Propriocepcija relativne pozicije delova tela je toliko značajna da motorni korteks koji upravlja kretanjem tela, šalje signale (efference copies) u ostale regione i komunicira efekte pokretanja. 
  • Kinestetička percepcija striktno označava osećaj kretanja ali se nekonzistentno koristi kao propriocepcija ili integracija propriocepcije i vestibularnih ulaza (osećaj balansa i prostorne orijentacije sa ciljem koordinacije pokreta sa balansom).
  • Haptička percepcija zavisi od sila koje se primenjuju u toku dodira i predstavlja kombinaciju somatosenzorne percepcije uzoraka na površini kože (mehano/termo/noci receptors) i kinestetičke percepcije pokreta delova tela. Ljudi su sposobni da brzo prepoznaju 3D objekte tako što pomeraju prste po spoljašnjoj površini objekta osećajući teksturu i detalje ili držeći objekat rukama. 
Rendering haptičkih naznaka uobičajeno predstavlja najizazovniji problem u VR sistemima. Primarni razlog je direktna fizička interakcija i bidirekcioni interfejs. Haptički rendering omogućava korisnicima percepciju mehaničke impendance, oblika, tekstura i temperature objekta. Dodatna komplikacija je simultana percepcija haptičkih i kinestetičkih naznaka, tako da su praktična rešenja ograničena na rendering samo jedne vrste naznaka: rendering na površini kože (tekstura i temperatura) ili rendering preko mišića, tetiva i zglobova (pozicija, brzina, ubrzanje, sila i impendansa). Realističnost renderinga zavisi od vrste simuliranog fizičkog kontakta (tačkasti, dve-tačke hvat, multipoint 6DoF manipulacija objektima) koji je implementiran u VR sistemu [D.A.M] 
Pozicija-orijentacija i navigacija-interakcija Ljudska čula procesiraju spoljašnje vizuelne i slušne nadražaje, osećaj dodira i položaj tela, i transformišu u interni prikaz (ili umni model) koherentnog okruženja u kojem je posmatrač prisutan (immersion) i interaktivan sa dodatnim emocionalnim reakcijama. Osećaj fizičkog prisustva je minimalni zahtev i osnovna karakteristika VR (virtual reality) sistema zasnovanog na sintetičkim nadražajima. Umna prisutnost podrazumeva angažovanost i očekivanja u virtuelnoj stvarnosti. Stepen prisutnosti je određen scenarijom, kvalitetom projekcije i brojem istovremeno angažovanih čula, kao i kašnjenjem akcije posmatrača i reakcije VR sistema. Naglašena realnost AR (augmented reality) se zasniva na superpoziciji sintetičkih nadražaja sa čulnim nadražajima sa realnih objekata u okruženju a koje je u indirektnoj ili direktnoj interakciji sa posmatračem. AR integriše virtuelnu realnost sa realnim slikama i poboljšava percepciju. Današnja tehnologija ne omogućava u virtuelnom okruženju savršeno iskustvo stvarnog sveta. Međutim, dovoljnom i veštom integracijom spoljašnih čulnih nadražaja moguće je izazvati osećaj prisustva i doživljaj virtuelnog iskustva na osnovu prilagođavanja okruženju ili trenutnim potiskivanjem neverice. Živo virtuelno iskustvo je podržano i psihološkim elementima i 3D multimodalnom interakcijom. Osnovne psihološke naznake, predvidljivost i konzistentnost, zasnivaju se na emocionalnom sadržaju i situacionoj svesti. Interaktivnost označava stepen učešća ili sposobnost posmatrača da doživi virtuelni svet. Tipični primeri interakcije su orijentacija i navigacija u okruženju, manipulacija objektima i iniciranje njihovog kretanja i deformacije, komunikacija sa ostalim entitetima. Prirodna i upotrebljiva interakcija doprinosi uspešnim virtuelnim iskustvima i zasniva se na 3D prostoru, uključuje kompletno telo posmatrača i multimodalne čulne nadražaje. Sa druge strane, ometanja iz okruženja i neusklađenost čulnih nadražaja su negativni faktori koji umanjuju kvalitet virtuelnog iskustva i prisutnosti. Međutim, ljudi poseduju sposobnost adaptacije u okruženju, tako da tokom vremena, uticaj negativnih efekata se umanjuje [D.A.M]
Percepcija scene, vizuelna pažnja i usmereni pogled Ljudsko čulo vida (HVS) je aktivni proces sekvencijalnog uzorkovanja optičkog polja na inteligentan način koji je određen specifičnim zadatkom. Uzorkovanje je određeno malom površinom visoke rezolucije (fovea) u okruženju optičkog polja velike površine i niske rezolucije. Pretraživanje vidnog polja je usmereno na otkrivanje i prepoznavanje vizuelnog stimulusa i automatski pokreće čitav niz međusobno povezanih procesa. Fokusirana pažnja je sposobnost usmeravanja pažnje na stimulus. Selektivna pažnja je sposobnost održavanja pažnje na stimulus kada su prisutni ostali. Vizuelna percepcija omogućava prepoznavanje, otkrivanje i tumačenje oblika, boja i svetla. Raspoznavanje je poređenje primljenih vizuelnih podataka sa predhodnim iskustvima.U toku čitanja, jednostavno je uočiti obrasce pokreta očiju (left-to-right, top-to-bottom). Međutim, nisu prepoznate nikakve očigledne strategije posmatranja scene, pretpostavka je da ne postoji kanonsko skeniranje za određene objekte. Za jedan specifičan skup kontekstualnih slika (u umetnosti) potvrđeno je da posmatračeva potraga za značenjem i estetskim kvalitetima, utiče na pokrete očiju i fiksaciju. Generalno, prilikom posmatranja prirodnih scena koje nije orijentisano na izvršavanje određenog zadatka, primenjiv je model vizuelnog skeniranja (visual search) i formiranja konceptualne slike ili definicije scene formirane umom. Pomeranjem očiju obuhvatamo pojedinačne delove vidnog polja u visokoj rezoluciji i sagledavamo fine detalje, što god da je u centralnom pravcu pogleda. Istovremeno skrećemo pažnju na tu tačku, tako da se možemo koncentrisati (i ako u samo kratkom trenutku) na predmet ili područje od interesa. Pretpostavka je da praćenjem pokreta očiju, moguće je slediti putanju pažnje posmatrača i dobiti uvid u ono što je posmatrač pronašao interesantno, šta je privuklo njegovu pažnju i nagovestiti kako osoba percipira scenu. Istraživanje pažnje i neuralnih mehanizama vizuelne pažnje prestavljaju motivaciju za analizu pokreta očiju iz prespektive psihološkog i fizioloških sagledavanja ponašanja. Ljudi su konačna bića koja ne mogu pristupiti svim stvarima istovremeno. Usmeravamo pažnju kako bi fokusirali naše mentalne kapacitete na selekciju senzorskih ulaza tako da um uspešno procesira stimuluse koji su od interesa. Naš kapacitet obrade informacija je ograničen. Neurološki sistem obrađuje senzorske ulaze tako što se koncentriše na specifične komponente kompletnog senzorskog prostora i one od interesa ispituje sa većom pažnjom nego periferni podsistem. Ovo je posebno tačno za vizuelne nadražaje. Vizuelna scena se formira postepeno, ne u celini. Oslanjamo se na perceptualnu integraciju malih regiona u konstruisanju koherentne reprezentacije celine. Prvobitna istraživanja su bila tehnološki ograničena na jednostavne opservacije i introspekciju (What? What? How? selective filter, importance weightings, scanpaths, spotlight, glue, window). Kompletna teorija vizuelne pažnje obuhvata i kognitivne funkcije visokog nivoa koje objašnjavaju naše dobrovoljne namere da se posvetimo pojedinim delovima scene. Formiran je bottom-up model vizuelne pažnje i pokreta očiju (kao osnova HVS vizuelnog pretraživanja):
  • kompletna scena se u prvom koraku paralelno sagledava periferijskim vidom i uglavnom u niskoj rezoluciji; u ovoj fazi mogu da se pojave odlike od interesa koje angažuju ili usmeravaju pažnju na njihovu lokaciju i kasniji detaljni pregled;
  • pažnja se isključuje ili odvaja od lokacije usmerene na foveu i oči se ubrzano repozicioniraju na prve regione koji su privukli pažnju;
  • kada se završi pokret očiju, fovea je usmerena na region od interesa i pažnja je angažovana na percepciju odlika i pregled u visokoj rezoluciji. 
Neurofiziološke i psihofiziološke studije ljudskog čula vida HVS ukazuju da se prostorno vidno polje pretražuje postepeno brzim fiksacijama malih regiona od interesa. Na ovaj način je omogućena percepcija detalja na fovei. Centralna fovea obuhvata 1-5° vizuelnog ugla što predstavlja npr. samo 3% računarskog ekrana dimenzije 21inch posmatranog sa rastojanja od 60cm. Približno 90% procenata vremena posmatranja je posvećeno samo fiksaciji!? Kada se pažnja usmerava na novu oblast scene, brzi pokreti očiju (saccades) repozicioniraju foveu. Dinamika vizuelne pažnje najverovatnije se obavlja u harmoniji ili kao odgovor na perceptualna ograničenja nametnuta neurološkim osobinama ljudskog čula vida. U kontekstu vizuelne pažnje i centralnog-perifernog vida, vremenski odgovor HVS nije homogen unutar vidnog polja. Fovea region je receptivniji na sporije pokrete u odnosu na periferiju retine, iako je percepcija pokreta uniformna u vidnom polju. Periferija je više osetljiva na pokretne objekte nego na stacionarne. Jednostavnije je perifernim vidom detektovati pokretne nego stacionarne objekte. U suštini, detekcija pokreta je osnovni zadatak periferije, predstavlja sistem ranog upozorenja na pokretne objekte koji ulaze u vidno polje posmatrača. Periferni vid je dva puta osetljiviji na pokrete po horizontalnoj osi u odnosu na vertikalnu osu. Prostorna rezolucija retine postepeno opada prema periferiji. Perifierija je osetljivija na zamagljene objekte. Percepcija boja nagla opada na periferiji, ali osetljivost na kontrast je veća na periferiji. Posebnu pažnju zahteva iznenadna pojava, sjajnih objekata (nagla pojava svetlih ivica). Postoji 5 osnovnih tipova pokreta očiju sa ciljem fovea repozicije (saccadic, smooth pursuit, vergence, vestibular, physiological nystagmus). Vergence pokreti se pojavljuju prilikom fokusiranja para očiju na udaljene objekte (depth perception). Brzi pokreti očiju (saccades) repozicioniraju fovea na novu lokaciju u vizuelnom okruženju. Vizuelno praćenje pokretnih objekata zahteva posebne pokrete očiju (pursuit movements). Fiksacija (microsaccades, drift, tremor) su pokreti koji stabilizuju retinu iznad stacionarnih objekata od interesa. Simultani pokreti očiju (nystagmus) su minijaturni ritmički trzaji na jednu stranu (sawtoothlike time course). Ostali pokreti očiju (adaptation, accommodation) se ne odnose na promenu pozicije (pupil dilation, lens focusing).Praćenje pozicije i pokret oka omogućava određivanje pravca centralnog pogleda. Detektovani pravac je moguće upotrebiti za interakciju korisnika VR naočara. Osetljivost na kontrast čula vida je najveća na centralnom delu retine (fovea) tako da praćenje pokreta oka omogućava određivanje regiona od interesa (fiksacija) na širokougaonim slikama i adaptivni rendering promenljive rezolucije i kvaliteta na ekranu.Najznačajniji rezultat praćenja pozicije oka je estimacija projekcije tačke posmatranja POR (Point of Regard) posmatrača na ekranu. Prva generacija (eye-in-head measurement of the eye consisting of techniques such as scleral contact lens/search coil, electro-oculography) i druga (photo- and video-oculography) generacija treking uređaja nije ostvarivala POR. Četvrta generacija (combined video-based pupil/corneal reflection + digital optics + on-chip DSP) trekera jednostavno estimira POR nakon auto-kalibracije. Binokularni 3D trekeri u VR aplikacijama zahtevaju u svakom ciklusu POR estimiranja Left/Right(x,y) i mapiranje koordinata pozicija glave posmatrača i orijentaciju treking uređaja 6DoF(x,y,z,x-tilting,y-tilting,z-turning) [D.A.M]
Ljudsko čulo vida (HVS) Ljudsko čulo vida interpretira vizuelne informacije (oblik i pozicija, osvetljenje i senke, boja i tekstura) sa ciljem prostorne lokalizacije, detekcije kretanja objekata, prepoznavanja događaja i scene. Proces nije u potpunosti objašnjen i postoje brojne hipoteze. Vizuelni sistem kroz proces učenja razlikuje oblike, veličine, talasne dužine, orijentacije i smerove kretanja. U stanju je učiniti sve te stvari deleći ulazne informacije u dva dela dok ulaze u levo i desno oko, šalje ih natrag u vizuelni korteks, s milionima neurona, s desecima milijardi veza između njih koje seciraju sliku za procesiranje. Vizuelni korteks podeljen je na primarni vizuelni korteks (V1 occipital lobe 2mm x 15cm2 x6slojeva = 100miliona ćelija) i celi niz vizuelnih korteksa (V2, V3, V4, MT) koji progresivno obrađuju složenije slike. Dok mozak funkcioniše kao složen alat za obradu slike, oko funkcioniše kao ekvivalent kamere unutar jednog opsega talasnih dužina elektromagnetskog spektra (oko 300 do 700nm). Prvo, oko se fokusira na objekat i prikuplja svetlo koje se od njega reflektuje, a zatim svetlost koja dopire do očiju prolazi kroz rožnicu (cornea je providni zaštitni sloj koji djeluje kao sočivo i prelama svetlost), prolazi kroz šarenicu (iris kontroliše količinu svetlosti) do konačnog odredišta mrežnice (retina). Ćelije foto-hemijskom konverzijom generišu električne signale i sprovode do optičkog nerva. Na retini, svetlost se pretvara u električne impulse pomoću dva tipa foto-receptora. Valjkaste ćelije su odgovorne za vid prilikom slabe osvetljenosti (skotopska vizija), percipiraju samo nijanse sive. Ćelije konusnog oblika su aktivne na višim intenzitetima svetla (fotopična vizija) uočavajući boje odgovorne su za visoku prostornu aktivnost. Zapravo, detektovanje boja zahteva tri vrste konusnih ćelija, od kojih je svaka osetljiva na različit opseg elektromagnetskog spektra (crvena boja - duga talasna dužina, zelena boja - srednja talasna dužina, plava boja - kratka talasna dužina). Fotoreceptori funkcionišu udruženo kako bi stvorili sliku. Primer je inhibitorno ponašanje, lateralna inhibicija oka pomaže lokalizaciji ivica izoštravanjem, pojačanjem kontrasta (inhibicija čini promene izraženije u blizini ivica) i detektovanjem ivica.Informacije koje generišu foto-receptori komprimuju se i prenose kroz dve vrste ganglijskih ćelija: magno i parvo ćelije. Razlikuju se po veličini, dimenziji receptivnog polja i brzini provođenja. Magno ćelije su veće, sa velikim receptivnim poljem i većom brzinom provođenja i zadužene su za posredovanje informacija o dubini i kretanju. Parvo ćelije su manje, imaju kratko receptivno polje i sporu brzinu provođenja, zadužene su za obradu informacija o boji i detaljima. Diferencijacija ćelija se evolucijski objašnjava izraženijom potrebom da se uoči nešto što se brzo približava nego znati šta tačno dolazi. Značajno je da svako oko pojedinačno sadrži 10**8 cilindričnih i konusnih ćelija, ali samo 10**6 ganglijskih aksona u optičkom nervu. Dakle, jedan ganglion prihvata informacije višestrukih receptorskih ćelija. Ganglijske ćelije imaju sporu brzinu paljenja čak i u mraku; usmjeravanje difuznog svjetla na retinu malo utiče na njegovu brzinu, ali direktna mala tačkica koja pada na malu kružnu površinu na retini može povećati ili sprečiti brzinu aktivacije ganglijskih ćelija; svetlo na retini i perimetru u isto vreme ne utiče na brzinu okidanja; konačno, ostale ganglijske ćelije imaju isključeno središnje područje okruženo uključenim područjem. Kao rezultat, optički živac ne prenosi samo informaciju područjima u mozgu da je svetlost otkrivena, nego da je detektovan kontrast između svjetla i mraka. Informacije se šalju na LGN (Lateral Genticulate Nucleus), gde se spajaju sa novim skupom inter-neurona. Informacije se zatim šalju u specijalizovano područje u okcipitalnom korteksu nazvanom vizuelni korteks. LGN ćelije reaguju slično ganglijskim ćelijama ali ne na krugove svetla nego na trake svetla (ili tame) ili ravne ivice između svetlih i tamnih područja. Princip se može primeniti i za razumevanje kako se detektuju zakrivljene linije (koristeći neurone koji detektuju unapred definisane dvo-dimenzionalne oblike). Postoji i hipoteza da se ne koristi niz tačaka povezanih linijama, koriste se povezane polu-slične usmerene linije za detekciju izvoda ravnih linija (tangenta na određenoj tački). Istovremeno otpuštanje ovih neurona je aktivirala prisutnost kontinuirane krive, a ne zasebnih tačaka. Teorija objašnjava monokularnu detekciju dubine (identičan tangencijalni ugaoni sistem) koristeći brzinu pri kojoj promena uglova omogućuje dubinsku percepciju u odsustvu binokularnog vida.Percepcija kretanja se otkriva različitim uzorcima svetla na retinalnoj slici. Značajno je otkriti kretanje u dedukciji ako se nešto kreće u vašem smeru (privlačenje pažnje); segmentiranje prednjeg plan u odnosu na pozadinu; uočiti 3D oblike i za samo-lokalizaciju u prostoru (navigacija i izbegavanje sudara). Neuroni u području odgovornom za praćenje kretanja su selektivni na brzinu (brzina i smer) primajući ulaze od direkciono selektivnih neurona iz V1 korteksa. Izloženi smo obilju informacija koja aktiviraju mnoga područja mozga za obradu, arhiviranje i odbacivanje. Problem je što je većina informacija redundantna i nepotrebna i zahteva odbacivanje. Drugi je problem što većina procesa startuje u različitim vremenskim intervalima kako bi se postigao zajednički ciljni zadatak. Razumevanje šta se događa unutar mozga, zahteva razlikovanje puteva propagacije signala, počevši od aktivacije sa spoljašnjih ulaza, do centra procesiranja ili jedinica arhiviranja. Neuroni su osnovni elementi koji svoje veze s drugim neuronima prilagođavaju stvaranju reprezentacija ili obradi informacija. Neuron može promijeniti svoje veze ili spremnost da oslobodi transmiter (privremeno povećati ili smanjiti bez potrebe za bilo kojom aktivnošću u neuronu) u komunikaciji sa drugim neuronima. Značajno je da promene u vezama mogu biti trajne ili samo privremene. Informaciju najpre prihvata neuron od drugih neurona ili senzora pomoću hemikalija (neurotransmitera) koje dospevaju na dendrite. Zatim, ako je ulaz dovoljno intezivan, neuron će generisati impuls koji startuje na somi i prenosi se kroz terminalne grane aksona na druge neurone. Električni impulsi nerava, aktivacioni potencijali, kratkotrajne su električne pojave koje nakratko preokrenu polaritet membrane, od negativnog (polariziranog) do pozitivnog (depolariziranog), promenom koncentracije jona kalijuma i natrijuma unutar i izvan ćelije. Međutim i ako nije poznat u potpunosti mehanizam prenosa, postoje područja u kojima postoji jasna promena učestanosti u prisustvu informacija. U normalnim uslovima, prosečan ljudski mozak sadrži 100 milijardi neurona, prosečno od 1000 sinapsi veza (približno 10**14), što ga čini složenim za identifikaciju putanja propagacije, procesiranja i arhiviranja. Ipak, unutar organa mozga postoje područja koja rade združeno. Na primer, okcipitalni režnjevi su odgovorni za sistem vizualne obrade. Postoje hipoteze o memoriji koje pretpostavljaju da su jedinice predstavljene različitim obrascima aktivnosti unutar sličnih neuralnih elemenata, za razliku od zauzimanja različitih lokacija koje je moguće povezati sa asocijacijama. Upotrebom različitih obrazaca aktivnosti, skup elemenata predstavlja različite memorije koje je kasnije moguće pretražiti pomoću generisanja istog uzorka. Zatim, određena memorija mora biti predstavljena obrascem mikro-obležja ili određenim skupom aktivnih jedinica. Drugim rečima, pretraživanje memorije uključuje rekonstrukciju informacija sa različitih lokacija u mozgu. Jačanje sinaptičkih veza u skupu neurona aktivnih u kodovanju generiše skup elemenata (engram). Stoga jačanje sinaptičkih veza povećava verovatnoću da će se isti put koji se koristi za kodiranje upotrebiti i za pretraživanje. Elementi su i distribuirani i lokalizovani; visoko diferencirani i specijalizovani. Stoga ne postoji jedan memorijski centar, s mnogim delovima koji sudeluju u pojedinačnim događajima. Također uključen je i ograničen broj sistema i puteva, pri čemu svaki deo različito doprinosi prezentaciji. Proces učenje karakteriše se promenama strukture neurona i zavisi od sinaptičkih modifikacija biohemijskih ili biofizičkih događaja, propraćeno morfološkim promenama u strukturi neurona. Ostale varijacije pojavljuju se u sinaptičkim spojevima; u težini i debljini somata; u broju, dužini i sinaptičkom prečniku dendritnih grana; i u broju i obliku dendritnih spine i u neuronskoj ekscitabilnosti. Pojedine promene imaju kratko trajanje (promene u sinaptičkim spojevima), druge traju duže (promene u sinaptičkoj snazi), dok se u rijetkim slučajevima mogu preneti na buduće generacije (promena DNK). Ipak, promene su međusobno povezane (varijacije u spojevima mogu prouzrokovati promene u sinaptičkoj snazi), a unutar njih leži formiranje neuronskih ansambala. Hipoteza pretpostavlja dve vrste memorije: kratkoročna memorija (STM) i dugoročna memorija (LTM). Kratkotrajna memorija (od 15 do 30s) nestaje ako postoji ometanje. Veruje se da je STM posledica modifikacije neurona praćena privikavanjem na ponašanje (slabljenje odgovora koji se javlja nakon ponovljene stimulacije locirane rano na putanji) ili senzibilizacija (ponovljeno davanje stimulusa rezultira progresivnim pojačanjem odgovora), što uključuje presinaptičke promene sposobnosti senzorskih neurona da oslobode transmiter. Ideja STM je da sadrži informacije za ostvarenje planiranih događaja, kao što je mentalno istraživanje različitih mogućih rešenja pre nego što se odabere ono što je cilj uraditi. Sposobnost zadržavanja informacija za dovršenje zadataka ljudska je karakteristika, što uzrokuje da područja mozga postanu vrlo aktivna, posebno pred-frontalni režanj koji je visoko razvijen kod ljudi u poređenju sa drugim vrstama. Dugoročno pamćenje (LTM) je sećanje koje traje. Prelazak STM u LTM zahteva proces konsolidacije (ćelijski ili sinaptički, može trajati nekoliko dana do mnogo godina), što čini putanju otpornom na neke agense koji je mogu narušiti ili izbrisati STM [D.A.M]
Mapiranje prostoraPostoji hipoteza da naš mozak mapira kvalitete percepcije, iskustva i apstraktne pojmove u različitim dimenzijama, uz pomoć istog sistema koji koristimo za mapiranje fizičkog prostora. Oduvek je postojala veza između mentalnih i fizičkih svetova u kojima živimo, posebno kada je u pitanju memorija. Pojam prostora upotrebljavamo kao organizacioni princip kojim percipiramo i interpretiramo svet, čak i apstraktno. Istraživanja su pokazala da pamćenje i navigacija imaju anatomsku (grid-based) osnovu u hipokampusu. Nedavna saznanja sugerišu istu osnovu u obradi drugih vrsta informacija, uključujući prizore, zvukove i apstraktne koncepte. Najambiciozniji predlozi sugerišu da mrežni kodovi (grid framework) mogu biti ključ razumevanja kako mozak obrađuje sve detalje opšteg znanja, percepcije i pamćenja. Prvi rezultati ukazuju da mozak na sličan način obrađuje trajektorije kroz fizičke prostore i konceptualne prostore.
Percepcija bojaBoje su sveprisutne u našim životima i ne možemo zamisliti život bez boja. Naš doživljaj boje je subjektivan. Na perceptualne mehanizme tri-hromatskog vida su snažno uticali evolucijski faktori, prelazak na aktivnosti pod dnevnom svetlošću i prepoznavanje izvora hrane. Boja nije osobina elektromagnetnog zračenja, odlika je vizuelne percepcije posmatrača. Ne postoji kategorična razlika vidljivog spektra elektromagnetnog zračenja u odnosu na nevidljivi. Pojedine grupe foto-osetljivih ćelija retine oka su najosetljvije u oblastima dugih (odgovorne za crvenu boju), srednjih (zelenu) i kratkih (plavu) talasnih dužina u vidljivom delu spektra. Mapiranje talasnih dužina vidljivog spektra na naš doživljaj boja je individualno. Koncept boja se može podeliti na dva dela: svetlina (brightness) i koloritet (chromacity). Dovoljne razlike u talasnim dužinama prouzrokuju percepciju oko 128 različitih boja (hue), ali mešanjem čistih spektralnih boja međusobno i sa belom svetlosti, prosečan posmatrač razlikuje oko 10 miliona različitih boja. Osnovni elementi boje na slici su nijansa, svetlina, zasićenost (saturation), površina i kontrast. Tri osnovne (primarne) boje nastale razlaganjem sunčeve svetlosti su crvena, žuta i plava. Tri složene (sekundarne) boje dobijaju se mešanjem osnovnih boja crvena+žuta = narančasta, plava+žuta = zelena, plava+crvena = ljubičasta. Komplementarne boje su dve boje od koje jedne nema ni malo u drugoj boji: narančasta i plava, ljubičasta i žuta, crvena i zelena. Tercijarne boje dobijaju se mešanjem primarnih i sekundarnih (npr. plavozelena, žutozelena...). U svakodnevnom životu, ljudi opisuju ograničen broj boja (black, white, gray, red, yellow, green, blue, pink, orange, brown, purple) + (peach, teal, lavender, maroon, tan, gold, turguoise, burgundy, aqua, violet, salmon, magenta, olive, fuchsia, lime, periwinkle, lilac, mustard, beige, brick, flesh, forest, chartreuse, coral, rust, rose, navy, chocolate, wine, sky, golden rod) u zavisnosti od okruženja i kulture. Hromatska konstantnost (color constancy) je sposobnost vizuelnog sistema da razlikuje objekat na sceni u širokom rasponu osobina osvetljenja. Adaptacija je posledica predugačkog izlaganja jednoj boji, što prouzrokuje smanjenu senzitivnost za datu boju. Produženo izlaganje jednoj boji stvara naknadne slike koje predstavljaju negative (komplement) originalne boje. Simultani kontrast (indukovane boje) je naknadni efekat pojave komplementarnih boja koji zavisi od zasićenosti pozadine. Interakcija dimenzija svetline i koloriteta tako da tačke izgledaju kao da imaju isti kolorit, a fizički istovremeno kovarijaju i intenzitet i kolorit. Percepcija svetline (brightness) u funkciji normalnog osvetljenja (luminance) je nelinearna (Stevens' power function) sa većom osetljivošću na relativne razlike unutar tamnih tonova u odnosu na svetle tonove. Dinamički opseg za bliske objekte je 7.5 stops i kontrast 150-200, a za statične slike opseg je 10-14 stops i kontrast 1000-15000. Možemo razlikovati objekte na svetlosti zvezda (0.0003 cd/m2) ili pod sjajnom sunčevom svetlosti (40,000 cd/m2), na mesečini scena je osvetljena 1/1,000,000,000 delom dnevne svetlosti (0.2 cd/m2) što predstavlja dinamički opseg od 90dB (230=1,073,741,824). Ali naš HVS zahteva vremenski period prilagođavanja, potpuna akomodacija na noćne uslove osvetljenja traje do 40 minuta. HVS optimizacija kodovanja i reprodukcije video signala zahteva korekciju (gama) koja obezbeđuje dovoljnu tačnost percepcije svetline i boje u opsezima u kojima je HVS osetljiviji, odnosno smanjuje broj alociranih bita u opsezima koje HVS ne razlikuje, održavajući zahtevan kvalitet slike. Konvencionalne gama-funkcije su upotrebljive za snimanje u uslovima slabog osvetljenja i kompatibline su sa CRT ekranima (100 cd/m2) i ograničenog su dinamičkog opsega (8 stops=8bpp 1:28=256). Prenosna funkcija koja je bliža Weberovu zakonu (JND) omogućuje veći dinamički raspon na istoj dubini bita, nego konvencionalna gama-funkcija. Standardi proširenog dinamičkog opsega HDR (high dynamic range) (10 stops=10bpp 1:210=1024 30dB), kao što su hibridna log-gama (HLG) i SMPTE ST2084 (PQ), omogućavaju veći dinamički raspon upotrebom različite prenosne funkcije. HLG je kompatibilan sa SDR ekranima. HDR LCD ekrani su maksimalne svetline preko 1000 cd/m2 i nivoa crnog manje od 0.05 cd/m2 i kontrast najmanje 1:20,000. HDR OLED ekrani su maksimalne svetline preko 540 cd/m2, nivoa crnog manje od 0.0005 cd/m2 i kontrast najmanje 1:1,080,000. Ekrani reprodukuju prošireni spektar boja WCG (wide color gamut) kao uvećani podskup koloriteta definisan 2D pozicijom monohromatskih RGB kolor primara (BT.2020, DCI-P3) u perceptualno uniformnom CIE LAB koordinatnom sistemu (x-crvena, y-zelena) i 3D pozicijom referentnog osvetljenja D65 (white point) tako da jednake promene numeričkih vrednosti koordinata označavaju proporcionalno jednake perceptualne promene. Ultimativni HDR&WCG cilj je reprodukcija jasnih zasićenih boja i na visokim vrednostima svetline, kao i mogućnost razlikovanja finih detalja u dubokim tamnim delovima koloriteta slike [D.A.M]
Opažanje mirisa i ukusaČulo ukus je naše najosetljvije i najpopustljivije čulo. Priča o tome zašto nešto volimo mnogo je zanimljivija nego što mislimo, ali šta se odvija iza ukusa nimalo nije jednostavno. Ono što većina podrazumeva pod ukusom zapravo je miris. Mirisni sistem čine dva dela. Aroma koja ulazi kroz nos naziva se ortonazalni miris. Mirisni sistem u ustima i grlu je retronazalni, aromatična organska jedinjenja se žvakanjem i gutanjem potiskuju u nosnu duplju. Konačno svi signali dospevaju u region mozga za ukus (taste) i zajedno sa mirisom (smell), rekonstruišemo aromu (flavour). Ne možemo ih podeliti i dodatno su povezani sa centrima emocija i pamćenja. Olfaktorni i gustatorni sistem životno su značajni a naglašavaju i svakodnevno iskustvo kroz emocije i memoriju. Olfaktorni nerv je jedinstven senzorski put koji direktno povezuje spoljašnje okruženje i limbični sistem koji je povezan sa emocijama, motivacijom i memorijskim asocijacijama. Limbički sistem je evolucijski najstarija struktura mozga povezana sa čulom mirisa. Osećaj ukusa je rezultat kompleksne interakcije različitih senzorskih mehanizama teksture, temperature i distinktivnih mirisa hrane. Postoji pet osnovnih klasa ukusa: slatko (>20 ukusa osećaju čulne ćelije na vrhu jezika), slano (na prednjem delu jezika, iza čulnih ćelija za slatko), gorko (>20 ukusa osećaju čulne ćelije na korenu jezika i nepcu), kiselo (na nepcu i uz rub jezika) i umami (pikantno). Svaka ćelija našeg organizma sadrži izvesnu količinu slane vode. Šećeri su osnova metabolizma energije i biosinteze. Osečaj gorčine je evoluirao kao odbrambeni mehanizam detekcije potencijalno štetnih toksina u hrani.Snažni aromatiči molekuli svakog jedinjenja stimulišu jedinstvenu kombinaciju receptora koja nam omogućava da detektujemo ukus. Samo kada kombinujemo povratni miris i ukus možemo da doživimo potpuni potencijal hrane. Osećaj mirisa je najmanje razjašnjen sensorski modalitet a koji istovremeno predstavlja značajan komunikacioni kanal (400 različitih detektora mirisa) prema okruženju. Ljudi individualno reaguju na miris, tako da je psihološko i fiziološko stanje pod uticajem dva mehanizma: farmakoloških osobina molekula i kontekstualnih asocijacija i memorije. Osećaj mirisa direktno i podsvesno utiče na raspoloženje, specifične emocije, stavove, efikasnost rada, percepciju zdravlja, emocionalno pamćenje, i emocijama uslovljeno ponašanje. Hemijske metode generisanja distinktivnih mirisa su kompleksne, zahtevaju održavanje i dopunjavanje, umanjene kontrolabilnosti i neuniformne distribucije molekula mirisa. Detektovanje ukusa i hemijska stimulacija je značajan zahtev. Senzacija se produkuje na jeziku u toku hemijske reakcije supstanci. Osnovne fiziološke karakteristike su kvalitet, intenzitet, lokacija u oralnoj šupljini i tajming. Osnovni ukusi se klasifikuju na osnovu uticaja na naše telo kao korisne ili štetne materije, i na osnovu kako efektivno varimo hranu. Percepcija ukusa zavisi od senzitivnosti, adaptacije u toku izlaganja u dužim vremenskim intervalima, kros-adaptacije ili kros-pojačanja praga ukusa [D.A.M]
Ukusno iskustvoStvaranje doživljaja ukusa je izazov. Nauka o tome kako doživljavamo ukus nije dobro shvaćena. Postoji hipoteza sparivanja ukusa ali ne postoji jednostavan model perceptualnog odgovora. To je kombinacija najmanje tri čula: miris, ukus i izgled. Ideja da se jezik može mapirati u četiri područja ukusa (kiselo, slatko, slano, gorko) je razotkrivena. Pretpostavlja se da postoji najmanje još jedan ukus (umami) i da se degustacija događa na više mesta nego samo na jeziku. Svaki recept za ukus, gde god se pojavljuje, može otkriti svih pet ukusa. Postoji i genetska komponenta. Dizajniranje novih doživljaja ukusa je umetnost i nauka koja zahteva mnogo godina da bi postali stručnjaci. Postoje hiljade dostupnih sastojaka. Neophodno je ne samo odrediti koju kombinaciju sastojaka upotrebiti, već i razmeru iznosa potrebnih za ispunjavanje specifičnih ciljeva. I najmanja promena u količini sastojka može stvoriti ili uništiti ukus. Istraživači stiču stručnost dugogodišnjim eksperimentima, iterativno stvaraju formule kandidate, proizvode uzorke, izvode razne laboratorijske i potrošačke testove na uzorcima i uče iz rezultata. Proces zahteva mnogo vremena i resursa za pronalaženje alternativnih sirovina koje nadopunjuju i zamenjuju formulu, odgovarajuće razmere sirovina na osnovu načina upotrebe, iskustva ljudi i odgovore, udaljenosti novih generisanih formula ukusa i najbližih susednih aroma [D.A.M]
Mirisno iskustvoPostoje mnogi tehnički aspekti koji je neophodno savladati u stvaranju novih mirisa koji potiču željeni emocionalno iskustvo. Naše čulo mirisa zasniva se na interakciji sa kolekcijom molekula iz veoma velikog skupa hemijskih jedinjenja. Međutim, naša mirisna percepcija je pre svega sintetička a ne analitička. To znači da kada mirišemo mešavine jedinjenja, ne percipiramo mešavinu pojedinačnih jedinjenja. Umesto toga, opažamo jedan fizičko-hemijski objekat odjednom, gde je taj objekt poendirana kombinacija pojedinih fizičko-hemijskih odlika jedinjenja u smesi. Punu skalu percepcije mirisa za jedinjenje ili mešavinu jedinjenja moguće je predvideti iz fizičko-hemijskih svojstava molekula. Cilj opšteg nelinearnog mapiranja fizičko-hemijskih atributa jedinjenja na njegove perceptualne opise je procena doživljaja jedinjenja i mešavine jedinjenja za koje ne postoji eksperimentalni podatak o percepciji, ali za koje su lako dostupne fizičko-hemijske osobine.Neophodno je duboko tehničko znanje, sposobnost predviđanja ljudskog odgovora na složene kombinacije sastojaka i potreba za originalnošću. Kombinouju se postojeći biološkeisenzori sa veštačkim sistemima kako bi se stvorili visoko osetljivi senzori isparljivih organskih jedinjenja VOC (volatile organic compound). Postupak obuhvata generisanje mirisa i višekriterijumsko ocenjivanje ukupnog iskustva, tehničke izrade i jedinstvenosti na tržištu. Mapiranje postojećih mirisa omogućava detektovanje oblasti atributa mirisa koji još uvek nisu istraženi i komercijalno iskorišćeni [D.A.M]
Audio scenaOkružujući zvuk je značajna komponenta VR sistema. U zavisnosti od aplikacije, prioritet čula se razlikuje kao i njihov relativni značaj. Kvalitet doživljaja je funkcija autentičnosti (fidelity, immersion, presence) VR okruženja koje omogućava svesni i nesvesni očekivani doživljaj korisnika. Okružujući 360 audio koji je u skladu sa 3D vizuelnom slikom je značajan u podržavanju imerzije. Na imerziju značajno utiče način propagacije zvuka na sceni. Neophodno je da se audio naznake pojavljuju u korektnom pravcu i ravni, korektnog intenziteta i neophodna je reprodukcija u realnom vremenu koja odgovara pokretima glave slušaoca. VR kacige na tržištu široke potrošnje, dizajnirane su za personalizovano imerzivno iskustvo. U kombinaciji sa slušalicama, VR okruženje se renderuje u realnom vremenu na osnovu akvizicije, kodovanja i transporta digitalnog zvuka za doživljaj binaurialnog iskustva koje odgovara orijentaciji glave slušaoca i njegovom kretanju. Imerzivni audio sistemi proširuju zvučnu sliku okružujućeg sistema (5.1.2-5.1.4 - 7.1.2-7.1.4 - 24.1.10) u vertikalnu dimenziju za 3D reprodukciju. Slušalac doživljava viši stepen realizma i manje potiskivanje neverice da nije deo scene, da je samo udaljeni posmatrač. Imerzivna audio tehnologija omogućava savršenu kombinaciju zvučnih kanala, zvučnih objekata i zvučne scene u kreiranju zvučnog polja kontinuiranog pokreta zvuka u 3D prostoru. Na osnovu strukturalnih elemenata prostora AI tehnologija veštačke inteligencije omogućava optimalnu raspodelu zvučnika i određivanje pozicije zvuka sa visokom tačnošću (+/-1 degree azimuth and pitch angle). Osnovni formati imerzivnog zvuka: 
  • kanalisani zvuk (channels) gde je svaki kanal pridružen jednoj tradicionalnoj poziciji zvučnika u studiju (5.1, 7.1, 22.2), 
  • audio-objekti su pozicionirani u tri dimenzije (u fiksnom koordinatnom sistemu sa centrom u translaciono statičnom slušaocu, nije modelovana reverberacija prostorije i efekat okluzije); reprodukcija je nezavisna od lokacije zvučnika, 
  • audio-scena (ambiosonic dekompozicija prostornih komponenti zvučnog polja na ortonormiranu bazu funkcija) je prezentovana skupom koeficijenata signala koji su linearna kombinacija težinskih baznih funkcija prostornih ortogonalnih harmonika; reprodukcija je nezavisna od lokacije zvučnika.
Objektno bazirani mediji omogućavaju da se sadržaj prilagođava zahtevima svakog pojedinog slušaoca. Razdvajanjem medija u zasebne objekte, pridajući im značenje i opisujući kako se mogu preurediti, sadržaj je moguće prilagoditi kontekstu pojedinog slušaoca. Audio postaje objekat kada ga prate metapodaci koji u potpunosti opisuju njegovo postojanje, prostorni položaj i funkciju. Sve to postaje potpuno prilagodljivo na strani slušaoca prema njegovom specifičnom okruženju slušanja, potrebama i preferencama, na svim uređajima za reprodukciju. Neophodni su otvoreni formati i sistemi za kreiranje, izvoz, autorizaciju, arhiviranje i reprodukciju multi-dimenzionalnog zvuka. Ambisonic je tehnologije snimanja i reprodukcije okružujućeg zvuka. Neophodno je poznavanje psihoakustike i digitalne obrade signala, posebna oprema za snimanje, manipulaciju i reprodukciju u ambisoniks formatu višeg reda. Prvi ambiosonic snimci nastajali su sporadično tridesetih godina prošlog veka, koncepti su razvijeni 1970ih, a klasična primena formata prvog reda primenjuje se od 1980ih. Ambiosonic je okružujući zvuk u potpunom sfernom prostoru koji registruje azimut i elevaciju izvora zvuka, iznad i ispod a takođe i okružuje slušaoca. Na primer, FOA (First Order Ambiosonics) je kodovan na četiri kanala: omnidirekciono pojačanje i tri dimenzionalne komponente (forward/backwards, left/right, up/down). Uzimajući u obzir i više prostorne harmonike HOA (Higher Order Ambisonics) značajno se poboljšava kvalitet iskustva. HOA format zahteva veći broj zvučnika ali poboljšana je prostorna rezolucija i povećan volumen u kojem je reprodukcija perfektna. U ranim danima, znanje o akustici i dizajnu zgrada bilo je dovoljno da se koncerti, pozorišne predstava i nastupi uživo prirede u auditorijumu ispunjenom slušaocima. Stari Grci posmatrali su zvučno ponašanje i distribuciju kao uglavnom geometrijski problem. Polukružni grčki amfiteatar deluje kao prirodno akustičko pojačalo; usmerava i kontroliše zvučne refleksije na način da se razumljiv govor i muzika može preneti velikom broju ljudi. Moderna zvučna pojačala pojavila su se 1915. godine zahvaljujući javnim govorima i filmskoj industriji. Prvi nacrti nizova zvučnika mogu se naći još od 1930ih. Problemi i ograničenja konvencionalnog niza zvučnika bili su vrlo jasno shvaćeni sredinom 80ih. Prvi linijski sistemi predloženi su 90ih, a brzi razvoj digitalnih procesora signala (DSP) omogućio je aktivno upravljanje nizovima zvučnika. Sistem zvučnika 2000ih je kombinacija linijskog niza (zakrivljeni vertikalni niz) i konvencionalnog klastera horni. Linijski izvor naglašava usmerenost u vertikalnoj ravni i propagira zvučni talas kao cilindrični oblik, umesto sfernog. Postoje slučajevi kada nije praktično ili moguće postaviti matricu zvučnika na tehnički ispravan način zbog neprikladnosti mesta i linija pogleda, tako da je neophodno podešavanje kašnjenja ili programabilna kontrola i sinhronizacija zvučnika. Danas upotrebljavamo sofisticirane sisteme zvučnika, specijalizovane mikrofone, konzole miksere, procesore signala, sistemske kontrolere i pojačala kako bismo postigli prirodan rezultat. Razumevanje osnovnih principa akustike i tehnička stručnost sa dostupnim audio alatima ključno je za dosledno dobre rezultate. I najbolje dizajnirani sistam zvučnika mora biti pravilno implementiran. Niz može raditi savršeno, ali to može biti pogrešna vrsta matrice za aplikaciju. Uspeh u dizajniranju i instaliranju niza zavisi od izbora najbolje vrste matrice za pokrivenost i zahteve za određenu aplikaciju, odnos između uglova pokrivanja pojedinih elemenata niza i uglova podele između elemenata, elektronika za upravljanje elementima sistema, i praktična pitanja, kao što su kako i gdje se zvučnici mogu instalirati. Niz zvučnika je kombinacija višestrukih kućišta zvučnika namenjenih za generisanje kombinovanog odziva koji je različit od odziva pojedinih elemenata. Kombinovani niz je snažniji i šire pokrivenosti. Postoje mnoge kombinacije: četiri različite konfiguracije (zvučnici bliski zajedno) i tri raspodeljene konfiguracije (zvučnici se međusobno razdvajaju). Za dva ili više zvučnika smeštenih u neposrednoj blizinu, moguće su četiri kombinacije: preklapajući tačkasti izvori, nepreklapajuće tačke, paralelne i unakrsne kombinacije. Izbor sistema zvučnika koji najbolje odgovara određenoj aplikaciji, obavlja se u dva koraka: doneti odluku o spojenom ili podeljenom niz, a zatim napraviti selekciju između sedam vrsta polja [D.A.M]
  1. Matrica tačkastih izvora (point source arrays) formira se u praktičnom smislu dodirom leđa kućišta zvučnika i razdvajanjem frontova kako bi se stvorio virtualni akustični tačkasti izvor iza polja. Kombinacija preklapajućih tačaka (overlapping) pojavljuje kada je ugao pokrivanja pojedinih elemenata zvučnika širi od ugla između elemenata niza. Tačkasti izvor koji ne preklapa (nonoverlapping) javlja se kada je ugao između elemenata jednak ili veći od ugla pojedinačnih elemenata. Postavljanje zvučnika duž ravni, sa redundantnom vertikalnom i horizontalnom orjentacijom stvara paralelne nizove (parallel arrays). Kombinovani niz je snažniji, šire pokrivenosti. Na primer, dva zvučnika naslagana jedan na drugi okrenuta u istom smjeru su paralelni niz. Unakrsni spojeni niz (crossfair arrays) stvoren je dodirivanjem frontova i razdvajanjem zadnjih delova, stvarajući područje koje se preklapa ispred zvučnika. Svaki od ovih povezanih nizova ima svoje aplikacije, prednosti i slabosti.
  2. Ako uzmemo dva zvučnika i razdvojimo ih, postoje tri moguće kombinacije: podeljeni tačkasti izvor, podeljena paralela i tačkasto odredište. Podeljeni tačkasti izvori stvaraju se deljenjem kućišta zvučnika i međusobnim razmicanjem frontova kako bi se stvorio virtualni akustični tačkasti izvor iza polja. Podeljeni paralelni nizovi se stvaraju razmicanjem zvučnika duž ravni, sa redundantnom vertikalnom i horizontalnom orjentacijom. Tačkasto oderdište kreira se razmicanjem zvučnika okrenutim unutra, stvarajući preklapajuće područje u oblasti slušanja. Od svih tipova nizova, tačkasti izvor poseduje najveću mogućnost da postigne i pojačanje snage i ujednačen frekvencijski odziv. Blizina elemenata osigurava pojačanje, dok razlika u orijentaciji uglova osigurava jednoličan odziv. Dodatna prednost je sposobnost niza tačkastih izvora da održava gotovo konstantan stepen ujednačenosti preko svoje dubine pokrivanja. Interakcija na zadanom aksijalnom uglu pokazuje samo minimalnu promenu dok se udaljavate od ove vrste polja. Polje tačkastog izvora je vrlo fleksibilno. Može se proširiti kako bi se popunila potrebna pokrivenost dodavanjem dodatnih horizontalnih i vertikalnih elemenata. Polje tačkastog izvora je najbolji izbor za većinu primena gdje je dubina pokrivanja jednaka ili veća od širine pokrivanja. 
  3. Budući da paralelni nizovi nisu mnogo više od redova zvučnika složenih u liniju, pitanje je da li se uopšte mogu smatrati nizom. Na niskim frekvencijama, ponašaju se kao niz, spajajući se zajedno kako bi povećali snagu i usmerili na jedan mnogo uže pokrivanje nego što bi jedan element omogućio. Iznad vrlo niskih frekvencija, takvi se nizovi ponašaju kao višestruki izvori, osiguravajući redundantnu pokrivenost sa velikom interakcijom koja se menja aksijalnim uglom i dubinom. Praktični rezultat toga je da su paralelni nizovi upotrebljivi samo za subwoofere, gde blizina zvučnika održava vremenske pomake između zvučnika dovoljno malim da spreči poništavanje na osi. U takvim slučajevima, odstupanje izvan ose usmerava snop u jači smer usmeravanja, omogućavajući pojačanje na osi i smanjujući energiju izvan ose. Nažalost, paralelni nizovi su apsolutno nesposobni omogućiti ujednačen odziv. Geometrija je neizbežna. Svaka lokacija publike u aksijalnim (horizontalnim i vertikalnim) i dubinskim ravnima doživeće različito vreme propagacije od svakog elementa. Budući da je njihov relativni aksijalni ugao gotovo identičan, svaki položaj će imati gotovo jednake nivoe od svakog elementa. Pomeraj u vremenu, jednak u nivou. Napredak u tehnologiji obrade signala pokrenuo je pokušaje da se prevaziđu ograničenja geometrije pomoću usmjeravanja snopa paralelnih elemenata. Rukovanje nizom se vrši dodavanjem elemenata sa malo drugačijim vremenima kašnjenja. Ako se središnjim elementima pridodaje dodatno kašnjenje, spoljašnji elementi stižu na vreme u središnjem području stvarajući koherentni akustičku dopunu. Ove tehnike mogu imati dramatičan uticaj na aksijalni odziv sistema, stvarajući koncentraciju snage u jednoj tački. Međutim, jednolikost pokrivenosti nije poboljšana ovom tehnikom, osim ako se publika koncentriše u središnje područje. Efekat Combo filtriranja nije eliminisan, nego je preusmeren sa središnjeg područja na bočne.
  4. Ukršteni nizovi su slični po konceptu sa tačkastim nizovima. Njihova se geometrija razlikuje po tome što se prednji delovi kućišta spajaju, a poleđine se razdvajaju. Nedostatk je i viši stepen interakcije, prvenstveno zbog dva faktora: povećana udaljenost između drajvera uzrokuje veće vremenske pomake, smanjujući jednoličnost pokrivenosti i visoki pritisak zraka ispred horni dovode do višeg izobličenja. U nekim slučajevima, raspoloživi fizički prostor je takav da se polja tačkastog izvora ne mogu uklopiti u dodeljeni prostor. Ova situacija može nametnuti upotrebu unakrsnog sistema zvučnika.
  5. Podeljeni nizovi sa tačkastim izvorom su proširena verzija nizova tačaka. Aspekti uglova ostaju isti, ali povećana udaljenost između elemenata znači da će se spoj pojaviti samo na ekstremno niskim frekvencijama. Značajno je ostvariti udaljenost između zvučnika proporcionalno talasnoj dužini razmatranih frekvencija. Razmak ne samo da ograničava raspon u kojem se spajanje može dogoditi, nego takođe daje dubinsku perspektivu koja nije bila prisutna u spojenim nizovima. U bliskom polju elementi su izolovani i ponašaju se kao diskretni elementi. U udaljenom polju, oni se preklapaju, uzrokujući destruktivnu interferenciju. Podijeljeni nizovi izvora su najbolji u aplikacijama gdje su horizontalni zahtevi u širokom luku sa ograničenom dubinskom oštrinom. 
  6. Podijeljeni paralelni niz je proširena verzija paralelnog niza. Kao i kod spojenih matrica, vertikalna i horizontalna orijentacija su suvišne. Međutim, razmak stvara varijabilan odnos između elemenata. Bliski elementi imaju minimalno preklapanje, ponašaju se kao nezavisni elementi u svim, osim vrlo niskim frekvencijama. U udaljenom polju, preklapanje je gotovo potpuno, kao u paralelnom nizu. Na dalekom polju, podeljena paralela ima dva ogromna nedostatka. Prvi je nedostatak spajanja. Veliki dodatak snage koji se nalazi u podeljenom paralelnom polju jednostavno se ne pojavljuje, osim u samom središtu između zvučnika. Drugo, široki razmaci stvaraju još jaču interakciju zvučnika na dalekom polju. Podeljeni paralelni nizovi najbolji su u aplikacijama gde su horizontalni zahtevi široka ravna linija sa ograničenom dubinskom oštrinom. 
  7. Ciljni tačkasti niz (point destination array) je proširena verzija ukrštenog polja. Zvučnici su razdvojeni i usmereni prema unutra u središnje područje. Oni su inverzni tačkasti izvor u tome što tačka fokusa nije na izvoru, nego na odredištu govornika. Ovaj tip polja ima slična ograničenja u odnosu na podeljeno paralelno (smanjeno spajanje, opsežno preklapanje). Ciljni tačkasti niz najbolje funkcioniše u aplikacijama gde su horizontalni zahtevi široka ravna linija s ograničenom dubinskom oštrinom, a gdje su dostupne samo lokacije zvučnika sa strane. 
Projektovanje područje pokrivenosti niza je složeno. Dok je ukupni ugao pokrivanja niza definisan na isti način kao i jedan zvučnik, postoje različite tačke tranzicije koje dele područje ukupne pokrivenosti polja na tri različite zone: šav (seam), kombinacija (combination) i izolacija (isolation). Vrste zona, zasnovana na nivou interakcije između elemenata niza, ukazuju na opseg pojačanja snage i frekvencijski odziv, kao i na ujednačenost nivoa polja. Implementacija sistema zvučnika značajno zavisi od načina upravljanja zonama [D.A.M]
  1. Područje šava obuhvata zonu kojem se dva elementa niza susreću sa jednakom snagom. U slučajevima kada su elementi identični, šav će biti na geometrijskoj sredini između bilo kojih dva elementa. Ako se elementi rade na različitim snagama, šav će se pomeritii iz geometrijskog središta prema mirnijem uređaju. Šav ima najveću akustičnu snagu u području pokrivenosti, ali također pati od najvišeg stepena neujednačenosti frekvencijskog odziva (osim u tačnoj središnjoj tački). Pokušaji da se sistem izjednači sa položaja u šavu biće vrlo nezadovoljavajući zbog velikih promena frekvencijskog odziva na svakom položaju (i radikalne količine izjednačavanja koju svaki od njih zahteva).
  2. U kombinovanoj zoni je signal iz jednog elementa u nizu 3 dB glasniji od drugog. Budući da se dva elementa niza više ne susreću sa jednakom snagom, maksimalno moguće pojačanje se smanjuje na +4 dB dok je poništavanje 10 dB. Područje kombinacije ima viši stepen uniformnosti od šava i pokazuje manje ekstremno combo filtriranje, tako da je reprezentativnije kao referentna tačka ekvalizacije. Veličina zone kombinacije zavisi o frekvenciji zbog proširenja oblasti niskih frekvencijae. Stoga, pri niskim frekvencijama, spoj koji se vidi na šavu nastavlja se, dok se srednje i visoke frekvencije pomeraju u kombinacijski mod.
  3. Područje izolacije ima najveći stepen ujednačenosti, približavajući se onom kada se mere pojedinačni elementi niza. Kako se udaljavamo od šava, dolazimo do tačke gde je signal jednog elementa za 10 dB glasniji od drugog. Ova razlika nivoa smanjuje maksimalni moguće pojačanje na manje od 2 dB, dok je maksimalno poništavanje ograničeno na manje od 3 dB. Combo filtriranje u izolacijskom području je značajno smanjeno, pa će reakcija sistema pozitivno reagovati na ekvalizaciju. Zbog proširenja oblasti niskih frekvencijae, veličina izolacijske zone takođe zavisi od frekvencije. Na niskim frekvencijama, spoj koji se vidi na šavu obično se smanjuje na nekoliko dB kombinacije, dok se srednje i visoke frekvencije premeštaju u mod izolacije.

Audio prostorna lokalizacijaČulo sluha omogućava identifikaciju i prepoznavanje objekata u okruženju na osnovu zvuka koji generišu, kao i zvučnu komunikaciju. Zvuk generiše objekat koji vibrira i prouzrokuje varijacije pritiska u prenosnom medijumu. Talasi promene pritiska propagiraju od izvora zvuka prema spolja. Kada talas dospe do drugog objekta, delimično se reflektuje ili difraktuje ili zvuk nastavlja propagaciju kroz objekat. Konačno zvuk dospeva do slušaoca i inicira slušni proces na membrani srednjeg uha. Organ sluha je efikasan pretvarač promena vazdušnog pritiska u neuro-električne signale koji se interpretiraju kao govor, muzika, šum... Oscilatorni lanac spoljašnje-srednje-unutrašnje uho (cochlea - basilar membrane - sensory cells), moždano stablo i slušni regioni mozga imaju specifične uloge u audio percepciji. Slušalac je sposoban da detektuje prisustvo zvuka, razlikuje promene frekvencije, nivoa i vremena; prepozna govor; lokalizuje izvore zvuka; i identifikuje i prepozna različite zvučne izvore. Centralni auditorni sistem je sposoban da blokira neželjeni zvuk (cocktail party effect) podešavanjem razlike vremena i intenziteta zvuka koji dopire sa leve-desne strane; sadrži specijalizovane ćelije koje reaguju samo na akustičku promenu (on-off). Zvučni nadražaji prouzrokuju interakciju sa nervnim sistemom i stapaju se sa ostalim telesnim mehanizmima kako bi postali deo celokupnog okruženja u kojem živimo.Zvuk ne poseduje prostornu dimenziju, ali izvor zvuka moguće je locirati u 3D prostoru na osnovu procesiranja našeg slušnog sistema. Tri prostorne dimenzije su azimut - smer od slušaoca u horizontalnoj ravni; elevacija - vertikalna gore-dole dimenzija; i domet - udaljenost ili blizu-daleko dimenzija. 
  • Auditivni sistem upotrebljava skup različitih naznaka za lociranje izvora zvuka u svakoj dimenziji. Zvuci iz izvora smeštenih izvan središta u azimutnom smeru dopiru do jednog uha ranije nego do drugog, a zvuk na bližem uhu je intenzivniji od zvuka na udaljenijem uhu. Prema tome, inter-auralne razlike u vremenu i nivou su dve naznake lokalizacije azimutnog (usmerenog) zvuka; interauralno vreme je osnovna naznaka za lociranje niskofrekventnih (ispod 1500 Hz) izvora zvuka, a interauralni nivo je osnovna naznaka na visokim frekvencijama. Interauralna razlika je posledica činjenice da glava i telo slušaoca predstavljaju akustičnu senku za uvo udaljenije od izvora zvuka. Ova senka glave slušaoca prouzrokuje velike razlike u nivou zvuka kada je izvor lociran nasuprot jednom uhu i visoke je frekvencije. Slušalac razlikuje promenu lokacije izvora zvuka sa tačnošću 1-3 stepena. 
  • U toku prostiranja zvuka od izvora do slušaoca, prelazi i difrakcija zahvata mnoge delove tela, posebno ušne školjke (pinna). Delovi tela prigušuju i usporavaju zvučni talas na način koji je specifičan za frekvenciju zvuka i odnos između položaja izvora zvuka i tela, posebno relativnog vertikalnog položaja izvora. Prenosna funkcija povezana s glavom slušaoca (HRT) opisuje promene spektra u toku propagacije od izvora zvuka do spoljašnjeg slušnog kanala. Visokofrekventni zvukovi se prigušuju na način specifičan za frekvenciju koji zavisi od vertikalnog položaja izvora zvuka u odnosu na telo. Različite vertikalne lokacije izvora zvuka generišu različite HRT prenosne funkcije. Postoje spektralna područja niske amplitude (notch) koja su specifična za vertikalni položaj izvora zvuka. Potisnuta spektralna područja u HRT predstavljaju naznake vertikalnih lokacija izvora. Naznake povezane sa HRT prenosnom funkcijom upotrebljavaju se u prepoznavanju zvuka koji dolazi ispred slušaoca od onog koji dolazi odpozadi. Ovakav položaj izvora generiše identičnu interarualnu razliku vremena i ni nivoa zvuka, tako da HRT naznake omogućavaju smanjenje greške napred-nazad lokalizacije. 
  • Udaljeni zvuci su uobičajeno mekši u odnosu na bliske izvore i naznaka jačine zvuka upotrebljava se za određivanje udaljenosti izvora, uz pretpostavku da je slušalac upoznat sa prirodom izvora (izvesno znanje o intenzitetu izvora zvuka). Ako postoji reflektirajuća površina (na primer, površina terena), refleksija bliskih izvora zvuka je gotovo jednakog nivoa kao i zvuk koji dopore do ušiju direktno iz izvora, dok je za udeljene izvore zvuka razmera reflektujućeg i direktnog nivoa zvuka, niža. Dakle, razmera reflektovanog i direktnog nivoa zvuka je naznaka percepcije udaljenosti zvučnog izvora, tako da je percepcija udaljenosti izvora lošija u uslovima u kojima ne postoji refleksija. 
U prostorima sa reverberacijom zvučni talas se reflektuje od mnogih površina, što dovodi do složenog zvučnog uzorka koji dopire do slušaoca. Slušalac uobičajeno prepoznaje prirodu stvarnog izvora zvuka, uključujući i njegov položaj, u mnogim reverberantnim prostorima, verovatno zato što auditivni sistem obrađuje prvi zvuk koji dopire do slušaoca i inhibira informacije zvukova koji dopiru kasnije. Budući da direktni zvuk iz izvora dopire do slušaoca ranije od refleksije duže putanje, auditivna obrada direktnog zvuka je u prednosti u odnosu na reflektovani zvuk, omogućavajući preciznu obradu i u prilično reverberantnim okruženjima. Drugi aspekt refleksije je da zvuk u reflektirajućem prostoru ostaje u prostoru i nakon završetka generisanja, zbog zvuka koji se i dalje reflektuje od mnogih površina. Vreme reverberacije je vreme (mereno u sekundama) da nivo odjeka ili reflektujućeg zvuka opada određeni broj decibela (60dB). Detekcija izvora zvučnog signala na jednoj prostornoj lokaciji u prisustvu maskirajućeg izvora zvuka na drugoj prostornoj lokaciji, poboljšava se kada su zvučni izvori signala i maskiranja udaljeniji. Sposobnost detektovanja maskiranog signala moguće je poboljšati ako je maskirajući izvor prostorno odvojen od izvora zvuka signala. Poboljšanje praga detekcije kao funkcija prostornog razvajanja naziva se prostornom razlikom na nivou maskiranja. 3D audio sistemi koji se zasnivaju na spektralnim HRT informacijama svakog pojedinačnog slušaoca, reprodukuju zvuk preko slušalica i omogućavaju percepciju kao da zvuk potiče od stvarnog izvora zvuka koji je lociran u prostoru. Personalizovana HRT tehnologija omogućava virtuelno auditivno okruženje visokog perceptualnog realizma [D.A.M]
Sve dimenzije zvukaDanašnja audio oprema i široko upotrebljavani formati za snimanje i reprodukciju nisu adekvatni za interaktivno VR okruženje. Neophodna je kombinacija audio-objekata i audio-scene sa personalizovanom HRT funkcijama i dinamično podešavanje u skladu sa kretanjem slušaoca u VR prostoru. Kanalisani stereo sistemi snimaju dva signala i reprodukuju na paru zvučnika ili slušalica. Okružujući sistemi (surround) su dopunjeni dodatnim centralnim zvučnikom (i bas kutija) , kao i dva ili četiri zvučnika pozadi. Audio-objekti se zasnivaju na metapodacima u toku snimanja i konzistentnoj interpretaciji i reprodukciji u skladu sa mogućnostima realnog sistema zvučnika. Audio-scena je kodovani zvučni front (ambiosonics tetrahedral microphones) na specifičnoj poziciji. Prva generacija 3D audio tehnologije poboljšava okružujući audio, ali ograničeno. Jedan pristup je postavljanje zvučnika na različitim visinama ali 3D iluzija ne omogućava značajnu promenu audio iskustva u toku kretanja slušaoca zato što su zvučnici na fiksnim pozicijama. Upotreba slušalica omogućava bolju kontrolu zvuka zato što nije neophodna kompenzacija oblika prostorije, pozadinskih šumova i refleksija. Pažljivom kontrolom tajminga, volumena, rezonance i eho karakteristika zvuka sa leve i desne strane moguće je kreirati 3D doživljaj (udaljenost i usmerenost) izvora zvuka pozicioniranih napred/nazad i dole/gore. Najjednostavniji način produkcije za slušalice je binauralno snimanje sa fiksiranom pozicijom mikrofona na maketi glave slušaoca. Ciljno rešenje je kreiranje standardizovane HRT funkcije koja obuhvata varijaciju intenziteta zvuka i vremena propagacije od svakog izvora do levog-desnog uha a takođe i varijacije zvuka prouzrokovane refleksijama i senkom glave i torza slušaoca. VR sistemi opremljeni snažnim DSP softverom i hardverom, kao i slušalice opremljene uređajem za praćenje pozicije, omogućavaju podešavanje HRT funkcije u realnom vremenu u zavisnosti od orijentacije glave slušaoca i originalne usmerenosti izvora zvuka. Osnovni HRT nedostatak je određivanje napred/nazad pozicije izvora zvuka u zavisnosti od rastojanja levo-desno uvo i drugih anatomskih razlika. Sledeća poteškoća je neprirodnost zvuka, pojedini opsezi spektra su neizbežno prenaglašeni, odnosno potisnuti. Rešenje je personalizovana HRT, odnosno formiranje akustičke mape tela. Poboljšanje je dinamična HRT koja modeluje 3DoF+ orijentaciju glave slušaoca u odnosu na torzo za ograničeni opseg pomeranja. Neophodno je na konzistentan način pratiti kretanje slušaoca i objekata, i omogućiti da auditorni sistem slušalaca ignoriše neizbežnu razliku između standardnog modela i individualne HRT funkcije. A za slušaoce sa HRT funkcijom koja se drastično razlikuje od modela u pojedinim pravcima, zahtev je da zvuk ostane prirodan iako nije direkciono tačan. Nephodno je da realistična virtuelna okruženja ne modeluju samo fizičke karakteristike slušaoca, geometrijske i materijalne osobine prostora utiču na zvučnu sliku. Modelovanje refleksije i difuzije kompletne scene je složeno i računarski intenzivno. Neophodno je pojednostavljena podela audio scene na skup direkcionih izvora zvuka koji se HRT procesiraju i ambijentalno zvučno polje za koje se pretpostavlja identičan intenzitet u svim pravcima. Masovna 3D audio primena zavisi od dalje optimizacije i prilogađavanja reprodukcije VR strimova na prenosnim uređajima [D.A.M]
Zvuk i slika Zvuk je prvi osećaj koji dopire do nas i izranjamo u neku vrstu svesnosti koristeći samo zvuk. Film je prizor i zvuk. Filmski zvuk je varljiva umetnost, kao da samo čujete prirodne zvuke koji se dešavaju u svetu na ekranu. To je podsvestan i čisto emotivan način razmišljanja o filmu. Rad na zvuku je nečujan, niko ga ne primećuje, ali zvuk na nas utiče na dublji način nego slika. Zvuk je esencijalni prateći i podržavajući element svih vizuelnih medija:
  • zvuk daje kredibilitet slici, 
  • povezuje slike u celinu, 
  • kreira ambijent i proširuje izvan slike, 
  • naglašava emocije, 
  • pojačava karaktere, 
  • kontroliše ritam, 
  • pravi tranziciju, 
  • daje kontrapunkt, 
  • tišina naglašava uticaj zvuka! 

Zvuk ne mora imati značenje ali 
  • doprinosi određenom raspoloženju, 
  • opisuje ili signalizira specifičnu situaciju i 
  • pojašnjava i intenzivira eksterne ili interne uslove. 

Zvučni zapis omogućuje filmskoj produkciji da stvori svoj sveta i pripoveda priče unutar tih svetova.Producenti koji su započeli svoju karijeru televizijskim prenosima do devedesetih, svedoci su tri značajne transformacije televizijske i medijske tehničke infrastrukture: analogna standardne ​​definicije (SD) u SD digitalnu; SD digitalna u visoku rezoluciju (HD); i HD digitalni prema medijima koji se prenose internet protokolima (IP) u više formata. Svaki prelaz podrazumevao je ili zamenu infrastrukture ili potpunu obnovu tehničkih postrojenja. Veći deo opreme i veći deo kablova verovatno je zamenjen, ažuriran ili dorađen. Kako su unesene promene u sistemu, neophodno je bilo prilagoditi i komprimovani video-zapis, arhiviranje i upravljanje podacima. Razvile su se nove terminologije, ponekad pojačane marketinškim hypeom, koji su primorali korisnike da izmenjuju radne tokove, procese i kapitalne proračune. Živimo u vremenu kontinuirane transformacije u kojem su se formati, način prenosa i isporuka u punoj snazi ​​preselili u još jednu dimenziju - IP eru. Ponovo se industrija pokreće u još jednu značajnu promenu infrastrukture, koja sada podrazumeva računarske oblake, striming (OTT) u realnom vremenu i virtualizaciju. To su značajne teme koje utiču na povrat ulaganja (ROI), vremenski raspored i kapital u odnosu na operativne promene. Značajno je istražiti nove hibridne modele za medijsku produkciju, njihove komponente i primere kako planirati medijsku budućnost za produkcijsko okruženje uživo na studijskom i poslovnom nivou [D.A.M]
TišinaNaše čulo sluha nije prilagođeno potpunoj tišini. Kada smo u okruženju sa potisnutim ambijentalnim zvuk, neizostavno se pojavljuje osećaj dezorijentacije i neprijatnosti  [D.A.M]
Svi formati zvuka Zvuk je neverovatan atribut prirode, poseduje ogroman uticaj na ljude i nešto je što koristimo na našem životnom putu. Zvuci, u nama pokreću emocije i sećanja, zbog čega je to jedan od najvažnijih aspekata u kreativnoj umetnosti. Pokretanje željenog odgovora cilj je dizajna zvuka i muzičke kompozicije. Razumevanje psihoakustike (proučavanje načina na koji ljudi percipiraju i reaguju na zvuk) osnovni je ključ postizanja tog cilja. Audio je analog talasnog oblika zvuka koji predstavlja. Digitalni audio doneo je značajne promene, a digitalna obrada signala (DSP) unela je revoluciju u produkciji muzike, i filma/TV. Digitalni zvuk primenjen je u distribuciji filmova početkom 1990ih. Format digitalnog bioskopa (DCP) dominira od 2016. godine. Interoperabilni format (MMF) upotrebljava digitalnu tehnologiju za kućnu zabavu - interoperabilni mezzanin format s više jezika i verzija. Na kraju dana, najvažnije je kako to zvuči. Kvalitet zvučnog sistema je presudan. Sjajan zvuk dovodi ljude u pozorište i značajan je doprinos istinskom bioskopskom iskustvu. Tehnologija slušalica i zvučnih kutija (soundbar) za kućne korisnike napreduje i dobro dizajnirani sistemi kućnog bioskopa postižu izuzetan kvalitet. Kvalitet zvuka mobilnih uređaja je iz godine u godinu sve bolji. Imersivni zvuk sada je dostupan i u svim tim formatima. U ovom trenutku postoji više načina da doživimo filmske, epizodne i muzičke sadržaje nego u predhodnim periodima [D.A.M]

VIZUELNO PRIPOVEDANJE

Vizuelno pripovedanje i usmerena pažnja gledaoca Praćenje filmskog programa je zabavna aktivnost i naizgled bez napora. Gledalac nema osećaj ogromne količine procesiranja koja je neophodna za neprekinutu percepciju duge sekvence diskontinuiranih događaja. Filmska priča je hronološka linearna sekvenca događaja koji se sistematski smenjuju. Film je konstrukcija velikog broja kadrova. Tranzicije između kadrova vode gledaoca kroz scenu i omogućavaju postepeno formiranje internog mentalnog modela. Filmsko pripovedanje je skup konvencija ustaljenih tokom istorijskog razvoja formata. Gramatiku filmskog jezika nije moguće jednostavno primeniti u novim VR formatima zato što ne postoji okvir ekrana (omnidirekcioni video). Razvijaju se nove tehnike montaže i tranzicija između scena ali pojavljuje se novi problem usmeravanja i vođenja pažnje gledaoca. Neophodno je da nova gramatika uspešno predvidi i indirektno upravlja smerom posmatranja (viewport) gledaoca. Ako postoji velika razlika između režiranog i aktuelnog ugla posmatranja gledaoca, vizuelnu priču nije moguće potpuno razumeti. Održavanje konzistentnog regiona od interesa ROI (Region of Interest) u kadrovima smanjuje dezorijentaciju gledaoca i povećava sposobnost praćenja priče [D.A.M]
Od ideje do pokretne slike u 5 dimenzijaOsnovni elementi 2D slike su tačka, linija, površ, boja i tekstura. Osnovni elementi 3D medija su svetlost i boja, trodimenzionalni prostor, pokret u vremenu, i zvuk u prostoru. Primenjena estetika digitalnih medija istražuje osnovne osobine ovih elemenata i njihov strukturalni potencijal u produkciji i analizi dela. Istraživanjem komunikacionog potencijala osnovnih elemenata, moguće je sagledati kako funkcionišu u širem kontekstu i njihov međusobni uticaj, kao i kako se efektivno upotrebljavaju u razumevanju, naglašavanju i komunikaciji značajnih iskustava. Specifičan efekat pojedinačnog elementa zavisi od ispravne i harmonične upotrebe svih ostalih elemenata, kao i konteksta. Neophodno je da se analiza vizuelnih medija zasniva na preciznim kvantitativnim i kvalitativnim kategorijama, kao podrška odlučivanju u fazi produkcije i kao validna mera koja se detektuje, ekstraktuje i kvantifikuje u fazi dekodovanja [D.A.M]
  • 1D struktura prvog estetskog elementa - osvetljenje scene, sastoji se od pažljive kontrole svetlosti i posebno, senki. Igra svetlosti i senki artikuliše naše spoljašnje okruženje i naša osećanja. Svet koji posmatramo oko nas je reflektovana svetlost, dovoljno je samo isključiti osvetljenje i svet nestaje ispred naših očiju:-) Izgleda kao da svetlost i senka izmiču racionalnom i direktno utiču na naša osećanja. 
  • 2D element boje ispunjava tri funkcije. Boja nam daje dodatne informacije o objektima i pomaže u njihovom razlikovanju. Boja doprinosi vizuelnom balansu slike scene na kojoj je sve u pokretu. Promenljive koje utiču na energiju boje su nijansa, sjajnost, zasićenost, površina i kontrast. I konačno, boja izražava esencijalne osobine objekata, dodaje uzbudljivost događaju i pomaže u kreiranju raspoloženja. 
  • 3D faktori koji su značajni u strukturiranju 2D slike su relativni odnos širine i visine ekrana, veličina ekrana, prostorni ugao posmatranja, asimetrija ekrana, psihološko zatvaranje i polje vektora. Veličina ekrana direktno utiče na doživljaj posmatranja. Scene projektovane na većim ekranima deluju nadmoćno u odnosu na standardne dimenzije ekrana. Prostorni ugao posmatranja određuje veličinu pojave objekata i koliko su udaljeni od posmatrača, kao i detaljnost scene. Asimetrija ekrana je posledica osobine ljudskog čula vida da pažnju više usmerava na objekte koji se nalaze uz desnu ivicu ekrana. Čulo vida ima i osobinu da automatski redukuje nepotrebne informacije a ostatak grupiše u stabilne obrasce - psihološko zatvaranje/zaokruživanje. Naši perceptualni mehanizmi konstantno stabilizuju naše okruženje i održavaju nas razumnim i lucidnim. Psihološko zatvaranje nam omogućava projekciju nekompletnih slika u naše unutrašnje okruženje. Vektor je svaka perceptualna sila sa pravcem, smerom i intenzitetom. Vektor je snažni perceptualni naglasak koji prati realne ili virtualne linije i vodi pogled u određenom pravcu. Postoji vektor linija, nesporni indeksni vektor i vektor pokreta na sceni. Intenzitet je određen relativnom izvesnošću i percipiranom snagom pravca. Vektori mogu biti kontinuirani, konvergentni ili divergentni. Precizna identifikacija i opis polja vektora je verovatno najznačajnija analiza medija. Identifikacija dominantnog vektora u svakom kadru ubrazava proces. Neophodno je da vizuelni mediji kreiraju iluziju dubine treće dimenzije na 2D projekcijama. Osnovne tehnike su preklapajuće ravni, relativna veličina objekata istih dimenzija postavljenih na različitim dubinama scene, visina u sceni, linearna perspektiva u kojoj svi objekti postaju progresivno manjih dimenzija i zbijeniji što se nalaze udaljenije od kamere a grafički vektori konvergiraju ka tački isčezavanja u beskonačnosti, i perspektiva usled atmosfere kada su udaljeni objekti izvan fokusa. Široko-ugaoni objektivi sa kratkim fokusnim rastojanjem uvećavaju perceptualnu rastojanje prednjeg plana i pozadine, i obrnuto, usko-ugaoni objektivi komprimuju rastojanje. 
  • 4D vizuelni mediji su umetnost vremena, ne postoje bez kretanja i traju koliko je potrebno da se projektuju sekvence. Percepcija tempa i ritma posmatrača zavisi od upravljanja vremenom. Međutim, nije neophodna objektivna manipulacija kako bi osetili subjektivno proticanje vremena. Stepen učešća posmatrača određuje brzinu proticanja vremena, što je više angažovan - jednostavniji je pomak od kvantitativne svesti prema kvalitativnom nesvesnom doživljaju vremena. U toku posmatranja ekrana, posmatrač automatski formira mentalnu mapu o položaju objekata na sceni i gde treba da se pojave na sledećem snimku. Editovanje kontinuiteta i kompleksnosti se proširuju na upravljanje vremenom. Ako se kondenzuje vreme priče, pravilo kontinuiteta se primenjuje i na vremenski vektor sa ciljem neprekinutog napredovanja. Međutim, prilikom pažljive selekcije suštine događaja moguće je po želji usmeravati vremenski vektor sa ciljem povećanja intenziteta doživljaja. 
  • 5D zvuk je esencijalni prateći i podržavajući element vizuelnih medija. Zvuk daje kredibilitet slici, povezuje slike u celinu, kreira ambijent i proširuje izvan slike, naglašava emocije, pojačava karaktere, kontroliše ritam, pravi tranziciju, daje kontrapunkt, tišina naglašava uticaj zvuka. Zvuk je referentni kada prenosi doslovno značenje i odnosi se na izvor, kada preuzima spoljašnju orijentacionu funkciju ambijenta. Zvuk ne mora imati značenje ali doprinosi određenom raspoloženju, opisuje ili signalizira specifičnu situaciju i pojašnjava i intenzivira eksterne ili interne uslove. Muzika najefektivnije intenzivira događaj. Kao i boja, muzika direktno utiče na naše emocije. Manje uočljiva ali ne i manje važna funkcija zvuka je da omogućava ili podržava ritmičku strukturu sekvence ili strukturu vizuelnog vektora događaja na ekranu. Strukturalno poklapanje zahteva izbor kompleksne melodijske i harmonijske strukture za brze vizuelne vektore. U zavisnosti od kretanja, muzika je snažnog, nepravilnog, sinkopiranog ritma. Ako je scena tiha i umerena, melodijski i audio vektor je sličan, izuzev ako ne signalizira nastupajući događaj (prediktivni zvuk). 

Flo-MoZa razliku od tradicionalnih 3D rendering tehnika koje se zasnivaju na geometrijskom modelu, nova tehnika IBR (image-baseband rendering) zasnovana na skupu od 10, 100 ili više od 1000 snimaka generisanih sistemom 2D kamera je u prednosti kada je konstrukcija geometrijskog model scene suviše složena i dinamična. Tehnika obuhvata dva koraka: 7D semplovanje i rendering rekonstrukcija kontinuirane POF. Cilj istraživanja je redukcija velike količine podataka nakon semplovanja i održavanje razumnog kvaliteta renderinga. Jedno rešenje je 4D parametarizacija POF funkcije statične scene uz pretpostavku da se svetlost prostire kroz prazan prostor bez slabljenja. Ako se ograničimo na posmatranje konveksne granične površi objekata na sceni, svaki svetlosni zrak je moguće registrovati kao presek sa dve proizvoljne ravni. Teorema 4D semplovanja specificira minimalan broj semplova po slici koji omogućava perfektnu rekonstrukciju scene, i poziciju semplova koji omogućavaju najbolji kvalitet renderinga za ograničeni broj semplova [D.A.M]
  • [1846.] M.Faraday opisuje svetlost kao elektromagnetno polje 
  • [1936.] A.Gershun definiše LF (Ligh Field) opisujući radiometrijske osobine prostiranje zraka svetlosti konstantnog osvetljenja u 3D prostoru 
  • [1991.] E.H.Adelson&J.R.Bergen definišu plenoptik funkciju (plenus - kompletan) koja opisuje intenzitet svetlosnog zraka 7D POF (space location, direction, wavelengths, time) u svakoj tački prostora pod svakim uglom (Teta, Fi)
  • [1996.] M.Levoy&P.Hanrahan parametarizuju plenoptik funkciju kao presek svetlosnog zraka sa dve ravni (aperture/object plane x-y, image plane u-v), tako da se 4D LF posmatra kao kolekcija perspektivnih slika u x-y ravni, od kojih je svaka posmatrana sa pozicije iz u-v ravni. Nakon LF rekonstrukcije, svaku perspektivnu sliku je moguće pojedinačno vizualizovati ili kombinovati više slika i kreirati novu (views, synthetic aperture, refocusing, extended focus)interpoliranu sliku.
  • [2001.] Eyevision Super Bowl televizijski prenos 270° stop-action (kamere su periodične na 6° ovala stadiona)
  • [2005.] Lenslet plenoptik ručne kamere upotrebljavaju matricu sočiva postavljenu ispred ravni senzora. Apertura glavnog sočiva ograničava moguće tačke posmatranja scene. Prostorna rezolucija x-y ravni objekata na sceni zavisi od broja mikrosočiva, a ugaona rezolucija u-v ravni slike određena je brojem piksela iza svakog sočiva. Sliku dobijenu u lenslet formatu moguće je konvertovati u 4D LF format.
  • LF se definiše u digitalnoj obradi signala kao problem više-dimenzionalnog semplovanja sa neuniformnim i nelinearnim proredom i prostorno-direkciono promenljivim konvolucionim kernelom.

Naglašena percepcijaLjudskim čulima sagledavamo svet oko sebe i primamo elektromagnetske (vizuelne), hemijske (ukus, miris), mehaničke (sluh, dodir, osećaj ravnoteže) nadražaje. Karakteristike čula su fiziološke, psihološke i emocionalne po prirodi. Pasivni koncept percepcije podrazumeva da čulni sistem linearno i sekvencijalno prima čulne nadražaje, obrađuje informacije i formira interni model. Aktivni koncept podrazumeva ekstrakciju regularnosti između čulnih nadražaja i pokreta. Naglašena realnost AR (augmented reality) modifikuje perceptivni prostor. AR ohrabruje razumevanje realne scene i prema tome, naglašava percepciju. Funkcionalno, AR dokumentuje realnu scenu, naglašava razumevanje i vidljivost, dopunjuje scenu virtuelnim objektima, omogućava geometrijsku i fizičku interakciju virtuelnih i realnih objekata, kreira kombinovano okruženje. AR je registrovana u 3D realnom okruženju, omogućava interakciju objekata i ukupan naglašeni pogled na fizičku scenu u realnom vremenu [D.A.M]Kratka istorija čovečanstva
  1. kognitivna revolucija (~70,000BC Sapiens evoluira maštu)
  2. poljoprivredna revolucija (~10 000BC razvoj poljoprivrede)
  3. ujedinjenje čovečanstva (postupna konsolidacija ljudskih političkih organizacija prema jednom globalnom društvu)
  4. naučna revolucija (~1500AD nastanak objektivne nauke)

Kako je AR dospela do nas iz antičkog amfiteatra, u kom pravcu se kreće, kako i zašto će promeniti naše živote?
  • [541milion-485milion BC] evolucija čula vida startuje u Precambrian i ubrzava u Cambrian periodu 
  • [40000-25000 BC] prvi pećinski otisci šake i apstraktne crvene tačke, i kasnije primitivne stilizovane slike životinja i ljudi (posmatrajući zidove zamišljali su 3D svet koji je deo pripovedanja)
  • [17000 BC] komplek nacrtane na kamenim zidovima Chauvet/Altamira/Lascaux pećina
  • [10000-6000 BC] crteži ljudskih figura na kamenu u otvorenom prostoru
  • [3200-1650 BC] staroegipatske piramide i religijske predstave
  • [600 BC] začetak klasičnog pozorišta u antičkoj Grčkoj
  • [480-450 BC] rana klasična Grčka skulptura prirodnih poza i snažnog izraza
  • [400-200 BC] antičko pozorište u Epidaurusu za 13-14 hiljada posetilaca podeljeno je na donji teatar sa 12 sekcija i gornji epiteatar sa 22 sekcije, tako da je postignuta optimalna akustika i pogled na tri celine. Središte je okrugli orkestar prečnika 20m sa centrom u okrugloj kamenoj ploči (timelija). Nasuprot auditorijuma i iza orkestra smeštena je dvo-etažna pozorišna zgrada sa proscenijumom. Dve rampe levo i desno vode do krova proscene (loga), gde su glumci nastupali. 
  • [80 AD] Amphitheatrum Flavium - Colosseum je najveći antički amfiteatar dimenzija ovalne osnove 189*158m i valjkastog oblika sa 80 ulaza, obima 545m i visine zida 48m od 3 sprata+1. Centralna arena je ovalna dimenzije 87*55m i okružena zidom visine 5m. Više od 50.000 gledalaca je raspoređeno u pojasevima od nivoa arene prema višim spratovima, pozicionirani u sekcijama/redovima/sedištima (maeniana-cuneus/gradus/number) tako da je omogućen panoramski 360° pogled na centralnu arenu.
  • [113 AD] Columna Traiana spiralni friz dužine 200m koji 23 puta obilazi kameni stub visine 30m, predstavlja prvu dokumentarnu priču u 3D tehnici koja prikazuje rimskog cara u 60 scena vojnog pohoda koje su povezane tehnikom pretapanja sa ostalim scenama na kojima je prikazano ukupno 2500 ljudi.
  • [1220] vitraž katedrale Chartres
  • [1300-1600] F.Brunelleschi&B.Alberti u toku renesanse su formalizovali perspektivu, kreirali dubinu scene i realistički prikazali ljudske figure izraženih emocija 
  • [1600] I.Newton je kvanitifikovao opis realnog sveta: objekti poseduju masu, poziciju i brzinu/ubrzanje pod dejstvom sile
  • [1826/1827] J.N.Niépce snimio prvu permanetno sačuvanu fotografiju
  • [1860-1870] Édouard Manet je impresionistički slikao prepuštajući mašti posmatrača otvorene kompozicije, naglašavajuči tačan prikaz svetlosti u funkciji protoka vremena, pokret kao ključni element percepcije i neubičajen izbor uglova posmatranja 
  • [189.] Lumière braća projektuju prvi film 
  • [1918] Claude Monet, najdosledniji impresionistički slikar, izložio je seriju 8 murala na zidovima ovalnih soba u galeriji Musée de l'Orangerie i omogućio posetiocima doživljaj protoka vremena precizno označavajući pomeranje dnevnog svetla unutar kružne panorame pejsaža.
  • [1925] J.L.Baird prvo televizijsko emitovanje elektronskih pokretnih slika u realnom vremenu 
  • [1928] G.D.Birkoff je formalizovao estetsku meru kao količnik reda i složenosti (Bense&Moles su predložili metrike na osnovu teorije informacija)
  • [1960-1980] fotorealizam istražuje i reprodukuje vizuelne karakteristike kamere (fokus, dubina scene, naturalistički detalji i uniformna pažnja na celokupnoj površini slike)
  • [1964] AT&T’s PicturePhone Telco AV service
  • [1969-1974-1981-1991] Internet
  • [1971-1999] CPU-GPU 
  • [2007] Chanel Ginza medijska fasada zgrade visoke 10 spratova predstavlja troslojnu kombinaciju sivog nijansiranog stakla i optičkih materijala solarne elektro-regulacije i zidne matrice integrisanih belih LED dioda (kombinovano svetlo 72 LED diode čini jedan piksel širok 8 inča, glavna fasada je visoka 188 piksela i široka 98 piksela)
  • [2015-2018] Allianz Arena (Munich) spoljašnja fasada stadiona (visine 35m i površine 26.000m2) je osvetljena sa više od 300.000 LED dioda (Philips ColorGraze MX3 PowerCore x6.500) na koju se projektuju (Philips ActiveSite cloud platform) svetlosni uzorci i animacije 
  • [2019] Stadion Mercedes-Benz Atlanta
  • [2007] Savremeni sportski stadioni su opremljeni sistemom sinhronizovanih kamera (HawkEye) za 3D rekonstrukciju putanja. Strateški pozicionirano 6-7 (30-50) kamera visokih performansi (5K) prati kretanja na terenu iz različitih uglova, video-signal se triangulacijom kombinuje i kreira 3D rekonstrukcija trajektorija (15-30sec video klip, 1TB, 50 servera) koje se upotrebljavaju u nepristrasnoj asistenciji sportskom arbitriranju i analitici (VAR, GLT, EPTS).
  • [2009] Sportski stadion AT&T Arlington Teksas, US, opremljen je najvećim HDTV ekranom dimenzije 55x33m (ekvivalentne površine 4,920 x 52” TV ekrana) rezolucije 1,088×2,432 pixels pitch 20mm (10.5 million LED Mitsubishi’s 10mm quad pixel pattern technology)
  • [2016] Savremeni aerodromski tornjevi za kontrolu saobraćaja opremljeni su video-zidom na koji se projektuju snimci kamera na fiksnim pozicijama. Ostvaruje se 360 pogled koji kontrolori imaju na tradicionalnim tornjevima sa dodatnim pogodnostima i 3D registrivsnim AR informacijama koje se projektuju u realnom vremenu kao grafički sloj iznad video snimaka uživo. 
  • [2019] MicroLED TheWall 75-219 inch dijagonala, paneli (9x3, 1x7, 5x1) geometrije (1:1, 16:9, 21:9)

3D SCENA 360° 

ŠTA GOVORE MetaFORE ... 

We describe milestones, review a broad range of existing works, and provide insights into their historical development routes :-)
Današnji digitalni svetTehnologija je sve više prirodna, personalizovana, intuitivna, konformna, jednostavna, prihvatljiva, automatska, stvarna :-)Nove imerzivne tehnologije omogućavaju posmatraču okruženje u širokom vidnom polju do 360° i ograničenoj prostornoj zapremini na lokaciji posmatranja. FTV tehnologija sintetizuje okruženje u realnom vremenu i omogućava slobodno kretanje i navigaciju posmatrača. LFC kamere omogućavaju fokusiranje na pojedinačnu scenu i snimke sa svih pozicija i pravaca posmatranja. PC je imerzivni format frontalne geometrije scene i atributa tačaka koji omogućava skalabilno kodovanje i pristup 3D podacima. IoMT omogućava agregaciju i sinhronizaciju podataka u kompleksnim sistemima medija objekata. Big Media je konceptualni model analitike multimedijalnih funkcionalnosti u 3V (volume, velocity, variety) kontekstu podataka [D.A.M]
Film, video i TVPriča o filmu proteže se od preistorijskih vremena kada se naš predak poslužio senkom vatre na zidu da ilustruje doživljaj iz lova. Sada u 21. veku film i dalje pripoveda i oživljava reči i slike. U dobu nemog filma 1920ih ljudi su istraživali mogućnosti pokretnih slika na osnovu iskustava pozorišta i fotografije. Film postaje ključ u globalnoj bitci za srca i umove gledalaca. Dalje, film je kliznuo u zlatno doba crno-belog filma1930ih i 1940ih kada su bioskopi sveprisutni i filmske zvezde u usponu. U Evropi 1950ih stvorena su majstorska dela aktuelna i danas. Nova generacija nastupa 1960ih i 1970ih. Film je preživeo TV i kućne VHS formate 1980ih. Ali 1990ih nastupa digitalna video revolucija u snimanju i projekciji. Nestaje 35mm film kao i ostale barijere ispred računara. A u današnje vreme, filmovi se stvaraju tehnologijom koja je do samo pre 10 godina smatrana naučnom fantastikom. Lepota filma se sastoji u individualnom posmatranju i različitim putevima da se zavoli. Privlačnost filma je u spoju šest umetnosti: arhitektura, slikarstvo, muzika, skulptura, igra i poezija. Napredak filma kao umetničke forme je ponekad očigledan kao zvučni film ili kolor film, ali postoje i suptilnije revolucije. Neophodno je sagledati i širi istorijski kontekst. Takođe, film se posmatra i kolektivno, delimo iskustvo sa drugim gledaocima - danas na društvenim mrežama [D.A.M]
Niz kadrova povezanih naracijomKrajem 19. veka pojavila su se dva medija - film i strip - koji uveliko modeluju i 21. vek. Strip je u svojim počecima delio sa filmom industrijski način proizvodnje i imao istu ciljnu publiku. Novinski strip je jednostavna 2D grafika. Stvaranjem novog vizuelnog jezika, kreiranjem optičkih iluzija i pomacima u kompoziciji table, strip je stvorio autentični svet gde je priča organski povezana sa slikom.Gramatika filmskog jezika je skup ustaljenih pravila i konvencija o tome kako se prostor, vreme i fabula jasno artikulišu. Film je izražajno sredstvo, a gledalac sagledava. Filmski jezik omogućava sporazumevanje između sagovornika na principu obostrane razumljivosti jezika - ravnopravnosti. Neophodna preciznost jezika, nedvosmislenost pojmova, nepromenljive veze između sadržine i značaja. Neophodno je da jezik raspolaže sa dovoljno mogućnosti za izražavanje suptilnih i apstraktnih pojmova. Značenjske mogućnosti su bogatije i raznovrsnije od jezika tradicionalnih umetnosti. Filmski jezik je način korišćenja filmskog izraza u komunikaciji sa gledaocem čiji je cilj artikulacija filmskog prostora, vremena i fabule. Sredstva ove komunikacije su filmski plan, ugao (pozicija kamere), rakurs, vrednost objektiva, pokreti kamere, generalna linija interesa, montažni sled, osvetljenje, kompozicija, kolorit, vreme (tempo, ritam). Klasične elemente filmskog jezika moguće je koristiti na novi način: ultra-brza montaža, ekstremni objektivi i rakursi, jaki kontrasti, brzi pokreti kamere, ubrzanje tempa, izmena ritmičke strukture, animacija, morfing kao pokret kamere, dizajn ekrana, višak atrakcija, nedostatak emocija, kombinovane tehnike.
Žanr 76897Stil je jedna apstrakcija i refleksija percepcije skupa karakteristika koje se ponavljaju u vremenu i na određenom prostoru. Žanr (genre - podvrsta) je jedna raspodela po relevantnim kriterijumima čije granice ne moraju biti jasne i često se kombinuju.
Filmska slika i slika stvarnostiEkran nije prozor!? Filmska slika je fenomenološki i komunikacijski jednostavnija od kompleksnije slike stvarnosti. Suština zagonetke filmske slike (priroda, karakter, uticaj) je u odnosu prema stvarnosti koju želi da slika, odnosno preslika. Filmska slika je proizvod tehnologije i fizičkog kontakta sa scenom ispred objektiva. Naša slika stvarnosti je posledica naših senzorskih i kognitivnih mehanizama. Pojedinci i najjednostavnije fenomene registruju na različite načine kao posledica individualnih afiniteta za forme i kompozicije, različite perspektive posmatranja i prostorno-dinamičke mere i relacije, kao i različite asocijacije i reakcije. Svako od nas vidi zapravo svoju sopstvenu stvarnost! Rezultat je dugogodišnjeg iskustva i neprestanog aktivnog odnosa prema stvarnosti, permanentne selekcije. Naša slika se kontinuirano menja, dopunjava i rekonstituiše. Svakodnevne kontakte sa stvarnošću mi obavljamo neprimetno, refleksno, rutinski. Naša vizura je relativno stalna i stabilna. Takođe su relativno ustaljeni oblici i konstelacija naše scene. Svakodnevna vizura ostaje po fakturi i formatu relativno ista. Slika na ekranu (ars magna lucis et umbrae) apstraktna je, nepostojeća, iluzionistička tvorevina zahvaljujući nesavršenstvu ljudskog oka. Naša slika stvarnosti je konkretan, životom i telom određen tok opažanja čiji se objekti materijalno prisutni na sceni. Naša slika je prostorni fenomen u kojem tri euklidovske dimenzije simultano i strukturno prožima kategorija vremena, čula i personalne psihološke uslovljenosti celokupnog doživljaja. Prateća zvučna podloga scene je jedinstvena i ustaljena kategorija, u prirodi postoji neraskidiva organska veza između oblika, pokreta i zvuka na koju smo toliko navikli da je više i ne primećujemo kao nešto posebno. Filmska slika zaista je jasno usmereni, intencionirani konstrukt, koji nam nameće put kojim treba krenuti u očitavanju projektovanih sadržaja. Slika skoro agresivno barata zadatim okvirom (formatom), artikulisanom kompozicijom, selektiranom predmetnošću i fiksiranim motivom. A sve slične elemente stvarnosnih opažaja kreiramo sami, spontano selektirajući značajno na štetu neinteresantnog. Čitav kodeks filmske interpunkcije (rez, pretapanje, zatamnjenje) otkriva u tom smislu izrazitu ne-prirodnost, a postoje brojni elementi filmske sintakse (dvostruka ekspozicija, zoom, upotreba teleobjektiva i širokouganih objektiva) koji ne poseduju nikakav korelativ sa našom percepcijom scene. 
Percepcija jedne mašineAutonomna vozila upotrebljavaju AI u generisanju u realnom vremenu 3D mape lokalnog okruženja na osnovu digitalne mape fiksnih objekata i podataka sa video kamera, aktivnih LiDAR i RaDAR daljinomera, US senzora. Nesumnjivo je da ljudi i mašine (senzori+računari) različito percipiraju jednu scenu. Ljudi su u prednosti kada upotrebljavaju čula i predhodno iskustvo u percepciji i interpretaciji situacije. Mašinski senzori u primeru autonomnog vozila skeniraju 3D prostor u 360° vidnom polju (detektovanje statičkih i dinamičkih objekata, fizičko merenje objekata prema najboljim mogućnostima, alociranje semantičkog značenja detektovanim objektima) i raspolažu boljim mogućnostima uočavanja objekata u nepovoljnim (noćnim) uslovima. U slučaju konflikta ova dva opažanja u problematičnim situacijama, da li je ispravno da čovek preuzme upravljanje? Da li je čovek sposoban da dovoljno brzo sagleda situaciju i donese ispravne odluke? Pitanje nadvladavanja odlukama mašine je u suštini deontološko razmatranje - vrhunski autoritet mora verovati ili mašini ili čoveku. Izbor nije očigledan! Ultimativni odgovor zavisi od toga da li društvo prihvata autonomno vozilo kao robota koji je odgovoran za svoje akcije i donošenje etičkih odluka, i u tom slučaju neophodno je da mašini prepustimo više kontrole. Sticanje neophodnog poverenja zahteva određenu transparentnost programiranih prioriteta i uverenje da su odluke u kritičnim situacijama razumne, etične i prihvatljive za društvo.Preuzimanje upravljanja između čoveka i mašine otvara nove izazove projektovanja i validacije interakcije. Osnovni izvor ljudskih grešaka koje prouzrokuju saobraćajne incidente je pristup informacijama i odziv. Osnovni izvori oklevanja delovanja mašine (state, existence, class uncertainty) utiču na performanse i ako neizvesnost prekorači granice tolerancije (koje još uvek nisu određene!?) mogu se očekivati greške mašine [D.A.M]
Eksperimentalni/prošireni mediji i multi/kros/transmedijaMultimedija je kombinacija više medija (tekst, slika, grafika, zvuk, animacija, audio, video) koji obogaćuju prezentaciju i rekonstrukciju realnosti. Početak razvoja su eksperimenti sa proširenjem tradicionalnih medija. Krosmedija koncept upotrebljava istovremeno tradicionalne medije na inovativan način. Sadržaj se distribuira kombinovano na različitim medijskim platformama, a koncept podržava prelazak sa jednog na drugi i nazad. Format-agnostic koncept medija podrazumeva pomak fokusa sa slike na 3D scenu i interaktivne kompozite uživo. Neophodna je fleksibilnost u kompletnom lancu produkcije, distribucije i projekcije. Ključna je akvizicija kompletne audio-vizuelne scene u visokom kvalitetu i pomeranje u lancu prema korisniku odluke na koji način se scena rekonstruiše. Korisniku je omogućeno novo imerzivno i interaktivno iskustvo najvišeg mogućeg kvaliteta [D.A.M]
Razvoj multimedijalnih komunikacija... komplikovan?!Komunikacija je od prve pojave multimedijalna. Razvoj nauke i tehnologije omogućio je vertikalne industrije pojedinačnih monomedija (štampa, radio, TV). Novu horizontalno povezanu multimediju omogućili su digitalni računari i Internet komunikacije. Digitalni multimedija format predstavlja integrisani tekst, slika/grafika, video/audio i podrazumeva se sinhronizacija i interaktivnost. Svedoci smo kontinuiranog i dinamičnog razvoja informacionih tehnologija. Posledica je ciklična promena u komunikacijama. 
  • digitalni mediji postaju sveprisutni u našem okruženju
  • senzori i različiti IoT uredjaji omogućavaju iskustva prilagodjena datoj situaciji i okruženju
  • zaokupljaju sva naša čula i kreiraju percepciju prisustva u naglašenoj/virtuelnoj realnosti
  • novi nivo interaktivnosti omogućava masovne edukacione i zabavne aktivnosti
  • mediji su personalizovani i ciljani za pojedinačne grupe
  • u kreiranju medija aktivno učestvuju pojedinci kao masovni izvor informacija ili komentarima u on-line komunikaciji
  • kreiranje novih medijskih proizvoda kombinovanjem postojećih
  • dizajniraju se za korisnička iskustva na veoma različitim tehnološkim platformama
  • omogućavaju kreativnu prezentaciju izazova ili ideja iz jedinstvene tačke posmatranja, otkrivajući ili vodeći do neočekivanog.

Televizija je od nastanka multimedijalna priča koja se najmasovnije prati. Ali televiziji dugo vremena nedostaje komponenta interaktivnosti.
  • Aktuelne su različite tehnologije distribucije na raznovrsne platforme. Televizijski sadržaj, arhivirani materijal, Internet striming, mobilni video distribuira se kablovskim/optičkim i bežičnim kanalima do hibridnih prijemnika. Prijem i prikazivanje video sadržaja je razdvojeno. Način selektovanja sadržaja se menja i zasniva se na ogromnim količinama raznorodnih podataka. 
  • Tehnološki razvoj je usmeren na poboljšanje realizma prikazivanja TV slike i kvaliteta ukupnog doživljaja. Dugo vremena je televizija 2D reprodukovala udaljeno snimljenu sliku. Aktuelne su tehnike poboljšanja realizma video/audio signala povećanjem rezolucije, dinamike i volumena. Budućnost je započela ubrzanim razvojem različitih tehnika 3D rekonstrukcije slike i kompletne scene koja potpuno okružuje TV posmatrača i omogućava slobodan izbor pozicije i ugla posmatranja.

Stvarnost i virtuelnostKombinovana realnost MR (mixed reality) predstavlja kontinualnu skalu između realnog sveta (naša realnost) i potpuno virtuelnog okruženja VR (veštačka stvarnost). Skala obuhvata sve moguće varijacije realnih i virtuelnih objekata i sadrži naglašenu realnost AR (augmented reality) gde virtuelnost naglašava realnost, kao i naglašenu virtuelnost gde realnost naglašava virtuelnost :-) Očigledno, AR i VR doprinose različitim posmatračevim iskustvima i postoji prostor u kojem koegzistiraju. Realni svet i VR predstavljaju krajnje tačke continuuma, gde AR ili uopštenije MR omogućava različite kombinacije realnog i veštačkog sadržaja. Početkom 1990ih postojao je ogroman javni interes za VR, praćen značajanim akademskim procenama potencijala. Međutim, polovinom dekade očekivanja se raspršila usled činjenice da VR sistemi ostvaruju neubedljiv doživljaj, dizajn uređaja je neobičan i zastareo, neisplativi su i nedostupni u dnevnim sobama naših stanova. Od sinonima za budućnost, VR je izbledela iz javnosti i prešla u standardnu priču o neslavnom kraju. Međutim, istraživanja su nastavljena narednih 15 godina i konačno, tehničko-tehnološki i tržišni ambijent se promenio u današnjih 15 godina, do 2020. Početni VR sistemski zahtevi (računarska grafika visokog kvaliteta, projekcije visoke prostorne i vremenske rezolucije, precizni i tačni treking, brze konekcije, smanjena zadrška i kašnjenje sa-kraja na-kraj sistema) postaju ostvarljivi od 2016. Vodeće kompanije na tržištu značajno investiraju u VR sa ciljem da zadovolje široku potrošnju i pronađu nove načine da dosegnu potrošače [D.A.M]
Estetika digitalnog prostoraEstetika (aisthanomai - vidim, osećam, čulno doživljavam) se oslanja na ljudska čula ali kao naučna disciplina bavi se objektivnim prosuđivanjem. Dugi niz godina estetski modeli su povezivani sa postulatima harmonije, lepote i simetrije sa ciljem harmonizacije prostora. U današnje vreme oslanja se na subjektivnu reakciju posmatrača baziranu na njegovom akumuliranom znanju i ličnom jedinstvenom metodu enkodiranja podataka, s jedne strane, i geometrijskim karakteristikama prostora
Estetsko iskustvo novih medija 
Perceptualna glad 
Estetika vizuelnih komunikacijaEstetika je velikim delom kognitivna, intelektualna i interpretativna. Četiri komplementarne psihološke funkcije ličnosti su mišljenje, osećanja, percepcija i intuicija. Mišljenje i osećanja su racionalne, percepcija i intuicija su iracionalne funkcije. Mišljenje je komplementarno osećanjima, a percepcija je komplementarna intuiciji. Pojam komplementarnosti označava da se ove psihološke funkcije uzajamno, kako nadopunjavaju do celovitosti psihičkih aktivnosti i sadržaja, tako i kompenzuju sa ciljem uspostavljanja psihičke ravnoteže i stabilnosti. Pojam racionalne funkcije označava da je sređujuća, odgovorna za obradu, klasifikaciju i sređivanje prikupljenih informacija i utisaka. Iracionalne funkcije su opažanja, kojima se informacije isključivo prikupljaju, prihvataju i akumuliraju, bez dalje obrade i klasifikacije. Kada se kaže da su koncepti racionalnog i iracionalnog uzajamno komplementarni, to znači da se oni uzajamno kompenzuju i nadopunjuju do potpunosti. Psihička funkcija percepcije, oseta ili osećaja, iracionalna je funkcija koja se realizuje pomoću pet čula (vid, sluh, miris, ukus, dodir). Kao funkcija opažanja, određuje da li nešto postoji i akumulira konkretne informacije onoga što je opaženo iz spoljašnjeg okruženja. Percepcija uočava realnost sadašnjosti i stvara iskustvo prošlosti.Estetske vrednosti se iskazuju, prenose i doživljavaju kroz formu objekta odnosno, dela. Svaka forma je uvek vezana za neki sadržaj koji se iskazuje kroz projektovanu funkcionalnost, upotrebljivost i svrhu nekog proizvoda. Sadržaj i značenje bi ipak, bez forme bili nedelotvorni, konceptualni, nestvarni. Forma postaje konkretna na nekom sadržaju, a sadržaj kroz formu dobija mogućnost da iskaže svoju delotvornost i svrsishodnost. Dakle, u skladnoj sintezi forme i sadržaja rađa se doživljaj smisla celine koji poseduje estetski naboj. Upravo iz tog smisla proishodi komunikacija sa korisnicima. Neizostavni činilac i sadržaj vizualne komunikacije jeste i estetski vrednosni sud. Racionalni i kognitivni principi su takvi univerzalni principi estetike vizuelnih komunikacija koji se mogu formulisati, definisati, iskazati mišljenjem, logikom, apstraktnim geometrijskim zakonitostima (simetrija-refleksija), koji se mogu naučiti, zapamtiti i interpretirati. Iracionalni faktori koji utiču na vrednosni sud osećanja su arhetipovi, imerzija ili psihološko uranjanje, 3D iluzije, pristrasnost prema ljudskom licu. Imerzija (uronjavanje, utapanje) je reverzibilno psihološko stanje izmenjene svesti svojstveno po umanjenom opažanju realnog prostora i vremena, uz istovremeno poniranje u jedan novi, imaginarni svet. U toku imerzije pažnja se fokusira na imaginarno iskustvo, u odnosu na koje svest gubi kritičku distancu. U zavisnosti koje ljudske sposobnosti su pretežno angažovane u toku izvođenja određenih operacija, imerzija se deli na taktičku (u toku izvođenja manuelnih ili taktilnih operacija koje zahtevaju veštinu), strategijska (u toku intenzivnih intelektualnih napora), narativna (u toku slušanja inspirativne naracije). 3D iluzije su vizuelni i fiziološki fenomen koji kod posmatrača izazivaju iluziju trodimenzionalnog prostora. Kroz utisak o dubini prostora, posmatrač stiče sposobnost procene udaljenost do objekata koji ga okružuju, što je verovatno bio važan faktor preživljavanja u dalekoj prošlosti. Ova pojava je u najznačajnijoj meri rezultat fizioloških svojstava binokularnog vida. Postoje takođe i monokularni mehanizmi koji pomažu indukciji utiska treće dimenzije. Sledećih osam grafičkih karakteristika 2D slike izazivaju kod posmatrača iluziju treće dimenzije: preklapanje, odnosi veličina, vertikalna lokacija, gradijent teksture, linearna perspektiva, atmosferska perspektiva, odnos toplih i hladnih boja i senke.Binokularna stereoskopija nastaje istovremenim sagledavanjem jednog istog objekta pomoću dva svetlosna receptora (oka), pri čemu na svakoj pojedinačnoj mrežnjači nastaju različite perspektive slike. Naknadnim stapanjem ovih različitih slika u jedinstvenu celinu indukuje se iluzija treće dimenzije. Fuzija dve slike u jednu sa utiskom treće dimenzije proces je koji se dešava u vizuelnim centrima LGN (lateral geniculate nucleus) posmatrača. Reč je o nesvesnom fiziološkom mehanizmu koji se ne može elimisati ni najjačim naporom volje. Ona je neizostavni deo svakog našeg estetskog vrednovanja vidnih utisaka, pa stoga i bitan faktor estetike vizuelnih informacija. Suštinski principi binokularne stereoskopije bili su poznati fiziolozima, oftamolozima, fotografima, crtačima i slikarima, skoro dve stotine godina. U tom dugom vremenskom periodu, kreirane su različite tehnike indukovanja binokularne iluzije trodimenzionalnog prostora, sa prilično dobrim rezultatima. Savremeni razvoj optike i računarske tehnologije unapredio je tehniku u takvom stepenu da je kvalitet utiska iluzije treće dimenzije postao spektakularan. 
Uticaj osobina ličnosti i kulture na percepcijuPosedujemo osobine koje su promenljive na sistematski način i ove sistematske razlike je moguće istraživati. Posmatrajmo osobine ličnosti kao seriju internih osobina koje utiču na očigledno ponašanje. Najjednostavniji model FFM (75 categories in the taxonomy of 1,431 trait-descriptive adjectives) obuhvata otvorenost prema iskustvima, savesnost, ekstrovertnost, usaglašenost i emocionalna stabilnost. Model opisuje osobine ličnosti na individualnom nivou i istražene su varijacije na širokom skupu individualaca. Međutim, postoje osobine koje se pripisuju kulturi kojoj pojedinac pripada. Percepcija i kognicija su proizvod lokalnog okruženja u kojoj živimo i odrastamo, a okruženje je oblikovano deljenim konceptima i kolektivnim normama. Kultura je kolektivni koncept. Kada se meri na individualnom nivou, moguće je meriti osobine povezane sa kulturom. Psihološki model HM obuhvata snagu udaljenosti, individualizam, indeks izbegavanja neizvesnosti, muškost, pragmatizam i povlađivanje (indulgence). Svaka od ovih dimenzija može uticati na kvalitet percepcije.
Vizuelna kulturaU širem smislu pojam vizuelna kultura podrazumeva razvoj vizuelnih značenja i kolektivne svesti u okviru realističnog i imaginarnog u opažanju. Vizuelna kultura kao oblik komuniciranja razvija i menja svojstva ljudske vrste. U raznim procesima, oblicima delatnosti i mišljenja, vizuelna kultura je presudna za šire poimanje prostora.
Kultura i računariUticaj kulture računara i zahtevi podrške inovacijama u kulturi zasnivaju se na tehnologiji naglašene realnosti, oblaku računara i ambijentalnoj interakciji. Istražuje se različitosti kultura i omogućavaju znanje i veštine neophodne za preovlađavanje razlika i proširenje ljudske kreativnosti. Obuhvaćeni su kreativni sistemi podrške, digitalno društvo, interaktivne umetnosti, kulturno nasleđe, digitalni muzeji i interkulturna saradnja.
Virtuelno društvoTransdiciplinarni računarski modeli zasnovani na kvantitativnim metodama dinamičkih sistema, veštačkoj inteligenciji, teoriji mreža i statističkoj mehanici, primenjuju se u analizi i interpretaciji društvenih fenomena velikih razmera. U modelovanom okruženju sprovode se sistematični, kontrolisani virtuelni eksperimenti društvene dinamike i formiraju kompleksne hipoteze koje je moguće testirati u odnosu na empirijske nalaze arheologije, etnologije ili istorijska istraživanja. Formiraju se algoritamski modeli društvenih mehanizama i istražuju uzročno-posledični odnosi. Rezultati simulacija integrišu kvantitativne vremenske serije u unificirane predstave koje otkrivaju obrasce, posledice, verovatnoće i mogućnosti kompleksnih društvenih, tehnoloških i ekonomskih sistema. Vremenski okviri, ciklusi, talasi, logističke krive, kada se preklope sa empirijskim nalazima omogućavaju dublje razumevanje dinamike promena i proučavanje razvoja društva. Osnovni izazov je sistematsko praćenje i objašnjenje nelinarne uzročne povezanosti u multi-razmerama kaskade interakcija pojedinaca i grupa sa biofizičkim okruženjem. 
Dogodilo se na današnji dan... Događaj godine... Knjiga meseca... Reč nedelje...
  • vizualan (lat. visualis), vizuelan (fr. visuel)
  • virtualan (eng. virtual), virtuelan (fr. virtuellement)
  • Virtual to begin with? Reality: always virtual to some extent?!
  • XR reality continuum AR-MR-VR
  • imerzija (lat. immersio, eng. immersion, submersion)
  • percepcija (lat. perceptio, sr. opažanje) - organizacija, identifikacija i interpretacija senzorskih informacija sa ciljem razumevanja i rekonstrukcije okruženjs
  • multisenzorska integracija (eng. multimodal integration) - smisleno perceptualno iskustvo (ili iluzija) omogućeno je koherentnom rekonstrukcijom kombinovanih senzorskih modaliteta (vid, sluh, dodir, miris, ukus)
  • faktori koji doprinose osećaju prisustva na sceni su senzorski i faktori realizma
  • sinestezija - psihološka pojava u kojoj se podražaji primaju u području jednog senzora, a doživljavaju u području drugog 
  • plenoptik (lat. plenus) - kompletan
  • hologram = (greek. hólos, eng. whole) + (greek. grammḗ, eng. letter, line, writing, message)
  • u biološkim sistemima, 3D model je jednostavniji od 2D modela!?
  • digitalni bioskop 4D/5D 
  • filmska istraživanja - rečnik
  • knjiga o filmu - jednostavno objašnjenje
  • slikani film - Loving Vincent
  • čulo vida - kratak uvod
  • Optika oka ograničava vidno polje na područje slike od približno 9 cm² površine i dubinu prostora od oko 50 μm. Hardver i softver retine smanjuju dostupne informacije na 6 miliona kupastih ćelija i 110 miliona štapićastih ćelija, optički grupisanih u lokalne meta-piksele, na približno milion optičkih živaca koji vode od oka do mozga.
  • FOV (Field of View) - veličina vizuelnog ugla u prostornim mernim jedinicama, koji je trenutno dostupan posmatraču
  • FOR (Field of Regard) - ukupna veličina vizuelnog ugla u prostornim mernim jedinicama, koji okružuje posmatrača
  • fovea - mala devaskularizovana depresija (prečnik 1.5mm, FOV 3°) mrežnjače (retina) u sklopu pigmentirane žute mrlje (macula, prečnik 5.5mm, FOV 13°) koja je odgovorna za skoro sve informacije o bojama i detaljima
  • utisak dubine prostora (depth) - sposobnost procene udaljenost do objekata koji okružuju posmatrača (što je verovatno bio važan faktor preživljavanja u dalekoj prošlosti)
  • scotoma (greek. σκότος/skótos, darkness; plural: scotomas or scotomata) - diskontinuitet vizuelne funkcije ali se metaforički upotrebljava u smislu prekida percepcije, saznanja ili pogleda na svet
  • somatosenzorski sistem - reaguje na promene (mehaničke, hemijske, termalne) na površini ili unutar ljudskog tela i obuhvata osećaj dodira (taktilni pasivni kontakt sa statičkim objektima), osećaj pozicije i kretanja (propriocepcija), i haptički osećaj (aktivno istraživanje pomeranjem površina i objekata) 
  • vizuelne komunikacije - istorija od najranijih crteža do pokretne štampe, fotografije [180+] i filma [120+], do moderne umetnosti, televizije [90+] i novih digitalnih medija [40+]
  • pokret kamere na sceni: panorama (ger. schwenk - prema, schwenken – okretati, promeniti smer), vožnja (eng. far, traveling), zumiranje (eng. zoom - move or travel very quickly)
  • format (lat. formare - eng. form, create, shape, make)
  • forma (eng. shape, figure, image, outline, plan, mold, frame, case) je u skladu sa funkcijom odnosno, sadržajem - estetika (greek. αἰσθητικός: aistetikós) forme doprinosi vizuelnim komunikacijama
  • AR (eng. augmented reality) - naglašena stvarnost sadrži grafičke/multimedijalne objekte registrovane na video snimke stvarnog okruženja
  • MR (eng. mixed reality) - kombinovana stvarnost sadrži AR elemente koji su u interakciji sa objektima na snimcima realnog okruženja
  • VR (eng. virtual reality) - generičko okruženje koje preovladava čula posmatrača i omogućava novu interakciju u realnom vremenu
  • VR (virtualna realnost/stvarnost) - digitalno grafičko okruženje koje simulira fizičko prisustvo na određenom mestu u realnom vremenu
  • VR faktori - sposobnost kontrole i učešće, selektivna pažnja i perceptualna vernost, prirodnost interakcije
  • CAVE (cave automatic virtual environment) - imerzivno virtuelno okruženje u obliku sobe-kocke, na zidove se projektuju slike (allegory of the Cave in Plato's Republic)
  • UNREAL/UNITY - game engines 
  • GPU RTX - eng. real-time raytracing + viewport rendering
  • 8K Ultra HDTV (sense of being there: FOV=100° @0.75H, sense of realness: angular resolution 60 cycles per degree @maximum human visual acuity 20/20)
  • fotogrametrija - formiranje 3D modela na osnovu 2D snimaka i spoljašnjih parametara (orijentacija i usmerenost kamere) i unutrašnjih (fokalno rastojanje i distorzija sočiva) parametara i na principima projektivne geometrije
  • gaming - nije neophodno zabavna, zahteva angažovanje i emocije
  • propriocepcija (lat. proprius - one's own, individual + capio, capere - to take, grasp) - osećaj (šesto čulo) relativne pozicije delova tela i intenzitet sile upotrebljene za pokretanje
  • imerzivno iskustvo (eng. immersive experience) - modeli percepcije i interakcije fizičkog okruženja i digitalnog sveta koji se zasnivaju se na novim tehnologijama 
  • perceptualni model ljudskog čula vida apsorbuje oko 10Mbp informacionog protoka, čulo dodira 1Mbps, auditorni i čulo mirisa 100Kbps, čulo ukusa 1Kbps
  • tradicionalna ljudska čula (vid, sluh, ukus, miris, dodir) - brojni (21?) modaliteti (temperatura, kinestezija, bol, balans, vibracije, interni hemi-receptori)
  • multiview displays - lenticular, multidepth plane, volumetric 
  • mišljenje, osećanja, percepcija i intuicija - komplementarne psihološke funkcije ličnosti
  • teoretičari psihologije (ger. gestalt, eng. shape, form) opažaj posmatraju kao strukturu i prepoznavanje u jednostavnim neobrađenim informacijama perceptualnog modela neku određenu formu, neko značenje
  • Ars magna lucis et umbrae (lat.) - The great art of light and shadow (eng.)
  • Cultural computing (eng.) - cultural impact of computing and the technological influences and requirements for the support of cultural innovation. 
  • saccades - brzi, simultani pokreti očiju omogućavaju najbrže pomeranje u tačku fiksacije u toku vizuelnog kaskadnog pretraživanja scene.
  • Cilj mašinske percepcije je rekonstrukcija scene za izvršavanje predefinisanih zadataka u stabilnom okruženju. Poznato je da način opažanja utiče na način dizajniranja prostora. Posledica je da su pred nama novi izmenjeni prostori (koje smo prinuđeni da delimo sa mašinama:( prilagođeni mašinskoj percepciji i veštačkoj inteligenciji?
  • NFT (eng. natural face technology) - odgovor korisnika na veštačka lica različitog stepena realizma, nije dovoljno istražen u RVP (eng. realistic visual presence) aplikacijama
  • eye tracking (eng. gaze monitoring) (fr. oculométre)
  • Degrees of Freedom (DoF) - the number of independent parameters used to define movement of a viewport in the 3D space
  • visual scene inspection is performed minutatim, not in toto! 
  • približno 90% procenata vremena posmatranja scene je posvećeno samo fiksaciji pogleda!? 
  • tinnitus - sindrom subjektivne ili objektivne audio senzacije u slučaju i kada ne postoji spoljašnji realni stimulus
  • hyperacusis - sindrom povećane osetljivosti na određene opsege i nivoe zvuka koji prouzrokuje netoleranciju na zvuk svakodnevnog okruženja
  • Take great care when hijacking the senses that you have trusted all of your life!? 
  • In VR, users will experience nausea when latency is over 20 ms.
  • Perceptualna psihologija je naučna disciplina razumevanja konverzije senzorskih stimulusa u percipirane pojave.
  • saznanje/spoznaja (lat. cognosco (con, 'with', and gnōscō, 'know'; itself a cognate of the Greek verb γι(γ)νώσκω, gi(g)nόsko, meaning 'I know, perceive'), meaning 'to conceptualize' or 'to recognize')
  • immersion, engagement, involvement, (spatial) presence, realness, plausibility, believability, fidelity
  • Izraz 'virtualna stvarnost' je paradoks, kontradikcija u terminima, i opisuje prostor mogućnosti ili nemogućnosti formiran čulnim iluzijama.

Logičke greške i kognitivna pristrasnostLogička greška je izvođenje pogrešnih zaključaka na osnovu postavki koji izgledaju logično. Formalna greška sadrži grešku u samoj strukturi logičke forme argumenta. Neformalna greška može imati validnu formu, ali je ipak greška zbog karakteristika samih premisa. 
  • Kognitivna pristrasnost je vrsta greške u razmišljanju, koja nastaje tokom obrade i tumačenja podataka o spoljnom svetu. Često je posledica našeg pokušaja da pojednostavimo ili ubrzamo obradu informacija. Uzrok je heuristika ili mentalna prečica, društveni pritisak, motivacija, emocija ili ograničena sposobnost obrade informacija. 
  • Logička greška proizilazi iz greške u logičkom argumentu, dok je kognitivna pristrasnost ukorenjena u misaonom procesu.
Zablude opstaju usmenom komunikacijom, u težnji brzim rešenjima, na osnovu selektivnih podataka, korelacija-uzročnost, naknadno zaključivanje, zakrivljeni uzorci, heuristika reprezentativnosti, medijska preuveličavanja, prenaglašavanje postojećih efekata, terminološka zabuna.
Pristrasnost u odlučivanjuPristrasnost u odlučivanju a time i potpuno pogrešne zaključke uslovljavaju tri elementa: naša kognitivna ograničenja, nepotpuni skupovi podataka, i nedostatak konteksta tih podataka. 
Logički paradoks Catch 22Kvaka 22 je apsurdna situacija u kojoj se od pojedinca zahteva specifičan preduslov za postizanje određenog cilja, a ispunjenje uslova zahteva ostvarenje zadatog cilja!?
Šum u ljudskom prosuđivanjuDefiniše se kao "nepoželjna varijabilnost u prosuđivanju istog problema".  Naše rasuđivanje često pati od šuma, a to je nedovoljno rešen problem unutar organizacionog razmišljanja u domenima „pitanja procene“. Naše prosuđivanju pojavljuje u nekoliko oblika: neslaganje između sudija, neslaganje unutar sudija, pa čak i u presudama koje je donela samo jedna osoba ili grupa, pošto se presuda može posmatrati kao samo jedan mogući ishod od mogućih presuda do kojih je dotični sudija mogao doći.  Razlozi zašto nastaje šum uključuju prosuđivanje kognitivnih predrasuda, raspoloženja, grupne dinamike, lične istorije i emocionalne reakcije. Šum je prisutan u predviđanjima i procenama, ali ne i u manjim misaonim procesima kao što su navike i nebitne i nesvesne odluke. Razlozi za nedostatak pažnje koji se pridaje šumu uključuju i to što naš mozak raspolaže tendencijom da uspešnije uočavaju i razumeju obrasce, a ne u nasumičnosti (šumu). Mi uopšteno tražimo obrasce. Neprestano tražimo uzročna objašnjenja i često se zadovoljavamo jednostavnim objašnjenjima koja i ne pokušavamo da falsifikujemo. Otkrivanje i merenje šuma zahteva usmerene napore, pošto je šum inherentno statistički: postaje vidljiv samo kada statistički razmišljamo o skupu sličnih sudova. Tehnike redukcije šuma rasuđivanja obuhvataju kako relativno male promene u arhitekturi izbora (fizičko i psihološko okruženje u kome se donosi odluka), tako i veće promene, uključujići debiasing, korišćenje algoritama/pravila, upotrebu smernica, upotrebu relativnih skala, korišćenje osnovnih stopa, agregaciju odluka i strukturirane i pažljivo sekvencionirane procese donošenja odluka.
Percepcija jezika: nijedan jezik nije logičan!Језичке заблуде су више или мање раширена мишљења о нечему што се не поклапа са установљеним језичким правилима и законитостима и/или нормом.
  1. Нормативни приручници и речници се не консултују и тако долази до стварања другачије слике о некој језичкој појави. Ово је уједно најчешћи случај.
  2. Нормативни приручници дају једно правило, а они који су у заблуди стварају алтернативно правило из разлога што им ово прво не делује логично или делује као да је у супротности са другим нормативним правилима.
  3. Нормативни аспекти употребе језика имају одређене карактеристике, а перцепција о њима је другачија.
  4. Језички систем српског језика је прилично замршен и онда људи греше јер праве погрешне аналогије. Овде не спадају заблуде у правом значењу, али не одступају од дефиниције коју смо дали.
  • У заблуде које смо ставили у 1. категорију спадају многе које полазе од тога да је језик логичан. Међутим, ниједан језик није логичан, па чак ни вештачки језици!? Још чешћи случај је свима прилично позната и раширена теза да речи могу имати само једно или много мањи број значења него што је то тако у стварности. То је питање вишезначности или полисемије.
  • Заблуде из групе под 2. често се комбинују са овима из 1. групе. Овде се највише сусрећемо са погрешним тумачењима правописа, а ту понајвише правописних знакова.
  • Питање погрешне перцепције језика и кад су у питању појаве везане за језик у случају 3. такође води у заблуде. Овде спадају веома честе тврдње да се правопис стално мења или да стране речи, а нарочито англицизми, уништавају биће српског језика и отуђују га од њега самог.
  • У групу 4. спадају и грешке за које су говорници најмање криви, а до њих долази због недоследности и не нарочито добрих правописних решења. 
Принципи успостављања заблуда прилично се поклапају са поделом коју смо већ дали. Као што је већ речено, нема велике разлике између заблуде и мита, нарочито у разговорном језику, а тако је и у нашим речницима.Принцип усвајања неке језичке заблуде сличан је принципу усвајања и сваке друге заблуде или мита. Мит у другом значењу значи исто што и заблуда – исконструисано, нереално мишљење о неком или нечем, засновано на нетачном сазнању.Принципи стварања заблуда најчешће настају успостављањем аналогије. Најпре, из људске потребе за ненаучним и митолошко-религиозним, из неке врсте револта према научним доказима и науци генерално, и зато што често нисмо задовољни ониме што званична наука каже. Овај свет не би био оно што јесте кад не би пливао у заблудама у сваком сегменту свог постојања!? Заблуде су као нека врста одбране од чињеница које нам се не допадају, а често се догоди да нам се и зва- нично сервирају заблуде (најчешће о неким догађајима у земљи и свету), па нам је механизам њихове производње свима врло добро познат. Морамо се помирити с тим да заблуденикада неће бити побеђене никаквим аргументима, науком нити било којим методама које сматрамо цивилизацијским достигнућем. 
[2015-2022]  Dragorad Milovanovic
Slikovne i vizuelne komunikacijeSlike su osnova informacionih komunikacija, emocija i zabave. Slike su danas sveprisutne i način kako ih razmenjujemo i interpretiramo predstavlja osnovu svakodnevnog života. Danas prikupljamo, pohranjujemo, pristupamo, prenosimo i primamo vizuelne informacije, tako da su naše mogućnosti vizualizacije praktično neograničene. Vizuelne komunikacije imaju bogatu istoriju, od najranijih pećinskih crteža, do Egipatskih hijeroglifa, pronalaska papira i štampe, fotografije i filma, do moderne umetnosti, televizije i novih medija. Vizuelni sistem čoveka procesira dve grube slike spoljašnjeg sveta projektovane na retinu oka, kako bi detektovali, prihvatili i predvideli opasnost i percipirali ostale elemente opstanka i estetskog. Percepcija se ne zasniva samo na trenutnim slikama, vremenski i 3D prostorni odnosi se postavljaju u kontekst ukupnog znanja prikupljenog u predhodnim iskustvima. Velika proporcija ljudskog uma 50% je posvećena vizuelnim i povezanim zadacima. Kombinacijom ostalih čula i pohranjenih podataka, dinamični neuronski procesi omogućavaju prepoznavanje, predikciju i planiranje zadataka [D.A.M]
Vizuelna percepcijaPercepcija je sposobnost ljudskog uma da organizuje, identifikuje i interpretira informacije primljene čulima sa ciljem reprezentacije i razumevanja okruženja. Percepcija nije samo pasivno prihvatanje signala iz okruženja, proces obuhvata i modifikaciju stimulusa u fokusu i senzornih iskustava na osnovu predhodnog znanja i očekivanja. Značajni rezultati procesa su prepoznavanje oblika, interpretacija i kreiranje aktivnosti. Osnovni cilj vizuelne percepcije je rekonstrukcija 3D okruženja (geometrija, topologija, materijal, osobine površina, svetlosni izvori) na osnovu dve parcijalne 2D projekcije na retini ljudskog oka. Problem je inverzan računarskoj grafici i slabo je uslovljen zato što geometriju objekata nije moguće rekonstruisati ako ne postoje informacije o dubini scene, a problem dodatno komplikuju refleksije i promenljiva osvetljenost scene. Ljudsko čulo vida efikasno i robustno rešava inverzni problem primenom tehnika regularizacije (predhodno znanje o okruženju, obliku i geometriji objekata, kao i predhodnog prisustva svetlosnih izvora i prepoznavanje materijala) podsvesno selektujući precizne informacije iz ogromne količine vizuelnih podataka u svakodnevnom životu. Ljudsko čulo vida estimira dubinu scene kombinujući višestruke naznake. Ako se naznake slažu, 3D percepcija je naglašena. Međusobni konflikt naznaka ometa 3D percepciju, tako se pojavljuju iluzije. Najznačajnije naznake koje ne moraju obuhvatiti i jedno i drugo oko su percepcija dubine na osnovu senki i istaknutih regiona, skaliranje usled perspektive, relativna veličina udaljenih i bliskih objekata jednakih dimenzija, gradijent teksture, udaljeni objekti izvan fokusa su zamagljeni, udaljeni objekti su manjeg kontrasta i manje zasićenih boja, udaljeni objekti su zaklonjeni bližim objektima, i bliži objekti se u projekciji brže pomeraju usled sopstvenog kretanja ili pomeranje glave posmatrača. Stereo naznake su posledica postojanja rastojanja optičkih osa levog i desnog oka, tako da se pojavljuje disparitet u 2D projekcijama. Iznos pomeraja zavisi od udaljenosti objekta na 3D sceni do posmatrača, tako da horizontalni disparitet predstavlja osnovnu naznaku dubine. Fuzija leve i desne slike u jedinstveni pogled ljudskog čula vida, predstavlja 3D percepciju posmatrača [D.A.M] 
Evolucija čula vidaLjudska čula predstavljaju fiziološku sposobnost organizma da generiše podatke za percepciju. Funkcionisanje, klasifikacija i teorija se preklapaju u izučavanju neuro nauka, kognitivne psihologije i filozofije percepcije. Nervni sistem sadrži specifične čulne organe. Postoji veliki broj čula (21?), pet tradicionalno prepoznatih (vid, sluh, ukus, miris, dodir) i brojni modaliteti (temperatura, kinestezija, bol, balans, vibracije, interni hemi-receptori).Čulo vida predstavlja izuzetno dostignuće evolucije. Ljudsko čulo vida je najznačajnije i veliki deo mozga je posvećen procesiranju vizuelnih informacija: prepoznavanje objekata, opažanje treće dimenzije, upravljanje pokretima.
  • Evolucija oka startuje u Precambrian i ubrzava u Cambrian periodu 541 do 485 miliona godina BC. Primitivno oko konvertuje svetlost u električne signale pomoću foto-hemijskih molekula (rhodopsin) koje dele sva živa bića. Razvila su se najmanje dva fotoreceptora različitog vidnog ugla koji simultanu upoređuju svetlosni front dva različita dela okruženja. Oko sa jednom komorom sadrži pigmentnu sferu, sočivo, rožnjaču, konkavno ogledalo. Složeno oko formira osnovni spoj, dodatak, prelomna i reflektujuća superpozicija. Napredna struktura oka generiše dobru sliku na mrežnjači (retina) kao i sve potrebne informacije za čulo vida u velikom rasponu spoljašnjeg osvetljenja. Sferna i hromatska aberacija se kompenzuje promenljivim gradijentom i zakrivljenjima. Dimenzije receptora određuju granice difrakcije kada je svetlost prigušena. 
  • Optički sistem ljudskog oka naglašava ulogu rožnjače (cornea) providnog kružnog prednjeg dela oka u formiranju slike. Sočivo obezbeđuje fokusiranje na različito udaljenje objekte (accommodation). Dužica (iris) obezbeđuje maksimalnu rezoluciju u datim uslovima a otvor zenice (pupil 2-8mm) reguliše količinu svetlosti koja dospeva na mrežnjaču. U centru je mala depresija (fovea) prečnika 1.5mm u sklopu žute mrlje (macula) prečnika 5.5mm koja obezbeđuje skoro sve informacije o bojama i detaljima.
  • Sistem za pokretanje oka ne dozvoljava kontinuirano pomeranje u tačku fiksacije. Brzi, simultani pokreti očiju (saccades) omogućavaju najbržu fiksaciju. Slika se stabilizuje vestibularno-okularnim refleksima i pogled usmerava u prostor (gaze) orijentacijom očiju u odnosu na glavu i orijentacijom glave u prostoru. Mnoge aktivnosti zahtevaju vreme obrade vizuelnih informacija i konvertovanje u pokrete oka pomoću 6 mišića.
  • Na retini se formiraju 2D slike okruženja. Treća dimenzije se percipira na osnovu dispariteta na retini levog i desnog oka, kao i monokularnim naznakama pokreta glave i tela (relativna veličina, tekstura, elevacija, okluzija). 
  • Ljudsko oko detektuje razlike u talasnim dužinama svetlosti reflektovane sa objekata u okruženju. Tri tipa ćelija retine u obliku konusa različito reaguju na spektralne komponente svetlosti (L, M, S) a ćelije gangliona procesiraju razlike komplementarnih boja.
  • 27 procenata korteksa ljudskog mozga predominantno obavlja vizuelne funkcije, ali postoje i druge oblasti koje su delimično uključene. Putanja procesiranja obuhvata primarnu i V1 oblast (striate cortex). Ćelije u temporalnom režnju (lobe) su odgovorne za prepoznavanje lica a regioni ventralnog toka (stream) za geometrijsku konfiguraciju.
  • Optika oka ograničava vidno polje na područje slike od približno 9 cm² površine i dubinu prostora od oko 50 μm. Hardver i softver retine smanjuju dostupne informacije na 6 miliona kupastih ćelija i 110 miliona štapićastih ćelija, optički grupisanih u lokalne meta-piksele, na približno milion optičkih živaca koji vode od oka do centara u mozgu.

Sposobnost da opažamo 3D objekte
  • statična/dinamička oštrina vida (mera jasnog i oštrog vida posmatrača) 
  • akomodacija (fokusiranje i prilagođenje oka na blisku/daleku distancu)
  • kontrastna senzitivnost (razlikovanje diskretnih varijacija u boji i osvetljenju)
  • fiksacija vida (sposobnost da izvesno vreme oči zadržimo mirno na određenoj tački u prostoru) 
  • opseg pokreta (okularni mobilitet utiče na opseg pokreta oka)
  • praćenje oka (precizno, sinergetično i u tandemu fiksiranje objekta u pokretu)
  • pažnja vida (utiče na razlikovanje važnih i nevažnih informacija)
  • binokularnost (podržava percepciju dubine i prostora kada oči rade simultano i u sinergiji)
  • percepcija dubine (zasniva se na stereoskopiji ili monokularnim naznakama - senke, relativna veličina, paralaksa pokreta)
  • sposobnost/opseg vergencije (simultani pokreti oka koji se pojavljuju sa promenom fokusa)
  • uglovi pogleda (pokret očiju u tandemu kada se posmatra pod uglom, a ne pravo napred)
  • stabilizacija pogleda (vidna akcija održavanja bistrog pogleda kada su predmeti ili posmatrač u pokretu)
  • percepcija boja (sposobnost razlikovanja varijacije boja i nijansi)
  • okularna dominacija (nesvestan izbor jednog oka u odnosu na drugo)
  • brzina vizuelne obrade (vreme obrade kompleksnih vizuelnih informacija)
  • brzina identifikacije (sposobnost vizuelne obrade da prihvati značajne informacije) 
  • brzina i raspon prepoznavanja (količina vizuelnih informacija koje posmatrač može da prihvati i vreme potrebno da ih učini smislenim)
  • vreme vizuelne reakcije (sposobnost reakcije na vizuelni marker) 
  • predviđanje vremena (sposobnost posmatrača da predvidi vizuelnu informaciju)
  • vizuelna koordinacija (simultana i sinhronizovana upotreba dve strane tela na osnovu vizuelnih informacija)
  • ravnoteža i propriocepcija (osećaj koji utiče na nesvesno saznanje o položaju tela)
  • centralna obrada (centralni vid obezbeđuje slike visoke rezolucije, jasne i detaljne informacije i sposobnost prepoznavanja objekata)
  • periferna svest (periferni vid obezbeđuje slike niske rezolucije, boju, i sposobnost detektovanja pokreta i oblika)
  • centralno-periferna vidna obrada (sposobnost simultane obrade centralnih i perifernih vidnih informacija)
  • vizuelna izdržljivost (vizuelna fokusiranost, pažnja i trpeljivost dugih perioda repetitivnih pokreta oka)
  • adaptabilnost na svetlost (sposobnost adaptacije na različite uslove osvetljenosti)
  • obrada informacija vida (identifikacija, razumevanje, poređenje, obrada i organizacija vuzuelnih informacija)
  • vizuelna sposobnost razlikovanja (sposobnost uočavanja detaljnih informacija i donošenje validne procene zasnovane na vizuelnim naznakama koje se odnose na kontrast, boju i nijanse, teksturu, oblik i veličinu)
  • vizuelno zaključivanje (sposobnost percepcije kompletne slike na osnovu vidljivih delova slike)
  • vizuelna figura (sposobnost uočavanja određene figure u odnosu na pozadinu okruženja)
  • vizualizacija (mentalna slika)
  • vizuelna memorija (sposobnost pamćenja)
  • vizuelna sekvencijalna memorija (sposobnost pamćenja niza kompleksnih vizuelnih informacija)
  • vizuelni prostorni odnosi (sposobnost uočavanja, interpretiranja i razumevanja veze između sebe i drugih, između sebe i predmeta, te između različitih predmeta u prostoru)
  • vizuelna prostorna lokalizacija (sposobnost pronalaženja objekta i određivanje udaljenosti, pravca i prostorne pozicije)
  • vizuelna lokalizacija pravca (sposobnost reagovanja na promenu pravca)
  • kalkulacija vizuelne distance (sposobnost određivanje rastojanja u prostoru)
  • vizuelne granice (sposobnost određivanja prostornih granica)

  • perzistencija (zadrška slike na retini od 1/3 sekunde omogućava video perzistenciju od 15 frejmova i više u sekundi)
  • Phi efekat (percepcija pokreta generisana sa dva stacionarna i prostorno razdvojena izvora koja sukcesivno bljeskaju)

  • saccades&nystagmus (voljni&nevoljni pokreti očiju u vizuelnim i kognitivnim procesima, kao i aktivnostima produkcije govora, dijalog, računarski interfejs, ponašanje vozača, sportske performanse, emocionalna stanja)
  • scotoma (oblast delimično izmenjenog vidnog polja sa delimično umanjenom ili potpuno izgubljenom oštrinom vida; oblast je okružena normalnim ili dobro očuvanim vidom)

Revolucija 6/10Prošireni dinamički opseg HDR (detalji i zasićene boje u širokom opsegu osvetljenja 0.0005-10000cd/m2) i prošireni kolor spektar WCG (precizni 10/12bpp kolor primari) primenjuju se udruženo i nezavisno od prostorne UHD/HD rezolucije sa ciljem poboljšanja realizma rekonstrukcije TV slike.
  • [1999] DCI
  • [2000-2006] HD OETF BT.709
  • [2008] OLED TV
  • [2009] 3D HDTV
  • [2010] Android devices
  • [2011] Connected TV
  • [2012] UHD&HFR&WCG BT.2020
  • [2013] 4K Ultra HDTV
  • [2014] 3D printers, Sensor&Wearable technologies
  • [2015] Virtual Reality (VR)
  • [2016] HDR HLG-OETF PQ-EOTF BT.2100
  • [01.12.2018 10:00] 8K UltraHDTV BCS broadcast@satellite
  • [2019] 8K Ultra HDTV (sense of being there: FOV=100° @0.75H 1.5m@D=145inch/3m@D=500inch, sense of realness: @angular resolution 60 cycles per degree @maximum human visual acuity 20/20)
  • [2019.] micro LED modularni ekrani dijagonale 75-219inch i geometrije 1:1, 16:9, 21:9

Potraga za izgubljenom dimenzijomLjudsko čulo vida (HVS) direktno registruje osvetljenost/refleksije/transparenciju objekata i okruženja, dok tehnologija samo omogućava kreiranje/rekonstrukciju (virtuelnih) vizuelnih iskustava akvizicijom svetlosnih talasnih frontova pomoću sistema senzora/kamera i projekciju na 2D ekrane. Tokom godina razvoja senzora i ekrana, kao i efikasnog procesiranja digitalnih podataka i njihov prenos i skladištenje, korisnicima su ostvarena poboljšana iskustva u mnoštvu aplikacija i usluga u skoro svim oblastima ljudske aktivnosti. Naravno, tehnička rešenja predstavljaju kompromis kvaliteta rekonstrukcije 3D scene i svih relevantnih ograničenja procesa komprimovanja, prenosa i projekcije vizuelnih podataka, kao i inherentnih ograničenja ljudskog čula vida. 2D-frame model za akviziciju i projekciju/rekonstrukciju video signala je uspešno tehnološko rešenje sa širokom primenom, međutim očigledno je da 2D projekcija 3D scene nije savršena replika okruženja i korisničko iskustvo se značajno razlikuje od realne scene. Tako da postoji kontinuiran napor u ostvarivanju kvalitetnijeg korisničkog iskustva a koje zahteva sve više svetlosnih/vizuelnih informacija i sve složenije modele i uređaje za akviziciju i rekonstrukciju. Posledica je da poslednjih godina (od 2012.godine, odnosno 2016. godine) 3D okružujuća iskustva visokog kvaliteta postaju sve popularnija u VR/MR/AR domenu, kako tehnologija ulazi u period visoko-performansnih uređaja, masovnih Internet platformi i otvorenih ekosistema široke potrošnje [D.A.M]
Okružujuća multimedijalna tehnologija3D multimedijalna tehnologija je sve popularnija i značajan napor je učinjen u akademskim i industrijskim istraživanjima. Preduzete su značajne aktivnosti u tehničkoj specifikaciji i standardizaciji produkcije, kodovanja, prenosa i potrošnje ovog tipa multimedija kako bi se korisnicima omogućila nova IMEx (Immersive Multimedia Experience) iskustva. Sveobuhvatni cilj IMEx okruženja je ostvariti hiper-realistično životno iskustvo i interakciju između korisnika i medijskih objekata. Primarni cilj je ostvariti osećaj prisustva na osnovu višestrukih senzorskih kanala, kao što su vizuelni i audio. Aplikacije koje se zasnivaju na 3D multimedijalnoj tehnologiji su upotrebljive u mnogim oblastima, kao što su mediji i zabava, industrija igara, zdravstvo, transport, trgovina, digitalna proizvodnja i projektovanje, obuka i trening. Međutim, istraživanje i razvoj raznovrsnih formi 3D multimedija nije nova pojava. Tehnologije kao što su AI fotografija, nizovi kamera i LightField matrični sistemi za snimanje i obradu, kodovanje, distribuciju i rendering 3D okruženja na kompleksnim ekranima, kao i novi HCI (human-computer) intefejsi, široko su istraživani. Ali sa pojavom novih VR sistema i mobilnih AR/MR aplikacija zasnovanih na naprednom prepoznavanju objekata i tehnikama praćenja i lokalizacije, povećava se broj značajnih inovativnih studija slučaja primene 3D multimedijalne tehnologije. Ključni faktor širokog prihvatanja 3D sistema od strane korisnika je sposobnost aktuelnih sistema da ostvare zadovoljavajući kvalitet korisničkog iskustva [D.A.M]
Složenost tehnologije i nivo imerzijeNastanak digitalne televizije (DTV) prati se sve većim naporima u smeru stvaranja vizuelnog sadržaja višeg kvaliteta sa realističnim osećanjima. To uključuje razvoj veće prostorne/vremenske rezolucije (HD->4K->8K) / (30->240 frame rate), višeg kontrasta boja i dinamičkog raspona (HDR) i stereo uređaja za višestruko snimanje i prikazivanje (multi-view). Osim toga, paralelni napori se nastoje usmeriti prema direktnom snimanju i volumetrijskom prikazivanju geometrije i teksture 3D tačaka radi potpunog interaktivnog iskustva (VR/AR/MR, 2.5 DoF->6 DoF). Ovi industrijski trendovi zauzvrat su bili ključni činioci u razvoju 2D/3D standarda komprimovanja videozapisa, kao što su AVC/H.264, HEVC/H.265 i MVC, kao i najnoviji VVC i kompresija oblaka tačaka (PCC).MPEG-VR projekat [June2016] eksperimentiše i razvija tehničke specifikacije multimedijalnih sistema različitog nivoa imerzije koji zavisi od kompleksnosti tehnologije. Prva faza specificira omnidirekcioni video OMAFv1 format i 3DoF statičnog posmatrača. Naredna faza OMAFv2 format omogućava 3DoF+ interaktivnu paralaksu usled ograničenog pomeranja glave i torza posmatrača u malom 3D prostoru. Finalni cilj je potpuna paralaksa dinamičkih objekata i 6DoF navigacija posmatrača unutar velikog 3D prostora (3DoF+ je 6DoF u ograničenom prostoru). MPEG-I sistem pred-procesira veliki broj ulaznih video sekvenci DERS (depth estimation reference software finds correspondences between views on pixel-by-pixel basis and generates depth map [Znear, Zfar]) i remapira na manji broj sekvenci (pixel-rate reduction), koduje (HEVC, VVC, VVC+ bit-rate reduction) i generiše metapodatke. Nakon dekodera, napredni post-procesor VSRS (View Synthesis Reference Software divides references views in triangles that are warped using computed translation and rotation, and filled with tri-lineear interpolation) na osnovu metapodataka i tekuće pozicije posmatrača i ugla posmatranja (view position) rekonstruiše aktuelni pogled (viewport). Evaluacija virtuelnih pogleda se zasniva na referentnom softveru RVS (Reference View Synthesizer by warping using a computed disparity)/VVS (Versatile View Synthesizer) i metrikama WS-PSNR (weighted-to-spherically-uniform peak signal-to-noise ratio). 
Perceptualni inženjering i usmerena pažnjaMultimedijalna tehnologija generiše signale koje percipiramo ili procesira signale koje generišu ljudi. Inženjering vizuelnih algoritama niskog nivoa uspešno se primenjuje u obradi slike i video signala. Napredni perceptualni modeli razvijeni su krajem 1990s za predikciju vizuelnih razlika dva signala u primenama komprimovanja slike i predikcije kvaliteta. Modeli vizuelne pažnje višeg nivoa razvijeni su 2000s za perceptualnu optimizaciju algoritama selektivnog ROI komprimovanja slike, interaktivni striming, pretraživanje sadržaja. Pravac pogleda (gaze) ne reflektuje direktno vizuelnu pažnju posmatrača. Otvorena pažnja (overt) je direktno usmeravanje očiju na stimulus. Prikrivena pažnja (covert) označava mentalno preusmeravanje pažnje u odsustvu fizičkog usmeravanja očiju. Prikrivena pažnje predhodi pokretima očiju i u toku fiksacije, tako da može biti usmerena na više lokacija istovremeno. Psihofizičke, fiziološke i vizuelne studije ukazuju da su ove dve vrste pažnje međusobno povezane. U slučaju prirodnih scena, posmatrač intuitivno pomera pogled u pravcu usmerene pažnje. Pokrete očiju je moguće pratiti posebnim uređajima i formirati bazu podataka. Prvi mehanizam otvorene pažnje (exogenous) je pasivan, refleksivan, nevoljan (tranzijentan sa brzim porastom i padom od 100-120ms) odgovara našoj sposobnosti da automatski preusmerimo pažnju na lokaciju iznenadne pojave stimulusa. Drugi mehanizam otvorene pažnje (endogenous) je aktivan i voljan (neprekidan sa porastom od 300ms), odgovara našoj sposobnosti da potpuno nadgledamo datu lokaciju. Mapa značajnosti prezentuje percipiranu ocenu značajnosti objekta na sceni. Mapa relativne verovatnoće (salience) da će posmatrač usmeriti pažnju na određeni region scene zasniva se na centar-okruženje principu [D.A.M] Perceptualni alati i procena imerzivnih medijaMultimedijalni ekosistem se dramatično menja i zahteva progresivni razvoj od procene vizuelnog kvaliteta ka evaluaciji kvaliteta iskustva. Ciljevi su redefinicija osnova QoE procene aktuelnih imerzivnih sistema, istraživanje odgovarajućih metodologija subjektivne procene (zahtevi projekcije, okruženje za testiranje, faktori merenje), podrška razvoju objektivnih metrika i vizuelnih modela, i konstruisanje anotiranih skupova podataka aktuelnih medija sadržaja. Najnoviji razvoj imerzivnih tehnologija zahteva pregled ideja, istraživačko-razvojnih aktivnosti i posebno značaja perceptualnih alata i procene:
  • različiti aspekti utiču na VR iskustvo (vizuelne performanse, interakcija i psihofiziološki odgovor korisnika, ergonomija)
  • tipičan 360° omnidirekcioni/panoramski lanac procesiranja (akvizicija, format signala, rendering, kodovanje i striming) i izvori izobličenja, perceptualni alati (adaptacija postojećih 2D metrika) i problemi parametarizacije i senzitivnosti, formalna validacija (anotirana baza test snimaka)
  • perceptualna analiza (3D percepcija, vizuelni komfor), karakterizacija LF svetlosnog polja i selekcija sadržaja (spatial and temporal information, colorfulness, contrast, depth map and depth histogram, disparity range, occlusions, refocusing range), QoE evaluacija (paralaksa, adaptivno refokusiranje, interaktivnost, morska bolest) 
  • evaluacija komprimovanja PC oblaka tačaka sadrži dva tipa izobličenja (geometrija/pozicija, atributi) i dve metrike (tačka-tačka, tačka-ravan greška), problem konzistentne rekonstrukcije test tačaka (dimenzija tačaka nije definisana i pretpostavka da su nevidljive). 

Kvalitet iskustvaIskustvo je direktna personalna participacija ili opservacija, stvarno znanje ili kontakt. Kvalitet je osnovno obeležje ili priroda nečega. Kvalitet iskustva je skup inherentnih atributa sadržaja neposrednog posmatranja ili učestvovanja u događaju. Procena kvaliteta je određena različitim tehničkim, psihološkim i socijalnim faktorima. Koncept kvaliteta poseduje jaku pozitivnu konotaciju i u slučaju kada se upotrebljava u naizgled neutralnom kontekstu. Aristotel je uvrstio kvalitet kao jedan od 10 kategorija ljudskog razumevanja. Psiholozi govore o zadovoljstvu i iskustvima, poslovni ljudi o srednjim prihodima po korisniku i lojalnosti kupca, inženjeri govore o performansama sistema i kvalitetu servisa. Kvalitet servisa QoS (Quality of Service) podrazumeva koncept, parametre i metode neophodne u upravljanju interakcije aplikacije krajnjeg korisnika i konekcije upravljane mrežnim operatorom. Kvalitet iskustva QoE (Quality of Experience) je povezan sa interfejsom između korisnika i aplikacije. Na ovom interfejsu psiholozi govore o Maslow hijerarhiji potreba, poslovni ljudi o ciljevima, inženjeri o srednjoj oceni MOS (Mean Opinion Score). Savremena procena kvaliteta pomera fokus od usklađenosti sa ciljevima dizajna sistema prema ispunjavanju potreba korisnika ili očekivanja u različitim kontekstima. Procena se zasniva na čulima vida i sluha, međutim novi multimedijalni formati zahtevaju angažovanje i ostalih čula koji izazivaju širok opseg emocija. Multisenzorski sadržaji zahtevaju QoSE (Quality of Sensory Experience) procenu kvaliteta rekonstrukcije multimedijalnih efekata. Sledeći korak je definicija kvaliteta ljudskog života QoL (Quality of Life) kao generalno blagostanje pojedinca i društva. Pozicija QoL je presek tri osnovna trenda. Nove multimedijalne tehnologije omogućavaju bogatije i imerzivnije multimedijalno iskustvo i nove načine interakcije korisnika. Dostupni nosivi odevni uređaji sa senzorima fizioloških signala i praćenjem fizičke aktivnosti omogućavaju korisnicima poboljšanje opšteg zdravstvenog stanja. Brojni uređaji sa senzorima za prikupljanje i procesiranje podataka od korisnika i njihovog okruženja omogućavaju korisnicima podršku u odlučivanju na osnovu analitike velikih podataka i deljenja informacija na društvenim mrežama. Konvergencija ovih trendova menja tradicionalni koncept kvaliteta servisa ili proizvoda. Procena kvaliteta postaje interdisciplinarna i zahteva eksperte iz različitih domena. Korisnici su u tranziciji od pasivnih potrošača prema aktivnim kreatorima sadržaja i deljenju informacija. Posledica je da se značenje kvaliteta značajno menja u odnosu na kontekst. Tehnologiju je nemoguće posmatrati izolovano: servis ili proizvod je deo ekosistema koji utiče na različite ljude na različit način [D.A.M]
Kvalitet sinhronizacijeSinhronizacija multimedija obuhvata tesnu povezanost medijalnih podataka, nedostatke tehničkog sveta, i način percepcije medija i interakcije sa korelisanim multimedijalnim podacima. Ljudska čula ne opažaju nesavršenu sinhronizaciju u određenim granicama. Tehnički sistemi sadrže nesavršenosti a distribucione mreže opslužuju korisnike prema principu najbolja-moguća-usluga. Nova generacija heterogenih i opšte prisutnih multimedijalnih ekosistema postavljaju dodatne zahteve. Izazov sinhronizacije multimedija pojavljuje se u različitim disciplinama: od produkcije medija do dokumentacije, od teorijskih modela do perceptualnih faktora, od pitanja umrežavanja do multimedijalnih sistema. Razumevanje teorijskih radnih okvira i modela multisenzorskih ultra-realističnih iskustava na multi-uređajima i mrežama multi-protokola, nije jednostavan zadatak. Sistemi kamera se koriste u aplikacijama panoramskih snimaka, rendering iz proizvoljne tačke posmatranja i 3D rekonstrukciji. Kritičan aspekt kvaliteta video snimaka je bliska sinhronizacija kamera. U slučaju kvalitetnih panoramskih snimaka ne postoji vizuelna nekonzistencija na granicama spojeva pojedinačnih video snimaka. Dva su osnovna izazova. Prvi je sinhronizacija blende kamera unutar sub-milisekundne tačnosti. Drugi je sinhronizacija ekspozicije kako bi se izbegla softverska korekcija na spojevima prostornih video snimaka.MPEG standard specificira mehanizme (clock reference, timestamps) rekonstrukcije sistemskog takta dekodera prilikom reprodukcije transportnog strima MP2T/MMT koji utiču na kvalitet sinhronizacije video i audio elementarnog strima, sinhronizaciju medija objekata ili prenos medija kontejnera u DVB sistemima i privatnim/javnim IP mrežama [D.A.M]
Kvalitet kodovanjaDigitalni koderi i dekoderi se nalaze u osnovama svih tehnologija i formata za produkciju, distribuciju i rekonstrukciju multimedijalnog sadržaja. U poslednjih 30 godina razvijaju se uspešno a danas smo svedoci daljeg ubrzanog razvoja do 2020. godine. U osnovi kodeka nalaze se algoritmi digitalne obrade signala koji redukuju statistički redundantne i nerelevantne informacije za ljudska čula. Klasičan metod izbora radnih parametara video kodera je maksimizovanje kvaliteta dekodovane slike. Međutim, RDO optimizacija kodovanja sa oštećenjem informacija zahteva združeno merenje kvaliteta u funkciji alokacije raspoloživog bitskog protoka. Matematički min-max problem rešava se primenom Lagrangian multiplikatora, parametar povezuje oštećenje i bitski protok na konkavnoj operativnoj D(R) funkciji za selektovani nivo kvaliteta. Oštećenje kodovanja se izračunava kao MSE ulaznog signala ako je PSNR metrika kvaliteta koju je potrebno maksimizovati. Kriterijum implementacije kodeka je složenost DSP algoritma i rezultujuće kašnjenje i potrošnja električne energije. Tradicionalni video i audio kodeci težinski optimiziraju oštećenje kodovanja u skladu sa modelima vida i sluha. Međutim, ljudska čula su ograničenog kvaliteta i procesiraju ograničenu količinu informacija sa scene na poziciji posmatrača. Sa razvojem računarskih senzora i procesorske snage, računarski generisana okruženja omogućavaju kretanje posmatrača i percepciju iz svih pravaca posmatranja 3D rekonstrukcije realne scene. Generisana količina informacija je ogromna i zahteva nove imerzivne kodeke i metode rekonstrukcije i procene kvaliteta doživljaja iskustva sa realne scene [D.A.M]
Tehnologija komprimovanja podataka (DCT)Beskonačno dupliranje (performansi) i Zenon paradoks dihotomije!?Procena je da u ovom trenutku obrađujemo samo 1% procenat raspoloživih podataka, a samo do 2025. godine generisaće se ukupno 163 ZB (1 Zetta Bytes = 1000**7 Bytes = 10**21 Bytes = 1000000000000000000000 Bytes) podataka. Neophodno je sistematski razvijati i primenjivati tehnologiju DCT (Data Compression Technologies) za efikasno komprimovanje podataka, standardne formate arhiviranja i interoperabilne razmene između korisnika, aplikacija i sistema. Podaci se pojavljuju u mnogim i raznovrsnim scenarijima kada mali broj izvora generiše ogromnu količinu podataka ili kada veliki broj izvora generiše veliku količinu ili kada ogroman broj izvora generiše male diskontinuirane pakete podataka. U svakom slučaju, neophodno je arhiviranje, procesiranje i transport podataka. Nove generacije međunarodnih DCT standarda za komprimovanje i reprezentaciju multimedijalnih podataka (i pridruženih metapodataka) kontinuirano se razvijaju. Proces razvoja novog standarda startuje identifikovanjem zahteva ciljne industrije, razvojem u konsultaciji sa industrijom, verifikacijom postignutih zahteva zajedno sa industrijom, razvojem test alata u konsultaciji i održavanjem standarda na zahtev ciljne industrije. Standardi su generički u smislu da je industriji omogućena upotreba pojedinačnih komponenti i integracija u svoje sisteme. Međutim, DCT je visoko specijalizovana i sofisticirana tehnologija, a rezultati ne moraju biti optimalni zato što je implementacija zahtevna. MPEG 3D-HEVC je prvi standard za komprimovanje MVV sekvenci u 2D+Depth formatu. MPEG-I je najnoviji standard za imerzivne formate i sisteme, komprimovanje 3D video/audio signala i metapodataka, metrike kvaliteta i mrežno procesiranje. JPEG-Pleno je standardni radni okvir za komprimovanje i napredne funkcionalnosti novih plenoptic formata (LightFields, PointClouds, DigitalHolography) [D.A.M] 
Istraživanje i razvoj kodovanja digitalnih slika i video signala
  • [1974] DCT
  • [1978-1984] EU COST211 ITU-T H.120 Video-conferencing (DPCM + conditional replenishment @2Mbps)
  • [1988] EU IVICO RACE (DCT + motion compensation) 
  • January 1988. 1st MPEG Meeting (ITU Videocommunication and speech), IEC Audio and television), ISO Photography and cinematography)
  • [1992] ITU-T T.80/81/82
  • [1992] EU COMIS ESPRIT (ISO MPEG-1) (international standard developed by the researchers of all industries, implemented by the consumer electronics/IT industry and exploited by the telecommunication and broadcasting industries for audio-visual services)
  • [1994] ITU-T H.261 Video codec for audiovisual services at px64 kbit/s (H.221 System) (SG XV Okubo group)
  • [1996] EU625 VADIS EUREKA & ITU (ISO MPEG-2) Digital broadcasting television (TS Mux)
  • [1996] ITU-T VCEG H.263 
  • [1999] ISO MPEG-4 Visual (MP4 FileFormat)
  • [2003] ITU-T VCEG H.264 JVT ISO MPEG AVC 
  • [2013] ITU-T VCEG H.265 JCT-VC ISO MPEG HEVC (MPEG Media Transport)
  • [2015] MPEG-4 IVC (Internet Video Coding) Option 1
  • [2016] MPEG kicked off the work on MPEG-I Coded representation of immersive media. Part 3 of this is Versatile Video Coding (VVC), the latest video coding standard developed by the new Joint Video Experts Team (JVET) between ITU-T and MPEG established at MPEG114 (2016/02). It is expected to become FDIS at MPEG131 (2020/06). The Video subgroup is working on the MPEG Immersive Video (MIV) project due to become FDIS at MPEG134 (2021/03). MIV is connected with SNHC under the chairmanship of Mahnjin. At MPEG79 (2007/01) Marius Preda took over SNHC from Mahnjin to continue the traditional SNHC activities. At MPEG89 (2009/06) SNHC was renamed 3D Graphics (3DG). In the mid 2010 the 3DG subgroup started several explorations, in particular Point Cloud Compression (PCC) and Internet of Media Things (IoMT). The former has split into two standards Video-based (V-PCC) and Graphics-based (G-PCC). The latter has reached FDIS at MPEG117 (July 2018). 
  • [2019] MPEG-21 User Description 2.0
  • [2020] ITU-T VCEG JVET ISO MPEG VVC MPEG-I Part 3 FDIS July 2020
  • [2020] MPEG-5 Part 1 EVC (Essential Video Coding) Option 1 ISO/IEC 23094 (WD1 Jan.2019, CD July 2019, IS July 2020) 
  • [2020] MPEG-5 Part 2 LCEVC (Low complexity Video Coding enhancements) (CfP Oct. 2018. CD Oct. 2019 DIS April 2020)
  • The target is to achieve (i) coding efficiency close to High Efficiency Video Coding (HEVC) Main 10 by leveraging Advanced Video Coding (AVC) Main Profile and (ii) coding efficiency close to upcoming next generation video codecs by leveraging HEVC Main 10. This coding efficiency should be achieved while maintaining overall encoding and decoding complexity lower than that of the leveraged codecs (i.e., AVC and HEVC, respectively) when used in isolation at full resolution. 
  • [2020] MPEG Immersive video: Point Clouds Compression (V-PCC CD 23090-5 Oct.2018 / FDIS Apr.2020 + MIV FDIS Jan.2021, V3C, G-PCC CD 23090-9 Mar.2019) 
  • [2020] MPEG Immersive video: OMAF v2 System for 3DoF+ experiences (MPEG-I Phase 1b)
  • [2021] MPEG Metadata Immersive Video (MIV) support for playback of a scene with a range of viewing positions and orientations, with 3DoF+ and 6DoF freedoms (FDIS Jan. 2021)
  • Call for Proposals (CfP)dynamic time-varying
  • [2021] CfP (TVMs)  dynamic time-varying meshes (TVMs): Video- and Subdivision-based Mesh Coding (DMC/VSMC)
  • [2022] MPEG Immersive video:  Video-based dynamic mesh coding (V-DMC) MPEG-I Part 29
  • [2022] MPEG Immersive video: LFC for 6DoF experiences (MPEG-I Phase 2)
  • [2022] MPEG Immersive Audio CfP April 2020 - 2020 FDIS January 2022

MPEG-I Coded representation of immersive media [ISO/IEC 23090 May2023]Part 1: Architectures for immersive media [UnderDevelopment]Part 2:2021  Omnidirectional media formatPart 3:2022  Versatile video codingPart 4: MPEG-I immersive audio [UnderDevelopment]Part 5: Visual volumetric video-based coding (V3C) and video-based point cloud compression (V-PCC) [UnderDevelopment]Part 6:2021  Immersive media metrics    Amendment 1: Immersive media metrics for V3C Data and OMAF   Amendment 2: Additional latencies and other improvements)Part 7:2022 Immersive media metadata    Amendment 1: Common metadata for immersive mediaPart 8:  Network based media processing [UnderDevelopment]Part 9:2023 Geometry-based point cloud compressionPart 10:2022 Carriage of visual volumetric video-based coding data   Amendment 1: Support of packed video dataPart 11: Network-based media processing implementation guidelines [UnderDevelopment]Part 12: MPEG immersive video [UnderDevelopment]Part 13: Video decoding interface for immersive media [UnderDevelopment]Part 14: Scene description [UnderDevelopment]   Amendment 1: Support for immersive media codecs in scene description   Amendment 2: Support for haptics, augmented reality, avatars, Interactivity, MPEG-I audio, and lightingPart 15:2022 Conformance testing for versatile video codingPart 16:2022 Reference software for versatile video codingPart 17:2021 Reference software and conformance for omnidirectional media format (OMAF)Part 18: Carriage of geometry-based point cloud compression data   Amendment 1: Support for temporal scalabilityPart 19:2023 Reference Software for V-PCC   Amendment 1: Additional V3C bitstreamsPart 20: Conformance for V-PCC [UnderDevelopment]Part 21: Reference Software for G-PCC [UnderDevelopment]Part 22: Conformance for G-PCC [UnderDevelopment]Part 23: Conformance and reference software for MPEG immersive video [UnderDevelopment]Part 24: Conformance and reference software for scene description [UnderDevelopment]Part 25: Conformance and reference software for carriage of visual volumetric video-based coding data [UnderDevelopment]Part 26: Conformance and reference software for carriage of geometry-based point cloud compression data [UnderDevelopment]Part 27: Media, renderers, and game engines for render-based systems and applications [UnderDevelopment]Part 28: Efficient 3D graphics media representation for render-based systems and applications [UnderDevelopment]Part 29: Video-based dynamic mesh coding (V-DMC) [UnderDevelopment]Part 30: Low latency, low complexity LiDAR coding [UnderDevelopment]Part 31: Haptics coding [UnderDevelopment]Part 32: Carriage of haptics data [UnderDevelopment]Part 33: Conformance and reference software for haptics coding [UnderDevelopment]
Dynamic mesh compressionA mesh is the most basic element in a 3D computer graphics model . A mesh is a set of polygons arranged in the shape of a polyhedron; 3D computer graphics models usually use a triangulation mesh. A mesh contains information about connectivity, geometry, mapping, vertex attributes, and attribute maps. If any of these five components varies over time, the mesh is called as a dynamic mesh. Because dynamic meshes contain much larger amounts of data compared with normal meshes, efficient compression, storage, and transmission of data become important. In light of this, moving picture experts group (MPEG) has been standardized dynamic mesh compression.In the V-DMC encoding pre-processing method the original mesh data are decimated, and the number of vertices of the mesh is greatly reduced. Due to that, the data size of the mesh is also greatly reduced. The decimated mesh is then subdivided to generate iterations between vertices using a subdivision scheme. MPEG adopts the mid-point subdivision scheme, which places iterations in the middle of the two vertex coordinates. These iterations are displaced such that the decimated mesh is similar to the original mesh, and the displacement information is storedDuring decoding, the decoder can subdivide the decimated mesh without subdivision information because the subdivision scheme is set to the mid-point subdivision scheme. Thus, the decoder can generate the original mesh using only the decimated mesh and the displacement information. As a result, the decimated mesh has a much smaller data size than the original mesh. The displacement information is also stored in the form of a wavelet transform, which exhibits a high compression efficiency during the encoding process.
Standardni formati digitalnih medijaSve više vrsta informacija se generiše, procesira i upotrebljava od strane računara, i u slučaju kada je krajnji korisnik čovek. Rezultat poslednjih 20 godina je značajan porast tipova informacija i promene načina generisanja, klasifikovanja, arhiviranja, pretraživanja, pristupa i upotrebe informacija. Konverzija informacija u digitalni format je preduslov za računarsko procesiranje ali značajni su i zahtevi kao kompaktnost i kvalitet. Razvoj digitalne tehnologije je pokrenuo novu naučnu oblast digitalne obrade signala DSP (Digital Signal Processing). Međutim, problem interoperabilnosti formata i razvoj horizontalnih rešenja, zahteva odgovarajuće standardizacione procese prilagođene industrijskoj praksi i koji promovišu pozitivnu tehnološku utakmicu. Neophodno je da procesi anticipiraju potrebe i zahteve koji nisu u potpunosti definisani na početku razvoja novog standarda ali to je neophodno ako je cilj publikovati standard upravo kada je industrija u potrazi za rešenjem aktuelnog projekta [D.A.M]
3D vizuelni sadržaj: kreiranje, kodovanje, distribucija3D sadržaj je danas pokretač mnogih multimedijalnih aplikacija i servisa, kao i razvoja različitih tehnologija za podršku. Novija evolucija 3D multimedijalne tehnologije je raznovrsna sa napretkom u različitim pravcima, ne samo kao poboljšanje postojećih tehnologija. Osnovni cilj 3D multimedija je omogućiti korisniku perceptualne elemente sposobne za imerziju dela 3D scene, interakciju i sagledavanje 3D prirode realnih fizičkih okruženja. Najnovija istraživanja poseduju visok potencijal uticaja na budući razvoj 3D multimedijalnih servisa i aplikacija. Mnogi imerzivni multimedijalni sistemi privlače povećanu pažnju istraživača, industrije i tržišta široke potrošnje, tako da su istraživački izazovi i dalje povezani sa ogromnom količinom podataka u svim fazama sistema distribucije. Evolucija u ovom polju je zabeležena proširenjem akvizicije i renderinga iz jedne tačke posmatranja prema virtuelno beskonačnim prostornim lokacijama, a što zahteva 3D reprezentaciju scene na osnovu kompletnih akustičkih i svetlosnih polja prostiranja. U ovom kontekstu, ultimativan cilj 3D multimedijalne tehnologije je ostvarivanje visokog realizma vizuelne scene i mogućiti korisniku kreativne alate za interakciju sa vizuelnim sadržajem. U skladu sa tim, značaj 3D tehnologije je i veći zbog potencijala da obogati percepciju čoveka i podrži razvoj novih aplikacija i servisa u oblastima kao što su industrija zabave, medicina i vizualizacija. Zatim, napredak 3D multimedijalne tehnologije otvara nove tržišne mogućnosti i poboljšanje korisničkog iskustva. Koliko su novi rezultati uzbudljivi, predstavljaju samo trenutno stanje tehnike i polaznu tačku za dalji napredak [D.A.M]
3D Connected mediaDistribucija 3D medija individualnim korisnicima je izazovan problem: ogromna količina podataka, različite karakteristike mreže i zahtevi korisničkih terminala, preference korisnika. Povećava se i broj 3D video snimaka scene, tako da se tehnički sistemi za kodovanje i mrežnu adaptaciju naprežu da ispune zahteve i isporuče konstantan kvalitet za fiksne i mobilne korisnike. 
Misija nemoguća?Novija istorija 3D tehnologije je bez sumnje bogata i fascinatna, ispunjena nadama i snovima, obećanjima, usponima i padovima. Naša potreba da reprezentujemo 3D svet oko nas je evidentna, zato što prirodno percipiramo svet u 3D formatu! Naš san je oduvek da prikažemo objekte na način da ne možemo razlikovati u odnosu na prirodu:-) Nije pitanje da li je imerzija moguća, danas je pitanje koji stepen imerzije nam je potreban i koja količina informacija je neophodna? Nivo uspešnosti 3D tehnologije zavisi od sposobnosti da ispuni zahteve kvaliteta doživljaja QoE (quality of experience). Metrike se zasnivaju na perceptualnim parametrima niskog nivoa (2D kvalitet slike, 3D opseg dubine scene, vizuelni konfor) kao i na kognitivnim i emocionalnim parametrima višeg nivoa [D.A.M]
Konvergencija obrade slike, računarske interpretacije digitalne slike i računarske grafike1. image pre-processing of sampling in four dimensions (4D POF) (single-camera snapshot)2. computer vision techniques (depth extraction and super-resolution) in image analysis becomes an integral part of the imaging process3. computer graphics is needed to synthesize the images ultimately presented to the userIzvan 2D slikeComputational imaging enables modern imaging systems to go beyond capturing a 2D photograph and capture multidimensional visual information, including high-dynamic-range (HDR), time-of-flight (ToF), multispectral, light field, and reflectance field.Raznovrsnost i razmere slikaSince the resolution, variety, and scale of visual data being collected has exploded, conventional sampling techniques based on Shannon–Nyquist are becoming impractical, resulting in the development of compressive imaging and display techniques that seek to use signal models and reconstruction algorithms to reduce the sampling requirements.Međusobno povezani VR prostori i deljena AR okruženja6D.AI Reality platform: AR+Depth+Occlusion+Physics (Real-time 3D Mesh reconstruction + real time object occlusion + persistence of content + no-click multiplayer) SDK+ARKit+UnityNova 6DoF hiper-realistična iskustva (HVS30K percepcija na 5.2Gbps = 30Kx24Kpix x 12x3bpp x 60fps x2stereo /600CG)eMBB KPI >10 Gb/s peak data rates for the enhanced mobile broadbandmMTC KPI >1 M/km2 connections for massive machine-type communications URLLC KPI <1 ms latency for ultra-reliable low-latency communications 
Definicija i neformalni opis: VR (Virtual Reality) koncept Veštačka stvarnost je generičko okruženje koje preovladava čula posmatrača i omogućava novu interakciju u realnom vremenu.AR (Augmented Reality) koncept Naglašena stvarnost sadrži grafičke/multimedijalne objekte registrovane na video snimke stvarnog okruženja.MR (Mixed Reality) koncept Kombinovana stvarnost sadrži AR elemente koji su u interakciji sa objektima na snimcima realnog okruženja. Presence metrika Subjektivna mera prisustva u doživljaju veštačke stvarnosti. Immersiveness (immergere) metrika Subjektivna mera stapanja sa okruženjem u doživljaju veštačke stvarnosti. Haptic koncept Svaki oblik interakcije koja uključuje dodir/kontakt.LF (Light Field) koncept 4D Vektorska funkcija koja opisuje prostiranje svetlosti u svim pravcima za svaku tačku posmatranja u prostoru. PLENO (Plenoptic) tehnologija Matematičke jednačine koje definišu LF, i generalno svaki sistem za LF akviziciju. HOLO (Holography) tehnologija Holografija je metod laserske interferencije/difrakcije za LF akviziciju/rekonstrukciju talasnog fronta. PC (Point Cloud) tehnologija Oblak tačaka je metod LF akvizicije scene/objekata skupom tačaka (pozicija i pridruženi atributi) u 3D koordinatnom sistemu. Projection koncept Mapiranje 3D scene u 2D slike. Reconstruction koncept Estimiranje 3D scene na osnovu sekvence 2D projekcija.Parallax metrika Paralaksa je promena relativnih pozicija objekata kada se posmatraju sa različitih lokacija u prostoru. Disparity fiziologija Pomeraj je direktno proporcionalan rastojanju između dve lokacije a inverzno proporcionalan udaljenosti objekta.Accommodation fiziologija Sposobnost ljudskog čula vida da fokusira objekte na različitom rastojanju od lokacije posmatranja.Stereoscopy fiziologija Stapanje dve slike za svako oko pojedinačno i formiranje sistema paralakse prilagođene razmaku dve optičke ose (IPD).DOF (Depth of Field) metrika Rastojanje najbližeg i najudaljenijeg objekta u fokusu posmatranja 3D scene. ODV (Omnidirectional video)koncept Prikazuje se na uređajima kao podskup panorame, prozor je određen orijentacijom glave posmatrača ili orijentacijom uređaja.MVV (Multi-view video) rekonstrukcija Sistem rekonstrukcije 3D videa koji omogućava izbor ugla posmatranja u toku reprodukcije. MVD (Multi-view + depth video) rekonstrukcija 3D video slikama je dodata mapa dubine scene.FVV (Free-viewpoint video) rekonstrukcija Sistem rekonstrukcije 3D videa koji omogućava posmatranje scene sa proizvoljne lokacije i pravca.DoF (Degree of Freedom) metrika Mera stepena slobode kretanja čvrstog tela u 3D prostoru (maksimalno 6 stepeni slobode nezavisne translacije i rotacije). 3DoF (pitch,yaw,roll) tehnologija Orijentacija u 3D pomoću tri neograničene rotacije oko X,Y,Z ose. 3DoF+(heave,sway,surge) tehnologija Orijentacija u 3D pomoću tri neograničene rotacije oko X,Y,Z ose i dodatna ograničena translacija tela u sedećem položaju.6DoF (free walk) tehnologija Slobodno kretanje u 3D prostoru sa korektnom paralaksom u ograničenoj zapremini.360° video koncept Akvizicija u širokom prostornom vidnom ugla (sfera) pomoću sistema sočiva/kamera (rig) i integracija (stitching) slika.WS-PSNR (Weighted-to-Spherically-uniform) metrika objektivnog kvaliteta rekonstruisane slike u odnosu na referentnu sliku.
The following discussion could serve as an important role in orienting and framing dialogue on foundation models (FM) and this new paradigm in AI. That said, to ensure the responsible development and deployment of these models on durable foundations, we envision collaboration between different sectors, institutions, and disciplines from the onset to be especially critical.
Foundation models (FM):  The nature of human language and NLPLanguage is the basis of most human communication and interaction. However, it is not just a means for humans to achieve shared goals: language is central to human thought, to how social and emotional relations are formed, to how we identify ourselves socially and personally, and to how humans record knowledge and develop societal intelligence. Spoken or signed languages arise in every human society, and the languages of the world are both incredibly diverse in the ways that they express and structure the information they convey, while also exhibiting surprising concordance in the richness of what makes a language. There are over 6,000 languages in the world, with estimates varying due to the inherent uncertainty of what constitutes a separate language. Languages are remarkably complex yet efficient systems, acquired consistently by children in a short amount of time, and which evolve and encompass the changing needs and conditions of linguistic communities. Due to this centrality of language in human activities, language understanding and generation is a critical element of research in artificial intelligence. Natural language processing (NLP) is the subfield of artificial intelligence concerned with language and, together with the related fields of automatic speech recognition (ASR) and text-to-speech (TTS), has the goal of giving computers the ability to understand and generate human language in much the same way human beings can.To date in 2021, NLP has been the field most profoundly affected by foundation models. The first generation of foundation models showcased an impressive variety of linguistic abilities, as well as a surprising amount of adaptability to a large range of linguistic situations. Since the introduction of the early foundation models ELMo and BERT in 2018, the field of NLP has become largely centered around using and understanding foundation models. The field has shifted to using foundation models as the primary tool, moving towards more generalized language learning as a central approach and goal. Foundation models have changed the overall process and mentality for training machine learning models for language, however there are theoretical and practical challenges facing foundation models as they are applied to a broader set of languages and more realistic and complex linguistic situations.The field of NLP has historically focused on defining and engineering systems for challenging linguistic tasks, with the vision that models that are good at these tasks will lead to competent language systems for downstream applications. NLP tasks include classification tasks for a whole sentence or document (e.g., sentiment classification, like predicting whether a movie review is positive or negative), sequence labeling tasks, in which we classify each word or phrase in a sentence or document (e.g., predicting if each word is a verb or a noun, or which spans of wordsrefer to a person or an organization), span relation classification, (e.g., relation extraction or parsing, like whether a person and location are linked by a “current residence” relation, or a verb and a noun by a “subject-verb” relation) and generation tasks, producing new text that is conditioned strongly on an input (e.g., producing a translation or summary of a text, recognizing or producing speech, or responding in a conversation). In the past, NLP tasks had distinct research communities that developed task-specific architectures, often based on pipelines of different models, each performing a linguistic sub-task such as token segmentation, syntactic parsing, or coreference resolution.By contrast, the dominant modern approach for performing each task is to use a single foundation model and adapt it slightly using relatively small amounts of annotated data specific to each task (sentiment classification, named entity tagging, translation, summarization) to create an adapted model. This has proved to be an extremely successful approach: for the vast majority of the tasks described above, a foundation model that is slightly adapted for a task greatly outperforms previous models or pipelines of models that were built specifically to perform that one task.
Foundation models (FM):  VisionVision underlies one of the primary modes through which a living organism understands its environment. The ability to see enables the near-constant, long-range gathering of dense signals, a critical capability developed over an evolutionary time-scale in a diverse range of life forms. For a skill executed effortlessly by even simple living creatures, transferring the same abilities to machines has proved remarkably challenging, leading computer vision and robotics researcher Hans Moravec in 1988 to observe a paradox: in AI, (what were considered) hard problems are easy and likewise easy problems are hard, and among the “easiest” problems of them all is the visual acuity which we use each day to continually interpret complex scenes in a matter of milliseconds.The field of computer vision and the challenges we define draw inspiration in many ways from human perception capabilities. Several classical theories [Marr 1982] suggested that humans may perceive real world scenes by contextualizing parts as a larger whole, and pointed the way for computer vision techniques to progressively model the physical world with growing levels of abstractions. Gibson [1979] suggested that human vision is inherently embodied and interactive ecological environments may play a key role in its development. These ideas continue to motivate the ongoing development of computer vision systems, iterating towards a contextual, interactive, and embodied perception of the world.In the context of computer vision, foundation models translate raw perceptual information from diverse sources and sensors into visual knowledge that may be adapted to a multitude of downstream settings. To a large extent, this effort is a natural evolution of the key ideas that have emerged from the field over the last decade. The introduction of ImageNet [Deng et al. 2009] and the advent of supervised pretraining led to a deep learning paradigm shift in computer vision. This transition marked a new era, where we moved beyond the classic approaches and task-specific feature engineering of earlier days towards models that could be trained once over large amounts of data, and then adapted for a broad variety of tasks, such as image recognition, object detection, and image segmentation . This idea remains at the core of foundation models.The bridge to foundation models comes from the limitations of the previous paradigm. Traditional supervised techniques rely on expensive and carefully-collected labels and annotations, limiting their robustness, generalization and applicability; in contrast, recent advances in self-supervised learningsuggest an alternative route for the development of foundation models that could make use of large quantities of raw data to attain a contextual understanding of the visual world. Relative to the broader aims of the field, the current capabilities of vision foundation models are currently early-stage: we have observed improvements in traditional computer vision tasks (particularly with respect to generalization capability) and anticipate that the near-term progress will continue this trend. However, in the longer-term, the potential for foundation models to reduce dependence on explicit annotations may lead to progress on essential cognitive skills (e.g., commonsense reasoning) which have proven difficult in the current, fully-supervised paradigm. In turn, we discuss the potential implications of foundation models for downstream applications, and the central challenges and frontiers that must be addressed moving forward. At a high-level, computer vision is the core sub-field of artificial intelligence that explores ways to endow machines with the capacity to interpret and understand the visual world. It encompasses a multitude of tasks, sub-domains and downstream applications, where the community has made continual progress over the last several decades. A selection of example tasks16: (1) semantic understanding tasks, which aim to discover the properties and relations among entities within visual scenes; these include image classification, object detection, semantic segmentation, action recognition, and scene graph generation, among others. (2) geometric, motion and 3D tasks, seeking to represent the geometry, pose and structure of still or moving objects, and include tasks of depth estimation, structure-from-motion, surface normal detection, curvature line and keypoint estimation, to name a few. (3) multimodal integration tasks, combining semantic and geometric understanding with other modalities such as natural language; these include, for instance, visual question answering, image captioning, and instruction following.
Foundation models (FM):  RoboticsA longstanding challenge of robotics research is to endow robots with the ability to handle the myriad conditions they will encounter in real-world settings. In this section, we discuss how the ideas underlying foundation models can potentially help bring about “generalist” robots that can, for example, cook a new meal in a new house, with a new kitchen. To make progress towards this goal, existing foundation models will not suffice. We need new types of models trained on a multitude of data sources, spanning grounded robotic interaction data to videos of humans performing tasks, amongst others. We focus on how such foundation models can apply to the problem of a robot controlling its own physical embodiment to successfully perform different tasks. This is a high-dimensional and closed-loop decision-making problem: the actions that a robot takes directly influence what it perceives next, which in turn influences the next robot action. This closed-loop aspect is not traditionally studied in language and computer vision, where large offline datasets are dominant and foundation models have already seen success. We focus on how the demonstrated benefits of foundation models — large-scale, self-supervised learning — can be leveraged in this new closed-loop data regime. The promise of a new type of robotic foundation model is in its ability to amplify the potential of robots to improve key facets of daily life ranging from manufacturing [Nof 1999; Sanneman et al. 2020], construction, autonomous driving, to household aid and personal assistance. Our discussion in this section primarily focuses on mobile manipulation robots for household tasks, but we expect its essence to be broadly applicable to the other use-cases of robotics listed above.On the critical path towards building new types of foundation models for robotics is embracing opportunities in task specification and task learning, coupled with tackling challenges in data acquisition and safety and robustness. Consider the following robot learning paradigm: starting with a description of a task capturing what a user might like the robot to do (e.g., “make breakfast”)—learn a corresponding policy to generate the desired robot actions. While policies can be parameterized in different ways, a common choice is that of a function that maps the task representation and environment observation (e.g., a scene image from a fixed or egocentric camera, or inputs from alternative sensors like LIDAR) to robot actions. As the robot acts in a task-conditioned manner, the subsequent states are fed back to the policy, generating more actions until the task has been satisfied.Recent breakthroughs in applying foundation models for language and vision suggest several potential benefits of large-scale, self-supervised pretraining for improving generalization. The ability to tap into diverse streams of data to learn meaningful representational priors (akin to those learned by models such as BERT and GPT-3) holds promise for learning powerful robotic foundation models for task specification. Diverse robotic interaction data can be used for learning action-conditional dynamics models or policies indexing general and semantically meaningful skills thereby holding promise for task learning. Yet while these opportunities exist, the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments — we (as a field) still have not converged on the kinds of data that would be maximally useful for enabling generalist robotics (e.g., offline demonstrations, thirdperson recordings of humans, egocentric videos, autonomous experience, etc.) Coupled with issues in obtaining the right scale and diversity of data are questions of ensuring safety and robustness: how do we behave in a new environment without causing damage?Building new types of foundation models for robotics thus consists of a dichotomy of opportunities and challenges: opportunities for task specification and learning balanced against challenges of data collection and safe deployment. This section explores both by presenting a picture of how robotic foundation models might help us develop generalist robots, in a way that not only meaningfully addresses the challenges associated with building such systems, but that also embraces the potential of multi-modality — incorporating perception, actuation, and language — as well as human-robot interaction for specification and learning.Robotic foundation models could take a variety of forms: problems in robotics do not easily conform to a one-size-fits-all model, since different problems have different input-output signatures — a contrast to domains like NLP where many problems can be cast into a general “text-in, text-out” signature.
Foundation models (FM):  Reasoning and searchReasoning and search have been a central theme throughout the history of AI. Classic tests of intellect, from strategy games to abstract mathematical discovery, served as inspirational goal posts that pushed the limits of “machine intelligence” through a need to devise ever smarter ways of searching for winning solutions. In the early days, symbolic methods were the dominant approach for reasoning, but the involved engineering effort and the need to formalize heuristics to tackle intractable search spaces quickly proved cumbersome. More recently, data-driven methods using neural networks have shown encouraging results — e.g., defeating the best humans in Go, a board game with a much larger space of actions than the classic challenge of chess — by exploiting statistical structures and learning useful heuristics. This section outlines existing reasoning tasks, ones that require scaling to ever-larger search spaces and understanding the world broadly. We then argue that reasoningrole that foundation models should play a central role towards general reasoning as vehicles for capturing the statistical regularities of unbounded search spaces (generativity), allowing positive transfer across tasks and scenarios (universality), and exploiting the grounding of knowledge in multi-modal environments (grounding).Multimodality can allow foundation models to not only reason with formal symbolic language, but also exploit visual aspects of the problem, such as equivalence, symmetry, and Euclidean geometry, to prune the infinite search space and find promising constructions for a solution, mimicking the way humans reason.Recently, there has been a surge of interest in applying learning-based approaches to tackle reasoning problems. To overcome the unbounded search space challenge, researchers first started with a constrained search space to make the problem tractable. But such approaches suffered from the limited kinds of actions the solver could issue. For example, the solver could only apply theorems from a known database to prove the target theorem, instead of synthesizing novel theorems and lemmas. Because large language models offered a generic way of modeling the output space as a sequence, they quickly became a more favorable choice, allowing the generation of arbitrary kinds of actions. Researchers have applied these language model-based approaches to various applications, such as predicting protein structures, proving formal theorems, conjecturing theorems synthesizing programs from natural language, repairing, generating and understanding code. It has also been shown that scaling model size significantly improves reasoning capabilities, and furthermore standard techniques from language modelling, such as pretraining, can also greatly improve performance on these tasks. 
Foundation models (FM):  InteractionThe early forms of foundation models such as GPT-3 and DALL·E have demonstrated a high level of versatility both in terms of their ability to let even non-ML experts to prototype powerful AI-infused applications, and their ability to seamlessly integrate modalities ranging from texts to images. As the development of foundation models matures, themodels’ capacity will continue to expand and their versatility may ultimately lead to fundamental changes in how we interact with AI by allowing us to rapidly prototype and build highly dynamic and generative AI-infused applications. In this section, we discuss the opportunities that these changes present from the perspectives of two important stakeholders: (1) applications developers who will interact with foundation models to design user experience, and (2) end-users who will use or be affected by the AI-infused applications powered by foundation models. Finally, we consider scenarios in which the line that rigidly separates developers and end-users today may start to blur, affording new opportunities for creating AI-infused applications that more closely satisfy users’ needs and values.Unfortunately, the same generalizability and high ceiling that give foundation models their edge can also make these models difficult to work with, as they may be even more unpredictable and complex than single-purpose AI models. Indeed, recent work has shown that it can be difficult to make models like GPT-3 consistently perform the intended task, while understanding what it is capable of is still an active area of research. In an effort to improve the reliability and trustworthiness of AI-infused applications, we recommend that future work should continue to investigate how to achieve more predictable and robust behaviors from foundation models (e.g., through fine-tuning, or in cases where the main mode of interaction is natural language prompt, through prompt-engineering, calibrating, or pre-formatting a task-specific endpoint.
Foundation models (FM): Philosophy of understandingThere is not a precise technical definition of foundation model. Rather, this is an informal label for a large family of models, and this family of models is likely to grow and change over time in response to new research. This poses challenges to reasoning about their fundamental properties. However, there is arguably one defining characteristic shared by all foundation models: they are self-supervised. In self-supervision, the model’s sole objective is to learn abstract co-occurrence patterns in the sequences of symbols it was trained on. This task enables many of these models to generate plausible strings of symbols as well. There is no obvious sense in which this kind of self-supervision tells the model anything about what the symbols mean. The only information it is given directly is information about which words tend to co-occur with which other wordsA foundation model might be trained on a wide range of different symbols: not just language but also computer code, database files, images, audio, and sensor readings. As long as it is just learning co-occurrence patterns of the sequences it is exposed to, then it counts as a foundation model by our definition. As part of this learning, the model might come to represent strong associations between a given piece of text and a particular sensor reading, or between a sequence of pixel values and a database entry. These associations might reflect important aspects of the world we inhabit and the language we use to talk about it. Our central question is whether a foundation model could come to understand a natural language. With the above, we can now sharpen it: is self-supervision sufficient for understanding, keeping in mind that there are no constraints on the data used for this supervision? In order to address this question, we first need to define what we mean by understandingAs a start, we find it helpful to make explicit a distinction that is sometimes conflated in discussions of the topic. The distinction is between the metaphysics and the epistemology of understanding. Metaphysics concerns what it would mean (“in principle”) for an agent to achieve understanding. Epistemology, by contrast, concerns how (“in practice”) we could ever come to know that an agent has achieved the relevant type of understanding. In short, metaphysics is more about our ultimate target, whereas epistemology is more about how (if at all) we could know when we have reached it. Our epistemology thus depends to some extent on our metaphysics. 
Foundation models (FM): ApplicationsThe capabilities (of foundation models indicate that they have the potential to transform various sectors and industries, extending the role AI plays in society. Among the myriad applications where foundation models may be applied, we will focus on three disciplines — healthcare, law, and education — that are all foundational to societal function. Within each, we discuss the opportunities that foundation models pose for this domain alongside challenges and concerns. 
Foundation models (FM): TechnologyThe technological foundations of foundation models give rise to the capabilitiesthat determine their potential. To understand the technology used in development, we consider  the data, model architectures and systems used to train, and further adapt, these models alongside the theory that should be developed to understand this paradigm. To then understand the resulting models, we discuss how to evaluate and interpret alongside the importance of robustness, security and privacy, and long-term AI safety for ensuring the reliability of these models when deployed in society .
Foundation models (FM): TheoryRigorous mathematical theory plays a foundational role in many engineering and science disciplines (e.g., information theory in electrical engineering). We believe that theory of foundation models can be particularly beneficial in guiding technical decisions and innovations because of the huge computational costs associated with experimenting on foundation models. In addition, theoretical insights help elucidate fundamental limitations and explain surprising empirical phenomena. However, the community currently has a limited theoretical understanding of foundation models, despite much recent progress. Deep neural networks form the backbone of foundation models. Even in the well-studied supervised learning setting, where the train and test scenarios have the same distribution, there are numerous open questions around deep nets such as understanding non-convex optimization, the implicit regularization effect of optimizers, and expressivity. Foundation models raise questions that significantly go beyond the supervised deep learning setting. The core problem in theoretically analyzing foundation models is understanding why training on one distribution with a possibly unsupervised/self-supervised loss leads to good adaptation performance on different downstream distributions and tasks. 
Foundation models (FM): Key propertiesThe five key properties of a foundation model: expressivity — to flexibly capture and represent rich information; scalability — to efficiently consume large quantities of data; multimodality — to connect together various modalities and domains; memory capacity — to store the vast amount of accumulated knowledge; and compositionality — to generalize to new contexts, tasks and environments. 
  • During adaptation, a foundation model is converted into an adapted model (bottom row) in order to reflect updated information, desired behaviors, or deployment constraints.
  • Evaluation gives context to machine learning models: it serves as a means for (1) tracking progress — how do we we measure the performance of models and how do we design improved models; (2) understanding — what behaviors do models exhibit and how do they perform on different slices of data; and (3) documentation — how do we efficiently summarize model behavior and communicate this to diverse stakeholders.
  • Foundation models signal a paradigm shift where increasingly massive quantities of data are being “fed” to these models for improved adaptation performance with the overarching rule-of-thumb being "the more data the better" As previous sections have mentioned, this focus on data curation has raised concerns around the foundation model data lifecycle including (1) managing the data at such a large scale, (2) integrating data across new modalities, (3) reasoning over licensing and governance regulations — especially when considering the massing web-crawls used in foundation models training, and (4) understanding the data quality.
  • As central components in critical data-driven decision-making systems, machine learning models must address a variety of security and privacy threats. These threats can be characterized using the traditional CIA triad of computer security. ML systems should protect the Confidentiality of user data against inference and reconstruction attacks. Moreover, the secrecy of trained models themselves can be at risk of model stealing attacks. The Integrity of ML systems can be compromised by adversarial examplesand data poisoning attacks. Finally, resource-depletion attacks can threaten the Availability of ML systems.

Foundation models (FM): Societal impactThe societal impact of foundation models, referring both to the construction of the models themselves and their role in developing applications, requires careful examination. Specifically, we anticipate that foundation models will have wide-ranging societal consequences that are challenging to understand: foundation models are intermediary assets that are not directly deployed, but rather serve as a foundation that is further adapted. As a result, traditional approaches to reasoning about the societal impact of technology are likely complicated; societal impact is easier (but still difficult) to grasp for systems with well-specified purposes. In this chapter, we discuss how we may grapple with and beginning to understand the complexity of the societal impact of models foundation models. Specifically, we discuss (i) the harms with respect to inequity (fairness) and misuse, (ii) the impact with respect to the economy and environment, and (iii) the broader considerations with respect to the law (legality) and ethics
  • The intrinsic bias present within foundation models is the byproduct of various training bias sources (left) which, alongside biases introduced during adaptation, determines the extrinsic harms (right) experienced by users in the context of specific downstream applications. We emphasize that the same foundation model is the shared foundation for many different applications; its biases propagate to these many applications as a result. Further, since the harms experienced by users are the result of specific adapted models, attributing these harms to the various processes and sources depicted in this diagram is both crucial and challenging.
  • In this section,we consider misuse of foundation models—situations where people use foundation models as they are intended to be used (e.g., to generate language), but where their capabilities are intentionally leveraged to cause harm to populations or individuals. This definition positions misuse concerns between those of inequity (where models can cause harm without bad intentions; and security (where bad actors exploit unintentional abilities or vulnerabilities in models to cause harm.
  • In this section, we describe how US law may influence, constrain, or foster the creation and use of foundation models.We note that the legal landscape surrounding algorithmic tools remains uncertain. We highlight issues pertaining to (1) model training, (2) liability for model predictions, and (3) protections for model outputs. Though understanding how the law affects foundation models is crucial, it is important to recognize that the law cannot be the only lens through which we evaluate the construction, maintenance, and use of foundation models. Ethical frameworks are necessary to understand where legally permissible applications of foundation models may still be ill-advised for the harms they inflict and are discussed in more depth in ethics and fairness. Studying the potential for misuse and possible security concerns is critical for preventing harmful outcomes ex ante, as opposed to the ex post treatment that legal mechanisms often provide.
  • Foundation models have the potential to substantially improve overall living standards by increasing productivity and innovation. These models can be deployed to substitute for human labor, augment humans, or help in the discovery of new tasks and opportunities, which can lead to increased concentration of ownership and power, or more decentralization. On a broader level, the result can be either increased inequality due to potential centralization, or more broadly shared prosperity due to the easier adaptation of foundation models for a wide range of applications. The ultimate outcomes on all these dimensions are not dictated solely by technology or economics, but by the choices and actions of technologists, policymakers, managers, workers, and other members of society.