NORMAS

Declare o Idioma

Códigos de Linguagem

O atributo <lang=> pode ser usado para declarar a língua de uma página Web ou uma parte de uma página Web. Este se destina

a ajudar as aranhas da Engenharia de Busca, formatação da página e tecnologia do leitor de tela.

NOTA: Você também deve declarar a codificação , além da linguagem. A linguagem e seu roteiro são independentes.

Página

1. Porquê Linguagem de Tags?

2. Template HTML

3. Linguagem de comutação

4. Alguns códigos de linguagem comum

5. Códigos de linguagem Linguísticas ou de Arquivos

6. Especificando Dialetos e Variedades da Língua

7. Links para Tabelas de códigos

Porquê Linguagem de Tags?

No mundo de arquivamento online, existem duas razões principais para associar documentos com linguagens específicas -. Facilitar a tecnologia global e facilitar a busca de metadados em arquivos. Embora os dois motivos são válidos, eles não são de forma idêntica. Em algumas situações, um objetivo pode ser mais importante do que outro.

Facilitar a Tecnologia Global

Como você seleciona o verificador ortográfico direito de usar (Francês vs Inglês), a fonte direita (árabe vs Urdu), a maneira correta de pronunciar c'est la vie (França "Diga la vee" versus Inglês "Sest la v-olho "ou o conjunto certo de" aspas "(Inglês) vs« Citação marcas »(espanhol)?

Você codifica os documentos com uma linguagem e programas utilitários que se comportam de maneira diferente dependendo do idioma-alvo identificado. Isso permite que o mesmo produto (Microsoft Word, por exemplo) possa ser usado, mas para incluir plugin ortográficos para diferentes idiomas.

A ressalva é que somente as línguas escritas são geralmente direcionadas para esses tipos de utilitários. Por exemplo, a Microsoft tem utilitários para padrão Inglês americano e Inglês britânico, mas não para falar as variedades do Inglês no Brooklyn. Embora o corretor ortográfico "Brooklyn" e o sintetizador de voz "Brooklyn" pode ser programados, muitos falantes nativos do Brooklyn, provavelmente vão encontrá-los condescendentes e não usá-los.

Facilitar a busca de metadados nos Arquivos

Além de verificadores ortográficos e sintetizadores de voz, os investigadores em dialetos específicos ou formas históricas precisam de uma maneira para marcar o seu material em categorias muito estreitas que seria irrelevante para a maioria dos fornecedores de software.

A advertência aqui é que uma marca pode ser registrada, mas apenas suportado por uma gama muito estreita de aplicações especializadas. Um exemplo disso seria a necessidade de um banco de dados Celta distinguir gaulês (XCG) vs Celtaiberiano (xce) -. Duas distintas línguas celtas antigas. Por outro lado, é improvável que qualquer sintetizador de voz vai pronunciar as palavras destes idiomas corretamente.

Ao decidir como codificar documentos, pode ser importante considerar se você está codificando para uso geral ou para um propósito de pesquisa restrita.

Template HTML

A recomendação oficial do W3C é declarar o idioma principal para cada página da Web com uma <... lang => atributo na tag <html>. Códigos são ISO-639 códigos.

Por exemplo:

Modelo

<html lang=" ?? ">

...

</ Html>

Inglês (EUA)

<html lang=" en-US ">

...

</ Html>

Inglês (UK / Grã-Bretanha)

<html lang=" en-GB ">

...

</ Html>

Espanhol

<html lang=" es ">

...

</ Html>

XHTML

Em XHTML, a linguagem é declarado na HEAD da seguinte forma:

<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">

NOTA: Se você estiver escrevendo em um idioma da direita para a esquerda, como árabe ou hebraico, você deve adicionar o atributo dir = "rtl". Veja a opções de alinhamento à direita para obter mais detalhes.

Linguagem de comutação

Se você alternar línguas dentro de uma página, você pode incorporar o atributo <lang=> em outras tags, como um <p>, <h1>, <span> e outras tags. Por exemplo

Texto de teste de Línguas Estrangeiras

This sentence is in English.

This sentence will be read with a British accent

Esta frase es en español. (Spanish)

Cette phrase est en français. (French)

Mae'r frawddeg hon yn cymraeg. (Welsh)

Código

<p>This sentence is in English.</p>

<p lang="en-GB">This sentence will be read with a British accent</p>

<p lang="es">Esta frase es en espa&ntilde;ol.</p> (Spanish)</p>

<p lang="fr">Cette phrase est en fran&ccedil;ais</p> (French)

<p lang="cy">Mae'r frawddeg hon yn Cymraeg.</p> (Welsh)</p>

Alguns códigos de linguagem comum

Códigos de idioma são principalmente retirados da lista de códigos ISO-639 línguas. Alguns códigos comuns, incluindo todas as línguas ensinadas na Universidade Penn State estão listados abaixo. Para a maior parte, eles são baseados no nome nativo (ie Español (es) para o espanhol).

Esta lista de códigos de linguagem foi recentemente ampliada para um conjunto de três letras (por exemplo, "eng" para Inglês), a partir de um antigo conjunto de duas letras. Portanto, algumas línguas (línguas particularmente antigas) pode ter um código de três letras listadas.

A Página de Linguagens do site oficial de códigos ISO 639 lista os códigos para cada idioma, mas os códigos comuns estão listados abaixo.

Idiomas comumente ensinados

Línguas Europeias

en: Inglês

es: Espanhol

fr: Francês

it: italiano

pt: Português

de: alemão

ru: Russo

Línguas não europeias

ar: Árabe

zh: Chinês (Mandarim)

he: Hebraico

ja: Japonês

ko: Coreano

sw: suaíli

Línguas antigas

grc: Grego antigo (vs el: grego moderno)

la: Latin

he: Hebraico

ang: Inglês Antigo (Anglo-saxão)

enm: Inglês Médio

Outros Códigos

Estes são códigos onde o nome da língua diverge significativamente do Inglês.

sq: Albanês

hy: Armênio

eu: Basco

nl: Holandês

ka: Georgiano

gd: Gaélico Escocês

ga: irlandês moderno

fa: Persa (Farsi)

bo: Tibetano

cy: Galês

Nota sobre Suporte do leitor de tela: Apenas as versões mais recentes do JAWS e Início de apoio do Leitor de Tela suportam a tag LANG para Francês, Espanhol, Português, Alemão e finlandês. Para suporte a outros idiomas, é recomendável que os usuários instalem plug-ins ou software leitor de tela projetada para outra língua.

Códigos de Linguagem Linguística ou de Arquivos

Se o código que você precisa não está listado na página de idioma ISO-639 , em seguida, referem-se ao maior SIL ISO-639-3 da lista. Esta lista foi lançado em 2007 e inclui muitas línguas mais do que listas anteriores.

Para algumas situações que (por exemplo, China, diferentes "variedades" do alemão), você pode precisar usar códigos mais antigos, se você precisa deles para ser reconhecido por mais pacotes de software.

Especificando Dialetos e Variedades das Línguas

Códigos de linguagem pode ser seguido por um código de série opcional, mas note que nem todos os códigos são reconhecidos por todos os fornecedores e que a linha entre a "linguagem" e "dialeto" pode ser muito confuso em algumas situações.

Por País

Até recentemente, a única maneira de a maioria dos fornecedores (por exemplo, Microsoft ou Apple) foi distinguido línguas anexando um código de país ISO-3166 código depois dele. Embora alguns "códigos de país" pode ser linguisticamente imprecisas, podem ser os mais padronizados.

en-US: Inglês Americano

en-GB: Inglês Britânico

es-ES: Espanhol castelhano (Espanha)

es-MX: espanhol mexicano (Permanente para Espanhóis Latino-Americanos)

Veja também es-419 para Espanhol da América Latina.

fr-FR: francês parisiense (França)

fr-CA: Francês do Canadá

pt-BR: Brazillian Português (standard)

de-DE: Padrão alemão

de-CH: o suíço-alemão

zh-CN: chinês mandarim (China) (ver também zh-Hans para chinês simplificado)

zh-TW: Mandarim Chinês (Taiwan) (ver também zh-Hant para chinês tradicional)

zh-HK: Cantonês (Hong Kong)

RFC Sintaxe Tag 4646

Recentemente, tem havido uma tentativa de codificar tipos de outras variedades regionais como parte do projeto RFC 4646, mas ainda é um trabalho em andamento. Abaixo estão algumas diretrizes para a formação de diferentes tipos de variedades, mas note que nem todos podem ser registrados.

Verifique Primeiro registro: Antes de usar qualquer subtag, confirmar que ele foi registrado primeiro no Registro de Subtags de Linguagem IANA. Caso contrário, assumir que é uma tag que você pode estar usando.

Por Script

Se uma língua pode ser escrito em mais de um script, então você pode precisar especificar qual o script está em uso, algumas das quais são implementadas em sistemas de software modernos, como o Windows Vista. Exemplos comuns (todos os quais são registrados) incluem:

az-árabe - do Azerbaijão, a caligrafia árabe

az-Cyrl - do Azerbaijão, cirílico roteiro

az-Latn - do Azerbaijão, a grafia latina

bs-Cyrl - Script Bósnio Cirílico

bs-Latn - Script Bósnio Latino

zh-Hans - Escrita simplificada chinesa

zh-Hant - Escrita tradicional chinesa

Muitas línguas escritas com vários scripts têm IANA variante registrados, mas nem todos eles fazem. Se a sua variante linguagem script não existe, então o seguinte script de subtags pode ser usado .

Por região do mundo numérico

Se uma variedade regional é maior do que um país, então é recomendado que os códigos de região a partir da Lista de Macrorregiões Numéricas da ONU seja usado. O exemplo mais proeminente é provável:

es-419: Pan espanhol da América Latina (Registered)

Outro exemplo teórico poderia ser en-021 (americanos e canadenses em Inglês), embora esta variante não está registrado.

Códigos não registrados

Se você precisa de um código não registrado na IANA, você pode criar novos códigos seguindo diretrizes sugeridas, mas você pode precisar adicionar um x-prefix para indicar que não é registrado.

A propósito, qualquer pessoa pode solicitar um código de nova variante, mas o processo é demorado.

Dialetos dentro de um País

O RFC 4646 permite que códigos sejam combinados. Então, se você precisa especificar o dialeto Baltimore do Inglês, você pode criar um código como

en-US-Baltimore (teórico)

Por favor, note que não há variedades regionais dos Estados Unidos são registrados com o IANA (e apenas três da Grã-Bretanha).

Assim você pode usar o código de x-en-US-Baltimore para indicar que não está registrado ou apenas en-US-Baltimore dependendo de suas necessidades. É muito provável maioria dos pacotes de software interpretaria a string como apenas en-US.

Por Época

O RFC 4646 não especifica como indicar o tempo dentro de uma linguagem particular, mas alguns códigos registrados indicam datas para quando as mudanças de ortografia em um idioma foram promulgadas. Alguns exemplos incluem:

de-1901 - ortografia, tradicional alemã

de-1996 - alemão, pós-reforma ortográfica 1996

Links

ISO-639 Códigos de Linguagem com duas letras

Use esses códigos se disponível para o seu idioma

Guia de Matemática (2 letras apenas)

UC Davis (2 letras apenas)

ISO-639-3 Códigos para lingüistas e Arquivistas

Use esses códigos se você não consegue encontrar um código apropriado para o seu idioma na lista acima, então use estas.

SIL Registro ISO-639-3

Fonte: PSU EDU

Próxima Página