htmlは、グーグルのために書いている。

先日、偶然ある地方公共団体の、ホームページ作成ガイドライン（HP作成事業者対象）というのを見つけた。

気のせいかもしれないけれど、WEB標準という言葉を急激に見なくなっている気がする。

複数のブラウザでチェックしなさい。とか、htmllintで検査しなさい。とか、JISを尊重しなさいとか、

曖昧で、立派で、決め手のない文書だなと思う。

そのような文書が、公開されているのだから、そのようにコンテンツが作ってあるのかと思えば、必ずしもそうではない。

どうして、そうなのだろうか？

意識や、知識のレベルと、現実のギャップがすごいのはなぜだろう。

<h1>を使うのも、<div class="header1">を使うのも、何が違うの？

htmlに詳しいという人に聞いても、意外と、納得の出来る回答がもらえない。

htmlは理想としていく部分と、現実的な妥協の部分が混ざっていて、悪いことにそれが透けて見えている印象をぬぐえない。
ルールがあれば、伴う結果があるのに、htmlはそうじゃない。別にどうかいたって、おんなじに見えるし、h1とh2を同じスタイルにしてしまえば、一緒じゃないの。と、私自身思っていた時期が長い。

つまり、「理屈をこねてる」印象がある。

説明するなら、

結局、検索エンジンなどが巡回してきたときに、キーワードの重み付けに利用するためにエレメントが存在するんだ。ぐらいの説明のほうが、理解しやすい。

今のwebは、検索エンジン抜きには語れない。どんなwebドキュメントも、単体では存在できず。
インデックスされて、パブリックに存在することが出来る。インデックスするためのプログラムが、そのドキュメントを評価するときにエレメントを見たり、被リンクを見たりして、インデックスを決める

htmlは、自分自身だけではwebに存在できない。ということを、認めると、自分たちがどうhtmlを記述しなければならないか、ということが見えてくるんだと思う。

こう考えられると、なぜ、<h1>が必要で<div class="header1">がだめなのかを、理解できる。

一方で、アクセシブルなどということから、話が遠く離れていく。

アクセスキーなどの属性は、マウス以外での、操作を実現してくれるけれど、正確な記述を行って、アクセシビリティを向上させたり、ユーザエージェント間の相互運用性を向上させるといった言い回しをするほどになると誤解が大きくなるんじゃないかと思う。

私自身、ユーザエージェント間の相互運用性が向上すると、どのブラウザでも同じように見ることが出来ると誤解した。

「htmlは、グーグルのために書いている。」あると思います。

googleがhtmlドキュメントを評価するためにどんな手法を使っているか、知る術はありませんが、
namazu全文検索エンジンの重み付けは、こんな風になっているそうです。

Namazu tips

標準では次の規則に従って重みづけを行います。
この値は経験的に求めたものです。理論的な根拠はありません。

 <title> 16
 <h1> 8
 <h2> 7
 <h3> 6
 <h4> 5
 <h5> 4
 <h6> 3
 <a> 4
 <strong>, <em>, <code>, <kbd>, <samp>, <cite>, <var> 2

また、 <meta name="keywords" content="foo bar"> 
の foo bar に対しては 32 のスコアがつきます。

外部からのリンクがなかったり、検索エンジンに登録をしないwebページは、本当に、そのまま誰もアクセスしないのだろうか？

ファイル名が、8文字だったら、使用文字数40通りとして、6兆通りを超える組み合わせが出来るらしい。
ブログなんかのように、規則性のある名称ならすぐわかるだろうが、そうでなければ、簡単に見つけることなど出来ない。

ただ、htmlは、ひとつのディレクトリに、何枚も置くので、「総当りで」調べれば、何かは、比較的簡単に見つかるかもしれませんが、全部見つけた。というところには、とどかないだろうとは想像がつく。

それなのに、「いつの間にか、他人に見られていた。」という言葉を聴くと、「ネットは、そういうところだから危ないよね。」などと反射的に思ってしまったりする。

そのドキュメントにはてなダイヤリへのリンクを書いて、それを、クリックしてそのダイアリを見ていたら、わかってしまう。リンク元を公開していれば、グーグルにすぐに見つかる

もともと、そこに何があるか見つけにくいものなんだけれども、「秘密」なものではなく、ハイパーリンクで芋づる式

秘密であることと、見えないことは違う。

自分のブログたくさんの人に見てほしいんだけど、誰も見てくれない

誰にも見てほしくなかったのに、見つかった。が混在する不思議な世界になっている。

全貌の見えない世界の中で、トリュフを探し続けるのがグーグル豚とすれば、そのトリュフのにおいがどんなものかを豚に教えるのが、w3cということになる。トリュフを探しに出かける丘が、マイクロソフト2丁目だったり、Linux3丁目だったりして、縄張りが今まではあったが、いわゆるショッピングモールみたいに、どっちの畑で探してもいいよ的になってきている。そのキャッチフレーズをウェブ標準という。

共同事務センターでは、xhtml2と、html5が、勝手にやっている。

余計なことだが、
xhtml2では、
<h2 href="hoge.hog">midasi</h2>

と書けるらしいが、
賛成。

かすかに見えるAdobe村。

空は、限りなく低く、厚い雲に覆われている。

ハァ、どうもでした。