2006年10月21日

このブログについて

日本のメディアは中華様の悪口を一切書かない


一方そのころ、英語版Yahoo! News - Chinaでは人権問題、環境問題に関する記事が連日報道されている。

果科と書いて「はてしな」と読みます。hateshinaと綴ります。アメリカ英語風の発音ではヘイトシナになるんでしょうか。たぶん。

このブログではYahoo! News - ChinaのRSS配信をGoogle Translateで機械翻訳しています。かなり読みづらいですが、大意を拾っていくことはできると思います。ブログの中の人は生の英語で読んでいるようですので、気になる記事は人間翻訳することもあるかもしれません。気が向けば。

というか。もっと詳しく知りたいというコメントいただければ、鋭意翻訳させていただきます。(`・ω・´)

機械翻訳にはRubyのスクリプトを手動で動かしています。初めてのRubyで雑なコードですが、この記事の一番下に公開しておきます。恥ずかしいなぁ。

大まかな動作としては
  • このブログのRSSを拾ってくる。
  • Yahoo! News - ChinaのRSSを拾ってくる。
  • タイトルを比較して未投稿の記事を探す。
  • 記事を整形して2本以下ならそのままSeesaa宛てにメールする。
  • 2本以上なら標準出力に印字。

本当は完全自動のcronで動かしたいところですが、Seesaaはメール更新を1日10通に制限しているらしく、またメール本文のサイズが2Kbyte程度になるとRubyのメールメソッドsmtp.send_mailがTimeoutErrorで落ちるので、半手動です。どのみち、メールを投げた後に手動でサイトの構築ボタンを押さないと反映されないし。もうぐだぐだです。

RSSの取得YahooNewsRssクラスやGoogle Translateの翻訳結果取得GoogleTranslateクラスは汎用に使えます。他のYahoo! NewsやBBCのRSSも翻訳かけられます。ただし、Google TranslateはHTML解析してますので、あちらの仕様が変わったらアウトです。

Testほにゃららというクラスが散見されますが、デバッグ用だったり、Yahoo! NewsのHTML解析をして記事を取り出したりするデバッグ用だったり、動いたり動かなかったり。軽くスルーしておいてください。

というわけで。最後にRubyスクリプトを置いておきます。

このブログを作成しているRubyのスクリプト #=> hateshina.zip
posted by 果科 at 09:27| Comment(1) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
お忙しいのにすごいです。
頑張って下さい!!
Posted by くーち at 2006年10月22日 07:13
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。