トップ «前の日記(2003-04-14) 最新 次の日記(2003-04-16)» 編集

TPRG: 迷走メモ書き

[Donate to CCjp]
2000|12|
2001|01|02|03|04|05|06|07|08|09|10|11|12|
2002|01|02|03|04|05|06|07|08|09|10|11|12|
2003|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|07|08|11|12|
2009|01|02|
2010|04|06|09|

2003-04-15

_ [comp] ベイジアンフィルタ雑感

適当に思った事メモ。知識が足らない。こういうのは情報理論とかなのか?

日本語のデコードに関して

どういう風にエンコードされているかも大切な情報とみなせるのでは。 これを捨てるのは勿体ない。

例えば、手元に届くメールのうち、Subject が Q エンコードされているもの の大半は spam だが、B エンコードならそうでもないかも知れない。

これに関しては、本文の事を考えて見れば良いかも。本文がエンコード されていた場合、Transfer-Encoding に書いてあるから、 本文とそれが何でエンコードされているかの両方が判断基準に使われる。

ならば Subject もデコードする際に (Qencoded) とかをくっつけてしまえば良いのでは。

ただし、これが本当に判断に使われる程のキーワードになるかどうかは、 また別問題だ。単に情報は洩れなく使おうと言う話。

何かが欠落している、という情報

手元に Content-Type: ヘッダーが無ければ大抵(携帯電話向けの) spam だ。 こういう「〜が無ければ」と言う情報を判断基準に入れる事は出来るか。 デコードといっしょに RFC2822 として不正かどうかをチェックして、 その情報を突っ込むとか?

ただ、これはあまり良くないかも。思い込みかもしれないし、 何より、大抵これらのメールは、容易に sapm だと見分けられる単語を 既に含んでいる様にも思う。

お名前:
E-mail:
コメント:
[]


Tatsuki Sugiura <sugi@nemui.org>