適当に思った事メモ。知識が足らない。こういうのは情報理論とかなのか?
どういう風にエンコードされているかも大切な情報とみなせるのでは。 これを捨てるのは勿体ない。
例えば、手元に届くメールのうち、Subject が Q エンコードされているもの の大半は spam だが、B エンコードならそうでもないかも知れない。
これに関しては、本文の事を考えて見れば良いかも。本文がエンコード されていた場合、Transfer-Encoding に書いてあるから、 本文とそれが何でエンコードされているかの両方が判断基準に使われる。
ならば Subject もデコードする際に (Qencoded)
とかをくっつけてしまえば良いのでは。
ただし、これが本当に判断に使われる程のキーワードになるかどうかは、 また別問題だ。単に情報は洩れなく使おうと言う話。
手元に Content-Type: ヘッダーが無ければ大抵(携帯電話向けの) spam だ。 こういう「〜が無ければ」と言う情報を判断基準に入れる事は出来るか。 デコードといっしょに RFC2822 として不正かどうかをチェックして、 その情報を突っ込むとか?
ただ、これはあまり良くないかも。思い込みかもしれないし、 何より、大抵これらのメールは、容易に sapm だと見分けられる単語を 既に含んでいる様にも思う。