고감자님 블로그에서 알게된
Detecting Spam Blogs: A Machine Learning Approach 논문
기계학습적 방법은 오래전부터 아직 멀었다고, 실용적인 것에 적용하긴 무리라고 생각하지만, 이 논문의 좋은 점은 개인적으로 블로그 검색이라는 것에 블로그의 특성, 블로그 검색의 특성을 아주 잘 파악하고 있다는 생각이 든다.
역시... 범용적인 스팸모듈도 중요하지만 글의 특성을 간과할 수 없는 것.
그리고 자신감을 좀 더 얻은 건 작년에 작업해서 5월에 적용된 블로그 검색 랭킹이 블로그 글의 특성에 적합했다는 것;) (키워드는 어제 오늘 구독중인 블로그들 특히 외국 IT나 검색 관련된 내용의 태반을 차지하고 있는 "wikia")
마음에 남는 부분은 논문 중 특히 이부분.
Detecting Spam Blogs: A Machine Learning Approach 논문
기계학습적 방법은 오래전부터 아직 멀었다고, 실용적인 것에 적용하긴 무리라고 생각하지만, 이 논문의 좋은 점은 개인적으로 블로그 검색이라는 것에 블로그의 특성, 블로그 검색의 특성을 아주 잘 파악하고 있다는 생각이 든다.
역시... 범용적인 스팸모듈도 중요하지만 글의 특성을 간과할 수 없는 것.
그리고 자신감을 좀 더 얻은 건 작년에 작업해서 5월에 적용된 블로그 검색 랭킹이 블로그 글의 특성에 적합했다는 것;) (키워드는 어제 오늘 구독중인 블로그들 특히 외국 IT나 검색 관련된 내용의 태반을 차지하고 있는 "wikia")
마음에 남는 부분은 논문 중 특히 이부분.
Blog search engines rank results primarily by recency, rather than using popular social ranking techniques (Page et al. 1998). This is less of a technology related choice, and driven more by an audience that demands tracking “buzz” rather than authority.