HCIR 에서 화제가 되고 있는 faceted search interface에 대한 가이드 논문 소개
Mapping the design space of faceted search interfaces by B Kules
아래 표 2개가 논문 내용 전체를 잘 요약하고 있음.
여기에서 평가된 검색 품질은 알고리즘 개선에 활용되긴 하지만 직접적으로 영향 미치지 않음.
검색품질이 좋다는 것은 결국 "사람"이 아는 것이므로.
아마도 머신러닝 데이터로 활용할 듯.
알고리즘 팀이 하는 건.. 중요한 팩터는 뽑아야 할거고, 머신러닝을 통해 개선하지 않을까.
no longer solely and automatically determined by the company’s vaunted algorithms. Now they simply “relied heavily” on them
So Google’s objective evaluation and ranking of Web sites is to some extent defined by subjective reasoning of a collective human intelligence
Things like “tell us how good you think this result is for this query.” And then out of the data, we produce a set of aggregate metrics that we look at and that we can track over time.
But ultimately, the real quality control is done by the folks who are working on ranking and search UI.
The evaluation program really just gives our engineers an aggregate measure of how good their algorithms are so they can improve them.
we are sometimes willing to take manual action on those sorts of policy violations. But Google’s philosophy is that wherever you can use machines and algorithms
인상적인 건, 언젠가 사람이 개입하지 않을 날이 올까? 에 대한 Matt cutt의 답변
our intent is always to try to make sure that we handle things efficiently with machines and algorithms. But I don’t know that we will ever get there completely.
검색 퀄러티를 평가함에 있어
사용자 클릭 정보 보다
대신 전문 rater들의 평가에 의존한다는 얘기
They employ armies of "raters" who rate search results for randomly selected "panels" of queries using different ranking algorithms. These manual ratings form the gold-standard against which ranking algorithms are measured -- and eventually released into service.
재미있는 건, 야후가 구글 검색 로그를 벤치 마킹해서 랭킹이 향상된 반면,
구글은 야후의 검색로그를 벤치마킹해서 랭킹이 외려 나빠졌단다.
흠. 그걸 판단할 사람이 없었다는?
여튼 테스트 셋, 퀄리티 향상의 기반이 되는 데이터가 아주 중요하다는 정도로 이해하면 좋을듯.