회사에서 로컬 장소 검색 품질 평가 항목 만들다가 찾은 

구글 검색 품질 평가 자료 찾은 내용 간단하게 공유합니다. 


구글은 전세계 곳곳의 Human evaluator들을 선발해서 검색 품질 평가를 하고 있고 (http://allthingsd.com/20090603/google-and-the-evolution-of-search-scott-huffman/)

역시 구글답게 장장 125 페이지에 이르는 품질 평가 가이드 라인에 맞춰 평가하도록 교육하고 있습니다.


간단하게 보면, 


쿼리를 일반적으로 알려진 아래의 3가지 분류해서 

* Navigation Queries – “Go” : 홈페이지나 사이트 찾아가는 니즈 쿼리. 우리로 치면 바로가기, 사이트성 

* Action Queries – “Do”, : 다운로드 받거나 물건을 사는 등등의 액션을 취하기 위해 검색하는 니즈. 

* Information Queries – “Know”, : 일반적인 정보 찾는 니즈.


대략 다음과 같은 scale 로 평가합니다.

* useful     : 매우 유용

* relevant  : 유용

* slightly relevant  : 약간 유용

* off-topic / useless : 관련없거나 전혀 유용하지 않음.


이외에 공식 홈페이지에 대해서 "vital" 스케일로 별도 평가하고,

스팸(Not Spam, Maybe Spam, Spam)이나 음란/악성 여부(Porn, Malicious)를 별도 플래그로 표시합니다

 


일반적인 웹검색 평가 기준이라 한국의 통합검색이나 로컬 등 버티컬 검색 평가 기준에 아주 들어맞지는 않지만, 체계성과 정교한 가이드는 역시 구글이네요.  

참고)
구글 검색 품질 평가 관련 예전 글
Google and the Evolution of Search

구글 검색 품질 평가 방법 (How Google Measures Search Quality)


Posted by JulieNJulia
:

Google vs Bing

2011. 2. 4. 10:14

Bing이 google 검색 결과를 도용했다는 구글Danny Sullivan의 주장, 그리고 이에 대한 빙의 공식적인 부인. 검색 알고리즘에 여러 정보를 활용하고 그 중 하나인 click 정보일 뿐이라는 주장.  
그리고 구글이 왜 지금 이 시점에서?와 같은 주변의 관전평들.
( + 추가로 빙 입장도 생각해서 살짝 정정한 Danny Sullivan 이야기와 전반 공방 내용 잘 요약한 Daniel Tunkelang 기사 )

구글과 Danny Sullivan에 따르면,
tarsorrhaphy 의 오자인 "torsoraphy"의 검색 결과가 빙에서 오자란 표시도 없이  tarsorrhaphy의 구글 첫번째 검색 결과가 뜨는 것을 보고 빙을 의심하기 시작





그래서 bing을 의심스럽게 생각한 구글 측 사람들이 bing 툴바를 설치하고 실험을 시작.
hiybbprqag, mbzrxpgjys, indoswiftjobinproduction 등과 같은 검색어들을 입력하고 구글 검색결과를 만들었더니 어느 순간 빙에도 같은 검색 결과가 뜨더라는 이야기.





빙은 이에 대해 검색 랭킹 알고리즘에 수많은 정보를 사용하고 있으며, 그 중 하나인 사용자 클릭 정보로 인한 결과일 뿐이며, 구글의 실험은 검색결과 어뷰징하는 사람들이 많이 쓰는 방식과 같은 덫이라고 주장.

개인적으로 long tail query에 대해서라면,
검색결과 없는 검색어에 대해 다른 검색엔진 결과 긁어와서 보여주는 것은,
랭킹이 아닌 data coverage나 recall 확보 측면에서 괜찮은 아이디어라는 생각.

Google과 Danny가 증거로 내세운 건 오자 입력한 long tail 쿼리라서.

아래는 관련 기사 모음들

[구글 측]
- Google: Bing Is Cheating, Copying Our Search Results   (from Danny Sullivan)
- Microsoft’s Bing uses Google search results—and denies it (from Google's Amit Singhal )
- Google Results, One of Bing's Ranking Signals (Google officical Bolg)


[빙 측]
Setting the record straight
Microsoft: 'We do not copy Google's results'
Thoughts on search quality

[기타 관련 기사]
- So, Bing's Copying Off Google: What Now, Google? 
Bing Copying Google: And I Care Why?
Bing’s Search Results Are A ‘Cheap Imitation’, Google Says

- Wow, Microsoft And Google Are Punching Each Other In The Face Right In Front Of Us!
-
Google Says Bing Cheated

[Update  추가 : 2010.2.6] 
* Bing: Why Google’s Wrong In Its Accusations
 다시 Bing 측 입장에서 올린 Danny Sullivan의 기사
“Google: Bing Is Cheating, Copying SOME Of Our Search Results"
이 주요 골자. 

그리고 잘 요약해 놓은 Daniel Tunkelang의 
*  Google vs. Bing : A Tweetie Beetle Battle Muddle

참고로 빙의 부인에 좋은 이야기가 많아서 인용

 
We use over 1,000 different signals and features in our ranking algorithm. A small piece of that is clickstream data we get from some of our customers, who opt-in to sharing anonymous data as they navigate the web in order to help us improve the experience for all users.

To be clear, we learn from all of our customers. What we saw in today’s story was a spy-novelesque stunt to generate extreme outliers in tail query ranking. It was a creative tactic by a competitor, and we’ll take it as a back-handed compliment. But it doesn’t accurately portray how we use opt-in customer data as one of many inputs to help improve our user experience.
...
We believe search needs to do more for customers



Posted by JulieNJulia
:

Modern Information Retrieval 2nd Edtion 발매 소식

아마존에서 예약 주문 받고 있다. 1/17일 발매 예정이었는데 아직인 걸 보니 좀 더 걸릴 듯. 

우리나라에는 최신 정보 검색론”으로 번역되어 알려진 Modern Information Retrieval 1판에 비해 전반적으로 내용이 많이 보강되었다.

아무래도 1판 발매 후 10여 년의 세월이 지나기도 했고.

특히 Retrieval Evaluation 부분 - DCG(Discounted Cumulated Gain) 와 A/B testing.

그리고 Text Classification, Structured text retrieval, Enterprise Search 등. 

1판의 "Searching the web"을 Web Retrieval과 Web Crwaling 으로 나누어 좀 더 자세하게 다루고 있고.

저자인 Ricardo Baeza-Yates가 야후에 몸담고 있어선지 실무에 유용한 다양한 내용들이 포함되어 있다.  

정보 검색 교재로 보면,

스탠포드 IR로 알려져 있는 Introduction to Information Retrieval 이 검색 개념을 하나씩 차근차근 알려준다면,

Modern Information Retrieval 2nd Edtion 은  좀 더 종합적인 관점에서 실무에서 일하다 보면 생각해 보게 되는 내용들을 다루고 있다는 생각.

책 공식 사이트에 몇 챕터는 공개되어 있기도 하다.
 
목차만 봐도 다양한 내용들이 다루어 지고 있는 걸 알 수 있다.


개인적으로 검색 실무하는 사람들에게 추천.

Posted by JulieNJulia
:

I. Human Evaluators — Google Engineering director Scott Huffman

    1. 구글 "검색 품질 평가 팀"에 관한 얘기
      • 초반에 세르게이의 favorite 10쿼리 에서 출발하여 현재 검색 품질 관리에 이름
      • 여기에서 평가된 검색 품질은 알고리즘 개선에 활용되긴 하지만 직접적으로 영향 미치지 않음.
      • 검색품질이 좋다는 것은 결국 "사람"이 아는 것이므로.
      • 아마도 머신러닝 데이터로 활용할 듯.
        알고리즘 팀이 하는 건.. 중요한 팩터는 뽑아야 할거고, 머신러닝을 통해 개선하지 않을까.

II. Cheating the System — Google software engineer Matt Cutts

    1. 어뷰징, 스팸 등 문서/사이트 퀄러티에 관한 얘기
    2. 역시나 사람 손을 태우느냐에 대한 부분 질문 
      we are sometimes willing to take manual action on those sorts of policy violations. But Google’s philosophy is that wherever you can use machines and algorithms

    3. 인상적인 건, 언젠가 사람이 개입하지 않을 날이 올까? 에 대한 Matt cutt의 답변
      our intent is always to try to make sure that we handle things efficiently with machines and algorithms. But I don’t know that we will ever get there completely.
    4. 나도 매우 동감 최대한 효율적이어야 하지만 사람을 완전히 뺄 수 있을까. 

III. What’s Next in Search? Much, Much Better Search — Google Fellow Amit Singhal

    • recall & precision
      • recall => precision =>combination of recall and precision
    • search evaluation
      • human evaluator
    • how fresh is the document? How relevant? How useful?
    • Whatever type of content is relevant to you should just show up in your search results
      • 이거야말로 통합검색 아닌가.
Posted by JulieNJulia
:

http://www.seeqpod.com/
요런 음악검색 엔진 발견. 맘에 든다.

설명은 요기(http://cliomedia.egloos.com/1361586) 참고

검색해서 별다른 제한없이 노래 전체를 들을 수 있어서 좋다.
음악검색은 뭐니뭐니 해도 듣고 싶어서 검색하는거 아니겠는가.
가장 기본적인 욕구 충족을 바탕으로 가고 있는 바람직한 음악검색 엔진

법적분쟁에 휩쓸렸다는 기사(http://www.searchenginejournal.com/seeqpod-mp3-search-engine-sued-by-warner-music/6277/)보다 알게됨.

Posted by JulieNJulia
:
  • 구글랩 infoview 추가

    http://www.google.com/views?q=second+life+view%3Ainfo&vwms=&vwme=&btnGi=Search

    구글랩에서 기존 timeline, map view외에 이번에 추가로 info view를 추가
    오른쪽에 보면 옵션별로  date, measurement, location, image 들을 클릭하면 검색 결과 페이지에서 해당 정보들 위주로 써머리&하이라이팅 해서 보여주는.

    검색결과 디스플레이에도 다양한 시도와 사용자 편의성을 고려/고민하는 구글
    (아 어느 세월에...)
Posted by JulieNJulia
:

구글랩 inforview

2007. 10. 8. 16:55
  • 구글랩 infoview 추가

    http://www.google.com/views?q=second+life+view%3Ainfo&vwms=&vwme=&btnGi=Search

    구글랩에서 기존 timeline, map view외에 이번에 추가로 info view를 추가
    오른쪽에 보면 옵션별로  date, measurement, location, image 들을 클릭하면 검색 결과 페이지에서 해당 정보들 위주로 써머리&하이라이팅 해서 보여주는.

    검색결과 디스플레이에도 다양한 시도와 사용자 편의성을 고려/고민하는 구글
    (아 어느 세월에...)
  • 블로그, UCC는 아니지만 전문 글. 다음 TV팟 같은 인기글들을 흡수하는 것.


 

Posted by JulieNJulia
:


Posted by JulieNJulia
:
사람들이 검색 결과가 좋다고 느끼는 데, 검색 엔진 브랜드가 영향을 미친다는 연구가 올해 해외 HCI컨퍼런스에 발표되었다.
올초 다음이랑 네이버를 가지고 비슷하게 연구해 보려고 했었는데, 역시나 누군가는 이런걸 하고 있었구나.. 

검색 품질 인식에 미치는 영향 요소 또는 사용자의 relevant 평가에 미치는 영향 요인들(ex. 정보 소스, 쿼리, 제목, 시간 등..)을 다룬 많은 연구들이 있어 왔다. 이 연구는 검색 엔진 브랜드 또한 검색 품질 인지에 영향을 줄 수 있음에 착안하여 실험한 재미있는 연구라고 생각된다.

  • 원논문
  • 연구 내용 요약
    • 사람들에게 같은 검색 결과가 제시되어도 검색 엔진이 무엇이냐에 따라 검색 품질 평가가 달라진다는 것을 재미있는 실험을 통해 증명함으로써, 검색 엔진 브랜드가 검색 품질 평가의 한 요소임을 밝힌 연구
  • 실험 방법 및 결과
    • 사용한 쿼리
      • camping mexico, laser removal, manufactured home, techo music
        • 150만개 가량의 e-commerce 검색 로그로 부터 분야별로 4개의 쿼리 선정
    • 검색 결과
      • 선정된 4개의 검색 쿼리를 구글 검색에 던져서 검색 결과 저장
    • 검색 로고
      • 각각 Google, MSN, Yahoo의 로고들을 캡쳐하여 사용하고, AI2RS라는 새로운 검색 브랜드 로고 추가로 생성하여 사용.
    • 실험 화면
    • 실험 대상
      • 18~25세 사이의 미국 대학생 32명( 남자 24명, 여자 8명)
    • 실험 결과
      • 결과적으로 이름 없는 AI2RS 는 평균적으로 10% 떨어지는 평가를 받았다.
      • Yahoo는 4개 쿼리 모두 평균 이상의 평가를 받으며 높은 브랜드 인지도를 나타내었다.  
  • 결론
    • 검색 성능(품질) 평가에서 검색 엔진 브랜드의 영향을 살펴본 결과, 동일 한 검색 결과라도 검색 엔진 브랜드에 대한 인식에 따라 검색 품질 평가에 상당한 영향을 미칠 수 있다는 것을 알 수 있다.
Posted by JulieNJulia
:

 
    • Google Director of Research(Google Research) 인 Peter Norvig과의 인터뷰 원문
      인터뷰 원문이 훨씬 흥미롭다
      인상깊은 구절..
    I think another focus is to understand how people interact with Google and interact with each other on the Web, in general. How do people operate in these social networks? Understanding that question can help us serve them better.
        200% 동감하고 싶은 내용이다. 검색을 하면서 내가 인지과학을, 그리고 HCI를 공부하고 있는 큰 이유 중 하나.  

월요일 휴가 였는데 이런 자리가 있었네. 휴가가 아니였다면 다녀오면 좋았을..  
  관련1) 개최자인 JMIRROR(
http://www.joonj.com)’님의    블로거 토론회 후기         
         2) 
블로거 토론회_0716_19_28


생각해 보니 비슷한 시기에 검색의 미래와 다음 세대 검색을 논하는 포스팅들..

(하나더 추가)
Posted by JulieNJulia
:

BLOG main image
결국은 사람 by JulieNJulia

카테고리

분류 전체보기 (702)
인공지능 AI (3)
read things (47)
work life (20)
검색 IT (86)
인지과학 HCI (46)
research (3)
일상다반사 (61)
마음이 울리다 (76)
그림 Drawing (1)
말, 말, 말 (32)
좋을텐데 (0)
My Digg (0)
Today's attention (9)
life log (3)
private (0)
social network (0)
영화 (3)
여행 (2)
문화생활 (0)

달력

«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

글 보관함

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백