큐레이션 읽고 또 얘기하며 든 생각 몇 가지 정리.

* 짤막한 글이나 링크 공유를 통한 큐레이션 @ <허핑턴 포스트>와 링크 경제의 출현
자기표현은 새로운 오락거리 입니다. 사람들은 단지 정보를 소비할 뿐 아니라 참여하고 싶어하죠. 이러한 욕구를 파악하는데 저널리즘의 미래가 있어요.
 이미 웹 2.0에서 UGC(User Generated Contents)또는 UCC(User Created Contents)로 사용자 참여는 이미 꽤 되었지만,     재미있었던 건 꼭 뭔가를 창조(만들어)내는 것 보다 있는 것들을 셀렉트해서 공유하는 현상을 큐레이션이라는 개념으로 의미를 부여하고, 또 큐레이터로서 인간의 역할을 부각한 포인트.
뭔가 하나의 글로 잘 정리하는 블로깅보다 보거나 들은 것 중 인상깊은 링크들을 간단하게 트위터나 페이스북 통해 공유하게 되는 내 경험을 봐도 그렇고.
이는 짤막한 글이나 링크 공유를 편하고 간단하게 해주는 소셜 플랫폼의 영향도 있을 터이다.
따지고 보면 다음이나 네이버와 같은 포털 사이트들은 궁극의 큐레이션 집합체.
 
  • * 인간의 요소, 인간만이 -
패턴을 인식하는 인간 고유의 능력 @ <큐레이션, 인간을 지향하다> 
"프로그래머와 큐레이터로서 인간의 역할이 사라지는 일은 일어나지 않을 거에요. 컴퓨터가 절대로 따라올 수 없는 부분이 있으니까요. 그게 바로 인간의 요소, 인간만이 떠맡을 수 있는 부분이죠"
대학원 수업, 아마도 질적연구방법론으로 기억한다.
인간의 눈만큼 강력한 통계툴은 없다고 하신 교수님 말씀이 인상적이었다. 방대한 인터뷰 자료들, 텍스트들에서 의미를 찾아내는 것은. 그 자료들을 분석해 보고 있으면 찾아낼 수 있는 패턴.

의미를 부여하는 건 인간 고유의 능력이라고.
의미를 부여하고 정의하는 인간의 능력은 대체할 수 없을 것.

이것은 검색 랭킹 모델링 업무를 할 때도 느꼈던 것이기도 하다. 
구글로 인해 기계나 데이터가 중요하고 사람의 시선이나 관점은 bias라고 생각하는 의견들도 있었는데, 사실상 design하는 것은 결국 사람이고 기계나 데이터를 이용하여 검증해 내는 게 필요한 것.

사실 백여개가 넘는 랭킹 요소를 사용한다는 구글에서도 패턴이나 의미를 볼 줄 아는 "사람"(구글이나 야후의 research scientist) 이 없으면 방대한 데이터는 크게 의미 없거나 정말 많은 시간을 필요로 하는 것이다. 요는 기계가 사람이 모르는, 정의할 수 없는 의미까지 찾아내 주기는 어렵다는 것.

최근에 화제가 되고 있는 빅데이터나  빅데이터 전문가에 대한 이야기도 같은 맥락이라고 생각한다.
빅데이터를 저장하고, 분석해서 의미를 찾아내어 새로운 트렌드에 대한 통찰을 뽑아내고자 하는 것에서, 어떤 것을 분석해서 의미를 찾아낼 것인가가 관건. 잘 분석하기 위해 저장도 쉽지 않겠지만, 어떤 부분을 분석해서 어떤 흐름(패턴)을 찾아낼 것인가. 그게 진검승부 포인트가 될거란 생각. 
알고리즘은 대량의 자료를 수집하는 데 유용합니다. 어떤 글이나 동영상을 몇 명이나 보는지 계속 지켜보면서 숫자, 링크. 클릭수, 리트윗수 등을 계산하기에 적합하죠. 여기에서 인간은 경쟁이 안됩니다. 대신 인간의 뇌는 패턴을 인식할 수 있죠. 우리는 길 건너 나무를 보고 바로 그게 나무란 걸 알 수 있어요. 그러나 컴퓨터는 몇 시간 동안 나무 이미지를 보고 상당한 처리 시간을 거쳐야만 그게 나무란 걸 인식합니다. 그때 이미 우리는 그게 소나무이고 말라 죽어가고 있다는 사실까지 파악해내죠.
 
마지막으로 한줄평.  
  • 없지 않았던 행위들, 새롭지 않은 개념들을 “큐레이션", 결국은 “인간”의 요소로  정리해서 생각해 보게 하는 것이 굿 포인트. 새로운 내용이나 제시에 대한 큰 기대보단.
 
Posted by JulieNJulia
:

Google vs Bing

2011. 2. 4. 10:14

Bing이 google 검색 결과를 도용했다는 구글Danny Sullivan의 주장, 그리고 이에 대한 빙의 공식적인 부인. 검색 알고리즘에 여러 정보를 활용하고 그 중 하나인 click 정보일 뿐이라는 주장.  
그리고 구글이 왜 지금 이 시점에서?와 같은 주변의 관전평들.
( + 추가로 빙 입장도 생각해서 살짝 정정한 Danny Sullivan 이야기와 전반 공방 내용 잘 요약한 Daniel Tunkelang 기사 )

구글과 Danny Sullivan에 따르면,
tarsorrhaphy 의 오자인 "torsoraphy"의 검색 결과가 빙에서 오자란 표시도 없이  tarsorrhaphy의 구글 첫번째 검색 결과가 뜨는 것을 보고 빙을 의심하기 시작





그래서 bing을 의심스럽게 생각한 구글 측 사람들이 bing 툴바를 설치하고 실험을 시작.
hiybbprqag, mbzrxpgjys, indoswiftjobinproduction 등과 같은 검색어들을 입력하고 구글 검색결과를 만들었더니 어느 순간 빙에도 같은 검색 결과가 뜨더라는 이야기.





빙은 이에 대해 검색 랭킹 알고리즘에 수많은 정보를 사용하고 있으며, 그 중 하나인 사용자 클릭 정보로 인한 결과일 뿐이며, 구글의 실험은 검색결과 어뷰징하는 사람들이 많이 쓰는 방식과 같은 덫이라고 주장.

개인적으로 long tail query에 대해서라면,
검색결과 없는 검색어에 대해 다른 검색엔진 결과 긁어와서 보여주는 것은,
랭킹이 아닌 data coverage나 recall 확보 측면에서 괜찮은 아이디어라는 생각.

Google과 Danny가 증거로 내세운 건 오자 입력한 long tail 쿼리라서.

아래는 관련 기사 모음들

[구글 측]
- Google: Bing Is Cheating, Copying Our Search Results   (from Danny Sullivan)
- Microsoft’s Bing uses Google search results—and denies it (from Google's Amit Singhal )
- Google Results, One of Bing's Ranking Signals (Google officical Bolg)


[빙 측]
Setting the record straight
Microsoft: 'We do not copy Google's results'
Thoughts on search quality

[기타 관련 기사]
- So, Bing's Copying Off Google: What Now, Google? 
Bing Copying Google: And I Care Why?
Bing’s Search Results Are A ‘Cheap Imitation’, Google Says

- Wow, Microsoft And Google Are Punching Each Other In The Face Right In Front Of Us!
-
Google Says Bing Cheated

[Update  추가 : 2010.2.6] 
* Bing: Why Google’s Wrong In Its Accusations
 다시 Bing 측 입장에서 올린 Danny Sullivan의 기사
“Google: Bing Is Cheating, Copying SOME Of Our Search Results"
이 주요 골자. 

그리고 잘 요약해 놓은 Daniel Tunkelang의 
*  Google vs. Bing : A Tweetie Beetle Battle Muddle

참고로 빙의 부인에 좋은 이야기가 많아서 인용

 
We use over 1,000 different signals and features in our ranking algorithm. A small piece of that is clickstream data we get from some of our customers, who opt-in to sharing anonymous data as they navigate the web in order to help us improve the experience for all users.

To be clear, we learn from all of our customers. What we saw in today’s story was a spy-novelesque stunt to generate extreme outliers in tail query ranking. It was a creative tactic by a competitor, and we’ll take it as a back-handed compliment. But it doesn’t accurately portray how we use opt-in customer data as one of many inputs to help improve our user experience.
...
We believe search needs to do more for customers



Posted by JulieNJulia
:
How Google Measures Search Quality

검색 퀄러티를 평가함에 있어
사용자 클릭 정보 보다
대신 전문 rater들의 평가에 의존한다는 얘기
They employ armies of "raters"  who rate search results for randomly selected "panels" of queries using different ranking algorithms. These manual ratings form the gold-standard against which ranking algorithms are measured -- and eventually released into service.

재미있는 건, 야후가 구글 검색 로그를 벤치 마킹해서 랭킹이 향상된 반면,
구글은 야후의 검색로그를 벤치마킹해서 랭킹이 외려 나빠졌단다.
흠. 그걸 판단할 사람이 없었다는?
여튼 테스트 셋, 퀄리티 향상의 기반이 되는 데이터가 아주 중요하다는 정도로 이해하면 좋을듯.

Posted by JulieNJulia
:

Google Search Quality

2008. 10. 28. 14:17
Google Search Quality 관련 링크들

Google Search Quality
Posted by JulieNJulia
:
Local search services that rely solely upon user-generated reviews do provide useful information, but there is a huge gap between the number of available reviews and the number of local businesses in the United States. Grayboxx’s depth and breadth of automatically generated local business rankings and recommendations reliably fills this gap.
 
The PreferenceScore algorithm has been refined to sharpen its accuracy in representing neighborhood preferences for local businesses.  Also added is the capability for users to see user-contributed reviews gathered from popular third-party sites. In the coming weeks grayboxx will allow people to add their own reviews of businesses directly on grayboxx as a complement to the primary method of PreferenceScore

 
Grayboxx’s PreferenceScore method provides objective context about which businesses are most popular.

Posted by JulieNJulia
:

BLOG main image
결국은 사람 by JulieNJulia

카테고리

분류 전체보기 (702)
인공지능 AI (3)
read things (47)
work life (20)
검색 IT (86)
인지과학 HCI (46)
research (3)
일상다반사 (61)
마음이 울리다 (76)
그림 Drawing (1)
말, 말, 말 (32)
좋을텐데 (0)
My Digg (0)
Today's attention (9)
life log (3)
private (0)
social network (0)
영화 (3)
여행 (2)
문화생활 (0)

달력

«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

글 보관함

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백