Twitter Data Analytics

트위터와 같은 소셜데이타를 이용하여 트레이딩과 접목하려는 시도는 이제 새롭지 않습니다.

감성지수과 트레이딩
Old HFT, New HFT

트위터와 같은 소셜미디어의 데이타를 이용하여 분석을 하고자 하면 어떻게 하면 좋을까요? 이런 고민을 가진 분들을 위한 유용한 책이 나왔습니다. Arizona State University의 Data Mining and Machine Learning Lab에서 일하는 Shamanth Kumar, Fred Morstatter와 Huan Liu이 Twitter Data Analytics라는 제목의 책을 내놓았습니다.

아직 공식 출판하지 않았고 사전 배포본수준으로 공개하였습니다. 위의 페이지에 있는 책 소개입니다.

This book takes a reader through the process of harnessing Twitter data to find answers to intriguing questions. We begin with an introduction to the process of collecting data through Twitter’s APIs and proceed to discuss strategies for curating large datasets. We then guide the reader through the process of visualizing Twitter data with realworld examples, present challenges and complexities of building visual analytic tools, and provide strategies to address these issues. We show by example how some powerful measures can be computed using various Twitter data sources. This book is designed to provide researchers, practitioners, project managers, and graduate students new to the field with an entry point to jump start their endeavors. It also serves as a convenient reference for readers seasoned in Twitter data analysis.

아래는 PDF파일 및 소스코드와 책 본문입니다.

Code Sample 받기
Twitter Data Analytics 받기

소셜데이타를 이용한 연구는 다양하게 이루어지고 있는 듯 합니다. 유명한 네이처지에 게재된 논문입니다.

Quantifying Trading Behavior in Financial Markets Using Google Trends

구글 검색을 통하여 얻은 결과를 이용한 전략과 다른 전략을 비교한 논문입니다.

PDF 받기

라틴어계열은 소셜데이타를 이용한 연구들이 활발하지만 한글은 어려움이 많다고 합니다. 단어만으로는 의미를 추출해내기 어렵기 때문이라고 합니다. 지난 자본시장IT사랑방때 나눈 대화중 일부입니다.


  1. [코퍼스]김준홍 (@corpus007)

    web site의 컨텐츠를 분석해서 증권 예측을 하는 것에 대한 논문을 훑어봤던 것이 1999년도 쯤이었으니까.. 사실 꽤 오래된 주제죠.. 그 대상과 활용이 조금 진화했다고 할까요…
    실제로 활용하기 위해서는 굉장히 많은 고려사항과 닭질(dirty work)이 필요하긴 하지만 꾸준히 살펴볼 필요는 있다고 생각합니다. 근데.. 이쪽도 의외로 괜찮은 연구나 활용결과는 그 진면목이 외부로 전부 공개되지 않는다고 하더군요

  2. [코퍼스]김준홍 (@corpus007)

    아..그리고, 한국어 기반의 소셜연구가 활발하지 못한 것은 라틴어냐 한국어냐의 차이보다는 자연언어처리(NLP)에 있어서 한국어에 대한 기반연구와 자료축적이 제대로 되어 있지 않아서가 근본입니다.
    시소러스니 코퍼스니 의미망이니..이런것들이 필요하다고 떠들기만 하고, 기반이 되는 부분에 대해 제대로 작업을 하지 않은 댓가가 지금이죠. 이런건 국가나 대기업연구소에서 한 10년쯤 (국가와 민족을 위해?) 돈과 인력을 투입해줘야 하는데 말이죠

    1. smallake (Post author)

      좋은 의견 감사드립니다. 쓰신 글을 보니 갈 길이 멀고 험하네요.


