ACL 2013 Tutorials & Papers
1. Tutorial 1 - Visual Features for Linguists: Basic image analysis techniques formultimodally-curious NLPers
Authors: EliaBruni and Marco Baroni
个人主页:http://clic.cimec.unitn.it/~elia.bruni/
主题:介绍基本的图像处理技术和相关应用。
大纲:
Low-level features (e.g. SIFT)
Induce more abstract features based on low-level descriptors
Example applications
2. Sessions
值得关注的领域
Statistical & Machine Learning Methods in NLP
Semantics
Low Resource Language Processing NLP Applications
NLP Applications
Text Mining and Information Extraction
Summarization & Generation
NLP for the Web & Social Web
Sentiment Analysis, Opinion Mining & Text Classification
3. 长文
Grounded Language Learning fromVideo Described with Sentences
Session: Statistical and Machine Learning Methods in NLP
主题:利用视频信息和句子,学习单词表示。学习出的单词含义(word meaning)可以用于生成视频描述。可以学习出多数词性的单词,而不仅仅是名词或动词。
方法:隐马尔科夫
Joint Event Extraction via Structured Prediction with Global Features
Session: Semantics
主题:事件挖掘。本文的主要贡献有:1. 提出一种事件挖掘的新框架,同时挖掘出事件的trigger和arguments(这一点其实和目前情感分析中挖掘目标单词和情感词的思路相似)。2. 新增了一些局部特征。
方法:凸优化
Fast and Robust Compressive Summarization with Dual Decomposition and Multi-Task Learning
Session: Statistical and Machine Learning Methods in NLP
主题:多文档摘要。与以前的文档摘要不同的是,本文提出压缩式摘要(Compressive Summarization)和抽取式摘要(Extractive Summarization)。其中,传统的摘要称为Extractive Summarization,即在文中抽取句子组成摘要;而Compressive Summarization通过抽取关键单词压缩文章来形成摘要,并不要求原句。本文要求摘要简洁、有信息量、可读性强(conciseness, informativeness, and grammaticality),提出基于Compressive Summarization和Extractive Summarization的多任务摘要框架(multi-task learning framework)。
方法:凸优化
Linking Tweets to News: A Framework to Enrich Short Text Data in Social Media
Session: Semantics
主题:通过新闻来补充推特的内容,以避免微博内容果断造成很多NLP技术失效。本文认为每个微博与新闻都可用一个隐向量表示(latent vector)。文本之间除了单词共现关系以外,还有hashtag等共现关系。
方法:凸优化
Is a 204cm Man Tall or Small? Acquisition of Numerical Common Sense from the Web
Session: Semantics
主题:建立数字语义(numerical common sense)的模型,可以通过上下文来判断一个数字是大还是小。
Creating Similarity: Lateral Thinking for Vertical Similarity Judgments
Session: NLP Applications
主题:通过Web来补充WordNet,建立单词相似度度量。
方法:自己通过公示定义度量方式。
Using Conceptual Class Attributes to Characterize Social Media Users
Session: NLP for the Web and Social Media
主题:对社会网络中的用户进行性别分类。与一般的分类方法不同的是,本文的方法更注重区分度高的属性(distinguishing attributes)而不是所有属性。其中,用到的特征有传统的BoW特征User-Profile(例如:姓名、头像等)。
方法:句法结构分析
Entity Linking for Tweets
Session: NLP Applications
主题:实体识别,把推特中的mention对应到知识库的词条(knowledge base entry)。推特中实体识别问题的特殊性在于:推特太短,且命名体太多(很多命名体并不在知识库中)。本文采用的是整体优化思路:相似的推特mention对应到相似的命名体中,所以需要计算mention-entry, mention-mention和entry-entry相似度。
方法:凸优化
Joint Inference for Fine-grained Opinion Extraction
Session: Sentiment Analysis, Opinion Mining and Text Classification
主题:细粒度的情感分析,抽取出某意见相关的实体(opinion-related entity),包括opinion expressions, opinion holders, 和 targets。本文把以上任务看作各个子任务,并利用其他子任务的结果挖掘出新的子任务。这种方式在本次的ACL会议论文中非常常用,通常被称作joint learning framework/ joint inference model,常常还与multi-task这一概念相联系。与之相对的是pipeline。
方法:凸优化
Mining Opinion Words and Opinion Targets in a Two-Stage Framework
Session: Sentiment Analysis, Opinion Mining and Text Classification
主题:两阶段的情感词挖掘。第一阶段采用随机游走模型挖掘出候选的opinion word/target,并计算出候选词的confidence。第二阶段采用自学习技术改善第一阶段的结果,以避免高频无意义的词得分很高。
方法:随机游走、凸优化(实际上是对SVM的改进)
4. 其他文章
其他值得关注的文章(仅从个人喜好角度,其实还有很多文章没有包括进来,例如Summarization)。
Semantics
SP - An Empirical Study on Uncertainty Identification in Social Media Context
NLP Applications
SP - TopicSpam: a Topic-Model-Based Approach for Spam Detection
SP - Identifying Semantic Neighborhoods
SP - Learning Semantic Textual Similarity with Structural Representations
Summarization & Generation
SP - Evolutionary Hierarchical Dirichlet Process for Timeline Summarization
LP - Towards Robust Abstractive Multi-Document Summarization: A Caseframe Analysis of Centrality and Domain
NLP for the Web & Social Web
LP - Mining Informal Language from Chinese Microtext: Joint Word Recognition and Segmentation
SP - Exploiting Topic based Twitter Sentiment for Stock Prediction
SP - Learning Entity Representation for Entity Disambiguation
Sentiment Analysis, Opinion Mining & Text Classification
SP - A Novel Text Classifier – based on Quantum Computation
SP - Generating Recommendation Dialogs by Extracting Information from User Reviews
Multilinguality + Multimodal NLP
SP - Generalizing Image Captions for Image-Text Parallel Corpus