Home Courses Quora question similarity

Quora question similarity

Category: AI & Machine Learning

Quora question similarity

Category: AI & Machine Learning

For our Instructor led programs in Data Science & ML

Module 1: Fundamentals of Programming
Chapters : 7 Assignments : 0 Completed :

Python for Data Science Introduction

1.1

Python, Anaconda and relevant packages installations

23 mins

1.2

Why learn Python?

4 mins

1.3

Keywords and identifiers

6 mins

1.4

comments, indentation and statements

9 mins

1.5

Variables and data types in Python

32 mins

1.6

Standard Input and Output

7 mins

1.7

Operators

14 mins

1.8

Control flow: if else

10 mins

1.9

Control flow: while loop

16 mins

1.10

Control flow: for loop

15 mins

1.11

Control flow: break and continue

10 mins

Python for Data Science: Data Structures

2.1

Lists

38 mins

2.2

Tuples part 1

10 mins

2.3

Tuples part 2

4 mins

2.4

sets

16 mins

2.5

Dictionaries

21 mins

2.6

Strings

16 mins

Python for Data Science: Functions

3.1

Introduction

13 mins

3.2

Types of functions

25 mins

3.3

Function arguments

10 mins

3.4

Recursive functions

16 mins

3.5

Lambda functions

8 mins

3.6

Modules

8 mins

3.7

Packages

6 mins

3.8

File Handling

23 mins

3.9

Exception Handling

15 mins

3.10

Debugging Python

15 mins

Python for Data Science: Numpy

4.1

Numpy Introduction

41 mins

4.2

Numerical operations on Numpy

41 mins

Python for Data Science: Matplotlib

5.1

Getting started with Matplotlib

20 mins

Python for Data Science: Pandas

6.1

Getting started with pandas

8 mins

6.2

Data Frame Basics

9 mins

6.3

Key Operations on Data Frames

31 mins

Python for Data Science: Computational Complexity

7.1

Space and Time Complexity: Find largest number in a list

20 mins

7.2

Binary search

17 mins

7.3

Find elements common in two lists

6 mins

7.4

Find elements common in two lists using a Hashtable/Dict

12 mins

Module 2: Data Science: Exploratory Data Analysis and Data Visualization
Chapters : 6 Assignments : 0 Completed :

Plotting for exploratory data analysis (EDA)

8.1

Introduction to IRIS dataset and 2D scatter plot

26 mins

8.2

3D scatter plot

6 mins

8.3

Pair plots

14 mins

8.4

Limitations of pair plots

2 mins

8.5

Histogram and Introduction to PDF(Probability Density Function)

17 mins

8.6

Univariate Analysis using PDF

6 mins

8.7

CDF(Cumulative Distribution Function)

15 mins

8.8

Mean, Variance and Standard Deviation

17 mins

8.9

Median

10 mins

8.10

Percentiles and Quantiles

9 mins

8.11

IQR(Inter Quartile Range) and MAD(Median Absolute Deviation)

6 mins

8.12

Box-plot with Whiskers

9 mins

8.13

Violin Plots

4 mins

8.14

Summarizing Plots, Univariate, Bivariate and Multivariate analysis

6 mins

8.15

Multivariate Probability Density, Contour Plot

9 mins

8.16

Exercise: Perform EDA on Haberman dataset

4 mins

Linear Algebra

9.1

Why learn it ?

9.2

Introduction to Vectors(2-D, 3-D, n-D) , Row Vector and Column Vector

14 mins

9.3

Dot Product and Angle between 2 Vectors

14 mins

9.4

Projection and Unit Vector

5 mins

9.5

Equation of a line (2-D), Plane(3-D) and Hyperplane (n-D), Plane Passing through origin, Normal to a Plane

23 mins

9.6

Distance of a point from a Plane/Hyperplane, Half-Spaces

10 mins

9.7

Equation of a Circle (2-D), Sphere (3-D) and Hypersphere (n-D)

7 mins

9.8

Equation of an Ellipse (2-D), Ellipsoid (3-D) and Hyperellipsoid (n-D)

6 mins

9.9

Square ,Rectangle

6 mins

9.10

Hyper Cube,Hyper Cuboid

3 mins

Probability and Statistics

10.1

Introduction to Probability and Statistics

17 mins

10.2

Population and Sample

17 mins

10.3

Gaussian/Normal Distribution and its PDF(Probability Density Function)

27 mins

10.4

CDF(Cumulative Distribution function) of Gaussian/Normal distribution

11 mins

10.5

Symmetric distribution, Skewness and Kurtosis

5 mins

10.6

Standard normal variate (z) and standardization

15 mins

10.7

Kernel density estimation

7 mins

10.8

Sampling distribution & Central Limit theorem

19 mins

10.9

Q-Q plot:How to test if a random variable is normally distributed or not?

23 mins

10.10

Discrete and Continuous Uniform distributions

13 mins

10.11

How to randomly sample data points (Uniform Distribution)

10 mins

10.12

Bernoulli and Binomial Distribution

11 mins

10.13

Log Normal Distribution

12 mins

10.14

Power law distribution

12 mins

10.15

Box cox transform

12 mins

10.16

Co-variance

14 mins

10.17

Pearson Correlation Coefficient

13 mins

10.18

Spearman Rank Correlation Coefficient

7 mins

10.19

Correlation vs Causation

3 mins

10.20

Confidence interval (C.I) Introduction

8 mins

10.21

Computing confidence-interval given distribution

11 mins

10.22

C.I for mean of a normal random variable

14 mins

10.23

Confidence interval using bootstrapping

17 mins

10.24

Hypothesis testing methodology, Null-hypothesis, p-value

16 mins

10.25

Resampling and permutation test

15 mins

10.26

K-S Test

6 mins

10.27

K-S Test for similarity of two distributions

15 mins

Dimensionality reduction and Visualization:

11.1

what is dimensionality reduction?

3 mins

11.2

Row vector, Column vector: Iris dataset example

5 mins

11.3

Represent a dataset: D= {x_i, y_i}

5 mins

11.4

Represent a dataset as a Matrix.

7 mins

11.5

Data preprocessing: Column Normalization

20 mins

11.6

Mean of a data matrix

6 mins

11.7

Data preprocessing: Column Standardization

6 mins

11.8

Co-variance of a Data Matrix

24 mins

11.9

MNIST dataset (784 dimensional)

20 mins

11.10

Code to load MNIST dataset

12 mins

Principal Component Analysis(PCA)

12.1

Why learn it.

4 mins

12.2

Geometric intuition

14 mins

12.3

Mathematical objective function.

13 mins

12.4

Alternative formulation of PCA: distance minimization

10 mins

12.5

Eigenvalues and eigenvectors.

23 mins

12.6

PCA for dimensionality reduction and visualization.

10 mins

12.7

Visualize MNIST dataset.

5 mins

12.8

Limitations of PCA

5 mins

12.9

Code example using visualization

19 mins

12.10

PCA for dimensionality reduction (not-visualization)

15 mins

T-distributed stochastic neighborhood embedding (t-SNE)

13.1

What is t-SNE?

7 mins

13.2

Neighborhood of a point, Embedding

7 mins

13.3

Geometric intuition.

9 mins

13.4

Crowding problem.

8 mins

13.5

How to apply t-SNE and interpret its output (distill.pub)

38 mins

13.6

t-SNE on MNIST.

7 mins

13.7

Code example.

9 mins

Module 3: Foundations of Natural Language Processing and Machine Learning
Chapters : 8 Assignments : 0 Completed :

Real world problem: Predict rating given product reviews on Amazon

14.1

Dataset overview: Amazon Fine Food reviews(EDA)

23 mins

14.2

Data Cleaning: Deduplication

15 mins

14.3

Why convert text to a vector?

14 mins

14.4

Bag of Words (BoW)

18 mins

14.5

Text Preprocessing: Stemming, Stop-word removal, Tokenization, Lemmatization.

15 mins

14.6

uni-gram, bi-gram, n-grams.

9 mins

14.7

tf-idf (term frequency- inverse document frequency)

22 mins

14.8

Why use log in IDF?

14 mins

14.9

Word2Vec.

16 mins

14.10

Avg-Word2Vec, tf-idf weighted Word2Vec

9 mins

14.11

Bag of Words( Code Sample)

19 mins

14.12

Text Preprocessing( Code Sample)

11 mins

14.13

Bi-Grams and n-grams (Code Sample)

5 mins

14.14

TF-IDF (Code Sample)

6 mins

14.15

Word2Vec (Code Sample)

12 mins

14.16

Avg-Word2Vec and TFIDF-Word2Vec (Code Sample)

2 mins

14.17

Exercise: t-SNE visualization of Amazon reviews with polarity based color-coding

6 mins

Classification And Regression Models: K-Nearest Neighbors

15.1

How “Classification” works?

10 mins

15.2

Data matrix notation

7 mins

15.3

Classification vs Regression (examples)

6 mins

15.4

K-Nearest Neighbors Geometric intuition with a toy example

11 mins

15.5

Failure cases of KNN

7 mins

15.6

Distance measures: Euclidean(L2) , Manhattan(L1), Minkowski, Hamming

20 mins

15.7

Cosine Distance & Cosine Similarity

19 mins

15.8

How to measure the effectiveness of k-NN?

16 mins

15.9

Test/Evaluation time and space complexity

12 mins

15.10

KNN Limitations

9 mins

15.11

Decision surface for K-NN as K changes

23 mins

15.12

Overfitting and Underfitting

12 mins

15.13

Need for Cross validation

22 mins

15.14

K-fold cross validation

17 mins

15.15

Visualizing train, validation and test datasets

13 mins

15.16

How to determine overfitting and underfitting?

19 mins

15.17

Time based splitting

19 mins

15.18

k-NN for regression

5 mins

15.19

Weighted k-NN

8 mins

15.20

Voronoi diagram

4 mins

15.21

Binary search tree

16 mins

15.22

How to build a kd-tree

17 mins

15.23

Find nearest neighbours using kd-tree

13 mins

15.24

Limitations of Kd tree

9 mins

15.25

Extensions

3 mins

15.26

Hashing vs LSH

10 mins

15.27

LSH for cosine similarity

40 mins

15.28

LSH for euclidean distance

13 mins

15.29

Probabilistic class label

8 mins

15.30

Code Sample:Decision boundary

23 mins

15.31

Code Sample:Cross Validation

13 mins

15.32

Exercise: Apply k-NN on Amazon reviews dataset

5 mins

Classification algorithms in various situations

16.1

Introduction

5 mins

16.2

Imbalanced vs balanced dataset

25 mins

16.3

Multi-class classification

12 mins

16.4

k-NN, given a distance or similarity matrix

9 mins

16.5

Train and test set differences

22 mins

16.6

Impact of outliers

7 mins

16.7

Local outlier Factor (Simple solution :Mean distance to Knn)

13 mins

16.8

K-Distance(A),N(A)

4 mins

16.9

Reachability-Distance(A,B)

8 mins

16.10

Local reachability-density(A)

9 mins

16.11

Local outlier Factor(A)

21 mins

16.12

Impact of Scale & Column standardization

12 mins

16.13

Interpretability

12 mins

16.14

Feature Importance and Forward Feature selection

22 mins

16.15

Handling categorical and numerical features

24 mins

16.16

Handling missing values by imputation

21 mins

16.17

Curse of dimensionality

27 mins

16.18

Bias-Variance tradeoff

24 mins

16.19

Best and worst cases for an algorithm

6 mins

Performance measurement of models

17.1

Accuracy

15 mins

17.2

Confusion matrix, TPR, FPR, FNR, TNR

25 mins

17.3

Precision and recall

10 mins

17.4

Receiver Operating Characteristic Curve (ROC) curve and AUC

19 mins

17.5

Log-loss

12 mins

17.6

R-Squared

14 mins

17.7

Median absolute deviation (MAD)

5 mins

17.8

Distribution of errors

7 mins

Naive Bayes

18.1

Conditional probability

13 mins

18.2

Independent vs Mutually exclusive events

6 mins

18.3

Bayes Theorem with examples

18 mins

18.4

Exercise problems on Bayes Theorem

18.5

Naive Bayes algorithm

26 mins

18.6

Toy example: Train and test stages

26 mins

18.7

Naive Bayes on Text data

16 mins

18.8

Laplace/Additive Smoothing

24 mins

18.9

Log-probabilities for numerical stability

11 mins

18.10

Bias and Variance tradeoff

14 mins

18.11

Feature importance and interpretability

10 mins

18.12

Imbalanced data

14 mins

18.13

Outliers

6 mins

18.14

Missing values

3 mins

18.15

Handling Numerical features (Gaussian NB)

13 mins

18.16

Multiclass classification

2 mins

18.17

Similarity or Distance matrix

3 mins

18.18

Large dimensionality

30 mins

18.19

Best and worst cases

8 mins

18.20

Code example

7 mins

18.21

Exercise: Apply Naive Bayes to Amazon reviews

6 mins

Logistic Regression

19.1

Geometric intuition of Logistic regression

31 mins

19.2

Sigmoid function: Squashing

37 mins

19.3

Mathematical formulation of Objective function

24 mins

19.4

Weight vector

11 mins

19.5

Regularization: Overfitting and Underfitting

26 mins

19.6

L2 regularization, L1 regularization and sparsity

11 mins

19.7

Probabilistic Interpretation: Gaussian Naive Bayes

19 mins

19.8

Loss function interpretation

24 mins

19.9

hyperparameters and random search

16 mins

19.10

Feature importance and interpretability

16 mins

19.11

Collinearity of features

14 mins

19.12

Test/Run time space and time complexity

10 mins

19.13

Real world cases

11 mins

19.14

Non-linearly separable data & feature engineering

28 mins

19.15

Code sample: Logistic regression, GridSearchCV, RandomSearchCV

23 mins

19.16

Exercise: Apply Logistic regression to Amazon reviews dataset.

6 mins

19.17

Extensions to Logistic Regression: Generalized linear models

9 mins

19.18

Column standardization

30 mins

Linear Regression

20.1

Geometric intuition

13 mins

20.2

Mathematical formulation

14 mins

20.3

Real world Cases

9 mins

20.4

Code sample for Linear Regression

13 mins

Solving optimization problems : Stochastic Gradient Descent

21.1

Differentiation

29 mins

21.2

Online differentiation tools

8 mins

21.3

Maxima and Minima

12 mins

21.4

Vector calculus: Grad

10 mins

21.5

Gradient descent: geometric intuition

19 mins

21.6

Learning rate

8 mins

21.7

Gradient descent for linear regression

8 mins

21.8

SGD algorithm

9 mins

21.9

Constrained Optimization & PCA

14 mins

21.10

Logistic regression formulation revisited

6 mins

21.11

Why L1 regularization creates sparsity?

17 mins

21.12

Exercise: Implement SGD for linear regression

6 mins

Module 4: Machine Learning -II (supervised Learning Models)
Chapters : 3 Assignments : 0 Completed :

Support Vector Machines (SVM)

22.1

Geometric Intution

20 mins

22.2

Why we take values +1 and and -1 for Support vector planes

9 mins

22.3

Mathematical derivation

32 mins

22.4

Loss function (Hinge Loss) based interpretation

18 mins

22.5

Dual form of SVM formulation

16 mins

22.6

Kernel trick

10 mins

22.7

Polynomial kernel

11 mins

22.8

RBF-Kernel

21 mins

22.9

Domain specific Kernels

6 mins

22.10

Train and run time complexities

8 mins

22.11

nu-SVM: control errors and support vectors

6 mins

22.12

SVM Regression

8 mins

22.13

Cases

9 mins

22.14

Code Sample

14 mins

22.15

Exercise: Apply SVM to Amazon reviews dataset

4 mins

Decision Trees

23.1

Geometric Intuition of decision tree: Axis parallel hyperplanes

17 mins

23.2

Sample Decision tree

8 mins

23.3

Building a decision Tree:Entropy

19 mins

23.4

Building a decision Tree:Information Gain

10 mins

23.5

Building a decision Tree: Gini Impurity

7 mins

23.6

Building a decision Tree: Constructing a DT

21 mins

23.7

Building a decision Tree: Splitting numerical features

8 mins

23.8

Feature standardization

4 mins

23.9

Building a decision Tree:Categorical features with many possible values

7 mins

23.10

Overfitting and Underfitting

8 mins

23.11

Train and Run time complexity

7 mins

23.12

Regression using Decision Trees

9 mins

23.13

Cases

12 mins

23.14

Code Samples

9 mins

23.15

Exercise: Decision Trees on Amazon reviews dataset

3 mins

Ensemble Models

24.1

What are ensembles?

6 mins

24.2

Bootstrapped Aggregation (Bagging) Intuition

17 mins

24.3

Random Forest and their construction

17 mins

24.4

Bias-Variance tradeoff

7 mins

24.5

Bagging :Train and Run-time Complexity.

9 mins

24.6

Bagging:Code Sample

4 mins

24.7

Extremely randomized trees

8 mins

24.8

Random Tree :Cases

6 mins

24.9

Boosting Intuition

17 mins

24.10

Residuals, Loss functions and gradients

13 mins

24.11

Gradient Boosting

10 mins

24.12

Regularization by Shrinkage

6 mins

24.13

Train and Run time complexity

6 mins

24.14

XGBoost: Boosting + Randomization

14 mins

24.15

AdaBoost: geometric intuition

7 mins

24.16

Stacking models

22 mins

24.17

Cascading classifiers

15 mins

24.18

Kaggle competitions vs Real world

9 mins

24.19

Exercise: Apply GBDT and RF to Amazon reviews dataset.

9 mins

Module 5: Feature Engineering, Productionization and Deployment of ML Models
Chapters : 1 Assignments : 0 Completed :

Featurization and Feature engineering.

25.1

Introduction

17 mins

25.2

Moving window for Time Series Data

25 mins

25.3

Fourier decomposition

25 mins

25.4

Deep learning features: LSTM

8 mins

25.5

Image histogram

23 mins

25.6

Keypoints: SIFT.

10 mins

25.7

Deep learning features: CNN

4 mins

25.8

Relational data

10 mins

25.9

Graph data

12 mins

25.10

Indicator variables

7 mins

25.11

Feature binning

14 mins

25.12

Interaction variables

8 mins

25.13

Mathematical transforms

4 mins

25.14

Model specific featurizations

9 mins

25.15

Feature orthogonality

30 mins

25.16

Domain specific featurizations

4 mins

25.17

Feature slicing

10 mins

25.18

Kaggle Winners solutions

7 mins

Module 6: QUORA QUESTION PAIR SIMILARITY - CASE STUDY
Chapters : 1 Assignments : 1 Completed :

Quora Question Pair Similarity

26.1

Business/Real world problem : Problem definition

6 mins

26.2

Business objectives and constraints.

5 mins

26.3

Mapping to an ML problem : Data overview

5 mins

26.4

Mapping to an ML problem : ML problem and performance metric.

4 mins

26.5

Mapping to an ML problem : Train-test split

5 mins

26.6

EDA: Basic Statistics.

7 mins

26.7

EDA: Basic Feature Extraction

6 mins

26.8

EDA: Text Preprocessing

10 mins

26.9

EDA: Advanced Feature Extraction

31 mins

26.10

EDA: Feature analysis.

9 mins

26.11

EDA: Data Visualization: T-SNE.

3 mins

26.12

EDA: TF-IDF weighted Word2Vec featurization.

6 mins

26.13

ML Models :Loading Data

6 mins

26.14

ML Models: Random Model

7 mins

26.15

ML Models : Logistic Regression and Linear SVM

11 mins

26.16

ML Models : Linear SVM

30 mins

26.17

ML Models : XGBoost

6 mins

26.18

Assignments

4 mins

Statement:

Quora is a question-and-answer site where questions are asked, answered, edited and organized by its community of users. Over 100 million people visit Quora every month, so it's no surprise that many people ask similarly worded questions. Multiple questions with the same intent can cause seekers to spend more time finding the best answer to their question, and make writers feel they need to answer multiple versions of the same question. Quora has publicly released the data set to mitigate the inefficiencies of having duplicate question pages at scale. Which gives us our problem statement : An automated way of detecting if pairs of question text actually correspond to semantically equivalent queries.

Data type: CSV files

Train data: train.csv (id, qid1, qid2, question1, question2, is_duplicate) Test data : test.csv (id, qid1, qid2, question1, question2) Total number of records in train data: 404351

Data Size: 130MB

Key Points:

Validity of this course is 240 days( i.e Starts from the date of your registration to this course)
Expert Guidance, we will try to answer your queries in atmost 24hours
10+ machine learning algorithms will be taught in this course.
No prerequisites-- we will teach every thing from basics ( we just expect you to know basic programming)
Python for Data science is part of the course curriculum.

Target Audience:

We are building our course content and teaching methodology to cater to the needs to students at various levels of expertise and varying background skills. This course can be taken by anyone with a working knowledge of a modern programming language like C/C++/Java/Python. We expect the average student to spend at least 5 hours a week over a 6 month period amounting to a 145+ hours of effort. More the effort, better the results. Here is a list of customers who would benefit from our course:

1. Undergrad (BS/BTech/BE) students in engineering and science.
2. Grad(MS/MTech/ME/MCA) students in engineering and science.
3. Working professionals: Software engineers, Business analysts, Product managers, Program managers, Managers, Startup teams building ML products/services.